论文 - 《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》
代码 - Github
关键词 - reason推理能力、思维链COT、多模态大语言模型MLLMs、强化学习、新数据集、视频异常推理VAR、视频异常检测VAD

1 引言

基于多模态大语言模型 MLLMs 的 VAD 方法可以根据 MLLM 的作用分成两类
1. 将 MLLM 视为辅助模块，即分类器预测出异常置信度后，再由 MLLM 提供补充性解释。
2. 尝试利用 MLLM 直接进行异常检测与理解。
动机
- 现有 MLLMs + VAD 的工作可以分成两类：
  - （1）将 MLLM 视为辅助模块，即分类器预测出异常置信度后，再由 MLLM 提供补充性解释。
  - （2）尝试直接利用 MLLM 进行异常检测与理解。
- 局限：第一类，异常理解是在检测之后的一个步骤， MLLM 的输出并不直接促进异常检测过程。第二类MLLM 往往只是根据视频内容生成异常描述或进行简单的问答任务，缺乏真正的思考与分析能力。因此，在 VAD 领域中，推理能力仍未被充分探索。
针对上述动机，作者提出了一个新任务 --- 视频异常推理 VAR
- 目标：赋予 MLLM 对视频中异常事件进行结构化、逐步推理的能力。
- 与 VAD 和 VAU（Understand）任务的不同之处：VAR 更注重深度分析，通过模拟人类的认知过程，实现上下文理解、行为解读以及规范违反分析。
VAR 的两大挑战：
- （1）现有的 VAD 数据集缺乏结构化的推理标注，难以用于训练和评估具有推理能力的模型。
- （2）如何有效地训练模型以获得推理能力仍然是一个开放性难题。与具有明确目标的任务不同，开放式 VAR 要求模型进行多步骤推理，难以定义清晰的训练目标或直接引导推理过程。
Vad-R1 框架
- 一种基于MLLM的端到端VAR框架，如图1所示。
- 图1(a)展示了一种感知到认知的思维链（P2C-CoT），模拟人类识别异常的过程，引导MLLM逐步推理异常情况。
  - P2C-CoT首先引导模型从视频的整体环境逐步聚焦到可疑片段。
  - 完成感知阶段后，模型将基于视觉线索从浅层到深层进行认知分析。
  - 最终，模型输出分析结果作为回答，包括：异常类别、异常描述、异常发生的时间范围、异常的大致空间位置等。
- 图1(b)展示了作者构建了一个专门用于VAR任务的数据集——Vad-Reasoning。该数据集包含细粒度的异常类别，由两个互补的子集组成：
  - 一个子集包含带有P2C-CoT标注的视频，这些标注由闭源模型逐步生成；
  - 另一个子集包含大量视频，由于标注成本高昂，仅提供视频级别的弱标签。
- 图1(c)展示了受Deepseek-R1的启发，提出的两阶段的训练流程：
  - 阶段一：监督微调，使用高质量的 CoT 标注视频进行监督微调，使基础MLLM具备基本的异常推理能力。
  - 阶段二：强化学习，通过提出的 异常验证增强组相对策略优化算法（Anomaly Verification Augmented Group Relative Policy Optimization, AVA-GRPO） 进一步提升推理能力。
- 图1(d)展示了性能。

2 相关工作

这里只记录本人感兴趣的一些相关工作

标记压缩机制，以获取更长的上下文表示 [29, 71, 86, 23]。
在线视频流的理解 [6, 10, 74, 69]。

3 方法：Vad-R1

3.1 感知到认知的思维链

P2C-CoT 受人类的思维方式启发。如图2所示，P2C-CoT 从“感知”到“认知”共分为两个阶段、四个步骤，最终以简洁的答案总结推理过程。

感知（Perception）

P2C-CoT 的感知阶段体现了从全局观察到局部聚焦的过程：

Step 1 全局感知：模型关注整个环境，描述场景并识别视频中的物体。这一步要求模型具备对视频中“正常性”的全面理解。
Step 2 局部感知：在理解正常性的基础上，模型聚焦于偏离常规的事件，识别发生了什么（What）、发生的时间（When）与位置（Where）。

认知（Cognition）

接着，P2C-CoT 的认知阶段体现了从浅层认知到深层认知的过程：

Step 3 浅层认知：模型评估事件的异常性，并结合相关视觉信号解释为何该事件被视为异常。
Step 4 深层认知：模型进入更高层次的认知阶段，推理异常事件的潜在原因、违反的社会期望以及可能带来的影响。

回答（Answer）

如图2(b)所示，在完成推理过程后，模型应提供一个简明的回答，总结其对给定视频的判断。最终答案包含以下几个关键点：

异常类别（Which）
事件描述（What）
时空定位（When & Where）
原因（Why）
影响（How）

注意，回答（Answer）只有异常视频才有这一步。

3.2 数据集：Vad-Reasoning

数据集来源：UCF-Crime、XD-Violence、TAD、ShanghaiTech、UBnormal、ECVA。
异常类别的覆盖范围：包括三种异常分类体系，即人类活动异常、环境异常、物体异常，并继续划分为多个主类别和子类别。
数量级
- 训练集：8203个视频。测试集：438个视频。
- SFT阶段使用了1755个视频，具有高质量的推理过程标注（即P2C-CoT）。
- RL阶段使用了6448个视频，仅有视频级别的弱标签。
多阶段标注流程
- 首先，提示 Qwen-VL-Max 对视频帧进行密集描述，生成每一帧的内容理解；
- 然后，将这些帧级描述输入 Qwen-Max，在不同 prompt 引导下逐步生成结构化的 CoT 内容。
- 更多细节请参见论文的附录B。

3.3 AVA-GRPO

动机：原始的 GRPO 适用于文本，而在 VAR 这种多模态任务中，由于标注成本高昂，在 RL 阶段只有视频级别的弱标签可用，这使得仅依靠准确率和格式奖励来评估输出质量变得十分困难。

解决办法：AVA-GRPO（Anomaly Verification Augmented GRPO），通过引入一种自验证机制来生成额外的奖励信号，如图3右侧所示。

GRPO 概述

首先回顾原始的 GRPO。GRPO 放弃了价值模型，旨在最大化答案的相对优势。对于一个问题 q ，模型首先生成一组补全结果 O = \{o_i\}_{i=0}^G 。随后，基于预定义的奖励函数计算一组奖励 R = \{r_i\}_{i=0}^G 。然后，将这些奖励标准化以计算相对优势，公式如下：

A_i = \frac{r_i - \text{mean}(R)}{\text{std}(R)}, \tag{1}

其中， A_i 是 o_i 的优势分数，它能够更有效地评估单个答案的质量以及组内相对比较。此外，为了防止当前策略 \pi_\theta 过度偏离参考策略 \pi_{\text{ref}} ，GRPO 引入了一个 KL-散度正则化项。最终，GRPO 的目标函数可以表示为：

\mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{\{q, O\}} \left[ \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) \right. \right. \\ \left. \left. - \beta \, \mathbb{D}_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}}) \right) \right], \tag{2}

其中，比率 \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} 表示当前策略与旧策略之间的相对变化，而 \text{clip}() 操作将该比率约束在一个范围内。

异常验证奖励

AVA-GRPO 步骤概要：

对每个生成结果 o_i ，提取视频的预测类别；
根据预测结果对视频进行时间裁剪；
将裁剪后的视频重新输入模型，生成新答案；
比较原始答案与新答案，分配异常验证奖励。

两种情况：

原视频预测为异常：
- 裁剪掉检测出的异常时间段，只保留正常片段；
- 若裁剪后模型预测为正常，说明原预测正确+正向奖励。
原视频预测为正常：
- 随机裁剪视频开头或结尾（模拟“时间欺骗”现象）；
- 若裁剪后模型预测为异常，说明原预测不可靠+负向奖励。

3.4 训练流程

Vad-R1 的训练分为两个阶段：

第一阶段：在 Vad-Reasoning-SFT 数据集上监督微调，模型的能力逐步从通用的多模态理解转向对视频异常的理解，并具备基本的异常推理能力。
第二阶段：在 Vad-Reasoning-RL 数据集上继续训练，使用 AVA-GRPO 强化学习算法。此阶段的目标是让模型摆脱在SFT阶段可能形成的“模式匹配”倾向，使其具备更灵活、更具泛化能力的异常推理能力。

4 实验

4.1 实验设置

所有实验均在 4 块 NVIDIA A100（80GB）GPU 上完成。
Vad-R1 基于 Qwen-2.5-VL-7B。
数据集：Vad-Reasoning 测试集和VANE [15]。
评估指标
- 异常推理能力：BLEU [43]、METEOR [3] 和 ROUGE [31] 等文本生成指标
- 异常检测能力：对异常分类任务，报告Accuracy、Precision、Recall和 F1 分数；对异常时间定位任务，报告 mIoU 和 R@K 指标。
基线模型
- 通用视频 MLLM [25, 30, 39, 83, 87]
- 具备推理能力的视频 MLLM [28, 64, 14, 88]
- 闭源模型 [56, 40, 52, 51]
- 基于 MLLM 的 VAD 方法 [50, 85, 84]

4.2 实验结果

推理能力是否有助于提升异常检测？
- 表1展示了异常推理的有效性。
- 与直接输出答案相比，通过提示模型按照 P2C-CoT 进行推理，性能有明显提升。

Vad-R1 在异常推理与检测方面的表现如何？
- 表2展示了在 Vad-Reasoning 测试集上，Vad-R1 的表现。
- 表3展示了在 VANE 基准上的实验结果。

模型是如何获得推理能力的？
- 表4展示了不同训练策略的有效性。
- SFT 阶段为模型提供了基础的推理能力，RL 阶段则在此基础上进一步增强了推理表现。

论文笔记《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》