论文笔记《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》

论文笔记《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》

Administrator 5 2025-06-27
  • 论文 - 《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》
  • 代码 - Github
  • 关键词 - reason推理能力、思维链COT、多模态大语言模型MLLMs、强化学习、新数据集、视频异常推理VAR、视频异常检测VAD

1 引言

  • 基于多模态大语言模型 MLLMs 的 VAD 方法可以根据 MLLM 的作用分成两类

    1. 将 MLLM 视为辅助模块,即分类器预测出异常置信度后,再由 MLLM 提供补充性解释。
    2. 尝试利用 MLLM 直接进行异常检测与理解
  • 动机

    • 现有 MLLMs + VAD 的工作可以分成两类:
      • (1)将 MLLM 视为辅助模块,即分类器预测出异常置信度后,再由 MLLM 提供补充性解释。
      • (2)尝试直接利用 MLLM 进行异常检测与理解
    • 局限:第一类,异常理解是在检测之后的一个步骤, MLLM 的输出并不直接促进异常检测过程。第二类MLLM 往往只是根据视频内容生成异常描述或进行简单的问答任务,缺乏真正的思考与分析能力。因此,在 VAD 领域中,推理能力仍未被充分探索
  • 针对上述动机,作者提出了一个新任务 --- 视频异常推理 VAR

    • 目标:赋予 MLLM 对视频中异常事件进行结构化、逐步推理的能力。
    • 与 VAD 和 VAU(Understand) 任务的不同之处:VAR 更注重深度分析,通过模拟人类的认知过程,实现上下文理解、行为解读以及规范违反分析。
  • VAR 的两大挑战:

    • (1)现有的 VAD 数据集缺乏结构化的推理标注,难以用于训练和评估具有推理能力的模型。
    • (2)如何有效地训练模型以获得推理能力仍然是一个开放性难题。与具有明确目标的任务不同,开放式 VAR 要求模型进行多步骤推理,难以定义清晰的训练目标或直接引导推理过程。
  • Vad-R1 框架

    • 一种基于MLLM的端到端VAR框架,如图1所示。

    • 图1(a)展示了一种感知到认知的思维链(P2C-CoT),模拟人类识别异常的过程,引导MLLM逐步推理异常情况。

      • P2C-CoT首先引导模型从视频的整体环境逐步聚焦到可疑片段。
      • 完成感知阶段后,模型将基于视觉线索从浅层到深层进行认知分析。
      • 最终,模型输出分析结果作为回答,包括:异常类别、异常描述、异常发生的时间范围、异常的大致空间位置等。
    • 图1(b)展示了作者构建了一个专门用于VAR任务的数据集——Vad-Reasoning。该数据集包含细粒度的异常类别,由两个互补的子集组成:

      • 一个子集包含带有P2C-CoT标注的视频,这些标注由闭源模型逐步生成;
      • 另一个子集包含大量视频,由于标注成本高昂,仅提供视频级别的弱标签。
    • 图1(c)展示了受Deepseek-R1的启发,提出的两阶段的训练流程

      • 阶段一:监督微调,使用高质量的 CoT 标注视频进行监督微调,使基础MLLM具备基本的异常推理能力。
      • 阶段二:强化学习,通过提出的 异常验证增强组相对策略优化算法(Anomaly Verification Augmented Group Relative Policy Optimization, AVA-GRPO) 进一步提升推理能力。
    • 图1(d)展示了性能。

paper92-1.webp

2 相关工作

这里只记录本人感兴趣的一些相关工作

  • 标记压缩机制,以获取更长的上下文表示 [29, 71, 86, 23]。
  • 在线视频流的理解 [6, 10, 74, 69]。

3 方法:Vad-R1

3.1 感知到认知的思维链

P2C-CoT 受人类的思维方式启发。如图2所示,P2C-CoT 从“感知”到“认知”共分为两个阶段、四个步骤,最终以简洁的答案总结推理过程。

paper92-2.webp

感知(Perception)

P2C-CoT 的感知阶段体现了从全局观察局部聚焦的过程:

  • Step 1 全局感知:模型关注整个环境,描述场景并识别视频中的物体。这一步要求模型具备对视频中“正常性”的全面理解。
  • Step 2 局部感知:在理解正常性的基础上,模型聚焦于偏离常规的事件,识别发生了什么(What)、发生的时间(When)与位置(Where)。

认知(Cognition)

接着,P2C-CoT 的认知阶段体现了从浅层认知深层认知的过程:

  • Step 3 浅层认知:模型评估事件的异常性,并结合相关视觉信号解释为何该事件被视为异常。
  • Step 4 深层认知:模型进入更高层次的认知阶段,推理异常事件的潜在原因、违反的社会期望以及可能带来的影响。

回答(Answer)

如图2(b)所示,在完成推理过程后,模型应提供一个简明的回答,总结其对给定视频的判断。最终答案包含以下几个关键点:

  • 异常类别(Which)
  • 事件描述(What)
  • 时空定位(When & Where)
  • 原因(Why)
  • 影响(How)

注意,回答(Answer)只有异常视频才有这一步。


3.2 数据集:Vad-Reasoning

  • 数据集来源:UCF-Crime、XD-Violence、TAD、ShanghaiTech、UBnormal、ECVA。

  • 异常类别的覆盖范围:包括三种异常分类体系,即人类活动异常、环境异常、物体异常,并继续划分为多个主类别和子类别。

  • 数量级

    • 训练集:8203个视频。测试集:438个视频。
    • SFT阶段使用了1755个视频,具有高质量的推理过程标注(即P2C-CoT)。
    • RL阶段使用了6448个视频,仅有视频级别的弱标签。
  • 多阶段标注流程

    • 首先,提示 Qwen-VL-Max 对视频帧进行密集描述,生成每一帧的内容理解;
    • 然后,将这些帧级描述输入 Qwen-Max,在不同 prompt 引导下逐步生成结构化的 CoT 内容。
    • 更多细节请参见论文的附录B。

3.3 AVA-GRPO

动机:原始的 GRPO 适用于文本,而在 VAR 这种多模态任务中,由于标注成本高昂,在 RL 阶段只有视频级别的弱标签可用,这使得仅依靠准确率和格式奖励来评估输出质量变得十分困难。

解决办法:AVA-GRPO(Anomaly Verification Augmented GRPO),通过引入一种自验证机制来生成额外的奖励信号,如图3右侧所示。

paper92-3.webp

GRPO 概述

首先回顾原始的 GRPO。GRPO 放弃了价值模型,旨在最大化答案的相对优势。对于一个问题 ​ q ,模型首先生成一组补全结果 ​ O = \{o_i\}_{i=0}^G 。随后,基于预定义的奖励函数计算一组奖励 ​ R = \{r_i\}_{i=0}^G 。然后,将这些奖励标准化以计算相对优势,公式如下:

A_i = \frac{r_i - \text{mean}(R)}{\text{std}(R)}, \tag{1}

其中,​ A_i ​ o_i 的优势分数,它能够更有效地评估单个答案的质量以及组内相对比较。此外,为了防止当前策略 ​ \pi_\theta 过度偏离参考策略 ​ \pi_{\text{ref}} ,GRPO 引入了一个 KL-散度正则化项。最终,GRPO 的目标函数可以表示为:

\mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{\{q, O\}} \left[ \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) \right. \right. \\ \left. \left. - \beta \, \mathbb{D}_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}}) \right) \right], \tag{2}

其中,比率 ​ \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} 表示当前策略与旧策略之间的相对变化,而 ​\text{clip}() 操作将该比率约束在一个范围内。


异常验证奖励

AVA-GRPO 步骤概要

  1. 对每个生成结果 ​ o_i ,提取视频的预测类别;
  2. 根据预测结果对视频进行时间裁剪
  3. 将裁剪后的视频重新输入模型,生成新答案;
  4. 比较原始答案与新答案,分配异常验证奖励

两种情况

  • 原视频预测为异常

    • 裁剪掉检测出的异常时间段,只保留正常片段;
    • 若裁剪后模型预测为正常,说明原预测正确+正向奖励。
  • 原视频预测为正常

    • 随机裁剪视频开头或结尾(模拟“时间欺骗”现象);
    • 若裁剪后模型预测为异常,说明原预测不可靠+负向奖励。

3.4 训练流程

Vad-R1 的训练分为两个阶段:

  • 第一阶段:在 Vad-Reasoning-SFT 数据集上监督微调,模型的能力逐步从通用的多模态理解转向对视频异常的理解,并具备基本的异常推理能力。
  • 第二阶段:在 Vad-Reasoning-RL 数据集上继续训练,使用 AVA-GRPO 强化学习算法。此阶段的目标是让模型摆脱在SFT阶段可能形成的“模式匹配”倾向,使其具备更灵活、更具泛化能力的异常推理能力。

4 实验

4.1 实验设置

  • 所有实验均在 4 块 NVIDIA A100(80GB)GPU 上完成。

  • Vad-R1 基于 Qwen-2.5-VL-7B

  • 数据集:Vad-Reasoning 测试集和VANE [15]。

  • 评估指标

    • 异常推理能力:BLEU [43]、METEOR [3] 和 ROUGE [31] 等文本生成指标
    • 异常检测能力:对异常分类任务,报告Accuracy、Precision、Recall和 F1 分数;对异常时间定位任务,报告 mIoU 和 R@K 指标。
  • 基线模型

    • 通用视频 MLLM [25, 30, 39, 83, 87]
    • 具备推理能力的视频 MLLM [28, 64, 14, 88]
    • 闭源模型 [56, 40, 52, 51]
    • 基于 MLLM 的 VAD 方法 [50, 85, 84]

4.2 实验结果

  • 推理能力是否有助于提升异常检测?
    • 表1展示了异常推理的有效性。
    • 与直接输出答案相比,通过提示模型按照 P2C-CoT 进行推理,性能有明显提升。
paper92-4.webp

  • Vad-R1 在异常推理与检测方面的表现如何?
    • 表2展示了在 Vad-Reasoning 测试集上,Vad-R1 的表现。
    • 表3展示了在 VANE 基准上的实验结果。
paper92-5.webppaper92-6.webp

  • 模型是如何获得推理能力的?

    • 表4展示了不同训练策略的有效性。
    • SFT 阶段为模型提供了基础的推理能力,RL 阶段则在此基础上进一步增强了推理表现 。
paper92-7.webp