论文 - 《LFTR: Learning-Free Token Reduction for Multimodal Large Language Models》
关键词 - 即插即用、高效压缩、多模态大模型MLLM、视频、Token剪枝、时间空间、相似性、视频问答、无需训练

1 引言

动机：多模态大语言模型 MLLMs 实际部署常常受到高计算成本和长推理时间的限制。然而，当前的模型压缩技术和token减少方法大多数依赖于对MLLM的微调或重新训练。
本文方法 - 无需学习Token减少 (LFTR)
- 一种即插即用的面向 Video-based MLLMs 的方法。
- 方法特点：模型无关性，可以无缝集成到广泛的现有架构中，无需额外训练。
- 方法概述：该方法从时间和空间两个维度出发，针对视觉token中存在的冗余性进行处理。
  - 在时间维度上，所提出的方法计算相邻时间帧之间每个图像 patch token的相似性或差异性，并对重要性较低的 token 进行合并。
  - 在空间维度上，提出了两种不同的策略：(1) 评估每个空间图像块与当前帧语义内容的相关性；(2) 评估每个token与输入文本提示之间的相关性，从而选择与文本最相关的空间图像块token。
大量实验表明，所提方法可实现高达16倍的token减少量，在显著加速MLLM推理的同时，保持甚至提升模型的推理性能。

为什么是 MLLMs ？

注意力机制的计算复杂度与输入序列token数呈二次关系，而视觉图像的token数相对文本token数要大很多，因此 MLLM 往往面临更加严重的计算成本和长推理时间的限制。

有什么好处？

通过减少 token，不仅有望提升推理效率，而且通过移除无关或冗余的视觉内容，有可能增强模型对视觉输入的理解和推理能力。

2 相关工作

2.1 MLLMs

LLMs 和 MLLMs 工作：GPT-4、CLIP、Flamingo、LLaVA、MiniGPT-4 等等。
这些模型在处理高分辨率输入时通常依赖大量的视觉 token，导致训练和推理阶段的计算开销显著增加。为缓解这一问题的相关策略，包括低比特量化 [15] 和架构压缩 [13]。例如：
- TinyLLaVA [51] 探索了轻量级架构与优化训练范式，在性能上接近更大的模型。
- MoELLaVA [23] 利用专家混合框架（MoE）来提升稀疏性和效率。

2.2 面向 LLMs 的 Token 减少方法

Token 减少已成为提升基于 Transformer 架构计算效率的重要技术，尤其是在视觉和多模态任务中。
相关工作
- 早期的方法
  - 主要集中在 token 剪枝 [22, 34, 44] 和 token 合并 [6, 32]。
- 近年来的方法
  - DiffRate [10] 和 PPT [41]，则在统一框架下结合剪枝与合并策略，在推理过程中自适应地减少 token 冗余性。
- 最新的方法
  - CrossGET [36] 和 MADTP [7] 利用对齐 token 来保留信息量较大的视觉表示。
  - LLaVA-PruMerge [35] 利用空间冗余性，通过衡量类别 token 和 patch token 之间的相似性，使用聚类方法识别可压缩区域。
  - Qwen-VL [40] 使用采样器将视觉 token 序列下采样到固定长度。
  - FastV [9] 在解码器层中采用“提前丢弃”策略，以去除无信息量的 token，提供了一种轻量但有效的替代方案。
局限：许多方法需要进行架构修改、专门的融合策略或微调，这可能限制其在通用场景或无需训练的环境中的适用性。

3 方法

本文提出的一种针对视觉模态的时间和空间维度的token压缩方法，整体架构如图1所示。即插即用、无缝集成、无需重新训练。

3.1 时间维度 Token 减少

Differential-Based Significance Weights

动机：对于视频，相邻帧之间通常存在显著的冗余性，因为静态物体和背景在时间上保持一致。

思路：计算相邻帧之间的差异，以评估每个空间 patch token 在时间序列中的重要性，并合并重要性较低的token。

具体做法：

如图3所示，不同时间帧 i 中同一空间位置 p 的token表示为 Z_{V_{i,p}} （其中 i = 1, \dots, N_t ， N_t 表示采样的视频帧数量）。通过计算相邻帧之间的差异来量化其重要性：

\Delta Z_{V_{i,p}} = \sum_d |Z_{V_{i,p}} - Z_{V_{i-1,p}}| \tag{4}

其中， d 是嵌入维度。通过设置一个token减少率 r_m ，并选择重要性较低的token，将这些不重要的token与其前一时间步对应的token合并，从而在保留关键信息的同时减少token数量。

Similarity-Based Significance Weights

思路：计算相邻时间帧中空间 patch token 之间的相似性，以评估其重要性，并基于此进行token合并。

类似地，重要性权重可以通过以下方式计算：

sim Z_{V_{i,p}} = <\hat{Z}_{V_{i,p}}, \hat{Z}_{V_{i-1,p}}> \tag{5}

其中，\hat{Z}_{V_{i,p}} = \frac{Z_{V_{i,p}}}{\|Z_{V_{i,p}}\|} 是归一化的token。token合并策略与之前的方法保持一致。

通过这种方法，在空间维度上的并行合并操作提高了执行效率。结果是，视觉输入的时间帧总数从 N_t 减少到 (1 - r_m) \times N_t ，遵循时间维度的减少过程。这种方法能够在最小化信息损失的情况下实现高token减少率，从而生成更简洁的视觉表示，促进语言模型的高效推理和推理能力。

3.2 空间维度 Token 减少

Topic-based Significance Weights

动机：在输入的每一帧视频中，只有部分空间图像块包含关键的或与主题相关的信息。通常，只需关注图像中的这些关键区域，就能实现对内容的有效理解。

基本思路：利用视觉编码器（例如 CLIP-ViT）中的 [CLS] token 来识别每帧中包含主题相关信息的区域，并据此剪枝不相关的空间图像块。

如图4所示，通过计算每个token与 [CLS] token 的余弦相似性来计算其相关权重：

sim Z_{V_{i,p}} = <\hat{Z}_{V_{i,[CLS]}}, \hat{Z}_{V_{i,p}}> \tag{6}

给定一个空间token减少率 r_p ，我们选择相关性最低的 r_p \times N_s 个空间token，并丢弃这些不相关的token。使用这种方法，每帧将保留 (1 - r_p) \times N_s 个token。这种减少过程也是并行进行的。

Text-based Significance Weights

动机：对于涉及文本提示的视觉任务，每个空间patch与文本提示的相关性可以作为空间token减少的重要指标。

如图2所示，对于投影后的视觉token Z_V 和嵌入的文本提示 Z_T，可以通过将视觉token与文本提示相乘来计算相关权重：

M = \sum_{L_P} Z_T Z_V^T \tag{7}

其中，L_P 是输入文本提示的token长度。基于相关权重，选择与文本提示相关性更强的视觉token。

\Omega = \{\text{argtop}_k(M)\} \tag{8}

Z_{V_t}^* = \{Z_{V_{t,p}} | p \in \Omega\} \tag{9}

其中， \text{top}_k = r_p \times N_s 由给定的空间token减少率决定，每帧保留 (1 - r_p) \times N_s 个token。

注意，空间和时间维度的token减少策略都是正交的，可以联合应用。

4 实验

4.1 在 Video-LLM 上的零样本评估

表1
- 作者将 LFTR 应用于 Video-LLaVA 和 MiniGPT4-Video，并且没有进行任何训练和微调，达到了 8× 和 16× 的 token 减少率。
- 在四个主流视频问答基准上进行零样本推理能力评估。

4.2 效率分析

表2
- 采用了基于 roofline 模型的 LLM Viewer 框架，对 LFTR 对 LLM 处理效率的理论影响进行了分析。
- 理论场景设计：使用 CLIP-ViT、224 × 224 的图像、从视频输入中采样 8 帧、生成总共 2056 个视觉 token、文本提示假设包含 50 个 token、FP16 和 INT4 量化、启用了 Flash Attention。
- 理论计算开销如下表。

表3
- 分析了 LFTR token 减少过程引入的运行时开销，比较了在时间和空间维度上四种不同的 token 减少策略。

表4
- 在相同的实验设置下报告了 13,000 个 Video-QA 样本的平均推理时间。评估了不同 token 减少比例及其对推理时间的影响。

4.3 消融

图5
- 验证本文提出的时间维度和空间维度 token 减少策略在单独应用时、并在不同 token 减少率下的性能表现。
- 在 MSVD-VQA 数据集上进行了实验，通过 ChatGPT-3.5-turbo 进行评估准确率。

论文笔记《LFTR: Learning-Free Token Reduction for Multimodal Large Language Models》