论文-《Cloud-Device Collaborative Learning for Multimodal Large Language Models》
关键词：云端-设备协作、多模态、大模型、CVPR2024

摘要

问题背景：多模态大语言模型（MLLMs）在图像描述生成、常识推理和视觉场景理解等多样化任务中展现出卓越性能，然而因参数量庞大，在客户端设备部署时面临严峻挑战，且直接对模型压缩会导致泛化能力显著下降。
解决办法
- 作者提出一种云-设备协作持续适应框架，旨在通过利用云端大规模MLLMs的强大能力，提升压缩后设备端部署模型的性能。
- 该框架包含三个核心组件：
  - 设备到云的高效数据传输上行链路：采用 基于不确定性的令牌采样（UTS） 策略，有效过滤分布外令牌，从而降低传输成本并提升训练效率。
  - 云端知识适配机制：基于适配器的知识蒸馏（AKD）方法，将大规模模型的精炼知识迁移至压缩后的轻量级设备端模型。
  - 云到设备模型部署下行链路：设计 动态权重更新压缩（DWC） 策略用于下行链路传输，通过自适应选择和量化更新的权重参数，既提升传输效率，又缩小云端与设备端模型的表征差异。
实验效果：在多个多模态基准测试中的大量实验表明，本框架显著优于现有的知识蒸馏和云-设备协作方法，并且在实际场景实验验证了该方法的可行性

1 介绍

MLLMs 模型压缩
- 优点：压缩后的模型在测试数据分布与训练数据分布高度一致时表现优异。
- 缺点：在真实场景中，非静态环境和数据分布偏移现象普遍存在，这使得轻量化模型面临显著性能衰减问题。
- 主要挑战：
  - (1) 边缘设备的有限算力阻碍了模型的实时更新能力，导致在遭遇分布偏移时性能下降。
  - (2) 压缩模型因容量有限，在持续变化的环境中难以充分适应，导致泛化能力不足。

本文方法 -> 云-设备协作持续适应框架（CD-CCA）
- 如图1所示
- 核心思想：通过云端大规模MLLMs增强设备端压缩模型的泛化能力，实现“在保持设备端模型高效性的同时提升其动态环境适应性”的双重目标。
- 提出了全新的学习范式——云-设备协作持续适应，该范式包含三大核心组件：设备到云的上行链路、云端知识更新机制，以及云到设备的下行链路。

组件一：设备到云的上行链路
- 使用一种名为 基于不确定性的令牌采样（UTS）策略 的 由粗到细令牌过滤方法 ，以最小化上行传输成本。
- 其核心流程分为两步：
  - 样本级过滤 ：利用样本级不确定性识别并过滤目标分布数据中的极端案例。
  - 令牌级过滤 ：通过令牌级不确定性进行二次过滤，分离出分布外（out-of-distribution）令牌。
- 优点：该方法有效缓解了网络传输带宽限制，同时提升了云端服务器的训练效率。
组件二：云端知识更新
- 提出了一种专为MLLM设计的 基于适配器的知识蒸馏（AKD）， 旨在将原始超大规模MLLM中的“暗知识”（dark knowledge）迁移至压缩后的轻量级MLLM中。
- 该方法聚焦于以下两点：
  - 跨模态对齐能力增强 ：针对跨模态变压器中的 可学习查询适配器 （learnable query adapter）进行知识蒸馏，提升轻量级MLLM的视觉-文本对齐能力。
  - 语言推理能力优化 ：进一步对 可学习语言适配器 （learnable language adapters）进行知识蒸馏（适配器被插入LLM中），以增强学生模型（student MLLM）的语言交互与推理能力。
组件三：云到设备的下行链路
- 针对设备端MLLM的动态更新权重参数，采用了一种自适应量化与压缩技术 。这些压缩后的权重参数通过下行链路传输至设备端，显著缩小了设备端与云端MLLM在表征能力上的差距。

2 方法

2.1 CD-CCA 框架概览

CD-CCA框架如图2所示
- 该框架可以简洁的概括为以下优化过程：
  
  M' = C( K( U(D,M_{edge}), M^{teacher}_{cloud} ), M^{student}_{cloud} ) \tag{1}
- 其中 M′ 表示重新部署在边缘设备上的优化模型，D 表示多模态实例的数据集，U 描绘上行链路效率的 UTS，K 描述云端的 AKD，C 表示下行链路传输的动态权重更新压缩（DWC）。

流程
- 首先，该框架采用了一种名为 不确定性引导令牌采样（UTS） 的创新方法，可显著过滤多模态数据的输入流，仅筛选最关键令牌供云端进行优化。（节省带宽+减少上行链路延迟）
- 随后，框架在云端利用 适配器知识蒸馏（AKD） 技术，将庞大教师模型的丰富知识蒸馏并迁移至紧凑的学生模型。（增强学生模型的泛化能力）
- 最后，框架通过 动态权重更新压缩（DWC） 这一创新策略，在下行链路传输前对更新的模型参数进行动态量化与压缩。（缓解模型更新的延迟问题）

2.2 基于不确定性的令牌采样（UTS）

核心见解：设备在现实场景中面临数据分布的动态变化，需持续适应的MLLMs必须具备选择性处理能力。通过识别和优先传输对模型适应性最有价值的多模态实例，优化云端协作效率。
第一阶段：基于熵的不确定性评估
- 边缘设备上参数为 \theta 的 MLLM，处理一个多模态实例 (v_i, t_i) \in D ，其不确定性U计算方式如下：
  
  U (v_i, t_i; \theta) = − \sum_j p(y_{ij}|v_i, t_i; \theta) \ log p(y_{ij}|v_i, t_i; \theta) \tag{2}
- 公式2通过计算预测令牌概率的熵值，量化实例的不确定性。不确定性较高的实例将被标记为需进一步分析的候选。
第二阶段：方差信息采样（VIS）
- 对第一阶段的预选实例进行二次筛选。
- VIS 通过在编码后的多模态输入张量上应用蒙特卡洛Dropout，多次前向传播计算令牌表征的方差，识别出表征显著波动的令牌：
  
  \sigma^2(v_i, t_i; \Theta) = \frac{1}{M} \sum_{m=1}^{M} \left( F_m(v_i, t_i; \Theta) - \bar{F}(v_i, t_i; \Theta) \right)^2 \tag{3}
- 方差 \sigma_2 超过预定义阈值 \beta 的标记被保留，确保只考虑信息量最大的标记进行云处理，如方程 4 所示：
  
  \tau(\sigma^2(v_i, t_i; \Theta), \beta) = \begin{cases} 1, & \text{if } \sigma^2(v_i, t_i; \Theta) > \beta \\ 0, & \text{otherwise} \end{cases} \tag{4}
通过这一两阶段策略，UTS显著减少了上行链路传输的数据量，优化带宽使用并降低延迟。其中，VIS通过筛选对模型学习贡献最大的数据点，体现了CD-CCA框架中“精准高效学习”的核心思想。

2.3 基于适配器的知识蒸馏（AKD）

核心思想：通过利用云端的算力优势，提升设备端部署MLLMs的性能。在此过程中，高容量教师MLLM与结构相同的学生MLLM在云端共存，通过 适配器 （adapter）实现定向知识迁移。
在AKD阶段，我们专注于微调学生模型，使其封装教师模型展现的高层多模态理解能力。
- 具体而言，适配器被用于对 查询表示（query representations） 和 跨注意力输出（cross-attention outputs） 进行微调，这两者是处理和融合多模态信息的核心模块。这些适配器作为定向修正模块，将学生模型的潜在空间与教师模型的精细化特征空间对齐，从而 将教师模型的广泛知识压缩到学生模型的紧凑结构中 。
- 这些适配器 拦截（intercept）并转换查询向量及注意力机制驱动的多模态表征。

蒸馏效果通过复合损失函数量化，包含以下核心组件：

查询对齐损失（ L_{query} ）

最小化学生模型与教师模型查询表示的差异，确保学生生成的查询能有效封装多模态数据的复杂性。

设教师查询特征为 Q^{(t)} \in R^{B×L×C}，学生查询特征为 Q^{(s)} \in R^{B×L×C_s}，查询对齐模拟（Query Alignment imitation）可以通过以下方式实现：

L_{query} = \frac{1}{BLC} || Q^{(t)} - \phi(Q^{(c)}) ||^2_2 \tag{5}

其中，\phi 将学生特征 Q^{(s)} 投影至与教师特征 Q^{(t)} 相同的通道维度。

表征对齐损失（ L_{repr} ）

旨在同步学生和教师模型之间的注意力驱动的多模态表示，增强学生处理和整合多模态线索的能力。

作者这里没有给出表征对齐损失的计算公式

交叉熵损失（ L_{CE} ）

目标：利用教师模型对UTS筛选的高价值实例（如分布外数据）的输出作为伪标签，校准学生模型的参数更新。

利用教师模型在具有挑战性的多模态实例上的输出，作为伪标签。这些标签用于校准学生模型的参数更新，增强其解决多模态数据中固有复杂性的能力。

作者也没有给出交叉熵的公式，应该就是普通的交叉熵，利用学生模型和教师模型的输出标签做交叉熵。

总损失函数（ L_{total} ）

L_{total}=λ_{query}L_{query}+λ_{repr}L_{repr}+λ_{CE}L_{CE} \tag{6}

通过优化上述损失分量的加权和，AKD在模拟教师模型输出与保持学生模型固有特性之间实现了平衡协调。

2.4 动态权重更新压缩（DWC）

DWC的核心思想
- DWC基于以下前提：高效的模型更新不仅取决于传输数据量，更取决于被更新参数的重要性 。
- 因此，DWC设计了一种量化方案，针对性压缩AKD阶段优化的关键参数，在保证模型性能的前提下最大化传输效率。
量化压缩流程
- 云端DWC的量化操作：
  
  \theta_{compressed} = Quantize(\theta_{updated} - \theta_{base}, Q) \tag{7}
  - Q 是自适应量化函数
- 量化策略
  - 重要参数保真 ：对AKD阶段显著更新的参数（如跨模态适配器权重）采用低压缩比，保留高精度。
  - 非关键参数压缩 ：对变化较小的参数（如基础视觉编码器）采用高压缩比，减少传输负载。
- 设备端更新参数：
  
  \theta_{edge} = \theta_{base} + \theta_{compressed} \tag{8}
  - 设备端模型直接在量化参数空间中运行，无需反量化操作，既节省计算资源，又保留云端蒸馏的优化效果。

DWC 的优点
- 传输效率
- 动态适应性
- 资源友好性

2.5 协作学习策略

CD-CCA的核心在于其协作学习策略 ，这是一种协同方法，能够协调云端与设备端之间的模型优化过程，如算法1所示。优化过程围绕两个关键方面展开：
- 边缘设备执行UTS ：识别并转发具有挑战性的多模态实例至云端；
- 云端执行AKD和DWC ：分别通过知识蒸馏（AKD）优化参数，并通过动态权重压缩（DWC）减少更新体积。

3 实验

3.1 实验设置

数据集
- 为验证CD-CCA框架在语言领域偏移（domain-shifted）场景下的持续泛化能力，使用两组数据集。
- VQA任务 ：VQA-v2 → A-OKVQA（从标准问答到复杂开放问答）
- 图像描述任务 ：COCO Caption 2017 → Nocaps（从常见场景到新领域场景）
评估指标
- VQA Accuracy ：衡量视觉问答任务的准确性。
- BLeU-4 和 CIDEr ：评估图像描述生成任务的质量
- 上行链路和下行链路传输的参数量与数据大小。
- 云-设备传输延迟
实现细节
- 模型架构
  - 云端教师模型：LLaMA-Adapter + LLaMA2-13B
  - 设备端学生模型：LLaMA-Adapter + LLaMA2-7B （Q-former 隐藏层数从12层减少至6层）
- 预训练：教师和学生模型均在大规模图文对数据集上进行预训练，包括COYO、LAION、CC3M、CC12M、SBU。
- 微调：用GPT4提供的52K单轮指令数据和COCO Caption的567K标注数据进行微调。

3.2 对比分析

3.2.1 VQA 任务

对比方法
- Tent [4] ：通过最小化熵更新BatchNorm层的可训练参数以适应测试数据。
- CoTTA [5] ：利用权重平均和数据增强平均预测减少伪标签误差累积，并通过随机恢复（stochastically restore）缓解灾难性遗忘问题。
- PKD [42] ：基于皮尔逊相关系数进行特征模仿，放松对特征大小的约束，专注于教师模型的关系信息传递。
- ChannelWiseDivergence [43] ：归一化每个通道的激活图，生成软概率图，并最小化两个网络间的KL散度（Kullback-Leibler divergence）。
VQA-v2 → A-OKVQA
- 实验方法：使用VQA-v2微调预训练的模型，再再A-OKVQA上评估VQA准确性，包含多选题MC和直接回答DA。
- 实验结果表1和图3。
- 结果分析：CD-CCA框架在单轮场景下已超越所有对比模型，在MC和DA问题上均达到最高准确率。

3.2.2 图像描述任务

数据预处理：根据训练集和测试集图像类别的重叠程度，按照参考文献[13]的方法，将测试图像分为三类：
- In-domain（领域内） ：测试图像类别与训练集完全重叠。
- Near-domain（近领域） ：测试图像类别部分与训练集重叠。
- Out-domain（领域外） ：测试图像类别与训练集无重叠。
COCO -> nocaps
- 结果记录在表2中。
- CD-CCA框架在所有类别中均显著优于最佳对比方法，并且CD-CCA在Out-domain任务中的提升尤为突出，体现了其强大的泛化能力。

3.3 消融实验

表3
- 在 VQAv2-to-AOKVQA 上进行实验。PL 是指伪标签，UTS-1 和 UTS-2 分别代表 UTS 的两个阶段。
- 结果表明 UTS 的两个个阶段、AKD 都有助于提高模型的性能。

伪标签（PL） 是指使用教师模型生成的预测结果作为学生模型的训练标签。

表4
- 使用不同的token采样策略和不同的掩码比率报告 VQA 分数。
- 当掩码比率设置为 50% 时，模型的性能最佳。

表5
- 在真机中验证传输参数。报告了对真实机器人系统中双向传输参数大小（P）、传输数据量（D）和传输延迟（TL） 的定量分析。上行链路参数是使用 5 帧输入计算的。
- 与传输整个数据集相比，Uplink-UTS 传输数据量仅为 0.21%，传输延迟仅为 0.20%。
- Downdlink-DWC显著降低了传输到设备的模型的权重参数数量、数据数量和传输延迟，分别降低了 99.98%、99.99% 和 99.98%。（使用QLora作为量化函数）

4 结论

这种提出了 CD-CCA 来增强动态环境中的设备模型。开放世界场景中的实验结果表明，在领域偏移描述和 VQA 任务中，性能提高了 2.20% （CIDEr）和 3.93% （MC）、3.19% （DA）。此外，实际实验表明，CD-CCA 的系统延迟能够支持实际应用。

论文笔记《Cloud-Device Collaborative Learning for Multimodal Large Language Models》

摘要