论文-《Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities》
代码-Github

摘要

研究问题
- 视觉-语言（VL）模型的进展引发了对其在边缘设备上部署的兴趣，但在处理多样化视觉模态、人工标注和计算资源限制方面仍存在挑战。
本文工作
- 提出了 EdgeVL ，一种新颖的框架，通过无缝集成双模态知识蒸馏和量化感知对比学习来弥合这一差距。
- 该方法能够使大型VL模型（如CLIP）适应于资源受限设备上的高效使用，同时支持RGB和非RGB图像，且无需人工标注。
- EdgeVL 不仅将视觉-语言对齐能力迁移到紧凑模型中，还在量化后保持了特征质量，显著提升了各种视觉模态下的开放词汇分类性能。
实验性能
- 该工作是首次系统性尝试将大型VL模型适配到边缘设备部署，展示了在多个数据集上高达15.4%的准确率提升，以及模型大小最多减少93倍的效果。

1 介绍

VL模型在边缘设备上的部署面临三大显著挑战：(i) 对多样化视觉模态的泛化能力，(ii) 野外环境中标签稀缺问题，以及 (iii) 设备资源限制。

首先，边缘设备通常配备多种传感器，而不仅仅是标准的RGB摄像头，例如深度传感器和红外摄像头。然而，大多数大型VL模型的视觉编码器主要针对RGB图像设计，其对深度图像或红外图像等替代输入的适应性尚未得到充分探索。
其次，虽然边缘设备可以生成大量图像，但这些图像往往缺乏标注，在野外环境中人工标注数据的缺失成为一大障碍。这种标签的缺失使得无法直接利用标注数据集对模型进行微调。
最后，即使实现了跨不同视觉模态的知识迁移，视觉编码器（例如CLIP [40] 使用的ViT [10]）的巨大计算需求也使其在边缘设备上难以实用。边缘设备通常受到内存和TOPS（每秒万亿次操作）性能的严格限制。

目标：需要一种新颖的框架，能够在不依赖人工标注的情况下，将大型模型的VL嵌入能力适配到非RGB图像，同时尽量减少其计算开销以适应边缘设备的能力。
现有工作的不足：现有文献往往孤立地解决这些问题，要么关注跨模态知识迁移，要么关注模型压缩（例如量化、剪枝和蒸馏）。然而，这两个领域之间的相互作用和潜在协同效应仍未得到充分探索，更不用说标签稀缺性的影响了。根据实验结果所示（见表10），简单粗暴地整合这两个模块会导致大型VL模型性能的显著下降。

本文工作介绍
- 提出了 EdgeVL ，一个简化的两阶段适配框架，能够无缝集成知识迁移与模型压缩。
  - （stage-1 知识蒸馏）：首先，EdgeVL 利用双模态知识蒸馏过程，借助预训练的视觉编码器作为教师模型，将知识提炼到一个更紧凑的学生模型中。该学生模型设计为能够处理RGB和非RGB图像，确保视觉特征与传统大型VL模型中的文本表示保持对齐。这一初始阶段通过架构优化显著提升了模型效率。
  - （stage-2 量化感知训练QAT） ：随后，为进一步提升效率以及提取特征在边缘部署中的有效性，该框架采用了一种增强的量化感知训练，并结合了一种新颖的对比学习损失函数。
- 这一复杂方法最终生成了一个低比特率的视觉编码器模型，专为边缘设备优化，并在RGB和非RGB图像的开放词汇分类任务中表现出卓越性能。
- 概念框架图如下。

2 相关工作

2.1 开放词汇分类

在开放词汇目标检测任务中，分类头被替换为特征投影头，其输出与所有候选类别的文本嵌入进行比较，以获得最终预测结果。
相关工作
- 在开放词汇语义分割中，FreeSeg [39] 在文本查询中引入了任务特定的提示，并训练一个编码器以对齐CLIP的文本嵌入。
- OpenScene [38] 训练了一个3D模型，学习模仿CLIP图像编码器像素嵌入的点云嵌入。
不足
- 尽管这些开放词汇分类方法取得了令人鼓舞的结果，但它们主要集中于RGB图像模态。在本研究中，目标是解决超越RGB图像的多种模态下的开放词汇场景分类问题。

2.2 跨模态知识蒸馏

知识蒸馏通过多种策略促进模型之间的知识迁移，例如响应蒸馏、特征蒸馏和关系蒸馏。
相关工作
- [23] 和 [17] 等方法通过在不同模态的模型之间共享权重来实现知识迁移。
- [46] 采用了一种策略，鼓励多个学生模型将其预测与教师模型对齐，从而增强跨模态动作识别性能。
- CMKD提出了一种结合特征蒸馏和响应蒸馏的方法，将LiDAR模态的知识传播到RGB模态。
- 最近，CLIP也被用于探索从2D图像向3D场景的知识迁移。
不足
- 这些方法通常针对标注数据集设计，而该工作独特地解决了使用未标注的RGB和非RGB图像对进行知识蒸馏的挑战。

2.3 模型量化

量化主要分成两类
- 训练后量化PTQ
  - PTQ方法在训练完成后对模型的权重和激活值进行量化，而无需重新训练模型。
  - LLM.int8 [8] 专注于识别权重异常值，并对正常值和异常值应用不同的量化方法
  - SmoothQuant [50] 则通过调整权重和激活值的尺度，以保持对异常值和正常值的量化精度。
  - 当无法获取训练数据或验证数据时，ZeroQ [2] 使用批归一化层的统计信息合成输入数据，以评估各层的敏感性。
- 量化感知训练QAT
  - QAT通过在训练过程中插入伪量化节点，使模型能够适应量化误差并学习更鲁棒的表示。

3 方法

3.1 开放词汇分类的初步研究

尽管CLIP在RGB图像上表现出色，其视觉编码器在非RGB图像（如深度图像和红外图像）的零样本分类任务中表现较差。性能数据显示，RGB图像与非RGB图像（例如深度图像和红外图像）之间存在显著的准确率差异。例如，在ScanNet数据集中，深度图像的准确率相较于RGB图像下降了约8倍。

3.2 问题定义

将开放词汇分类器适配到配备不同图像传感器的边缘设备上。
设适配的训练集为 D_{train} = \{ (x_i,x_i')\}^N_{i=1} ，其中 x_i 表示第 i 个RGB图像，x_i' 是其对应的非RGB图像（例如深度或红外图像）
假设可以从预训练的大型视觉-语言（VL）模型中获取一个RGB图像编码器 \Phi_{img} 。EdgeVL 的适配目标是推出一个与模态无关且高效的图像编码器 \Phi_{img}^{edge}，使得以下视觉特征尽可能接近：

\Phi_{img}(x_i) ≈ \Phi_{img}^{edge}(x_i) ≈ \Phi_{img}^{edge}(x_i')
EdgeVL 的整个训练不需要人工注释或手动标记。
在推理阶段，假设存在一个测试集，表示为 D_{test} = \{(x_i, x_i'), \ \ y_i \in C\}_{i=1}^N ，其中 y_i 表示每对图像的类别标签，C 包含所有可能的开放词汇类别。通过使用与预训练大型视觉-语言（VL）模型相同的文本编码器以及开发的图像编码器 \Phi_{img}^{edge}，开放词汇分类预测可以转化为一个最大特征相似度推理问题 ：

\hat{y}_i = \arg \max_{Y \in \mathcal{C}} \Phi_{\text{img}}^{\text{edge}}(x_i)^\top \Phi_{\text{text}}(Y), \quad \hat{y}_i' = \arg \max_{Y \in \mathcal{C}} \Phi_{\text{img}}^{\text{edge}}(x_i')^\top \Phi_{\text{text}}(Y)

理想情况下，如果 \Phi^{edge}_{img} 是一个经过良好适配的图像编码器，则预测的类别 \hat{y}_i 和 \hat{y}_i' 将与真实类别 y_i 高度一致，同时推理效率也会大幅提升。如图2所示，EdgeVL 由一个两阶段适配框架组成，逐步解决上述问题：

双模态知识蒸馏模块（\Phi_{img} → \Phi^{stu}_{img} ） ：
利用预训练的RGB图像编码器 \Phi_{img} ，将其知识迁移到一个中间学生模型 \Phi^{stu}_{img} ，使其能够处理非RGB图像并生成与RGB图像对齐的特征表示。
量化感知对比学习模块（\Phi_{img}^{stu} → \Phi^{edge}_{img}） ：
在量化约束下，进一步优化中间模型，生成高效且低比特率的边缘设备图像编码器 \Phi_{img}^{edge}，确保在量化后仍能保持高精度和跨模态对齐能力。

3.3 Stage-1：双模态知识蒸馏

目标：将预训练视觉-语言（VL）模型中的教师图像编码器的图像特征蒸馏到一个支持双模态的学生图像编码器中。
挑战：尽管CLIP的图像编码器在未见数据（unseen data）上具有一定的零样本（zero-shot）迁移能力，但它仍然存在一些失败情况，即在提供监督信号时可能会产生无效或噪声特征。去除这些噪声样本及其对蒸馏过程的影响是有利的，然而，在真实场景中手动检查样本的成本较高。
自动数据集整理
- 由于上述挑战，作者引入了一种自动化数据选择机制，作为特征蒸馏的前置步骤。
- 该机制利用视觉-语言（VL）模型对图像和文本的先天对比能力来指导数据筛选。该方法利用 VL 模型生成辅助信息的能力，在不需要人工干预的情况下优化样本选择。
- 首先通过 ChatGPT-4 [1] 生成一个 “标签超集”（superset of labels），记作 S。由于 VL 模型具备open-vocabulary能力，该标签超集可以作为一个广泛的潜在标签存储库，适用于各种场景。
- 接下来，使用文本编码器 \Phi_{\text{text}} 对该标签超集进行编码，提取文本特征。同时，图像编码器 \Phi_{\text{img}} 处理来自边缘设备的无标签 RGB 图像，以提取视觉特征。对于一张 RGB 图像 x_i，基于该图像与标签超集中所有文本的最高图文相似度来分配一个置信度分数 c\_i：
  
  c_i = \max \left\{ s_k \mid s_k = \frac{e^{\Phi_{\text{img}}(x_i)^\top \Phi_{\text{text}}(y_k)}}{\sum_{k=1}^{|S|} e^{\Phi_{\text{img}}(x_i)^\top \Phi_{\text{text}}(y_k)}}, k = 1, 2, \ldots, |S| \right\},
- 通过设置一个阈值 \tau_c 来筛选掉较低置信度分数的图像，其余保留在训练数据集中。

特征蒸馏
- 核心目标是利用大规模教师编码器（例如ViT-T）指导紧凑型学生编码器（例如Swin-T）学习，从而高效地从 RGB 和非 RGB 图像中提取鲁棒的图像嵌入。
- 通过权重共享（weight sharing） 实现对两种图像模态的统一处理。即为RGB 或非 RGB 图像设立统一的图像编码器。
- 核心思想：对于训练集 D_{\text{train}} 中的每一对 RGB 和非 RGB 图像，希望学生模型提取的特征能够与教师图像编码器从 RGB 图像中提取的特征对齐。该对齐过程的基本假设是：RGB 和非 RGB 图像表示的是相同的场景，因此学生模型需要生成与预训练 VL 模型（即教师模型，如 CLIP）一致的图像特征。
- 特征蒸馏损失函数：
  
  \mathcal{L}_d = d(\Phi_{\text{img}}(x), \Phi_{\text{img}}^{\text{stu}}(x')) + d(\Phi_{\text{img}}(x), \Phi_{\text{img}}^{\text{stu}}(x)).
  - d 代表距离函数，作者参考 [13] 采用 L1 距离（L1 distance）作为度量标准

3.4 Stage-2：量化感知对比学习

如何在量化后 保持特征的可辨识性（feature expressiveness） 成为一个关键挑战。
量化感知训练（QAT）
- QAT 通过在训练过程中引入伪量化（fake quantization），使用量化感知的矩阵乘法（quantization-aware matrix multiplication）来模拟量化效果，然后对预训练模型进行微调（fine-tuning），以适应量化带来的影响。
- 结合对比学习损失
  - 传统的知识蒸馏损失通常用于让学生模型的特征对齐到预训练教师模型的特征。然而，这种方法可能无法充分挖掘量化模型的潜力，使其在低比特环境下仍能学习到鲁棒且可区分的特征。
  - 因此，作者提出在 QAT 过程中引入对比学习损失。其核心思想是增强特征对非区分性噪声的鲁棒性，同时扩大特征空间中相似样本与不相似样本的分离度。由于对比学习能够学习到不受量化失真影响的不变特征（invariant representations），认为它可以有效减轻量化带来的特征辨识能力下降问题。
- 图 3 进一步验证了这一点：当 QAT 与对比学习损失结合时，不仅缓解了量化带来的特征区分能力下降问题，还可能提高量化后学生编码器的可辨识性。

三元组采样
- 作者采用了semi-hard sample策略，并基于此构造对比学习损失。
- 具体来说，对于训练数据集 D_{\text{train}} 中的每对样本 (x_i,x_i')，利用预训练的 VL 模型从标签超集 S 生成伪标签：
  
  \hat{y_i} = \arg \max_{Y \in \mathcal{C}} \ \Phi_{img}(x_i)^T \ \Phi_{text}(Y)
- 然后，对于每个训练样本 x_i，确定其潜在的正样本集 \{p_i,k\} 和负样本集 \{n_i,j\}。其中：
  - 正样本（positives）指的是与 x_i 共享相同伪标签的样本。
  - 负样本（negatives）指的是具有不同伪标签的样本。
- 在此基础上，采用以下方法选择最佳匹配的正样本 p_{i,k}∗：
  
  k∗ = \arg \min_k d(\Phi^{edge}_{img} (xi), \Phi^{edge}_{img} (p_{i,k}))
- 并随机选择负样本。随后，只保留那些负样本，以便满足semi-hard条件：
  
  \begin{cases} d(\Phi_{\text{img}}^{\text{edge}}(x_i), \Phi_{\text{img}}^{\text{edge}}(n_{i,j})) > d(\Phi_{\text{img}}^{\text{edge}}(x_i), \Phi_{\text{img}}^{\text{edge}}(p_{i,k^*})), \\d(\Phi_{\text{img}}^{\text{edge}}(x_i), \Phi_{\text{img}}^{\text{edge}}(n_{i,j})) < d(\Phi_{\text{img}}^{\text{edge}}(x_i), \Phi_{\text{img}}^{\text{edge}}(p_{i,k^*})) + m,\end{cases}
  - 其中 m 是预定义的常数边距。将精炼后的负样本集的大小表示为 J。
- 损失函数定义
\mathcal{L}_c = \frac{1}{J} \sum_{j=1}^{J} d(f(x_i), f(p_{i,k^*})) - d(f(x_i), f(n_{i,j})) + m.

4 实验结果

模型：使用 OpenCLIP [26] 提供的 CLIP 模型 ViT-g-14 (ViT-G) 作为教师模型，并选择 ViT-S 及其 SOTA 变体（DAT-T [49] 和 Swin-T [35]）作为学生模型。其中，学生模型的分类头被替换为特征投影头。
数据集：ScanNet 和 EuroSAT。
指标：准确性和效率
基线方法
- 由于本文的任务设定是全新的，因此不存在直接可用的基线方法。为此，调整了几种应对类似挑战的方法，使其适应研究背景。
- CMKD [24]：最初设计用于 将知识从 LiDAR 传递到 RGB 模型，作者对其进行修改，使其能够 从 CLIP 视觉编码器向 RGB 和非 RGB 模型传递知识。
- Fida 框架 [46]：该方法采用 双学生模型（dual student model），在 互相学习（mutual teacher-student learning） 范式下进行优化。作者调整其策略，使其专注于 最小化学生模型对之间的特征距离。
- CQD 方法 [45]：最初用于 从高分辨率模型向低分辨率模型进行知识蒸馏，在本文的设定下，该方法被重定向为 最小化非 RGB 模型与预训练 RGB 模型及 CLIP 视觉编码器之间的特征距离。
- SKD 策略 [52]：该方法采用 Mixup 技术 生成 混合模态样本（hybrid-modality samples），在概念上与本文的研究类似。作者将其调整为在训练过程中集成非 RGB 和 RGB 图像 。
- Frank 方法 [17] 和 Gupta 技术 [23]：这两种方法分别用于 跨模态权重迁移（cross-modal weight transfer）和微调（fine-tuning），以及 通过统一的嵌入层进行多模态数据处理的高效模型训练 。

4.1 整体结果

准确率

效率

4.2 消融

作者做了大量的消融实验，具体结果略。

5 结论

EdgeVL 展示了在利用预训练的视觉语言模型进行开放词汇分类方面的显著进展，涵盖了包括 RGB 和非 RGB 领域在内的多种图像模态。尽管其方法具有创新性，但在跨模态使用时，EdgeVL 在保持 RGB 图像的泛化性能方面遇到了一些挑战。未来的工作将集中在完善适应技术，以克服这一限制，旨在提升该框架在更广泛应用中的通用性和效果。

论文笔记《Self-Adapting Large Visual-Language Models to Edge Devices...》

摘要