论文笔记《Babel: A Scalable Pre-trained Model for Multi-Modal Sensing via Expandable Modality Alignment》

论文笔记《Babel: A Scalable Pre-trained Model for Multi-Modal Sensing via Expandable Modality Alignment》

Administrator 2 2025-05-15
  • 论文 - 《Babel: A Scalable Pre-trained Model for Multi-Modal Sensing via Expandable Modality Alignment》
  • 代码 - Github
  • 关键词 - 人体感知、多模态、传感器网络、模态对齐、Sensys25

摘要

  • 研究问题:尽管在多模态对齐方面已有大量研究,但由于数据稀缺性的限制,现有方法在有效融合多种感知模态方面仍面临困难。如何在部分模态配对的情况下充分利用多模态数据,仍然是一个尚未解决的挑战。
  • 本文工作 - Babel
    • 这是一个可扩展的模态对齐模型,专为多模态感知而设计。
    • Babel 通过引入“可扩展模态对齐”(expandable)的概念来应对这一挑战。其核心思想是将 N-模态对齐转化为一系列二元模态对齐问题。此外,作者还提出了新颖的技术,以进一步缓解数据稀缺问题,并在可扩展对齐过程中平衡新加入模态与已建立模态对齐之间的贡献
    • 在预训练阶段,Babel 当前已实现了六种感知模态的对齐,包括 Wi-Fi、毫米波(mmWave)、惯性测量单元(IMU)、激光雷达(LiDAR)、视频和深度信息。在部署阶段,作为基础模型,用户可以从 Babel 中选择任意单一模态或多个已对齐的模态组合,用于下游任务。
  • 实验
    • Babel 在八个人类活动识别数据集上表现出色,对比了多种基线方法。
    • Babel 不仅提升了各个单一模态的感知性能(平均准确率提升 12%),还能有效融合多个可用模态。
    • 案例研究还展示了由 Babel 推动的新应用场景,包括跨模态检索(即感知成像)以及连接大语言模型(LLMs)以实现对感知数据的理解。

1 引言

  • 背景介绍

    • 感知技术:凭借独特的能力来感知物理世界。
    • 多模态感知:同时利用多种感知模态。
    • 早期组织多模态感知的方法依赖于手工设计的启发式规则或特征,但由于感知信号和环境的复杂性,这种方法在不同模态和任务之间难以扩展。
    • 近年来,多模态学习高速发展,通过监督或自监督学习的方式,自动挖掘不同感知模态之间的关联关系。其中,模态对齐方法通过使用配对模态数据,将各模态的表示投影到一个统一的共享空间中,在性能上表现出色。
    • 多模态学习局限:现有研究往往针对特定模态设计,需要根据不同下游任务和模态组合进行重新采样与再训练,阻碍了感知应用的无缝部署。
    • 提出问题:是否可以构建一个预训练的多模态感知对齐网络作为基础模型?该模型将实现常见感知模态的对齐,并支持新模态的灵活集成。在部署阶段,用户可以直接从模型中选择任意单一模态或多个已对齐的模态组合,用于下游任务而无需再训练。
  • 数据稀缺性 - 多模态感知根本难题

    • (1)成对数据的稀缺性:在感知领域,由于某些模态的数据采集需要专用硬件和专业知识,导致缺乏来自所有模态的配对数据。
    • (2)多模态配对数据的稀缺性:现有的感知数据集通常只包含部分模态的数据。正因如此,已有研究难以充分融合多种感知模态。
  • 本文工作

    • 提出了 Babel ,构建了首个可扩展的、用于多模态感知对齐的预训练网络。
    • 基于以下两个观察:
      • (1)尽管配对数据稀缺,但已有成熟的单模态感知编码器或特征提取器。通过利用这些编码器,可以显著减少模态对齐所需的配对数据量。
      • (2)虽然很少有数据集提供超过三种模态的配对数据,但存在大量共享某些模态的配对数据集。这些共享模态可以作为多模态对齐的桥梁
    • 核心思想:可扩展的多模态对齐,即将一个 N 模态对齐问题转化为一系列二元模态对齐任务。这种可扩展性使得 Babel 能够有效利用感知领域中的部分配对数据。如图1所示,可以通过五组二元模态对齐,借助相应的数据集,实现六种模态的整体对齐
paper48-1.webp

  • 为了实现这种可扩展性,作者引入了三种关键技术:
    • 预训练模态塔(tower): 每个模态使用一个“模态塔”来从原始数据中提取特征。使用现有的单模态特征提取器(例如用于 IMU 的 LIMU-BERT [59])构建这些模态塔,并在其基础上添加我们的对齐模块以与其他模态塔进行对齐。
    • 可扩展网络架构: 支持仅使用二元配对样本进行分阶段训练。其中作者提出了一个所有模态共享的“原型网络”,在新增模态时保留已对齐模态的知识。
    • 自适应训练策略: 平衡了新加入模态对统一表示空间的贡献,在模型扩展过程中最优地融合新知识,同时不破坏已建立的模态对齐关系。
  • 作者提供了 Babel 的完整实现方案,包括网络架构、数据准备与处理流程以及训练细节。
  • 使用了五个数据集来构建 Babel,分别是:UTD-MHAD、Kinetics-400、OPERANet、XRF55 和 MM-Fi。
  • 在典型感知应用人类活动识别HAR上进行评估,覆盖了八个数据集,其中包括同域和跨域数据集。基线方法包括:单模态感知网络、多模态感知框架和新兴的多模态大语言模型。
  • 除了HAR任务,作者还展示了两个应用案例,以突出Babel作为基础模型的潜力:
    • 感知成像(sensing imaging),用于展示跨模态检索能力。借助 Babel,原本基于图像到图像扩散模型的方法 [41] 可以使用非视觉模态的数据作为输入来生成图像。
    • 弥合大语言模型(LLM)与感知系统之间的鸿沟。通过 Babel 将 IMU 感知信号注入 Video-LLaMA [68] 模型中,无需对 LLM 进行任何再训练,即可使其理解感知信号。

2 相关工作

2.1 模态对齐

模态对齐是一个新兴的研究方向,涉及多种方法 [48, 50]。其中,对比学习(Contrastive Learning, CL) 尤为突出。例如:CLIP 在大量互联网图像-标题配对数据上进行训练,能够学习语义相关的文本与图像之间的关联;FOCAL [32] 提出了一种创新性的对比学习框架,并引入了时间结构约束,专为感知数据设计,旨在解决多模态时序数据中共享特征与模态专属特征的提取难题。

然而,由于数据稀缺性问题,将对比学习应用于多模态感知对齐仍然具有挑战性。例如,CLIP 的训练需要约 4亿张图像-文本配对数据,而一些典型的多模态感知数据集仅包含 600 到 42,000 对样本。

此外,感知模态种类繁多,N-模态对齐通常需要大量的 N-元组配对数据。遗憾的是,目前尚无公开数据集支持六种及以上模态的对齐任务

Babel 通过提出的 可扩展模态对齐技术 来应对这一根本性挑战。


2.2 多模态感知

多模态感知具备独特的能力来感知物理世界,并融合了多种方法。例如,Cosmo [37] 首次将对比融合学习应用于多模态感知领域,整合了 RGB、深度和 IMU 模态;MESEN [60] 利用多模态对比学习提升单一模态感知的性能;FM-Fi [53] 则通过跨模态对比知识蒸馏的方式,利用 CLIP 提升在有限标注数据下的射频(Radio-Frequency)人体活动识别性能。

然而,这些研究通常针对特定模态组合设计,若需引入新模态,则必须重新训练模型。与 Cosmo、MESEN 和 FM-Fi 形成鲜明对比的是,Babel 作为一个预训练的多模态感知基础模型,支持直接使用任意一种或多种已对齐模态完成下游任务,无需重新训练。此外,由于在广泛模态范围内进行了预训练对齐,Babel 在单模态感知多模态融合方面均展现出卓越性能。

多模态感知的概念已被广泛应用于各种实际场景中。例如:

  • [33] 结合 RFID 和 RGB 模态用于识别人机交互行为;
  • [52] 利用 LiDAR、摄像头、以及动物佩戴的 IMU 和 GNSS 设备进行动物行为识别;
  • [30] 使用 Wi-Fi 精密时间测量和 IMU 数据,将视频中的个体与其对应的查询 ID 相关联以实现定位;
  • GaitVibe+ [13] 通过临时摄像头和振动传感器增强基于结构振动的脚步定位,用于家庭环境中的步态分析;
  • [18] 提出了一种结合声学与摄像头的感知系统,改进了机器人等应用中的距离估计。

2.3 多模态大语言模型

多模态大语言模型(MLLMs) 正在迅速发展,以支持越来越多的模态。要支持更广泛的模态类型,通常需要一个多模态编码器,将不同模态的信号映射到语言嵌入空间中。为了构建这样的编码器,已有研究进行了探索:

  • Meta-Transformer [70] 展示了在12种模态上使用共享 Transformer 编码器的潜力;
  • ImageBind [17] 仅利用图像配对数据,实现了六种模态的对齐;
  • LanguageBind [75, 76] 则以语言作为核心绑定模态,对四种模态进行对齐;
  • OneLLM [20] 使用单一统一编码器,将八种模态对齐到语言空间;
  • CoDi [47] 实现了语言、图像、视频和音频模态之间的对齐。

然而,这些研究对感知模态(sensing modalities)的支持极为有限。事实上,目前只有 IMU 被纳入其中,但其性能表现明显较差。这主要是因为这些方法高度依赖特定模态配对的数据,例如图像与感知信号的配对数据。

例如,ImageBind [17] 仅在 Ego4D [19] 数据集上对 IMU 进行训练,导致其跨域能力受限,并且无法在不解决数据稀缺问题的前提下扩展至其他感知模态。

为了解决这一问题,我们提出了关键的技术手段,通过可扩展架构实现感知模态的对齐,从而减少对完整模态配对数据的依赖。


3 Babel 概览

Babel 是首个可扩展的多模态预训练网络,专为感知应用设计,适用于多种下游任务。Babel 包括模型架构设计、训练策略,以及数据准备与处理技术。在 Babel 中,作者提出了两种关键设计:预训练模态塔可扩展模型架构

  1. 预训练模态塔

目标:利用已有单模态感知中的特征提取器来构建模态对齐网络,从而大幅减少对大量配对训练样本的需求。

设计核心:如何高效地对齐来自不同预训练编码器的表示。为此,引入了“模态塔”,它由 预训练编码器概念对齐模块 组成:

  • 编码器可以基于现有深度学习模型中的信号处理和神经网络结构;
  • 概念对齐模块则负责对齐来自不同编码器的特征表示。

在训练过程中,预训练的编码器保持冻结状态仅更新概念对齐模块,从而实现高效的模态对齐。

  1. 可扩展模型架构

目标: 将传统的 N 元组样本对比训练过程转化为一系列仅需配对样本的训练阶段,从而显著降低对多模态元组样本的依赖,使多模态对齐真正具备可扩展性。通过这一架构,Babel 可以逐步引入新的模态,并在无需重新训练已有模态的前提下完成整体对齐。(“增量式”多模态融合能力)

方法流程:如图2所示,我们首先对两个模态进行对齐,构建一个“主干网络”。随后,我们引入一个新的“分支模态”,并在主干中根据可用的训练样本识别出与该分支配对的“连接模态”。通过对比学习,将该分支模态与连接模态进行对齐,并将其融合进主干网络,形成更新后的主干。我们将这一过程称为“增长”。

设计的关键:在融合新模态的同时,有效保留已有对齐模态的知识。为此,我们引入了原型网络,它被所有模态共享,并在训练过程中通过我们提出的自适应训练策略进行精心更新。

paper48-2.webp

  1. 自适应训练策略

目标:在每一个训练阶段,构建一个嵌入空间,在该空间中,相似样本对之间的表示逐渐靠近。为了实现这一点,我们需要调整各个模态的表示能力。

不同模态对最终嵌入空间的贡献程度各不相同,因此调整权重至关重要。对于信号更清晰、信息量更大的模态,应赋予更高的权重;反之,则应降低,以保护已有对齐模态的知识。这种平衡关系会因模态组合、数据集和任务的不同而变化,因此作者提出了一种自适应权重分配策略,能够自动确定各模态的贡献权重


4 预训练模态塔

4.1 构建模态塔

在对每个感知模态进行对齐的过程中,我们的第一步是构建一个“模态塔(modality tower)”,然后在此基础上执行对比学习。

与传统的模态对齐方法(如 CLIP)相比,Babel 的关键设计在于:利用单模态感知中已有的预训练编码器,这在感知模态中尤其有效。

复用原因:多种感知模态(如 IMU、LiDAR、Wi-Fi)已经形成了成熟的特征提取器。这些编码器在其架构设计、训练方式或信号处理流程中融合了领域知识。通过复用这些已有编码器而非从头设计,Babel 能够直接继承先前研究中所学到的高质量、具有领域特性的表示能力。

Babel 的有效性源于两个关键因素:

  1. 参数高效微调(PEFT)实践的成功应用 模态塔的构建过程遵循了PEFT 的成熟方法,这一技术在解决视觉-语言模态对齐问题上已取得显著成效,例如 LiT [67] 和 APE [43] 模型。其中,概念对齐模块可以被视为一种适配器(adapter),仅需少量参数即可实现模态间的对齐。
  2. 编码器具备泛化通用特征的能力 PEFT 成功的前提是编码器能够捕捉通用特征。对于视觉和语言等模态,通常需要在大规模语料库上进行预训练,能涵盖大多数下游任务所需的代表性特征。对于感知模态而言,其输入信号通常是被物理调制的,具有明确的物理意义,因此它们的特征定义清晰且可解释。随着感知技术的进步,这些代表性特征进一步增强。我们发现,在众多下游任务中,感知模态的代表性特征往往保持一致。这种一致性为我们提供了机会——可以沿用 PEFT 的思路,使用单模态编码器来构建模态塔

模态编码器的选择标准

作者在为每个模态选择具体编码器时,依据以下标准:

  • 对于专注于感知任务的模态(如 mmWave),倾向于选择基于信号处理的编码器,因为它们能够提取具有明确物理含义的通用特征;
  • 对于更常见的感知模态(如 Wi-Fi),由于其信号通常噪声较大,则更倾向于采用深度学习(DL)驱动的编码器,因其擅长去噪;
  • 我们避免选择那些在预训练语料库中存在明显领域偏移的模型。相反,那些在更广泛数据集上训练的编码器能够生成更适合 Babel 多种任务需求的特征空间;
  • 对于变化大或特别嘈杂的模态(如 Wi-Fi),依赖单一预训练编码器可能会限制性能。在这种情况下,引入模态塔增强机制,即为同一模态使用多个编码器,详见 §4.3。

最终,通过对多种候选编码器在多个单模态数据集上的微调与测试表现进行评估和比较,选择泛化性最强的编码器用于模态塔构建。


4.2 对齐模态塔

在为特定模态构建好模态塔后,通过对比学习对它们进行对齐。接下来,将以两个模态的对齐为例,说明模态对齐过程。

图3所示,给定包含模态 ​\alpha 和模态 ​\beta 的配对样本的数据集 ​E_{\alpha\beta},第一步是构建对比学习过程中所需的正样本对 ​P 和负样本对 ​Z。具体而言,数据集 ​E_{\alpha\beta} 包含初始同步的样本对 ​(\chi_\alpha, \chi_\beta)。例如,在 UTD-MHAD 数据集中,每个样本对表示同一人类活动的 IMU 读数序列和同时录制的视频片段,时间跨度为 5 秒。从数据集 ​E_{\alpha\beta} 中,我们随机选择一个包含 ​m 个样本对的批次 ​M

paper48-3.webp

对于该批次中的某个模态 ​\alpha 的样本 ​\chi^i_\alpha(其中 ​i \in N),按照以下方式构建其对应的正样本对 ​P^i_\alpha 和负样本对 ​Z^i_\alpha

  1. 正样本对 ​P^i_\alpha

    P^i_\alpha = (\chi^i_\alpha, \chi^j_\beta), \quad 1 \leq i \leq m, \tag{1}

    其中 ​\chi^i_\alpha 是模态 ​\alpha 的第 ​i 个样本,而 ​\chi^j_\beta与之配对的模态 ​\beta 的样本

  2. 负样本对 ​Z^i_\alpha

    Z^i_\alpha = \{(\chi^i_\alpha, \chi^j_\beta)\}, \quad 1 \leq i, j \leq m, \, i \neq j, \tag{2}

    其中 ​\chi^i_\alpha 是模态 ​\alpha 的第 ​i 个样本,而 ​\chi^j_\beta与之不匹配的模态 ​\beta 的样本

类似地,可以为模态 ​\beta 的第 ​i 个样本构建正样本对 ​P^i_\beta 和负样本对 ​Z^i_\beta。最终,对于包含 ​m 个样本对的批次 ​M,可以得到 ​m 个正样本对和 ​m^2 - m 个负样本对,这些将用于后续的对比学习。

在整个训练过程中,构建好的正样本对 ​P 和负样本对 ​Z 将通过模态塔进行处理。对比损失 ​L 按批次计算,针对每个批次 ​M,公式如下:

L^M_{\alpha\beta} = \frac{L^M_{\alpha \leftarrow \beta} + L^M_{\beta \leftarrow \alpha}}{2}, \tag{3}

其中 ​L^M_{\alpha \leftarrow \beta}​L^M_{\beta \leftarrow \alpha} 分别表示从模态 ​\beta 到模态 ​\alpha 和反之的对比损失,定义如下:

L^M_{\alpha \leftarrow \beta} = -\sum_{i=1}^m \log \left( \frac{\exp(\text{sim}(P^i_\alpha)/\tau)}{\sum_j \exp(\text{sim}(N^j_\alpha)/\tau)} \right), \tag{4}

其中 ​\tau 是用于缩放 logits 的温度参数。在我们的实现中,我们设置 ​\tau = 0.07。函数 ​\text{sim} 表示余弦相似度函数,用于评估来自 ​\Gamma_\alpha​\Gamma_\beta 的输出嵌入。最终,使用 ​L^M_{\alpha\beta} 更新模态 ​\alpha​\beta概念对齐模块

作为预训练网络,当 Babel 被集成到下游任务时,会引入一个特定任务的网络。例如,在活动分类任务中,会引入一个分类头(classifier head)。由于模态对齐,每个模态的对齐嵌入可以直接拼接用于下游任务。


4.3 增强模态塔

启发:模态塔增强的概念受到模型集成的启发,其中多个弱学习器(weak learners)结合在一起形成一个更强的学习器,从而提高准确性和性能。这种方法已被证明能够有效降低每个弱学习器的方差和偏差。

在 Babel 中,当引入额外的编码器时,我们会构建增强的模态塔。根据 §4.2 中描述的过程对增强的模态塔进行对齐。具体而言,(1)使用预训练编码器 ​\epsilon​\eta 分别构建两个模态塔 ​\Gamma^\epsilon_\alpha​\Gamma^\eta_\alpha。(2)通过正样本对 ​P^i_\alpha = (\chi^i_\alpha, \lambda^i_\alpha) 和负样本对 ​Z^i_\alpha = \{(\chi^i_\alpha, \lambda^j_\alpha)\} 对这些塔进行对齐,其中 ​i \neq j

对齐是通过公式 (3) 和 (4) 中的损失函数实现的。相似度 ​\text{sim} 使用来自两个塔的输出嵌入进行计算。


5 可扩展模型架构

5.1 原型网络

对齐多个感知模态(如六种或更多)且部分模态配对的数据集是一个具有挑战性的任务。为此,Babel 的关键设计之一是可扩展的模型架构,它将 ​N 模态对齐的训练过程转化为一系列二元模态对齐阶段,利用现有的带有配对模态的数据集。

为了详细说明,考虑三个模态:​\alpha​\beta​\kappa,以及可用的数据集 ​E_{\alpha\beta}​E_{\alpha\kappa}。首先使用 ​E_{\alpha\beta} 对模态 ​\alpha​\beta 进行对齐,得到网络 ​H_{\alpha\beta},称为“主干网络”。

由于数据集 ​E_{\alpha\kappa} 提供了模态 ​\alpha​\kappa 之间的对应配对,将 ​\alpha 称为“连接模态”。从主干网络 ​H_{\alpha\beta} 中,我们选择已训练好的模态塔 ​\Gamma_\alpha。然后,我们构建一个新的模态塔 ​\Gamma_\kappa,称为“分支模态塔”。通过使用数据集 ​E_{\alpha\kappa} ,将连接模态塔 ​\Gamma_\alpha 与分支模态塔 ​\Gamma_\kappa 对齐,从而将该分支集成到主干网络中。这一过程称为“网络增长”。图4展示了我们在可扩展网络架构中的网络增长过程。

paper48-4.webp

促进网络增长的挑战在于,在吸收新模态带来的新知识的同时,保持已对齐模态的知识。 因此,在网络增长阶段,直接按照 §4.2 中描述的方式进行对齐是不合适的,因为可能显著破坏已经对齐的模态(如模态 ​\beta)。

为此,作者引入了 原型网络。如图4所示,原型网络被特别纳入主干网络中,位于每个模态塔的概念对齐模块之后。原型网络在整个网络中共享,作为所有对齐模态之间学习知识的协调实体。通过调整对原型网络的更新,平衡从分支模态获取新知识和避免主干网络发生灾难性遗忘之间的关系。

回顾之前的例子,在初始对齐模态 ​\alpha​\beta 的过程中,我们同时更新了原型网络 ​Y 和模态塔 ​\Gamma_\alpha​\Gamma_\beta概念对齐模块。随后,在涉及分支模态 ​\kappa 和连接模态 ​\alpha 的网络增长阶段,对比学习过程会同时更新分支模态塔 ​\Gamma_\kappa连接模态塔 ​\Gamma_\alpha,以及原型网络 ​Y

原型网络优势:首先,在每次网络增长阶段,它允许使用不同的数据集,即使这些数据集来自不同的任务。其次,这种设计便于使用不同数据集反复增强已对齐的模态。通过吸收来自这些不同数据集的见解,可以构建出具有广泛通用性的预训练网络。

除了原型网络之外,作者还设计了自适应训练策略来调节主干网络获取新知识的程度,将在 §6 中讨论。


5.2 增长顺序

Babel 将 (N) 元组模态对齐转化为一系列二元模态对齐阶段,这引发了一个潜在问题:即传统完成的对齐与具有不同模态增长顺序的可扩展对齐之间的差异。我们的原型网络的设计理念是:它在所有模态之间维护一组共享参数,这些参数本质上编码了先前对齐阶段中学到的共同特征。当将一个新的分支模态与连接模态对齐时,原型网络会以一种部分调整共享嵌入空间的方式进行更新,但不会完全覆盖原有的嵌入空间。这种机制缓解了灾难性遗忘 的问题,这是连续学习中的一个显著挑战,通常通过利用共享表示来保存先前学习的信息。

为了分析这一点,作者以来自 UTD-MHAD 数据集的三模态对齐(即 IMU、骨骼和视频)为例。如图5所示,使用 t-SNE 来可视化每个模态的表示空间。图5a展示了尚未经过对齐训练的特征表现出显著的分布差异。图5b展示了传统的三元组对齐成功地弥合了三个模态之间的差距,实现了对齐。相比之下,Babel 中的可扩展网络架构采用了一系列二元模态对齐训练阶段来替代联合对齐,同样有效地弥合了模态之间的差距。

paper48-5.webp

Babel 在对齐顺序方面具有灵活性。图5d展示了由交替排序网络实现的每个模态的表示,尽管顺序不同,但仍然可以实现一个共同的表示空间。


6 自适应训练策略

作者进一步提出训练策略,以在网络增长过程中最优地整合新对齐模态带来的见解。具体而言,我们分别针对概念对齐模块和原型网络的训练实施了两种策略


6.1 概念对齐模块的训练

在网络增长过程中,我们采用 自适应加权对比学习 来训练概念对齐模块。该设计的关键在于动态调整模态对齐过程中模态之间的接近程度比例

目的:具有鲁棒编码器和丰富数据的模态更可靠,因此期望不太可靠的模态向它们收敛。

加权策略:因此,我们在公式 (3) 中引入权重,如下所示:

L^M_{\alpha\beta} = \frac{w_{\alpha \leftarrow \beta} \cdot L^M_{\alpha \leftarrow \beta} + w_{\beta \leftarrow \alpha} \cdot L^M_{\beta \leftarrow \alpha}}{2}, \tag{5}

其中 ​M 表示从数据集 ​E_{\alpha\beta} 中随机抽取的一个批次,​w_{\alpha \leftarrow \beta}​w_{\beta \leftarrow \alpha} 表示归一化的权重。直观上,如果模态 ​\alpha 更可靠且已建立,我们倾向于赋予 ​w_{\alpha \leftarrow \beta} 较大的权重,反之,则赋予较小的权重。

使用梯度确定权重:静态加权方案次优,因为每个模态在数据量和质量、编码器效率以及对已对齐模态带来的新见解和贡献方面可能存在差异。因此,我们选择采用动态加权策略。具体而言,我们使用梯度作为指标,自适应地调整权重,如下所示:

w^M_{\alpha \leftarrow \beta} = \frac{1}{\|\nabla^M_{\alpha \leftarrow \beta}(\Gamma_\alpha, \Gamma_\beta)\|}, \tag{6}

其中 ​\nabla 表示模态塔 ​\Gamma_\alpha​\Gamma_\beta概念对齐模块所有参数的累积梯度。我们以类似的方式计算 ​w^M_{\beta \leftarrow \alpha}。然后,我们将权重归一化,使得:

w^M_{\alpha \leftarrow \beta} + w^M_{\beta \leftarrow \alpha} = 1. \tag{7}

梯度的大小有效地反映了每个模态对对齐过程的贡献。在网络增长过程中,连接模态塔中的小梯度会促使分配更高的权重,从而使分支网络更接近主干网络。当分支模态塔的梯度较大时,分配的权重会加速从主干网络吸收见解,确保在统一的表示空间中实现对齐。 我们的方法对每一对模态对齐阶段采用 双向对比学习(例如,​\alpha \leftarrow \beta​\beta \leftarrow \alpha),而不是在两个方向上保持固定的相等权重——这可能会导致分支模态的适应不足或主干网络的过度扰动。通过监控训练过程中的梯度范数,动态调整两个模块的更新幅度。当分支模态的梯度较大时,表明该模态离对齐较远,我们增加连接模态的权重将新模态“拉入”。反之,如果连接模态的梯度较大,表明新模态相对接近对齐,允许连接侧进行更多的调整。这种自适应加权方案自然地保留了先前学习的表示,并通过足够的训练迭代,确保收敛到一致的共同表示,无论模态的引入顺序如何。

图6展示了使用 Babel 构建多模态对齐网络时的动态权重调整过程。该过程将 Wi-Fi 作为分支模态引入主干网络,以骨骼模态作为连接模态。最初,骨骼模态(主干网络)比 Wi-Fi 分支模态更可靠,因此被赋予接近 1 的权重,以加速与连接模态的收敛。经过大约 6,000 次训练迭代后,对齐基本实现。然后,我们的动态权重调整机制调整了连接模态和分支模态之间的知识交换,创建了一个全面的表示空间。

paper48-6.webp

6.2 原型网络的训练

在网络增长过程中,我们采用 指数移动平均(EMA)方法 来训练原型网络。这种方法通过缓慢融合新信息同时保护已积累的知识,有助于保持原型表示的稳定性。此外,我们在 EMA 过程中补充了知识蒸馏技术。这种技术有助于在引入新模态的同时,保留从先前模态中获取的关键信息。

通过上述自适应训练策略,Babel 能够在模态对齐过程中实现高效的知识整合,同时保持网络的稳定性和泛化能力。


7 实现

  • 数据准备,如下图,使用五个数据集来对齐,这些数据集包含跨不同双模态的配对样本。这些数据集用于人类活动识别(HAR)任务,但某些活动完全不同。尽管这些数据集中提供了活动标签,但我们采用自监督学习方法,不使用标签。
paper48-7.webp
  • UTD-MHAD 数据增强数量增加600倍:采样不同比例的下采样使原始数据增加300倍,使用动作片段化对序列随机截断,同样数量增加了300倍。(没理解为什么最终不是300*300=90000倍)
  • 预训练编码器
    • IMU:LIMU-BERT 编码器
    • 骨骼:时空图卷积网络(ST-GCN)
    • 视频:ResNet3D
    • Wi-Fi:Vision Transformer(ViT)以及 CNN 与 GRU 的组合结构
    • 毫米波:多普勒快速傅里叶变换(doppler FFT)和角度快速傅里叶变换(angle FFT),分别生成距离-多普勒热图和距离-角度热图。还加入了一个空间特征提取器 ResNet18 [51]。
    • LiDAR:Point Transformer,额外加入了 ST-GCN 作为时序特征提取器。
  • 概念对齐架构:每个模态的两个多层感知机。
  • 原型网络:2-4个多层感知机。
  • 两块 NVIDIA A100 GPU 进行训练,完成六种模态的对齐大约需要 20 小时。