论文 - 《TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition》
关键词 - 对比学习、人类活动识别HAR、多模态对齐、毫米波mmWave、LiDAR、图像

摘要

研究问题
- 语言模型是否能够将文本语义与物联网（IoT）传感器信号联系起来，从而执行人体活动识别？
本文工作 - Tent
- IoT-sEnsors-language alignmEnt pre-Training (TENT)，即IoT传感器与语言对齐预训练
- 该方法联合对齐文本嵌入与 IoT 传感器信号，包括摄像头视频、LiDAR 和毫米波雷达。
- 通过 IoT-语言对比学习，作者构建了一个统一的语义特征空间，将多模态特征与语言嵌入对齐，从而使 IoT 数据与描述该数据的特定词语相对应。
- 为了增强文本类别与其对应 IoT 数据之间的关联性，作者提出了辅助描述语和可学习提示，以引入更多语义信息到联合特征空间中。
性能
- TENT 不仅可以识别已见过的动作，还能够通过特征空间中最接近的文本词汇“猜测”未见过的动作。
- 在不同模态的零样本 HAR 任务中，TENT 相较最佳的视觉-语言模型提升了超过 12%。

1 引言

近年来，语言模型的发展对视觉感知任务也带来了显著的推动作用。借助深度神经网络对视觉和语言表示空间的对齐，视觉特征可以直接映射到语义标签上，从而以一种类人的方式模拟识别过程。此外，丰富的语义语言空间使模型具备了零样本分类能力。
为了探索语言模型与 IoT 传感器连接的可行性，本文聚焦于基于 IoT 的人体活动识别。
构建 IoT 传感器信号与语言之间的统一特征空间挑战：
- 不同类型的 IoT 传感器基于不同的物理原理工作，因此它们的数据模态具有显著的差异性。
- IoT 数据本身较难直观理解和解释，标注过程更加复杂，可用于训练的传感器-文本配对数据少。
- 在将语言模型与 IoT 传感器信号连接的过程中，prompt 对其影响较大，尤其是在扩展到“未见过”的类别时尤为明显。
面对上述挑战，本文方法旨在充分利用文本中蕴含的丰富语义信息用于 HAR，同时充分发挥每种传感器模态的独特优势。
- 为了将不同模态的优势与相同的文本嵌入对齐，作者设计了一种模态互学习策略，联合训练多传感器-文本配对数据，以构建 IoT-语义空间。通过这种深度对齐方式，每个单模态预训练编码器可以从其他模态中学习知识，并共同形成一个统一的多模态特征空间。
- 针对 HAR 任务中文本信息不足的问题，作者从两个方面着手解决：一是增加文本输入的数量，二是增强模型对文本的适应能力。
在此基础上，作者提出了一种 IoT传感器与语言对齐预训练（TENT）模型。
- 该模型利用语言监督信息来提升物联网传感器在 HAR 中的表现。
- 通过对比学习的方法，将摄像头、LiDAR 和 mmWave 等多种传感器数据与文本嵌入联合对齐到一个统一的语义空间中，提出了一种有效的多模态预训练方法。（提升每种传感器模态零样本能力，部分传感器模态缺失时保持有效）
- 设计了一个定制化的文本编码器，通过两种关键策略捕捉活动类别在传感器数据中的细微差异：
  - 为每个活动类别嵌入了描述其身体动作结构的文本说明，作为补充提示，以增强模型对活动类别的真实理解；
  - 引入可学习的文本嵌入机制，生成软提示（soft prompts），提升模型对不同输入的适应能力，并促进深层次的跨模态理解。

2 相关工作

2.1 跨模态语言预训练模型

语言模型高速发展。
在大规模预训练语言模型的基础上，一些最新研究尝试将语言与多种视觉相关模态融合，从而将语言知识扩展到更广泛的任务中。
- 某些研究 [30]–[32] 将语义嵌入与时空视觉特征对齐，使得可以通过文本实现视频检索和分类等任务。
- 其他研究 [33]–[34] 则将语言模型拓展至三维空间，通过将三维点云转换为多视角二维图像特征，并借助图像-文本预训练的引导进行间接对齐，实现了跨模态理解。
- IMAGEBIND [24] 利用图像作为中介模态，实现了文本与多种视觉相关模态之间的对齐，包括音频、深度图、热成像以及以自我为中心的视频（Egocentric Videos），从而开启了多模态之间跨模态检索与推理的新可能。
局限：它们严重依赖于图像与文本之间的对齐效果。特别是在需要细粒度 IoT 感知的任务中，图像可能难以全面捕捉空间信息，这些方法往往无法实现与语言之间的可靠对齐。
TENT 优势：采用了一种直接将 IoT 传感器信号与语言进行对齐的方式，旨在从多种传感器中提取有信息量的表示，同时避免基于图像对齐所带来的限制。

2.2 零样本 HAR

现有研究 [36]–[39] 在已知活动类别的识别上取得了较高的准确率，但传统的监督分类方法在面对未见过的活动类别时存在明显局限
零样本识别能力
- 当前的研究 [40]–[43] 主要采用基于语义空间的方法，通过引入类别语义信息实现知识在已见类与未见类之间的迁移。然而，这种方法高度依赖主观的人工判断，并且需要大量人力去定义合适的属性。
- 许多工作 [42]、[44]、[45] 利用活动类别的 word embeddings 来提供补充语义信息。然而，仅依靠简单的活动类别名称可能提供的语义信息模糊甚至误导，在面对细粒度高、变化性强的活动时，效果受限。
TENT 优势：旨在生成更具鲁棒性和代表性的语义嵌入，能够更生动地捕捉活动类别的空间分布特性，从而推动活动感知能力的广泛扩展。

3 方法

TENT 提出了一种新颖的多传感器预训练框架，利用语言监督信息来提升 HAR 的效果。如图2所示，TENT 主要由三个核心组件构成：

传感器嵌入提取： 从每种模态中提取具有判别性的特征；
语言嵌入提取： 生成能够反映每个活动类别的特定信息的自适应提示语；
传感器-语言对齐： 将传感器表示与语言表示连接在共享的语义空间中，实现跨模态的知识迁移。

两个阶段：

训练阶段：TENT 采用联合训练策略，通过 contrastive loss 将视频、LiDAR 和 mmWave 等传感器模态与文本进行对齐，从而为每种传感器学习到通用的编码器。
测试阶段：使用单一/多个模态的传感器数据，对未见过的活动类别进行推理，无需获取所有模态的数据。

3.1 传感器嵌入提取

传感器嵌入提取目标：捕获 IoT 传感器的代表性特征，这些特征基于不同的传感器视角，包含描述性的时间和空间信息。

将由多个 IoT 传感器信号流组成的数据集划分为已见集合（\mathcal{D}）和未见集合（\hat{\mathcal{D}}）。其中，已见集合包含 k_s 个训练类别，而未见集合包含 k_u 个互不相交的标签类别。需要注意的是 \mathcal{D} \cap \hat{\mathcal{D}} = \emptyset。

对于已见集合（\mathcal{D}），输入数据被组织为时间序列 S 上所有传感器模态及其对应活动类别的元组 I^t_i。具体而言，包括视频数据 I^v_i \in \mathbb{R}^{3 \times 224 \times 224 \times S}、LiDAR 数据 I^l_i \in \mathbb{R}^{3 \times N_l \times S} 和 mmWave 雷达数据 I^r_i \in \mathbb{R}^{5 \times N_r \times S}，表示为 I_i = (I^v_i, I^l_i, I^r_i)，其中 N_l 和 N_r 分别表示 LiDAR 和 mmWave 雷达中点云的数量。而对于未见集合（\hat{\mathcal{D}}），其可用的传感器模态数量是灵活的。因此，未见集合的输入可以表示为 \hat{I}_i = (\hat{I}^m, \hat{I}^l)，其中 m \in (v, l, r)。

每种模态使用独立的编码器，将不同传感器的输入映射到统一大小的嵌入空间 E^m_i \in \mathbb{R}^{768}, m \in (v, l, r)。为了实现这一点，为每种模态采用了成熟的框架作为传感器编码器（\mathcal{F}）的骨干。具体来说：

对于视频数据，使用 TimesFormer [46]，利用其注意力机制高效捕捉视频中的时空模式。
对于点云形式的 LiDAR 和 mmWave 雷达数据，采用 Point Transformer [47]，通过点与点之间的自注意力机制建模 3D 数据中的复杂空间依赖关系。

因此，传感器嵌入提取的过程可以表示为：

E^m_i = \mathcal{F}^m(I^m_i), \quad m \in (v, l, r). \tag{1}

3.2 语言嵌入提取

语言嵌入提取目标：为已见类和未见类生成语义上有意义且鲁棒的文本嵌入，目标是基于语义距离反映活动类别的空间分布。

为此，使用从 CLIP 中获取的预训练文本编码器（\mathcal{F}_t）作为骨干，该模型在大量文本数据上进行了训练，无需进一步修改。

数据集（\tilde{C}_k = C \cup \hat{C}, k \in \{1, 2, ..., k_s + k_u = 27\}）包含用于训练的 22 个活动类别（C_a）， 5 个用于零样本测试的未见类别（\hat{C}_b）。由于可用的文本语义信息相对稀疏且有限，模型难以充分获取关于类别的先验知识。为了解决这一问题，作者为每个活动类别引入描述（\tilde{D}_k = D \cup \hat{D}, k \in \{1, 2, ..., k_s + k_u = 27\}），以提供补充信息，丰富编码器对活动类别的语义理解。类别的名称及其描述一起输入到 tokenizer 中，生成文本标记 t_a 进一步提取：

t_a = \oplus(\phi(C_a), \phi(D_a)), \tag{2}

其中，\phi 表示 tokenizer， \oplus 是拼接操作。

然而，类别名称与描述之间的硬性组合过于僵化，无法灵活适应新数据的上下文。因此，受 CoOp [48] 的启发，引入 learnable prompts ，动态生成能够灵活理解文本信息的提示。在 TENT 中，在文本标记 t_a 的前后分别放置 n 个可学习提示 （实验中 n=16 ），使模型能够根据数据的具体上下文自适应地利用文本线索。每个类别的标记 T_a 通过将可学习提示 p_n 和文本标记 t_a 拼接获得：

T_a = \oplus(p_1, ..., p_n, t_a, p_{n+1}, ..., p_{2n}), \tag{3}

为了提取具有代表性的文本嵌入，首先通过固定的语言编码器（\mathcal{F}_t）从标记中提取嵌入。由于要将语言模型与 IoT 传感器对齐，嵌入再经过一个映射层（\mathcal{G}），以微调文本嵌入。因此，语言嵌入提取的公式表示为：

E_a^t = \mathcal{G}(\mathcal{F}_t(T_a)). \tag{4}

3.3 模态互学习

在获得传感器和语言的特征嵌入后，作者提出 模态互学习 方法，通过 联合优化策略 实现传感器与文本的对齐，弥合二者间的语义差距。该方法基于 对比学习，旨在拉近相同类别的传感器嵌入与文本嵌入之间的距离，同时推远不同类别的嵌入。

通过 infoNCE 损失 \mathcal{L}^{mt} 分别对三种传感器模态（视频、LiDAR、mmWave）进行优化，使文本嵌入更好地融入 IoT 传感器空间，捕捉各模态的特征：

\mathcal{L}^{mt} = -\log \frac{\exp(E_i^m \cdot \{E_a^t\}^+ / \tau)}{\sum_{E_a'^t \in \{\{E_a^t\}^+, \{E_a^t\}^-\}} \exp(E_i^m \cdot E_a'^t / \tau)}, \tag{5}

其中，m \in \{v, l, r\} 表示传感器模态，\tau 是标量温度参数，\exp() 是指数函数，\{E_a^t\}^+ 和 \{E_a^t\}^- 分别表示与传感器嵌入 E_i^m 正负相关的文本嵌入。 \exp(...) 测量特定传感器模态嵌入与对应文本嵌入之间的相似度。通过最小化该损失，确保模型为正确的类别对分配高相似度分数。

TENT 的训练目标是同时集成每种传感器模态的对比损失：

\mathcal{L} = \alpha \mathcal{L}^{vt} + \beta \mathcal{L}^{lt} + \gamma \mathcal{L}^{rt}, \tag{6}

其中，\alpha、\beta 和 \gamma 是为模态分配权重的超参数，本质上指示了文本嵌入应更关注哪种模态。在实际实验中，由于 LiDAR 和雷达包含大量 3D 信息，使其在零样本场景中更具鲁棒性。因此，为它们分配更高的权重。

总结来说，传感器-语言对齐通过联合训练有效地弥合了传感器数据与语言语义之间的差距，促进了模型在活动识别任务中的跨模态理解能力。它驱动不同模态的信息交换，将多模态和语言视角整合到每个单模态编码器中。

3.4 零样本人体活动识别

TENT 通过多模态联合训练生成通用传感器编码器，使模型能在无需重新训练的情况下识别未见活动类别，显著提升 IoT 感知的适应性与实用性。测试时，即使只有单一模态（如 LiDAR \hat{I}_i^l）可用，模型也能利用预训练编码器提取嵌入，并通过语义对齐实现跨模态识别。首先通过预训练的 LiDAR 编码器，提取出鲁棒的 LiDAR 嵌入：

\hat{E}_i^l = \mathcal{F}^l(\hat{I}_i^l). \tag{7}

至于语言嵌入提取，将已见和未见类别同时输入编码器，旨在实现对已见和未见类别的强大活动识别能力。零样本阶段的文本嵌入通过以下方式生成：

\hat{t}_k = \oplus(\phi(\tilde{C}_k), \phi(\hat{C}_k)), \tag{8}

\hat{T}_k = \oplus(p_1, ..., p_n, \hat{t}_k, p_{n+1}, ..., p_{2n}), \tag{9}

\hat{E}_k^t = \mathcal{G}(\mathcal{F}_t(\hat{T}_k)). \tag{10}

公式8好奇怪，根据图2感觉应该是 t_k = \oplus(\phi(C_k), \phi(D_k)), k \in \{1, 2, ..., k_s + k_u = 27\} 吧。

最后，通过计算 LiDAR 嵌入 \hat{E}_i^l 与所有类别文本嵌入 \hat{E}_k^t 之间的相似度，TENT 根据 k 个活动类别中的最高相似度分数进行活动预测：

\hat{y} = \arg\max_k (\hat{E}_i^l \cdot \hat{E}_k^t). \tag{11}

简而言之，这些简单的步骤确保了 TENT 可以应用于广泛的单模态和多模态场景中，其中每个传感器编码器从统一的多模态特征空间中预测准确的活动。

4 实验

4.1 实验设置

数据集
- MM-Fi：包括图像、LiDAR 和 mmWave 雷达点云，27类日常或康复活动。
数据预处理
- 将每个传感器模态的连续8帧组合起来，反映时间信息。
- 选择了五个类别作为未见的测试集，同时确保未知类别与已知类别存在差异，但共享某些相似性。
- 为了处理 LiDAR 和雷达片段中点云数量的差异，在每个批次中根据最大点云数量平衡点云数量，确保数据结构一致。

4.2 总体性能

实验目的：验证将语言模型与 IoT 传感器连接的必要性，并评估 TENT 在零样本 HAR 任务中的表现。
基线
- 未引入语言信息的传统单模态模型（Vanilla）、CEWGAN-OD、I-VL、CLIP4Clip、CoOp
- 由于 LiDAR 和 mmWave 领域尚无专用的零样本方法，因此将视频领域的算法迁移过来进行比较（标记为*）；
实验设计
- 测试数据只有单传感器模态和文本，统计可见类、未见类的准确率。
实验结果
- 如表1所示，TENT 在所有模态的零样本平均性能上显著优于现有方法：

4.3 跨域评估

实验目的：评估 TENT 在面对新用户或新环境等复杂场景下的零样本识别能力，验证其在跨域设置中的泛化性和鲁棒性。
实验设计：在 MM-Fi 数据集上采用三种不同的划分方式：
- Random Split：训练和测试数据分布一致（8:2随机划分）；
- Cross-Subject Split：测试集中包含未见过的新用户（32人数据训练，8人数据测试）；
- Cross-Environment Split：测试集在新环境中进行，但用户是已见的（3个环境训练，1个环境测试）。
实验结果
- 在 Random Split 下表现最好，说明模型能很好学习已知用户和环境的特征；
- 在 Cross-Subject Split 下性能接近随机划分，表明 TENT 对新用户的适应能力强；
- 在 Cross-Environment Split 下性能有所下降，但仍优于表1中现有最先进方法。

4.4 消融实验

实验目的
- 验证 TENT 中各关键组件（联合训练、文本描述、软提示） 对零样本识别性能的贡献。
实验结果
- 如表3所示
- 软提示单独使用时不稳定，但与前两者结合后显著提升性能。
- TENT 的联合训练策略与定制化的语言提取模块（描述 + 软提示）共同作用，显著提升了零样本识别效果。

论文笔记《TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition》

摘要