论文 - 《CroSSL: Cross-modal Self-Supervised Learning for Time-series through Latent Masking》
代码 - Github
关键词 - 自监督学习、时序关系、掩码、人类活动感知HAR

摘要

研究问题
- 多模态时间序列研究中，标注数据匮乏。
- 自监督学习是一种有前景的方法，能够在不依赖标签的情况下学习数据表示。
- 现有的SSL方法通常需要计算代价高昂的负样本对，并且大多是为单一模态设计的，限制了其适用性。
本文工作 - 跨模态自监督学习CroSSL
- CroSSL引入了两个新概念：
  - 一是对模态特异性编码器生成的中间嵌入进行掩码处理；
  - 二是通过一个跨模态聚合器将这些嵌入聚合为一个全局表示，该表示可直接输入下游分类器。
- CroSSL 能够处理缺失模态的情况，并实现端到端的跨模态学习，而无需预先进行数据预处理以应对缺失输入，或在对比学习中采样负样本。
实验：作者在多种类型的数据上评估了该方法，包括运动传感器（如加速度计、陀螺仪）和生物信号（心率、脑电图、肌电图、眼电图、皮肤电信号）。总体而言，CroSSL 在仅使用极少量标注数据的情况下，表现优于以往的自监督和有监督基准方法，并揭示了潜在的掩码机制如何提升跨模态学习的效果。

1 引言

自监督学习SSL
- 由于收集、标注和管理大规模标注数据集的成本高且耗时，研究者们开始探索自监督学习（SSL），即利用未标注数据进行学习。通过定义一种称为“预任务”（pretext task）的人工任务，该任务的监督信号自动从无标签数据中生成，从而可以训练一个编码器模型来学习输入数据的潜在表示。
- 目前大多数 SSL 方法主要是为单模态数据设计的 [11, 27, 33, 36]，在处理多模态数据方面存在困难。
- 当前的 SSL 方法在将多个传感器的时间窗口聚合并压缩为一个可用于下游任务的统一全局嵌入时，表现不佳 [7]。
多模态 SSL 的好处
- 从多样化的来源收集和分析数据，可以更好地理解和洞察人类行为与生理状态。
- 能够将这些数据整合为一个统一的推理引擎，支持多项下游任务。
- 有助于发现多个数据源之间的复杂关联和相互作用，从而更全面地理解人类感知。
多模态 SSL 的主要挑战：
- （1）异构传感器：由于不同传感器的数据特性与采样率存在差异，它们需要不同的预处理方式。直接整合这些异构的传感器数据会导致全局嵌入表示不一致，从而影响模型性能。
- （2）传感器缺失：多模态 SSL 必须具备对缺失模态的鲁棒性。在 SSL 训练过程中，模型可能会学习依赖于不同模态之间相关性的表示；然而，在推理阶段并不能保证所有模态都可用。
先前工作 COCOA
- COCOA [7] 解决了上述部分问题。该方法通过引入模态特异性编码器和定制的损失函数来对齐不同模态的潜在嵌入（latent embeddings）。
- 局限：COCOA 并未对模态特异性嵌入进行聚合，也未考虑模态缺失所带来的挑战。
本文方法 CroSSL 核心创新点：
- 对由模态特异性编码器生成的中间嵌入进行掩码处理；
- 使用一个跨模态聚合器将这些嵌入聚合为可用于下游分类任务的全局嵌入表示。

2 相关工作

有监督学习
- [24] 探索了适用于人体活动识别（HAR）的融合策略与改进后的深度神经网络（DNNs）。
- 由于标注数据有限且传感器异构型强，有监督学习方法往往不适用。
无监督或自监督学习
- 主要集中在 HAR 领域，包括多任务学习、对比学习和预测编码等方法 [12, 27, 33, 35]。
- 然而，这些方法都不是专门为多模态学习设计的，无法很好地捕捉每个传感器内部的时间依赖性以及跨模态之间的全局空间依赖性。
多模态学习自监督学习
- ColloSSL [17] 和 COCOA [7] 在一定程度上解决了多模态学习中的一些问题，但仍存在局限性，例如需要复杂的负样本挖掘机制，以及无法应对模态缺失的情况。
- 掩码技术大多被应用于图像和文本数据。例如，MultiMAE [1] 使用输入层的掩码自编码器，但其专为图像数据设计，并不支持多模态时间序列数据。虽然掩码在输入空间中较易实现，但在潜在空间（latent space）中的应用仍较为少见。
- TERA 和 Wav2Vec [2, 19] 中提出了一种方法：首先在潜在空间中随机应用时间掩码，例如丢弃50%的投影后潜在特征向量。本文方法在概念上与其相似，但在一个能够从两个掩码视角学习的多模态架构中对其进行了改进。 这一点至关重要，因为在实际训练或推理过程中，并非所有模态都可用。
表1总结了 CroSSL 与相关前期工作在人体活动识别与健康监测应用场景下的概念差异。

3 提出的方法：CroSSL

3.1 问题定义

符号约定

设 X_i = \{X_i^1, \cdots, X_i^M\}, i \in \{1, \cdots, N\} 表示每批训练样本中的多变量时间序列窗口，其中 N 是批次样本数量，M 是模态（即数据源）的数量。

设 E^m 表示一个编码器，它将模态 m 的数据 X_i^m 映射到大小为 K 的中间嵌入 Q_i^m。设 A 表示一个聚合器，它将所有编码器生成的中间嵌入映射为统一的全局嵌入 Z_i = \{z_{i,1}, \cdots, z_{i,D}\} ，对于每个 X_i。设 G 表示一个下游分类器，它以 Z_i 作为输入并做出最终预测。

目标

一种简单的解决方案是将所有模态的数据合并到一个编码器中，但当数据类型和大小不同时，这种方法无法奏效。
另一种方法是为每个模态使用单独的编码器和分类器，并在最后聚合预测结果。这种方法增强了鲁棒性，但成本较高且未能充分利用多模态信息。

本文目标是提出一种解决方案，能够在无需多个分类器的情况下有效利用多种异构模态。

方法概述

CroSSL旨在捕捉单模态内的时间依赖性以及跨模态的空间依赖性。目标是构建一个从可用数据源中提取的统一全局嵌入，使得压缩后的信息能够高效、准确地用于任何下游任务。

为此，作者假设在同一时刻被不同模态捕获的数据可以被视为彼此的自然变换，因为所有模态都在感知相同的事件，这种多模态数据也可以通过共享现象被 SSL 方法所利用。

总之，作者的假设基于以下事实：

虽然各个传感器提供了同一事件的不同视角，但它们可能不会记录相同的信息；
在某些情况下，某些传感器可能并不相关。
全局嵌入的聚合信息可以表示共享事件的当前状态。

CroSSL：跨模态自监督学习

图1展示了整体架构，包括自监督预训练和微调。在CroSSL中，主要目标是利用从不同模态和设备收集的无标注且异步的数据，并学习模态特异性编码器 E^m, m \in \{1, 2, \dots, M\} ，随后使用一个跨模态聚合器 A 。每个编码器 E^m 都被训练以生成传感器 m 的中间嵌入，使得所有（或部分）中间嵌入的聚合能够表示共享现象的状态。为此，聚合器 A 被训练以学习输入数据源之间的空间依赖性和时间依赖性。其次，使用预训练的编码器和聚合器来为少量标注数据生成描述性嵌入，然后训练分类器 G ，使其将这些潜在的联合嵌入映射到相应的类别标签。

最后，在第2步中，将预训练的编码器和聚合器模块与下游任务一起进行微调。使用预训练的编码器和聚合器，以及给定任务的标注数据集，以监督的方式训练分类器 G 。

自监督目标函数

在CV和NLP领域，主流的SSL技术基于对比学习或重构学习。在对比学习中，训练的主要脆弱性在于训练过程中所使用的正样本对和负样本对的质量，尤其是假负样本的引入。尽管已经提出了多种负样本挖掘技术来移除假负样本或避免其存在对最终对比目标函数造成的偏差 [5, 26]，但这些方法在可穿戴传感器数据上并未显示出有效性[6]。

最近，出现了不需要负样本采样的基于正则化的SSL技术，例如BYOL [10]、Barlow Twins [39]，以及最新的VICReg。本文使用了VICReg（方差-协方差正则化）损失函数的一种变体，因此，简要介绍该损失函数及其如何集成到我们的多传感器设置中。对于样本 X_i ，生成两个全局嵌入 Z_i^j = (Z_i^{j,1}, Z_i^{j,2}) ，记为 Z_i^j = \{z_{i,1}^j, \cdots, z_{i,D}^j\} ，其中 i 是批处理中对应样本的数量，D 是聚合器两分支输出的嵌入维度。优化函数基于三个部分，包括：

Invariance：最小化样本 Z_i 的全局嵌入之间的距离（或最大化相似性）：

s(Z^1, Z^2) = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{D} \sum_{j=1}^{D} \|z_{i,j}^1 - z_{i,j}^2\|^2_2 \tag{1}

其中，N 是批处理中的样本数量，D 是嵌入的维度。

Variance：保持每个变量的方差 z_{i,j}^{[1,2]} ，其中 j = 1 \cdots d ，超过某个阈值。方差正则化项定义为：

v(Z^{\{1|2\}}) = \frac{1}{D} \sum_{j=1}^{D} \max(0, \gamma - \delta(z_{i..N,j}^{1|2}, \epsilon)) \tag{2}

其中，\gamma > 0 是正则化标准差项 \delta(z, \epsilon) = \sqrt{\text{Var}(z + \epsilon)} 的常数阈值，而 \epsilon 是一个标量，用于避免数值不稳定。这里，z_{i..N,j} 表示在大小为 N 的批处理中，全局嵌入的第 j 个变量的标准差。该项通过鼓励全局嵌入中每个变量的方差等于 \gamma ，从而防止表示坍缩。
Covariance：通过最小化协方差来降低同一嵌入中变量之间的相关性：

c(Z) = \frac{1}{D} \sum_{j=1, j \neq j'}^{D} [C(Z)]_{j, j'}^2 \tag{3}

其中，C(Z) 是 Z 的协方差矩阵，协方差正则化项 c(Z) 是协方差矩阵中非对角元素平方和的 1/D 倍。这迫使非对角元素为零，从而解耦嵌入变量，并在变量之间最大化分布。

图2展示了目标函数，总体损失函数是上述各项的加权平均：

\mathcal{L}(Z^1, Z^2) = \lambda s(Z^1, Z^2) + \mu [v(Z^1) + v(Z^2)] + \nu [c(Z^1) + c(Z^2)]

3.2 理论动机

动机：在实际应用中，并非所有模态都始终可用、相关或有用（模态缺失）。

CroSSL假设每个中间嵌入 Q^m 中包含两种类型的信息：

跨模态信息，即所有模态共同捕获的共享现象的相关信息。
模态特异性信息，这些信息不一定与共享现象直接相关。

CroSSL的目标是生成全局嵌入 Z ，该嵌入能够携带每个传感器数据 X^i 和至少另一个传感器 X^j 之间的跨模态信息。将上述直觉转化为信息论公式：

I(X^i; X^j) \geq \epsilon > 0 \quad \text{for any } i \in [M] \text{ and } j \in [M]/i,

其中 I(\cdot; \cdot) 表示两个随机变量（例如，随机采样的传感器数据的时间窗口）之间的互信息。在许多下游任务中，数据 X^i 被视为通过一个潜在变量生成过程生成的。基本上，X^i = g^i(Y) ，其中 Y 是一个潜在变量，是影响所有模态生成数据的共同变化源（例如，用户的活动或健康状况是所有模态感知用户时的未知但共同的变化来源）。对这种共同对象或主题进行推断通常是处理全局嵌入的下游任务的最终目标。

基于这一假设，目标是学习一个聚合器 A ，以生成满足以下条件的全局嵌入 Z ：

I(Z; Q^j \mid Q^j) = 0, \quad \text{for any } i \in [M] \text{ and } j \in [M]/i. \tag{4}

这意味着我们希望生成的 Z 能够理想地捕捉到 Q^i 和 Q^j 共享的信息。换句话说，将条件互信息 I(Z; Q^i \mid Q^j) 归零意味着，在已知 Q^j 的情况下，我们可以恢复生成 Z 所需的信息，而无需依赖 Q^i 。

因此，我们的假设也可以解释为生成一个全局嵌入 ( Z )，使其满足以下条件：

I(Z; Q^i) = I(Z; Q^j). \tag{5}

通过这种方式，即使丢失了一个模态，生成的全局嵌入 Z 理想情况下仍然保持不变。

动机：CroSSL 并不希望保留所有模态中存在的信息。换句话说，不希望 Z 只是所有模态数据的压缩版本。（在 Z 中保留跨模态信息并忽略模态特异性信息）

解决思路：在聚合器中提供了两种不同的掩码中间嵌入版本。参考信息瓶颈原理 [29]，该原理的目标是构建一个 Z ，使其仅包含每个模态 X^m 提供的少量信息，且这些信息仅与潜在变量 Y 相关。

目标：I(Q^i, X^i) = H(Q^i) - H(Q^i | X^i) ，对于确定性编码器 E，有 H(Q^i | X^i) = 0 。

具体做法：在生成 Z 的过程中使用随机对某些模态进行掩码。这确保了在下游任务中生成全局嵌入 Z 时，使用的是最具有信息量的模态。需要注意的是，如果没有随机化，聚合器会通过简单地从 Q 复制信息到 Z 来生成相同的嵌入，而无法区分跨模态信息和模态特异性信息。

4 实验

4.1 实验设定

数据集
- PAMAP2 基于运动传感器和心率传感器的人体活动识别（HAR）数据集。
- PhysioNet SleepEDF 基于生物传感器数据的睡眠阶段检测数据集。
- WESAD 使用多种生物传感器进行压力与情绪识别的数据集。
模态特异性编码器（三层一维卷积网络），聚合器模块（全连接层）、线性分类器
使用 TF HParams API 进行超参数调优，最终确定训练参数见论文。
VICReg目标函数中各项系数
- 方差系数：10
- 不变性系数：10
- 协方差系数：100
在微调过程中，防止编码器遗忘已学到的参数并被分类器的损失函数覆盖，微调的前20个 epoch 冻结编码器和聚合器，使分类器能够基于预训练模型提取的表示进行学习；随后解冻编码器和聚合器，与分类器一起进行联合微调。
评估指标：macro F1-score
基线
- 全监督基线：DeepConvLSTM、Supervised（CroSSL的全监督等价形式）
- 自监督基线：COCOA
- 固定与微调的 SSL 编码器
  - Fixed encoders：在分类器训练阶段冻结所有编码器，仅评估所学表示的质量；
  - Fine-tuned encoders：在分类器训练过程中对编码器进行再训练（微调），使其适应下游任务。

4.2 综合对比

表3展示了各方法的平均F1分数及其标准差。
- 微调后的 CroSSL 不仅超越了当前最先进的 SSL 方法，还优于全监督基线方法。
- 在掩码策略方面，空间掩码（某个传感器/模态完全不可用）明显优于随机掩码。
- Fixed encoders的效果也不如Fine-tuned encoders的效果。
- 注意，WESAD 模态少，提升效果也小；PAMAP2 性能提升最大，因为模态最多。这也进一步验证了 CroSSL 在模态数量多、缺失可能性高的场景下具有更强的优势。

4.3 对缺失数据的鲁棒性

由于 COCOA 和其他最先进的多模态 SSL 模型无法处理缺失数据，因此本节未将其纳入比较。

为了研究这一问题，作者设计了三组实验：
1. No missing：训练集和测试集都没有缺失数据。
2. Missing data only at inference time：训练集完整数据，推理时模态缺失。
3. Missing data at training and inference time：训练集和测试集都可能存在数据缺失。
表4报告了在五次重复实验中，面对随机缺失数据时的平均 F1 分数。

论文笔记《CroSSL: Cross-modal Self-Supervised Learning for Time-series through Latent Masking》

摘要