论文 - 《ConSense: Continually Sensing Human Activity with WiFi via Growing and Picking》
代码 - Github
关键词 - AAAI2025、WiFi、单模态HAR、增量学习、边缘高效

1 引言

研究背景：
- 基于WiFi的人体活动识别HAR。为了应对动态环境中不断引入新活动的场景，基于WiFi的HAR系统必须能够在不遗忘已有知识的前提下学习新的概念。
- 此外，由于隐私和边缘设备存储限制，存储历史样本来保留旧知识是不现实的。
无样本类增量学习（Exemplar-free Class-Incremental Learning, EFCIL）
- 旨在在不保留以往类别样本的情况下同时识别旧类和新类，从而缓解隐私和存储方面的担忧。
- EFCIL在计算机视觉领域已有较多研究，但将其应用于基于WiFi的HAR仍面临独特挑战：WiFi会因人类活动产生细微且时间敏感的变化，使得特征提取更加困难；此外，WiFi数据具有连续性和快速变化的特点，缺乏明确的空间参考结构，进一步增加了建模难度。
- 此外，现有的EFCIL方法通常需要大量计算资源和较长的训练时间，难以满足资源受限的边缘设备的实际部署需求。
本文工作 - ConSense
- 一种面向 WiFi-based HAR 的持续动态自适应学习框架。
- 为了捕捉时序数据中的时间与空间关系，ConSense 借助了 Transformer 架构 ，该架构特别适合处理具有复杂时空特性的数据。
- 此外，ConSense 通过 动态模型扩展（growing） 和 选择性再训练（picking） 的方式，在保留已有知识的同时融合新信息。
  - 动态模型扩展：在 多头自注意力（MHSA）层 中引入了一组小规模的可训练参数，称为 prefixes。这些 prefixes 是为每个任务的数据量身定制并专门训练的，使模型能够有效捕捉和保留关键的任务特定知识。
  - 选择性再训练：根据神经元在不同任务中的表现，动态调整多层感知机（MLP）中神经元的权重。通过监测神经元的稳定性，该模块能够识别哪些信息需要长期保留，哪些需要调整以适应新数据。
- 这些策略使得 ConSense 在持续感知过程中兼具 可塑性（plasticity） 和 稳定性 ，并通过仅更新少量任务相关参数而非重新训练整个模型，实现了快速训练。
实验性能：在三个公开的WiFi数据集上的评估结果表明，ConSense 不仅优于多种现有先进方法，而且所需参数更少，凸显了其在HAR类增量学习场景中的实用价值。

2 相关工作

类增量学习（Class-Incremental Learning, CIL）
- 用于适应不断引入新活动的动态环境。
- 现有CIL方法可以分成三类：
  - 基于回放的方法：通过存储和重放旧任务中的样本以保留知识。
  - 基于正则化的方法：通过惩罚机制维持关键参数不变，但在处理长序列任务时表现受限。
  - 基于动态架构的方法：为新任务扩展模型结构，但通常需要较多计算资源。
- 许多现有的 CIL 方法依赖于保存先前任务的样本以防止“灾难性遗忘”。
无样本类增量学习 EFCIL
- Li 等人将知识蒸馏引入 CIL，但仅使用新数据时，KD 的效果有限。
- Gao 等人提出了一种分离表示学习与分类器训练的新框架，从而改进模型反演能力，合成旧任务的数据。
- Asadi 等人结合监督对比损失、自监督学习和类别原型演化技术，提出了原型-样本关系蒸馏方法。通过联合学习特征表示和类别原型，有效减少了灾难性遗忘，并保持了旧类原型的相关性和嵌入相似性。
尽管已有大量基于 CNN 和 ResNet 的 EFCIL 方法被提出，但基于 Transformer 的 EFCIL 方法仍处于初步探索阶段 。
- Roy 等人尝试用卷积操作对 Transformer 的 MHSA 层进行适配，以应对新任务。然而，该方法依赖图像增强策略，不适用于 WiFi 数据，因为 WiFi 数据增强通常涉及时间延迟和频率偏移，导致性能下降。
- Zhang 等人采用了保留样本和蒸馏损失来保留活动知识。
- Ding 等人则引入了带有注意力机制和双损失函数的增强型 CNN。但 Ding 的方法一次只能处理一个类别，限制了其适用范围。
为克服上述方法的局限性，作者提出了一种专为 WiFi-based HAR 设计的新模型，能够在减少数据存储需求的同时，更有效地适应 WiFi 数据的动态变化特性。

3 方法

EFCIL问题定义：在无样本类增量学习（EFCIL）中，模型按顺序学习任务集 \{T_t\}_{t=1}^T，每个任务引入一组独特的类别 C_t，且任务之间没有类别重叠。模型仅访问当前任务的训练集 \{X_t, Y_t\}，其中 X_t 是样本，Y_t 是对应的标签，而不存储先前的任务样本。EFCIL 的目标是最大化在所有已遇到的类别（截至 T_t）上的分类准确性。

ConSense框架介绍：通过动态模型扩展和选择性再训练来保留已学知识并学习新类别。在增量学习过程中，可训练的前缀（prefixes）被添加到多头自注意力（MHSA）层中，同时采用一种动态选择性再训练策略，根据神经元在不同任务中的性能稳定性调整 MLP 的权重。整体框架如图 2 所示。

3.1 预备知识

输入：基于 WiFi 的人体活动识别（HAR）利用信道状态信息（CSI）捕捉信号特性（如相位和幅度）的细微变化，这些变化由环境交互和人类运动引起。CSI 能够跟踪多个子载波频率下的这些变化，通过分析信号与物理障碍物的相互作用及其在特定空间中的动态变化，提供了一种精确的活动识别方法。

位置编码、多头自注意力层MHSA、多层感知机等预备知识略去。

3.2 训练流程

ConSense 的训练流程包括初始训练阶段和增量训练阶段。

在初始训练阶段，模型学习第一组类别，此时所有模型参数（包括 MHSA 层、MLP 和分类器中的权重）都是可训练的。当初始训练阶段完成后，MHSA 层中的参数被冻结为 W_{\text{frozen}}^{(\text{MHSA})} = \{W_{\text{frozen}}^Q, W_{\text{frozen}}^K, W_{\text{frozen}}^V\}。

在增量训练阶段，动态扩展 MHSA 层，并选择性地重新训练 MLP。关于 MHSA 的动态扩展和 MLP 的选择性再训练的详细内容如下所述。

3.2.1 输入

CSI 被组织成维度为 T_{\text{temp}} \times C_{ch} 的结构，其中 T_{\text{temp}} 表示时间维度，定义为 T_{\text{temp}} = v \cdot s（数据包采集的频率 · 动作的采样时间）。通道维度 C_{ch} 定义为 C_{ch} = e \cdot g（发射和接收天线组合的数量 · 每对天线的子载波数量）。

3.2.2 MHSA 层的动态扩展

核心思想：无需存储样本，通过向 MHSA 层添加任务特定的前缀同时保留旧知识并获取新知识。

通过固定模型参数并仅更新前缀，系统可以在保持适应性的同时避免灾难性遗忘。具体而言，每个 MHSA 层包含 H 个注意力头，向这些层添加前缀可以实现类增量学习。具体公式如下：

W_i^{K'} = [P_K^t, P_{K,\text{frozen}}^{t-1}, W_{\text{frozen}}^K], \\ W_i^{V'} = [P_V^t, P_{V,\text{frozen}}^{t-1}, W_{\text{frozen}}^V]. \tag{2}

自注意力层中一个头的输出公式为：

\text{head}_i = \text{Attention}(Q_i, K_i', V_i'), \tag{3}

其中 Q_i = X W_{\text{frozen}}^Q, K_i' = X W_i^{K'}, V_i' = X W_i^{V'}。

为了有效整合先前知识与新信息，模型按顺序将新的可训练前缀 P_K^t 和 P_V^t 与之前冻结的前缀 P_{K,\text{frozen}}^{t-1} 和 P_{V,\text{frozen}}^{t-1} 拼接起来。然后，这些拼接后的前缀与始终冻结的权重 W_{\text{frozen}}^K 和 W_{\text{frozen}}^V 合并（任务之间的平滑过渡和已学特征的保留）。

尽管前缀适用于类增量学习任务，但其随机初始化可能导致性能不稳定，因为初始权重会有所不同。为解决这一问题，我们借鉴了并行注意力设计，使用parallel adapter来稳定前缀。具体而言，对于输入序列 X，前缀生成公式为：

P_K, P_V = \text{Adapter}(X) = \text{Tanh}(X W_{\text{down}}) W_{\text{up}}, \tag{4}

其中 \text{Tanh} 是激活函数，W_{\text{down}} 和 W_{\text{up}} 是parallel adapter缩放层的参数。W_{\text{down}} 是一个线性变换层，用于降低 X 的维度，而 W_{\text{up}} 是另一个线性变换层，用于扩展变换后的输出。

3.2.3 MLP 的选择性再训练

为什么再训练MLP：虽然 MHSA 层通过线性变换捕捉 CSI 信号的时间特征，但新增的 MLP 层引入了非线性变换，以更好地捕捉复杂特征。

为什么选择性：避免遗忘问题。

该方法主要包括三个主要步骤：计算每个神经元的平均激活值、识别稳定神经元，并生成冻结掩码用于参数更新。这一过程独立应用于 MLP 中的每个线性层。

第一步：计算神经元的平均激活值

给定一个训练集，我们首先计算第 l 层中每个神经元的平均激活值 \bar{a}_p^{(l)}，定义如下：

\bar{a}_p^{(l)} = \frac{1}{B} \sum_{q=1}^B a_p^{(q, l)}, \tag{5}

其中 B 是训练集的大小，l 表示层索引，a_p^{(q, l)} 是第 l 层中第 p 个神经元在第 q 个样本上的激活值。

第二步：识别稳定神经元

接下来，将当前任务的激活值与前一任务的激活值进行比较，我们可以识别出每层中的稳定神经元集合 S^{(l)}，定义为：

S^{(l)} = \{ p \mid \| \bar{a}_p^{(l, t)} - \bar{a}_p^{(l, t-1)} \|_2 \leq \epsilon \}, \tag{6}

其中 \epsilon 是预定义的阈值，\bar{a}_p^{(l, t)} 和 \bar{a}_p^{(l, t-1)} 分别表示第 l 层在当前任务和前一任务中的平均激活值。

第三步：生成冻结掩码

最后，基于每层的稳定神经元集合 S^{(l)}，我们生成冻结掩码集 M^{(l)} = \{ M_W^{(l)}, M_b^{(l)} \}。具体而言，M_W^{(l)} 和 M_b^{(l)} 分别是对应于第 l 层权重矩阵 W^{(l)} 和偏置向量 b^{(l)} 的掩码矩阵，并初始化为全 1。对于稳定神经元集合 S^{(l)} 中的神经元，其对应的 M_W^{(l)} 和 M_b^{(l)} 中的值被设置为 0。

反向传播中的应用

在反向传播过程中，这些掩码被应用于所有层，通过识别 M_W^{(l)} 和 M_b^{(l)} 中值为 0 的位置，将相应位置的梯度 \nabla W^{(l)} 和 \nabla b^{(l)} 设置为 0，从而确保这些参数不被更新。未被冻结的参数则继续正常更新。

4 实验

4.1 实验设置

数据集
- WiAR 包含 480 条 CSI 样本，均匀分布在 16 个不同的类别中。
- MMFi 包含 2700 条 CSI 样本，均匀分布在 27 个类别中。
- XRF 最初包含 55 个类别，由于本文专注于单人活动识别，排除后剩下 48 个类别，共 960 条 CSI 样本。
- 作者还分成了两类任务：短任务和长任务。短任务即每个任务涵盖更多的类别，总任务数少。长任务即每个任务涵盖类别数少，总任务数多。例如对于XRF，短任务48=24+6+6+6+6，长任务48=6+6+6+6+6+6+6+6。
基线：LWF、PASS、R-DFCIL、PRD、ConTraCon
评估指标
- 平均准确率：每个任务完成后，包含第 t 个任务在内的所有已学类别的准确率。
- 平均遗忘度量：对于每个任务 t，预测前一个任务 k 的遗忘度量记为 f_k^t，其定义为：
f_k^t = \max_{z \in \{1, \dots, k-1\}} (\alpha_{z,t} - \alpha_{z,k}),
- 其中 \alpha_{m,j} 表示在训练任务 m 后任务 j 的准确率。平均遗忘度量表示最后一个任务的遗忘程度，记为 \bar{F}，计算公式如下：
\bar{F} = \frac{1}{N-1} \sum_{k=1}^{N-1} f_k^N.
超参数见论文。

4.2 对比结果

性能对比
- 表 2 和表 3 分别展示了平均准确率和平均遗忘度量的实验结果。
- 同时表2还展示了模型参数数量，可以看出ConSense 特别适合在边缘设备。

每个任务的准确率
- 图 3 展示了 ConSense 与其他方法在三个数据集上对每个任务的识别准确率对比。
- 随着任务数量的增加，ConSense 相对于其他方法的性能优势愈发明显。这说明我们的方法在处理 CSI 数据时，能够更好地平衡知识的遗忘与获取。

消融实验
- MHSA动态扩展是策略1，MLP选择性再训练是策略2，消融结果如下表。

论文笔记《ConSense: Continually Sensing Human Activity with WiFi via Growing and Picking》