论文 - 《Practically Adopting Human Activity Recognition》
代码 - Github
关键词 - Mobicom2023、IMU数据增强、云端协作、人体活动识别HAR

摘要

研究问题：现有的基于惯性测量单元（IMU）的人类活动识别（HAR）方法在实际跨用户使用时仍面临一个主要挑战。IMU 数据中严重的异质性显著削弱了模型在真实场景中的泛化能力。
本文工作 - UniHAR框架
- 一种适用于移动设备的通用 HAR 框架。
- 深入研究了通过 IMU 传感过程的物理特性来增强数据的方法，并提出了一种新颖的数据增强策略，以同时利用未标记和已标记数据。

1 引言

HAR实际部署挑战：由于现实世界中的多样性（例如不同的设备和使用模式）所导致的数据异质性，使得 HAR 模型在跨不同用户群体应用时性能显著下降。
思考：是否可以构建一个通用框架，支持在具有现实世界多样性的不同用户群体之间应用 HAR 模型，并且同时具备实际可接受的部署开销？
场景设计：目标用户在其本地设备上各自收集自己的数据，并且是未标记的。唯一可用的标记数据来自一小部分参与用户的共享（即源用户），这些数据数量有限，且可能在用户、使用模式、设备或环境方面存在偏差。此外，由于隐私和云端服务器负担问题，目标用户的数据不能传输到云端。
本文从数据增强的角度出发，通过引入物理知识来应对数据异质性问题。目前大多数IMU数据增强是从其他领域直接借鉴来的，没有考虑惯性传感背后的物理过程。根据该角度，将IMU数据增强方法分成三类：
- 完整型（Complete） ：完全符合物理原理；
- 近似型（Approximate） ：捕捉了底层物理过程，但采用了近似公式；
- 不可靠型（Flaky） ：不基于物理过程，可能会破坏数据分布。
本文提出了 UniHAR
- 一种通用的人类活动识别（HAR）框架，能够从异构的 IMU 数据中提取具有泛化能力的与活动相关的表征。
- 包含两个阶段：
  - 第一阶段：使用来自所有用户的大量未标记数据进行自监督学习，以提取特征；应用了完整性的数据增强，以对齐来自不同用户群体的数据分布。
  - 第二阶段：使用来自源用户的有限标记数据进行监督训练，以实现活动识别。同时应用了完整型和近似型数据增强，以提高数据多样性，从而提升模型的泛化能力。

2 动机

2.1 数据异质性

HAR应用中的数据多样性：不同的用户、设备、佩戴位置和环境导致数据多样性。
少数基于领域自适应的方法 [4, 17, 37, 65] 旨在缓解某些方面多样性带来的影响。
为了研究这些方法在面对数据异质性时的表现
- 作者采用了HDCNN和XHAR来区分活动类型，并评估它们在不同数据集上的性能。
- 选择了 UCI 和 MotionSense 数据集，将两个模型训练为从 UCI 数据集迁移到其他三个数据集。
- 结果如图 2(a) 所示，当跨数据集使用时，它们的性能显著下降。类似地，ASTTL 方法 [37] 在跨数据集迁移时平均准确率仅为 66.3%。
为了探究模型为何在实验中表现不佳
- 选取了两个数据集中共有的活动类型，并使用 t-SNE 将原始 IMU 数据可视化到二维空间中。
- 图 2(b) 明显表明，相同活动类型的 IMU 数据在两个数据集之间完全不匹配。
- 结论：现有的方法 (HDCNN和XHAR) 可能无法处理如此显著的数据分布差异，因此在跨数据集的 HAR 中无法实现令人满意的性能。

2.2 IMU数据增强

大部分IMU数据增强的方法都是借鉴自其他模态，在处理IMU数据异质性方面的有效性尚不明确。
为了研究这些增强方法的作用
- 以UCI数据集为例，应用经典的数据增强方法，使用两种深度学习分类器（GRU 和 CNN）对增强后的数据进行训练，并在MotionSense数据集上测试其性能。
- 如图3所示，许多数据增强方法并未提升在跨数据集HAR中的性能，一些方法甚至产生负面影响。

虚拟IMU技术 [19, 20]
- 目标是将人体活动视频转换为虚拟的IMU测量流，用于扩充训练数据，其过程遵循合法的物理规律。
- 局限：虚拟IMU需要额外的感知信息，包括活动视频和设备在身体上的位置，以重建设备的物理状态并生成虚拟IMU数据。当不具备额外的摄像头感知模态时，该方法无法普遍适用。

2.3 实验设置

现有研究：大部分在单一IMU数据集上评估，并未考虑跨数据集。
- 如2.1所述，这种结果无法推广到其他数据集上，泛化能力不够。
在本文中，作者将模型从一个数据集迁移到多个其他数据集上，以探究其泛化性能。

3 UNIHAR 概述

3.1 问题定义

本文HAR框架由云端服务器和多个客户端（用户）组成，每个客户端拥有一个由单个或多个移动设备收集的本地IMU数据集。其他客户端（目标用户）的本地数据集被定义为目标域 \mathcal{D}_T = \{\mathbf{X}^T_i\}_{i=1}^{n_T}。其中，\mathbf{X}^S_i 或 \mathbf{X}^T_i \in \mathbb{R}^{F \times M} 表示一个IMU样本，F 是传感器特征的数量，M 是IMU读数的数量。只有少量的源域数据集 \mathcal{D}_S 被标注了活动标签，表示为 \mathcal{D}_L = \{\mathbf{X}^S_i, y^S_i\}_{i=1}^{n_L}。\mathcal{D}_L 可能偏向于有限数量的 \{\text{device, placement, user, environment}\} 组合。

3.2 概览

如图4所示，UniHAR有两个训练阶段：

特征提取：

首先，所有本地未标记的数据集通过增强来对齐来自不同客户端的异构数据分布。
接着，编码器和解码器在各个客户端上单独训练，使用自监督学习技术学习高层特征。
最后，云端服务器将客户端的局部模型结合起来，生成一个通用模型。
简而言之，整个过程旨在解决以下问题：

\mathbf{w}^* = \arg\min_{\mathbf{w}} \ell_f(\mathbf{w}; \mathcal{D}_S, \mathcal{D}_T), \tag{1}

其中 \ell_f 表示损失函数，\mathbf{w} 表示编码器和解码器的权重。

活动识别：

服务器基于特征提取步骤得到的通用编码器，使用少量源用户的标记数据，并训练一个活动识别模型。数据增强也被集成进来，以丰富标记数据的多样性。
这一步中，活动识别器（包括编码器、细化模块和分类器）联合学习。
训练过程可以表示为：

\mathbf{c}^* = \arg\min_{\mathbf{c}} \ell_c(\mathbf{w}^*, \mathbf{c}; \mathcal{D}_L), \tag{2}

其中 \ell_c 表示损失函数，\mathbf{c} 表示活动识别器的权重。服务器分发活动识别器后，每个客户端无需额外训练即可利用它进行活动分类。

4 基于物理知识的数据增强

4.1 物理感知模型

UniHAR 增强了加速度计和陀螺仪传感器的读数，为 HAR 提供了更多的模态信息。

加速度定义为：

a = S_a(q, l, g) = q^* \otimes (l + g) \otimes q, \tag{3}

其中，l 和 g 分别表示设备在全局坐标系中由运动引起的加速度和重力加速度。单位四元数 q 表示设备的方向，即从全局坐标系到局部（身体）坐标系的旋转。q^* 是 q 的共轭，\otimes 表示哈密顿积。加速度读数 a 是在局部坐标系中将 l 和 g 相加后旋转得到的向量。

陀螺仪测量角速度 \omega，可用于通过公式推导方向 q 的变化：

q_t = q_{t-1} + \frac{\Delta t}{2} q_{t-1} \otimes \omega_t, \tag{4}

其中，\Delta t 是一个很小的值，例如 0.01 s，表示 q_t 和 q_{t-1} 之间的采样间隔。通过变换方程 (4)，角速度的感知模型可以表示为：

\omega_t = S_\omega(q, \Delta t) = \frac{2}{\Delta t} q_{t-1}^* \otimes (q_t - q_{t-1}). \tag{5}

4.2 数据增强模型

本章节主要是作者为三种类型的数据增强设计了许多增强方法，涉及到很多物理符号的变换公式，本文对其省略，感兴趣可以看原论文。

在本文中，提出了如图5所示的 IMU 数据增强的一般模型。q、l、g 和 \Delta t 是设备的底层物理状态，而传感器读数 a 和 \omega 是从这些物理状态观测到的结果：

(q, l, g) \xrightarrow{S_a} a, \quad (q, \Delta t) \xrightarrow{S_\omega} \omega, \tag{6}

其中，S_a 和 S_\omega 分别表示加速度计和陀螺仪的感知模型。在实践中，q 和 l 通常是未知的，而其他物理状态和观测结果是已知的。

数据增强是一种将观测从原始空间映射到增强空间的映射 F(\cdot)：

(a, \omega) \xrightarrow{F} (a', \omega'). \tag{7}

作者引入了“物理嵌入” G(\cdot) 的概念，用于将映射 F(\cdot) 与底层物理原理对齐，其定义如下：

定义 1：如果 G(\cdot) 将物理状态转换为 (q', l', g', \Delta t')，使得从转换后的物理状态观测到的结果等于 F(\cdot) 的增强观测结果，则称 G(\cdot) 是 F(\cdot) 的物理嵌入：

(q', l', g', \Delta t') \xrightarrow{S_a} a', \quad (q', \Delta t') \xrightarrow{S_\omega} \omega'. \tag{8}

在实践中，具有物理嵌入 G(\cdot) 的映射 F(\cdot) 表明，读数的变化可以通过现实中的物理过程实现。基于上述数学模型，作者在本文中定义了三种类型的数据增强：

完全数据增强：其映射 F(\cdot) 与物理嵌入 G(\cdot) 相关联，并且 F(\cdot) 可以通过原始观测和已知物理状态完全表达。
近似数据增强：其映射 F(\cdot) 与物理嵌入 G(\cdot) 相关联，但 F(\cdot) 涉及未知的物理状态，并可以通过已知状态的公式进行近似。
不可靠数据增强：无法找到支持其映射 F(\cdot) 的物理嵌入 G(\cdot)。

在本文中，将完全数据增强和近似数据增强统称为“基于物理知识的数据增强”，因为它们都得到了物理嵌入的支持。接下来，作者将根据这三种数据增强类型，开发更有效的增强策略，这些策略基于 IMU 感知的物理原理。

4.2.1 完全数据增强

加速度归一化

加速度计和陀螺仪读数通常具有不同的分布，范围差异可能会影响深度学习模型的性能。一种简单的方法是通过归一化加速度计读数与重力（9.81 \, \text{m/s}^2）来缩小这一差异，即：a' = F(a) = \frac{a}{\|g\|} 。

局部旋转

设备放置的多样性会导致IMU数据在三轴分布上的显著差异。为了模拟从不同设备方向收集的IMU数据，这种增强方法对设备施加额外的旋转，并在局部坐标系中增强方向，即：q' = G(q) = q \otimes \Delta q ，其中，\Delta q 是生成的旋转且已知。

增强后的观测可以从原始观测和已知的 \Delta q 推导出来，因此局部旋转是一种完全数据增强。局部旋转显著增加了原始读数在三轴上的分布多样性，并保留了其他人体运动信息，例如幅度和波动模式。

密集采样

现有研究简单地使用低重叠率（例如，零或 50% 的重叠）对 IMU 读数进行分割，从而导致数据利用率不足。为了充分利用收集到的 IMU 数据，可以采用高重叠率的密集采样方法。其理由是大多数日常活动具有周期性，这意味着任何时间点都可以被视为运动的起点。密集采样通过沿时间维度将观测值平移 n 个单位来实现，即 a'_t = F(a_t) = a_{t+n} 和 \omega'_t = F(\omega_t) = \omega_{t+n}，其中 n 是一个随机值。增强后的观测被划分为固定窗口，并输入到 HAR 模型中进行训练，这可以增加现有传感器读数的训练样本数量。其物理嵌入是相应地将物理状态平移 n，例如，l'_t = G(l_t) = l_{t-n}。由于 F(\cdot) 不需要未知的物理状态，因此密集采样也是一种完全数据增强。

4.2.2 近似数据增强

此类数据增强具有物理嵌入，但增强后的观测结果依赖于原始观测或已知物理状态的近似。

线性上采样

IMU 数据是离散信号，通过上采样可以丰富数据样本。线性上采样通过插值物理状态：

q'_t = G(q) = \alpha q_t + (1 - \alpha) q_{t-1}, \quad l'_t = G(l) = \alpha l_t + (1 - \alpha) l_{t-1},

其中，\alpha 是一个介于 [0, 1] 的值，\tilde{t} = \alpha t + (1 - \alpha)(t - \Delta t) = t - (1 - \alpha)\Delta t。

时间包裹（Time Wrapping）

同一类活动在不同用户之间可能由于行为模式的不同而存在持续时间上的差异。为了缓解时间上的发散问题，时间包裹加速或减缓了物理状态在时间维度上的变化，例如：q'_t = G(q) = q_{k \cdot t} ，其中，k 是一个缩放因子，通常选择在 [0.8, 1.2] 范围内。增强后的观测相应地在时间维度上被拉伸，例如：a'_t = F(a) = a_{k \cdot t}。

为了实现这种变换，时间包裹采用线性上采样来获得连续观测。因此，时间包裹也是一种近似数据增强，它增强了时间多样性，但也伴随着近似误差。

4.2.3 不可靠的数据增强

我们发现，许多IMU数据增强方法尽管在现有工作中被广泛采用，但并不具备物理嵌入。例如，一些数据增强方法会随机取反观测值或者沿时间维度反转观测序列。排列（Permutation）则是在一个时间窗口内将观测序列切分成若干段，并随机交换这些片段以生成新的序列。洗牌（Shuffling）则是随机重排传感器观测的通道，从而改变三轴分布。这些方法可能与底层的物理原理无关。添加额外随机噪声的抖动（Jittering）是一种特殊类型的不可靠数据增强。其目的是通过引入传感器噪声来增强传感器模型。然而，所使用的噪声分布可能与真实分布不匹配，而真实分布因设备不同而异，且难以确定。

不可靠的数据增强仅作用于IMU观测数据，无法用底层的物理过程加以解释。它们的应用可能会导致生成的数据分布中出现无界的误差。

4.3 数据增强的使用

UniHAR 根据不同数据增强方法的特性，在框架的两个阶段中采用不同的物理感知数据增强方法，其原理如图6所示。

特征提取阶段：仅对未标记数据应用完全数据增强。因为未标记数据来自不同的用户、设备和缓解，存在显著的领域偏移。此阶段引入数据增强的目的是泛化数据分布，并提高跨域数据的代表性，需要控制数据质量，防止大规模引入近似误差。
活动识别阶段：同时应用了完全数据增强和近似数据增强。此阶段引入数据增强的目的期望丰富源域的标签信息，并提升域内数据的代表性。由于有监督训练对误差更具鲁棒性，因此可以集成更广泛的数据增强方法。

在整个训练过程中，禁止使用不可靠数据增强，因为它们可能导致完全错误的数据分布。

5 实验

5.1 实现与实验设定

数据集：HHAR、UCI、MotionSense、Shoaib
- 这些数据集涵盖了广泛的 {用户、设备、佩戴位置、环境} 组合。
- 为了展示在数据集上的多样性。选择了四种在四个数据集都存在的活动，
基线：DCNN、TPN、LIMU-GRU、HDCNN、FN、XHAR
跨数据集评估：一个数据集当做带标签的源域，其他作为无标签的目标域，并且按照0.8、0.1、0.1划分训练集、验证集、测试集。
评估指标：平均准确率和F1分数。

5.2 整体性能

表3比较了UniHAR与其他基线模型在去中心化和集中化数据场景（具体场景介绍见论文第5章节）下的性能。
- 在去中心化数据场景中，UniHAR实现了78.5%的平均准确率和67.1%的F1分数，优于三个基线中的最佳结果至少15%。
- 对于集中化数据场景，大多数情况下，UniHAR-A在准确率和F1分数方面也优于HDCNN、FM和XHAR。

论文笔记《Practically Adopting Human Activity Recognition》

摘要