论文笔记《Challenges in Video-Based Infant Action Recognition:  A Critical Examination of the SOTA》

论文笔记《Challenges in Video-Based Infant Action Recognition: A Critical Examination of the SOTA》

Administrator 6 2025-06-05
  • 论文 - 《Challenges in Video-Based Infant Action Recognition: A Critical Examination of the State of the Art》
  • 代码 - Github
  • 关键词 - WACV、婴儿动作识别、综述、数据集贡献

摘要

  • 研究问题:对婴儿进行精确的动作识别具有多重关键作用,包括安全监护、发育里程碑追踪、早期干预发育迟缓、促进亲子关系建立、推动计算机辅助诊断的发展,并有助于科学地理解儿童发育过程。
  • 本文工作
    • 本文引入了一个开创性的数据集“InfActPrimitive”,该数据集涵盖了五个重要的婴儿发育里程碑动作类别,并针对婴儿数据设计了专门的预处理方法。
  • 实验
    • 基于该数据集,作者采用当前最先进的基于骨骼点的动作识别模型进行了广泛的对比实验。
    • 研究结果表明,大部分模型在捕捉婴儿动作动态特征方面仍表现不佳。这一发现凸显了婴儿与成人动作识别领域之间存在的显著知识差距,并突显出开发高效数据利用的模型和处理流程的迫切需求。

1 引言

  • 本文聚焦于识别婴儿基本的运动原始动作(motor primitive actions),具体包括五种基于姿势的动作:sitting、standing、supine、prone以及all-fours(四肢着地姿势),这些动作依据的是阿尔伯塔婴儿运动量表(Alberta Infant Motor Scale, AIMS)的定义。
  • 为了更准确地识别这些动作,采用了基于骨骼点的模型。
    • 基于骨骼的优点:数据高效、抗数据干扰
  • 现有基于骨骼的人类动作识别模型
    • 主要聚焦承认领域,并高度依赖大规模、高质量的标注数据集。
    • 然而,由于婴儿与成人在身体结构、姿态特征、动作范围以及运动基本单元等方面存在显著差异,导致两者之间存在着明显的领域差距。
  • 本文重点研究如何将基于成人数据训练出的动作识别模型迁移到婴儿动作数据中,探讨从成人到婴儿的数据迁移策略,并采用数据高效的建模方法。
  • 本文的主要贡献包括:
    • 引入了一个全新的婴儿动作识别数据集——“InfActPrimitive”,包含了五个婴儿运动发展的基本动作类别。
    • 基于当前最先进的基于骨骼点的动作识别模型,在 InfActPrimitive 数据集上进行了基线实验。
    • 深入分析了将动作识别模型从成人数据迁移到婴儿数据过程中所面临的挑战。

2 相关工作

  • 本节主要综述了人体动作识别相关的技术方法以及针对婴儿的相关文献。
  • 循环神经网络
    • 长短期记忆网络(LSTM)和门控循环单元(GRU),将骨骼序列视为时序向量,主要关注捕捉时间维度上的信息。然而,这些方法往往忽略了骨骼数据中蕴含的空间关系 [14]。
    • Shahroody 等人 [22] 提出了一种部件感知(Part-aware)的 LSTM 模型,通过使用多个堆叠的 LSTM 分别处理不同组别的身体关节,并通过全连接层融合输出结果,从而增强了对时空模式的建模能力。
    • 文献 [16] 则提出了全局上下文感知注意力 LSTM,该模型引入了一种循环注意力机制,能够有选择地强调每一帧中具有判别性的关键关节点。
  • 图卷积网络
    • GCN 它能够高效地表示时空骨骼数据,通过将动作的本质复杂性编码为一系列相互连接的图结构来实现建模。
    • 时空卷积网络(Spatial-Temporal GCN) 引入了帧间边(inter-frame edges),将连续帧中对应的关节点连接起来。这种方法增强了帧间关系的建模能力,从而更好地理解骨骼数据中的时间动态特性。
    • InfoGCN [2] 结合了学习目标与编码方式,采用基于注意力机制的图卷积方法,有效提取了人体动作中的判别性信息。
  • 3D卷积网络
    • 3D卷积网络通过基于图像的表示方式来捕捉骨骼序列中的时空信息。
    • Wang 等人 [27] 使用 HSV 颜色空间将关节点轨迹编码为纹理图像,但该模型在轨迹重叠以及历史时间信息丢失的情况下性能下降。
    • Li 等人 [13] 通过将骨骼关节点之间的成对距离编码为纹理图像,并利用颜色变化表示时间信息,从而缓解了这一问题。
  • 针对婴儿的计算机视觉研究
    • 大多集中在婴儿图像的任务上,如姿态估计 [7, 31]、面部关键点检测 [24, 32]、姿势分类 [8, 10] 和3D合成数据生成 [18]。
    • 文献 [20] 对在成人面部数据上预训练的 VGG-16 模型进行了微调,用于婴儿面部动作单元识别。
    • Zhu 等人 [32] 提出了一种基于CNN的流程,利用夜间婴儿床监控视频检测并进行非营养性吸吮模式的时间分割。
    • [3] 提出了 BabyNet,该方法采用 ResNet 模型后接 LSTM,用以捕捉标注边界框的空间与时间关联,从而识别抓取动作的起始与结束,并检测完整的抓取行为。
    • 然而,这些研究主要关注有限的面部动作或特定动作的检测,忽略了涉及多种姿势和体态变化的复杂动作
    • Huang 等人 [9] 在一定程度上解决了这个问题,他们构建了一个包含多样化的婴儿动作、每类动作样本数量较少的小型数据集。同时作者开发了一个姿势分类模型,将其应用于输入视频的每一帧,提取姿势概率信号;随后使用双向 LSTM 对该信号进行分割,估计姿势转换及其对应的动作风格。尽管该研究提供了一个具有挑战性的婴儿动作数据集,但其动作识别流程并非端到端的方式
  • 本文不同之处
    • 作者对 Huang 等人 [9] 的研究中最初使用的数据集进行了扩展与增强,构建了一个更加鲁棒的数据集。
    • 此外,作者还收集了更多婴儿在自然环境中的视频片段,涵盖了白天的游戏时间和夜晚的休息状态,拍摄场景包括玩耍环境和婴儿床等多种真实生活情境。
    • 最终,作者通过一种全面的端到端方法来应对婴儿动作识别这一复杂任务,并特别关注从成人领域向独特婴儿领域迁移动作识别模型所面临的各项挑战。

3 方法

本节将介绍用于建模婴儿骨骼序列的数据集和处理流程,旨在为婴儿动作识别构建具有区分性的表示方法。首先,将介绍作为本研究基础的 InfActPrimitive 数据集,随后详细介绍整个处理流程,该流程涵盖了从接收视频帧作为输入到预测婴儿动作的全过程。


3.1 InfActPrimitive 数据集

InfActPrimitive 来源于两个渠道:

  1. 由招募参与者提供的视频
  2. 从公共视频分享平台获取的视频(改编自[9]的研究)

InfActPrimitive 共包含 814 段婴儿动作视频,涵盖五种基本的运动原始动作,分别代表特定的姿势状态:坐、站、俯卧、仰卧以及四肢着地。这些动作来源于AIMS婴儿运动量表。每一段动作的起始与结束时间都在该数据集中进行了精确标注。

图1展示了来自 InfActPrimitive 数据集中多个视频的截图,右半部分展示了根据数据来源对 InfActPrimitive 数据集进行的统计分析。

paper63-1.webp

3.2 婴儿动作识别流程

如图2所示,我们的婴儿动作识别流程主要包括三个关键模块:婴儿特定预处理骨骼数据预测以及动作识别。通过该流程,输入视频帧将依次经过各模块处理,最终生成适用于多种最先进动作识别模型的婴儿专属骨骼数据表示。

paper63-2.webp

预处理阶段

输入视频 ​ V 被表示为包含 ​ T 帧的序列:​V = \{f_1, ..., f_t, ..., f_T\} ,作者对 YOLOv7 模型 进行了定制化改进,用于在每一帧中检测婴儿的位置,并将其包围框(bounding box)作为感兴趣区域(Region of Interest, ROI)提取出来。

随后,我们在该区域内进一步提取婴儿的二维或三维骨骼姿态预测结果:​x_t \in \mathbb{R}^{J \times D} 。其中,​ J = 17 表示骨骼关节点的数量;​ D \in \{2, 3\} 表示坐标的维度(2D 或 3D)。

为了更准确地适应婴儿领域,作者采用了以下两种专门优化的姿态估计模型:

  • FiDIP 模型:一种针对婴儿领域的微调与域适配的2D姿态估计模型;
  • HW-HuP-Infant 模型:一种基于启发式方法并采用弱监督策略训练的3D婴儿姿态估计模型。

这些模型能够生成高质量、适合婴儿身体结构的骨骼点数据,从而为后续的动作识别任务提供可靠的输入。


婴儿与成人骨骼对齐

在基于骨骼的动作识别领域,一个主要挑战在于不同数据集和场景下骨骼结构存在显著差异。为了协调这些骨骼结构差异,使动作识别在不同骨骼表示下依然具有鲁棒性,是我们研究中的关键问题之一。

如图3所示,NTU RGB+D 数据集中每个样本包含25个3D关节点的位置信息;而我们的 InfActPrimitive 中婴儿的3D骨骼布局则基于 Human3.6M 的骨骼结构,共包含17个关节点。为了统一两个数据集的关节点数量并实现骨骼数据的对齐,从 NTU RGB+D 中选取与 Human3.6M 骨骼结构中相对应的一组共同关节点,并对它们进行重新排序,使得两种骨骼结构尽可能一致。

对于二维骨骼表示,NTU RGB+D 和 InfActPrimitive 均基于 COCO 骨骼结构,因此无需额外调整即可保持一致性。

paper63-3.webp

动作识别

预处理完成后,将从输入视频中提取出的婴儿身体关键点序列,输入到多种最先进的基于骨骼的动作识别模型中,以充分利用婴儿特定的姿态表示特征。作者将这些基于骨骼的模型分为三类:CNN-basedGCN-based 以及 RNN-based,从而全面挖掘姿态数据中蕴含的信息,并对各类模型的表现进行系统比较分析。

  1. 循环神经网络结构(RNN)

这类模型用于捕捉骨骼数据中空间特征的长期时间相关性。我们采用了 部件感知 LSTM(Part-aware LSTM) [22] 方法,将身体关节点划分为五个部分组别,并使用独立的LSTM流分别处理每一部分。在每一个时间步 ​ t ,输入 ​ x_t 被拆分为 ​ (x_1^t, ..., x_P^t) ​ P 个部分,对应于身体的 ​ P 个部位。这些输入被分别送入 ​ P 条独立的 LSTM 模块,每条 LSTM 流拥有自己的输入门、遗忘门和调制门。然而,输出门会在所有身体部位及其对应的 LSTM 流之间共享并进行拼接,从而实现跨部位的全局信息融合。

  1. 图卷积网络(GCN)

图卷积网络将骨骼数据建模为图结构,关节点为节点,连接关系为边。为捕捉时间动态,作者使用 ST-GCN 建模帧间关节连接,并采用 InfoGCN 引入空间注意力机制,增强关节拓扑表达能力。

此外,作者还采用了 InfoGCN 模型引入空间注意力机制,增强关节拓扑表达能力。InfoGCN 使用了一个由图卷积和注意力机制组成的编码器模块,来推导出类别相关的特征表示。具体来说,它学习了多变量高斯分布的均值向量 ​ \mu_c 和对角协方差矩阵 ​ \sigma_c 。通过引入辅助噪声 ​ \varepsilon \sim N(0, I) ,潜在向量 ​ Z 可以采样为:​Z = \mu_c + \Sigma_c \varepsilon 。模型的解码部分由一个线性层和 Softmax 函数组成,用于将潜在向量 ​ Z 转换为类别概率分布。

  1. 三维卷积网络(3D CNN)

3D卷积网络主要用于基于RGB视频的动作识别,能同时捕捉空间和时间特征。为利用其优势,我们将每帧关键点转换为以关节点为中心的高斯热力图。随后采用 PoseC3D [4] 方法,沿时间维度堆叠热力图,使3D-CNN有效处理骨骼动作数据。最后,通过由线性层和Softmax组成的分类器输出动作类别概率。


4 实验

4.1 实验设置

  • 数据集
    • NTU RGB+D:包含RGB视频帧以及对应的3D骨骼信息。涵盖60种不同的动作类别。作者使用 HRNet 来估计视频中的二维姿态,最终得到17个关节点在二维空间中的坐标位置。由于该数据集中每段视频至少包含两名受试者,我们的评估采用了cross-subject设置(一个训练另一个测试)。
    • InfActPrimitive: 将训练集设定为所有来自 YouTube 的视频样本,自主采集的数据作为测试集。

4.2 实验结果

  • 基线实验
    • 根据第3.2节所述方法,分别在 NTU RGB+D 和 InfActPrimitive 数据集上从头开始训练多种动作识别模型。
    • 表1中前两列展示了基于 NTU RGB+D 和 InfActPrimitive 数据集的2D骨骼序列实验结果;第四和第五列则对应3D数据下的实验表现。
      • 结果显示,PoseC3D 在成人和婴儿动作识别任务中均优于其他模型。婴儿动作识别与成人之间仍存在显著性能差距
    • 图4展示了 PoseC3D、InfoGCN 和 ST-GCN 方法的混淆矩阵。
paper63-4.webp
paper63-5.webp

  • 迁移学习实验

    • 为利用成人动作识别模型的知识,我们将模型权重在 NTU RGB+D 上预训练后迁移至婴儿任务,仅对分类器部分进行随机初始化。
    • 由于 InfActPrimitive 数据量有限,我们构建了一个与之类别和样本量匹配的 NTU 子集进行对比实验。
    • 实验结果表明,成人数据在潜在空间中具有更好的类间可分性,而婴儿数据的可分性较弱,反映出跨领域迁移的局限性。这突显了婴儿动作识别中领域适配建模针对性训练策略的重要性。
paper63-6.webp

  • 类内数据多样性实验
    • 研究类内多样性对动作识别模型性能的影响。
    • 传统的动作识别数据集通常具有明确的动作指令和较小的类内变化;而InfActPrimitive 数据集来源于真实环境下的视频片段,因此表现出更高的动作多样性。
    • 作者交叉验证训练实验:将训练数据集划分为五个子集,每次使用其中四个进行训练,剩余一个用于验证,原始 InfActPrimitive 的测试集用于最终测试。
    • 结果如表2所示,揭示了训练数据集中存在的不一致性,导致模型学习效果不稳定,也进一步突显了来自不同来源视频之间的差异性影响。
paper63-7.webp