- 论文 - 《Potential of Large Language Model for Activity Recognition in Activities of Daily Living: A Systematic Review》
- 关键词 - 综述、大语言模型LLM、人类活动识别HAR、日常生活活动ADL
注意本文不完整,只摘录了博主感兴趣的章节。
摘要
- 研究背景:LLMs正在越来越多地被用于推动活动识别并支持日常生活活动(ADLs)。
- 本文贡献
- 本综述综合了2022年至2024年间发表的32项研究的成果,重点关注以下三个主要应用领域:
- 用于识别任务的LLM:包括基于传感器的ADL分类、多模态融合以及零样本学习;
- 用于辅助技术的LLM:如社交机器人、外骨骼控制,以及面向残障用户的语音/手势接口;
- 驱动仿真的LLM:涵盖为智能家居测试自动生成真实日常场景的应用。
- LLM优势:LLM展现了在识别准确性、自然语言交互和系统适应性方面的显著提升。它们擅长捕捉上下文细节,能够实现个性化推荐,并减少对大量标注数据的依赖。
- 挑战:大型模型带来的计算开销、prompt engineering的限制、家庭环境中的隐私问题,以及LLM输出的可解释性不足。
- 本综述综合了2022年至2024年间发表的32项研究的成果,重点关注以下三个主要应用领域:
- 尽管存在这些局限性,已有研究表明,将LLM与结构化的机器学习流程或神经符号方法(neuro-symbolic approaches)相结合,可以开发出强大且用户友好的ADL支持工具。这些努力对于扩展下一代智能ADL辅助系统、为老年人和残障人士带来实际益处至关重要。
1 引言
- 自动化人体活动识别(HAR)是环境智能应用的核心组成部分,传统的 HAR 系统依赖于基于传感器的方法,包括可穿戴与非可穿戴设备。然而,这些系统面临多个局限性,包括数据分析的计算复杂度、用户隐私问题以及佩戴不适感。
- 此外,复杂的日常生活活动(ADL)通常由多个微小动作组成,这进一步增加了传统 HAR 方法识别的难度。
- 近年来 LLMs 的发展也为智能家居和辅助技术中 HAR 的改进迈出了重要一步。凭借其模拟人类智能的能力、准确感知泛化环境、做出相应反应并理解人类活动的功能,LLMs 在提升 HAR 系统效率与准确性方面展现出巨大潜力。
- 本文工作:本研究探讨了如何通过结合外部知识库、实时反馈和灵活工具来增强 LLMs 的能力,使其能够与动态环境互动、处理突发情况并执行现实任务。
- 本文意义:尽管最近的研究强调了 LLMs 在零样本 ADL 识别、辅助技术以及智能家居中模拟类人活动等方面的应用潜力,但目前相关研究仍较为分散,缺乏系统性评估。
2 方法
本文采用主题场景分析法 ,探索LLM在 智能家居与康复环境中辅助日常生活活动(ADLs)和工具性日常生活活动(iADLs) 的潜在应用。
作者这个章节介绍的是如何筛选出符合本文主旨论文的方法,包括数据来源与搜索策略、纳入与排除标准、数据提取与筛选、数据综合,在此略过。
- 在分析提取的数据后,在所选文献中识别出三个不同的主题:
- 第一个主题 强调LLMs作为识别代理的作用,在动态环境和辅助技术中优化活动识别性能。这包括处理原始传感器数据以实现实时自适应任务的能力;
- 第二个主题 探讨了LLMs与辅助技术的整合,展示了其在提升日常生活独立性和改善个性化、自然人机交互方面的潜力;
- 第三个主题 则突出了LLMs在模拟多样化和动态化日常活动中的变革性作用。
3 结果
3.1 文献特征描述
根据第二部分的方法流程,最终筛选得到的32篇论文可以分成以下几类:
- 识别任务 (Recognition tasks)是研究的重点,占比47%,主要集中在图像与模式识别方面。
- 辅助技术 (Assistive technology)占40%,探索LLMs如何提升可访问性。
- 模拟任务 (Simulation tasks)占13%,强调LLMs在建模与测试复杂系统中的应用。
- 多模态应用 (Multimodal applications),即结合识别任务与传感技术的应用,以及优化或认知类应用虽然数量较少,但也体现了创新性。

由于后面对于文章的介绍,博主也没看过,难以进行精简,因此直接翻译复制了。
3.2 LLM in 识别任务
LLMs正在多个领域重塑识别任务,展现出卓越的适应性与准确性(见表2)。


近期研究已将LLMs应用于人体活动识别、面部情绪识别(FER)[43][31]、手势识别[34] 和异常检测[44],展示了其在零样本学习、上下文适应和任务泛化方面的强大能力。
[18][19] 中采用“命名调优”(Name Tuning)方法,成功将LLMs集成到活动识别系统中。该方法通过优化类别名称向量,增强细粒度视频分类中的语义可分性,从而显著提升系统的整体精度与效能。这一方法在复杂日常生活活动(ADLs)识别中表现出色。
[12] 提出了 ADL-LLM 框架,将原始传感器数据转换为文本描述,实现无需标注数据集的零样本活动识别,并达到较高准确率。这种能力对于实现实时、自适应的识别任务至关重要 [11][26]。
LLMs 的多功能性还延伸到基于传感器的系统中,它们可以建议最优的传感器布局和特征增强。例如,通过分析 Opportunity 数据集,ChatGPT 生成的传感器推荐方案在性能上与配备完整传感器阵列的模型相当,突显了 LLMs 在优化硬件使用方面的高效性 [23]。
在多人场景中,LLMs 能有效利用环境传感器数据和提示工程,提高识别复杂日常生活活动(ADL)的准确性,使其成为适用于复杂现实世界应用的有力工具 [24]。
LLMs 在旨在提升生活质量的特定识别任务中也发挥着关键作用。一个结合图像描述生成与 ChatGPT 的系统,能够为视障用户提供详细的环境描述,通过物联网与深度学习的集成,增强了其情境感知能力 [17]。
EchoGuide 利用 LLMs 结合智能眼镜中的声学与视觉传感器来追踪进食行为。通过总结和分析视频数据,EchoGuide 显著减少了数据量,同时保留了详细的活动记录,是个人健康监测中可扩展解决方案的一个典范 [22]。
此外,将来自 ADL 传感器数据的潜在语义嵌入与 GPT-3.5 等LLM相结合,可以生成具有可解释性的细粒度微活动描述,提升了活动识别系统的可解释性,并为在复杂 ADL 识别任务中实现虚拟监督开辟了有前景的方向 [45]。
除了物理活动识别之外,LLMs 在治疗和对话领域也发挥着变革性作用。例如,一个将 LLMs 与社交机器人结合的框架,通过生成与阿尔茨海默病患者记忆相契合的个性化视觉刺激,增强了回忆疗法的效果,支持情绪健康与记忆恢复 [25]。
此外,由 LLM 驱动的对话问答(CQA)系统可以在无需人工干预的情况下模拟人类对话,提供准确、多样且全面的交互体验。这些 LLMs 同时扮演“学生”和“教师”的角色,在生成有意义的对话数据方面优于传统的人工标注系统 [31]。
3.2 LLM in 辅助技术
近年来的研究进展表明,LLM驱动的人机交互在痴呆症护理 [40]、辅助机器人中的对话式人工智能 [15] 以及物理辅助机器人的语音接口等方面均展现出显著成效。此外,LLM驱动的解决方案还被探索用于受限人形任务规划的神经符号AI [42],以及面向盲人用户的交互系统 [46],这些都凸显了LLM在多种照护场景和用户群体中的广泛应用潜力。
3.2.1 LLM 在智能家居辅助技术中的增强应用
将LLM集成到辅助技术中,显著推动了旨在提升残障人士生活质量的系统发展。
例如,一个概念验证系统结合图像描述生成与 ChatGPT 技术,为视障用户提供详细的环境描述。通过深度学习和物联网(IoT)技术的融合,该系统增强了用户的情境感知能力,从而促进其在日常活动中的独立性 [17]。
同样地,配备RGB摄像头和OCR技术的智能眼镜,使部分视力受损者能够与基于文本的内容进行交互 [30][33]。通过将LLM用于文本分析,确保提供个性化的响应,支持诸如阅读菜单等视觉交互任务 [30]。
LLMs 在改进护理和康复领域的人机交互方面也发挥着关键作用。例如 DryAIREC 系统利用 ChatGPT 通过自然语言输入调整物理护理任务以适应个体偏好,从而提升机器人执行个性化关节活动度训练的能力 [13]。
此外,与LLM集成的手部外骨骼可以通过语音命令解读用户意图,实现预定义任务和新任务的自适应控制。随着时间推移,外骨骼控制器变得越来越自主,减少了对LLM指导的依赖,同时提升了用户的移动性和功能性 [29]。这一转变突出了LLM在实时学习和适应辅助设备方面的革命性潜力。
3.2.2 LLM 增强辅助机器人中的通信与自主性
LLMs 还改变了辅助机器人中的语音接口,解决了运动障碍用户所面临的挑战。
VoicePilot 是一个旨在增强用户与机器人(如Obi feeding device)之间交流的系统,允许使用高级别的个性化语音命令。通过在真实环境中进行迭代测试,该框架不断优化,实现了任务定制、顺序执行和社会互动功能,最终提高了用户的自主性和体验 [35]。
与此同时,配备LLM的社会辅助机器人(SAR)系统可执行标准化的身体健康评估,如10米步行测试,为临床医生提供可靠的数据,同时减轻他们的工作负担 [14]。这些进展展示了LLM在提升用户体验和临床效率两方面的双重潜力。
除了语音交互,LLMs 还通过手势控制增强自然的人机交互。一个基于LLM解释自发性手部动作的框架,利用多代理系统将用户动作映射到智能家居功能上。这种零样本方法在控制家居设备和浏览在线媒体等任务中表现出很高的理解准确性,强调了LLM在扩展交互方式方面超越传统界面的多功能性 [34]。
3.3 LLMs 作为模拟代理的潜力
将LLMs引入智能家居模拟系统,显著提升了这些环境的真实性和适应性。
传统的模拟方法通常依赖于预定义脚本或有限的数据集,这往往导致活动模式重复且缺乏动态变化。而借助LLMs,研究人员开发出了能够为虚拟智能体生成多样化且符合情境的日常活动序列的系统。这一进展不仅降低了用户场景设置的复杂性,也大大拓展了模拟活动的多样性与通用性,从而提升了智能家居技术的开发与测试效率 [36]。
除了在单个智能家居中的应用,LLMs 还被集成到智能体框架中,用于模拟城市环境下的日常活动。该方法利用LLMs处理语义数据的能力,生成贴近真实人类行为的个性化移动模式。该框架的关键组成部分包括:将LLMs与实际城市出行数据对齐,并开发可靠的活动生成策略。评估结果显示,该方法能够有效捕捉个体移动的时间特征,为城市规划和交通研究提供了有价值的洞察 [37]。
4 讨论
- 本系统综述对大型语言模型在日常生活活动(ADL)识别中的应用进行了全面分析,发现现有研究仍存在多个局限性:
- 数据集限制:许多研究依赖于有限或特定的数据集,无法充分反映真实世界场景和人群的多样性。
- 计算资源需求高 :某些方法(如迭代演化过程)具有较高的计算需求,不利于大规模数据集或实时应用场景下的可扩展性。
- 提示工程依赖性强 :许多研究需要精心设计的prompt来实现有效的LLM性能,限制LLM系统在动态环境中的适应能力。
- 隐私问题突出 :特别是在智能家居环境中,系统的功能往往依赖于对个人数据的采集和处理,因此隐私保护成为一个重要的关注点。
- 可解释性不足 :LLM 决策过程的可解释性仍然是一个挑战,这可能限制其在关键应用场景中的信任度和采纳率。
- 缺乏长期适应能力 :某些应用中还发现了系统在长期适应用户偏好和细微情境背景方面的不足。
- 评估方法不统一 :不同研究采用的评估方法存在差异,无法全面反映系统在更广泛人群或应用场景中的有效性。
- 与现有技术整合的挑战 :LLM 与现有技术的融合也面临挑战,例如当最先进的组件出现故障时,可能导致错误级联的问题。