
微调 40
-
论文笔记《VideoLLM-online: Online Video Large Language Model for Streaming Video》
论文 - 《VideoLLM-online: Online Video Large Language Model for Streaming Video》 代码 - Github 关键词 - 流式视频、在线视频问答、视频大模型 1 引言 研究动机 现有大模型训练时通常将视频视为预定义的视频片段,导致
-
论文笔记《Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity》
论文 - 《Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity》 代码 - Github 关键词 - 指令微调数据集、InterVL2、视频大模型、视觉-语言大模型VLM、视频异常检测VAD、时序采
-
论文笔记《Video-LLaVA: Learning United Visual Representation by Alignment Before Projection》
论文 - 《Video-LLaVA: Learning United Visual Representation by Alignment Before Projection》 代码 - Github 关键词 - 微调、LanguageBind、Vicuna、视频大模型、视觉-语言大模型 0 比较不
-
论文笔记《MobileVLM V2: Faster and Stronger Baseline for Vision Language Model》
论文 - 《MobileVLM V2: Faster and Stronger Baseline for Vision Language Model》 代码 - Github 关键词 - 边缘智能、高效大模型、视觉-语言模型VLM 1 引言 动机:打造小型视觉-语言模型VLM。 本文工作 - Mob
-
论文笔记《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》
论文 - 《Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought》 代码 - Github 关键词 - reason推理能力、思维链COT、多模态大语言模型MLLMs、强化学习、新数据
-
论文笔记《SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced VLM》
论文 - 《SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model》 代码 - 预计开源 关键词 - 大小模型协作、视频异常检测、高效检测、
-
论文笔记《Open-Vocabulary Video Anomaly Detection》
论文 - 《Open-Vocabulary Video Anomaly Detection》 关键词 - 1 引言 过去的研究问题 - 开放集视频异常检测(open-set VAD) 目标:在仅提供正常视频和已见异常的情况下,检测测试集中未见过的异常。 局限:这种设定下关注的帧级别的异常得分,无法识
-
论文笔记《Uncovering What, Why and How: A Comprehensive Benchmark...of Video Anomaly》
论文 - 《Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly》 代码 - Github 关键词 - 新基准、新评估指标、因果推理、异常可解释性、视频
-
论文笔记《Video Anomaly Detection and Explanation via Large Language Models》
论文 - 《Video Anomaly Detection and Explanation via Large Language Models》 代码 - Github 关键词 - 弱监督视频异常学习WSVAD、大模型、视频大模型VLLM、微调、指令微调 1 引言 动机:基于异常评分的方法多年来占据
-
论文笔记《AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction...》
论文 - 《AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis》 代码 - 预计开源 关键词 - 实时、视频异常检测VAD、新数据集、Qwen-
-
论文笔记《HAWK: Learning to Understand Open-World Video Anomalies》
论文 - 《HAWK: Learning to Understand Open-World Video Anomalies》 代码 - Github 关键词 - 视频大模型、视频异常检测 VAD、框架设计、新微调数据集、运动模态、视频-文本、视频描述生成、视频问答 摘要 研究问题 现有的 VAD 系
-
论文笔记《Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM》
论文 - 《Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM》 代码 - Github 关键词 - 视频异常检测VAD、指令微调、视频大模型、ViT、监督学习 摘要 研究问
-
论文笔记《VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection》
论文 - 《VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection》 代码 -Github 关键词 - 视频异常检测、CLIP、对比学习、局部全局、时序建模、弱监督学习 摘要 研究问
-
论文笔记《TinyHAR: A Lightweight Deep Learning Model Designed for Human Activity Recognition》
论文 - 《TinyHAR: A Lightweight Deep Learning Model Designed for Human Activity Recognition》 代码 -Github 关键词 - 高效、边缘智能、人类活动识别HAR、惯性传感单元IMU、卷积+Transformer
-
论文笔记《MotionGPT: Human Motion as a Foreign Language》
论文 - 《MotionGPT: Human Motion as a Foreign Language》 代码 - Github 关键词 - Neurips、运动-语言大模型、多任务、预训练+微调 1 摘要 研究问题 人类运动展现出与语言类似的语义结构,通常被视为一种“身体语言”。 通过将语言数据与
-
论文笔记《STREAMMIND: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition》
论文 - 《STREAMMIND: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition》 代码 - Github 关键词 - 流式视频对话、实时处理、视频大模型、高效处理、开源 摘要 研究问
-
论文笔记《Leveraging Synthetic Adult Datasets for Unsupervised Infant Pose Estimation》
论文 - 《Leveraging Synthetic Adult Datasets for Unsupervised Infant Pose Estimation》 代码 - 给的链接失效了 关键词 - 婴儿动作识别、无监督域适应、均值教师模型、流形先验 摘要 研究问题 针对婴儿的姿态估计发展仍较为
-
论文笔记《IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from...》
论文 - 《IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from Egocentric Videos and Text》 代码 - Github 关键词 - Meta工作、多模态学习、IMU建模、对比学习、CLIP
-
论文笔记《LLaSA: A Sensor-Aware LLM for Natural Language Reasoning of Human Activity from IMU Data》
论文 - 《LLaSA: A Sensor-Aware LLM for Natural Language Reasoning of Human Activity from IMU Data》 代码 - Github 关键词 - 多模态大模型、人类活动问答模型、13B参数、微调、新数据集 摘要 研究问
-
论文笔记《Layout-Agnostic Human Activity Recognition in Smart Homes through TDOST》
论文 - 《Layout-Agnostic Human Activity Recognition in Smart Homes through Textual Descriptions Of Sensor Triggers (TDOST)》 关键词 - Ubicomp2025、prompt工程、提示