
推理 25
-
论文笔记《EventVAD: Training-Free Event-Aware Video Anomaly Detection》
论文 - 《EventVAD: Training-Free Event-Aware Video Anomaly Detection》 代码 - Github 关键词 - 无需训练、视频异常处理、图注意力网络、异常边界判定、视频大模型VideoLLaMA 1 引言 研究问题 视频异常检测(VAD)致力
-
论文笔记《VideoLLM-online: Online Video Large Language Model for Streaming Video》
论文 - 《VideoLLM-online: Online Video Large Language Model for Streaming Video》 代码 - Github 关键词 - 流式视频、在线视频问答、视频大模型 1 引言 研究动机 现有大模型训练时通常将视频视为预定义的视频片段,导致
-
论文笔记《Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity》
论文 - 《Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity》 代码 - Github 关键词 - 指令微调数据集、InterVL2、视频大模型、视觉-语言大模型VLM、视频异常检测VAD、时序采
-
论文笔记《VaVLM: Toward Efficient Edge-Cloud Video Analytics With Vision-Language Models》
论文 - 《VaVLM: Toward Efficient Edge-Cloud Video Analytics With Vision-Language Models》 关键词 - 边缘智能、端云协作、边缘设备、任务特定推理、视频大模型、自适应抽帧、感兴趣区域 Rol、边缘推理 1 引言 现有工作
-
论文笔记《STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications》
论文 - 《STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications》 代码 - Github 关键词 - 实时推理、轻量化、时空建模、视频异常检测VAD、I3D、X3
-
论文笔记《Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models》
论文 - 《Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models》 代码 - Github 关键词 - 无需训练、Prompt 工程、视频异常检测VAD、视觉-语言模型VLM、基于规则推理
-
论文笔记《Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection》
论文 - 《Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection》 关键词 - 实时高效视频异常检测、基于记忆库、零样本、可解释性、视觉语言大模型VLM、无需训练 1 引言 VAD 有两个根本性的障碍阻碍了其在现实
-
论文笔记《SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced VLM》
论文 - 《SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model》 代码 - 预计开源 关键词 - 大小模型协作、视频异常检测、高效检测、
-
论文笔记《LFTR: Learning-Free Token Reduction for Multimodal Large Language Models》
论文 - 《LFTR: Learning-Free Token Reduction for Multimodal Large Language Models》 关键词 - 即插即用、高效压缩、多模态大模型MLLM、视频、Token剪枝、时间空间、相似性、视频问答、无需训练 1 引言 动机:多模态大语
-
论文笔记《AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction...》
论文 - 《AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis》 代码 - 预计开源 关键词 - 实时、视频异常检测VAD、新数据集、Qwen-
-
论文笔记《Harnessing Large Language Models for Training-free Video Anomaly Detection》
论文 - 《Harnessing Large Language Models for Training-free Video Anomaly Detection》 代码 - Github 关键词 - 视觉-语言模型VLM、大模型LLM、视频异常检测、无需训练、prompt工程设计 摘要 研究问题 视
-
论文笔记《HARGPT: Are LLMs Zero-Shot Human Activity Recognizers?》
论文 - 《HARGPT: Are LLMs Zero-Shot Human Activity Recognizers?》 代码 - Github 关键词 - 评估工作、大模型GPT-4、人类活动识别HAR、零样本 注意这是一篇评估现有工作的文章。 摘要 研究问题:LLMs 是否具备零样本的人类活动
-
论文笔记《IoT-LLM: Enhancing Real-World IoT Task Reasoning with Large Language Models》
论文 - 《IoT-LLM: Enhancing Real-World IoT Task Reasoning with Large Language Models》 关键词 - 物联网感知、数据增强、检索增强生成RAG、通用性方法、思维链CoT、大模型LLM、人体活动识别HAR、医疗诊断、人类定位、
-
论文笔记《Bi-DeepViT: Binarized Transformer for Efficient Sensor-Based Human Activity Recognition》
论文 - 《Bi-DeepViT: Binarized Transformer for Efficient Sensor-Based Human Activity Recognition》 关键词 - 高效、二值化、DeepViT、HAR、传感器 1 引言 人体活动识别(HAR)是一种通过传感器采集
-
论文笔记《Post-pre-training for Modality Alignment in Vision-Language Foundation Models》
论文 - 《Post-pre-training for Modality Alignment in Vision-Language Foundation Models》 代码 - Github 关键词 - CLIP-Refine、模态对齐、模态差距、自蒸馏 摘要 研究问题: CLIP的多模态特征空间
-
论文笔记《Real-Time Video Inference on Edge Devices via Adaptive Model Streaming》
论文 - 《Real-Time Video Inference on Edge Devices via Adaptive Model Streaming》 代码 - Github 关键词 - 实时视频推理、边缘智能、蒸馏、端云协作、适应、ICCV2021 摘要 研究问题 在移动电话和无人机等边缘设备
-
论文笔记《Cloud-Device Collaborative Learning for Multimodal Large Language Models》
论文-《Cloud-Device Collaborative Learning for Multimodal Large Language Models》 关键词:云端-设备协作、多模态、大模型、CVPR2024 摘要 问题背景:多模态大语言模型(MLLMs)在图像描述生成、常识推理和视觉场景理解等
-
论文笔记《An Image is Worth 1/2 Tokens After Layer 2: Plug-and-PLay Acceleration for VLLM Inference》
论文-《An Image is Worth 1/2 Tokens After Layer 2: Plug-and-PLay Acceleration for VLLM Inference》 代码-Github 关键词-多模态、推理加速、视觉、剪枝token、开源 摘要 研究问题-注意力低效现象 在流
-
论文笔记《Janus: Collaborative Vision Transformer Under Dynamic Network Environment》
论文-《Janus: Collaborative Vision Transformer Under Dynamic Network Environment》 关键词-多模态、云边协作、模型分割、动态网络、INFOCOM2025 摘要 问题背景:ViTs在计算机视觉任务的性能惊人,但是计算成本较高,在
-
论文笔记《Self-Adapting Large Visual-Language Models to Edge Devices...》
论文-《Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities》 代码-Github 摘要 研究问题 视觉-语言(VL)模型的进展引发了对其在边缘设备上部署的兴趣,但在处理多样化视觉模态、