
推理 10
-
论文笔记《Real-Time Video Inference on Edge Devices via Adaptive Model Streaming》
论文 - 《Real-Time Video Inference on Edge Devices via Adaptive Model Streaming》 代码 - Github 关键词 - 实时视频推理、边缘智能、蒸馏、端云协作、适应、ICCV2021 摘要 研究问题 在移动电话和无人机等边缘设备
-
论文笔记《Cloud-Device Collaborative Learning for Multimodal Large Language Models》
论文-《Cloud-Device Collaborative Learning for Multimodal Large Language Models》 关键词:云端-设备协作、多模态、大模型、CVPR2024 摘要 问题背景:多模态大语言模型(MLLMs)在图像描述生成、常识推理和视觉场景理解等
-
论文笔记《An Image is Worth 1/2 Tokens After Layer 2: Plug-and-PLay Acceleration for VLLM Inference》
论文-《An Image is Worth 1/2 Tokens After Layer 2: Plug-and-PLay Acceleration for VLLM Inference》 代码-Github 关键词-多模态、推理加速、视觉、剪枝token、开源 摘要 研究问题-注意力低效现象 在流
-
论文笔记《Janus: Collaborative Vision Transformer Under Dynamic Network Environment》
论文-《Janus: Collaborative Vision Transformer Under Dynamic Network Environment》 关键词-多模态、云边协作、模型分割、动态网络、INFOCOM2025 摘要 问题背景:ViTs在计算机视觉任务的性能惊人,但是计算成本较高,在
-
论文笔记《Self-Adapting Large Visual-Language Models to Edge Devices...》
论文-《Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities》 代码-Github 摘要 研究问题 视觉-语言(VL)模型的进展引发了对其在边缘设备上部署的兴趣,但在处理多样化视觉模态、
-
论文笔记《HPipe: Large Language Model Pipeline Parallelism for Long Context...》
论文-《HPipe: Large Language Model Pipeline Parallelism for Long Context on Heterogeneous Cost-effective Devices》 摘要 问题背景 微型企业和个人开发者对使用强大的大型语言模型(LLMs)进行长
-
论文笔记《From Hours to Minutes: Lossless Acceleration ... 100K Tokens》
论文地址-《From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens》 代码地址-GitHub 摘要 阻碍LLMs生成超长序列的三个挑战 频繁的模型重载、动态的键值
-
论文笔记《DistServe: Disaggregating Prefill and Decoding for...》
论文地址-《DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving》 代码地址- Github 摘要 Distserve通过分解预填充和解码计算来提高大语模型(
-
论文笔记《Efficient Memory Management ... Serving with PagedAttention》
论文地址-《Efficient Memory Management for Large Language Model Serving with PagedAttention》 代码地址- Github 摘要 问题背景 为LLM提供高吞吐量服务需要一次批处理足够多的请求。然而,现有的系统很难做到这一点
-
论文笔记《EdgeShard: Efficient LLM Inference via Collaborative Edge Computing》
论文地址《EdgeShard: Efficient LLM Inference via Collaborative Edge Computing》 Ⅰ 介绍 A 存在的问题 一些工作利用模型量化 [7][12] 来减小模型大小以适应资源受限的边缘设备。但是,它们通常会导致准确性损失。 其他工作倾向于