默认 23
-
论文笔记《Towards Efficient Asynchronous Federated Learning in Heterogeneous Edge Environments》
论文地址-《Towards Efficient Asynchronous Federated Learning in Heterogeneous Edge Environments》 摘要 研究解决的问题 边缘设备通常具有异构的计算能力和数据分布,阻碍了协同训练的效率。现有的工作开发了陈旧感知的半异
-
论文笔记《Agglomerative Federated Learning: Empowering Larger...》
论文地址-《Agglomerative Federated Learning: Empowering Larger Model Training via End-Edge-Cloud Collaboration》 摘要 尽管分层联邦学习HFL支持适合EECC的多层模型聚合,先前的工作在所有计算节点上
-
论文笔记《ZeRO++: Extremely Efficient Collective Communication for Giant Model Training》
论文地址-《ZeRO++: Extremely Efficient Collective Communication for Giant Model Training》 摘要 ZeRO的缺点: 当在低带宽集群上进行训练时,或者在规模上迫使每个 GPU 的批量大小变小时,ZeRO 的有效吞吐量受到限制
-
论文笔记《EdgeShard: Efficient LLM Inference via Collaborative Edge Computing》
论文地址《EdgeShard: Efficient LLM Inference via Collaborative Edge Computing》 Ⅰ 介绍 A 存在的问题 一些工作利用模型量化 [7][12] 来减小模型大小以适应资源受限的边缘设备。但是,它们通常会导致准确性损失。 其他工作倾向于
-
论文笔记《Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services》
论文地址《Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services》 摘要 本调查论文重点介绍了AIGC应用程序(例如ChatGPT和Dall-E)在移动边缘网络的部署
-
论文笔记《Distributed Artificial Intelligence Empowered by End-Edge-Cloud Computing: A Survey》
论文地址《Distributed Artificial Intelligence Empowered by End-Edge-Cloud Computing: A Survey》 摘要 对端边缘云计算(end-edge-cloud computing,EECC)赋能的分布式人工智能(DAI)进行了全
-
[MIT6.5940] Lect 18 Distributed Training (Ⅱ)
一、Hybrid parallelism and auto-parallelize Ⅰ、Hybrid parallelism 混合并行是指数据并行、流水线并行和张量并行进行组合搭配使用,具体三种并行的讲解可以看Lect 17。 2D并行 数据并行+流水线并行 对于外部,使用数据并行,将四个GPU分为
-
[MIT6.5940] Lect 17 Distributed Training (Ⅰ)
一、Background and motivation 更好的模型总是具有更高的计算成本。(包括视觉和NLP) 而越大的模型需要更久的时间训练。 如下图所示,如果没有分布式训练,一个单个GPU将需要355年才能完成GPT-3的训练! 如果使用分布式训练,10个GPU日的训练任务,在1024个GPU上
-
[MIT6.5940] Lect 15 GAN, Video and Point Cloud
一、Efficient GANs Ⅰ、Background 生成式对抗网络GAN(Generative Adversarial Networks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。 生成对抗网络一般由一个生成器(生成网络),和一个判别器(判别网络)组成。 生成器的作
-
[MIT6.5940] Lect 14 Vision Transformer
一、Basics of Vision Transformer (ViT) 对于图像数据而言,其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。 如何输入2D的图片? 一种自然的方式是将图像分割称多个小块,每个小块我们
-
[MIT6.5940] Lect 13 Transformer and LLM (Ⅱ)
四、Efficient inference algorithms for LLMs Ⅰ、Quantization 1、background W8A8量化一直是CNNs的工业标准,但不是LLM。为什么? 当 LLMs 的模型参数量超过 6.7B 的时候,激活中会成片的出现大幅的离群点(outliers
-
[MIT6.5940] Lect 12 Transformer and LLM (Ⅰ)
一、Transformer basics Ⅰ、Pre-Transformer Era NLP Tasks 判别性任务:情感分析、文本分类、文本含义 生成性任务:语言建模、机器翻译、摘要 Recurrent Neural Networks (RNNs) 在Transformer时代之前,人们采用RNN
-
[MIT6.5940] Lect 11 TinyEngine and Parallel Processing
一、Introduction to Edge AI 边缘设备在我们的日常生活中是无处不在的和功率广泛的应用:智能手机、机器人、车辆、办公设备、无线电收发器、自动售货机及家庭电器等。 从云计算到边缘计算,这一转变凸显了资源有限的挑战。如下图对比了云计算与边缘计算常见设备的资源量。 二、Parallel
-
[MIT6.5940] Lect 10 MCUNet: TinyML on Microcontrollers
一、什么是TinyML 随着时间推移和AI发展,模型大小急剧增加,因此我们需要新的算法和硬件来实现TinyML和Green AI,低能耗,低延迟,低成本,更好的隐私,以便我们能在本地设备上运行机器学习应用。 将深度学习压缩到物联网设备中。 全球有数十亿台基于微控制器的物联网设备。 低成本:低收入人群