网课笔记 14
-
[MIT6.5940] Lect 18 Distributed Training (Ⅱ)
一、Hybrid parallelism and auto-parallelize Ⅰ、Hybrid parallelism 混合并行是指数据并行、流水线并行和张量并行进行组合搭配使用,具体三种并行的讲解可以看Lect 17。 2D并行 数据并行+流水线并行 对于外部,使用数据并行,将四个GPU分为
-
[MIT6.5940] Lect 17 Distributed Training (Ⅰ)
一、Background and motivation 更好的模型总是具有更高的计算成本。(包括视觉和NLP) 而越大的模型需要更久的时间训练。 如下图所示,如果没有分布式训练,一个单个GPU将需要355年才能完成GPT-3的训练! 如果使用分布式训练,10个GPU日的训练任务,在1024个GPU上
-
[MIT6.5940] Lect 15 GAN, Video and Point Cloud
一、Efficient GANs Ⅰ、Background 生成式对抗网络GAN(Generative Adversarial Networks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。 生成对抗网络一般由一个生成器(生成网络),和一个判别器(判别网络)组成。 生成器的作
-
[MIT6.5940] Lect 14 Vision Transformer
一、Basics of Vision Transformer (ViT) 对于图像数据而言,其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。 如何输入2D的图片? 一种自然的方式是将图像分割称多个小块,每个小块我们
-
[MIT6.5940] Lect 13 Transformer and LLM (Ⅱ)
四、Efficient inference algorithms for LLMs Ⅰ、Quantization 1、background W8A8量化一直是CNNs的工业标准,但不是LLM。为什么? 当 LLMs 的模型参数量超过 6.7B 的时候,激活中会成片的出现大幅的离群点(outliers
-
[MIT6.5940] Lect 12 Transformer and LLM (Ⅰ)
一、Transformer basics Ⅰ、Pre-Transformer Era NLP Tasks 判别性任务:情感分析、文本分类、文本含义 生成性任务:语言建模、机器翻译、摘要 Recurrent Neural Networks (RNNs) 在Transformer时代之前,人们采用RNN
-
[MIT6.5940] Lect 11 TinyEngine and Parallel Processing
一、Introduction to Edge AI 边缘设备在我们的日常生活中是无处不在的和功率广泛的应用:智能手机、机器人、车辆、办公设备、无线电收发器、自动售货机及家庭电器等。 从云计算到边缘计算,这一转变凸显了资源有限的挑战。如下图对比了云计算与边缘计算常见设备的资源量。 二、Parallel
-
[MIT6.5940] Lect 10 MCUNet: TinyML on Microcontrollers
一、什么是TinyML 随着时间推移和AI发展,模型大小急剧增加,因此我们需要新的算法和硬件来实现TinyML和Green AI,低能耗,低延迟,低成本,更好的隐私,以便我们能在本地设备上运行机器学习应用。 将深度学习压缩到物联网设备中。 全球有数十亿台基于微控制器的物联网设备。 低成本:低收入人群
-
[MIT6.5940] Lect 9 Knowledge Distillation
一、什么是知识蒸馏 定义:知识蒸馏是一种从一个更大的模型中学习的过程,旨在将多个模型的知识蒸馏到一个更小的模型中。这种方法的关键是将大模型的知识传递给小模型,从而创建可以在边缘设备上使用的更小模型。 更大更复杂的模型作为教师网络,而更小更简单的模型作为学生模型。学生模型通过知识蒸馏来学习教师模型的逻
-
[MIT6.5940] Lect 7&8 Neural Architecture Search
一、Primitive operations 本小节主要是回顾一些神经网络层的计算操作,与Lect-2中的回顾相似,此处不再赘述。 二、Classic Building Blocks 构建模块由若干层组成,人们巧妙地将它们组合起来,以平衡准确性与计算量。 (Ⅰ) ResNet50: bottlene
-
[MIT6.5940] Lect 5&6 Quantization
一、为什么需要量化? 深度学习中数据的运算大多是浮点数运算,浮点数运算相比整数运算更耗能,而位宽和能耗之间呈现O(n^2)的关系,因此我们希望减少每个权重所占的比特数。 二、数值数据类型 整数Integer 无符号整数Unsigned Integer n位表示数值,大小为 [0, 2^n-1] 带符
-
[MIT6.5940] Lect 3&4 - Pruning and Sparsity
一、剪枝介绍 什么是剪枝? 剪枝本质:通过去除突触和神经元,使神经网络由稠密变稀疏,冗余度降低。 对于图中的曲线 黑色虚线:原模型的基准率 紫色曲线:剪枝,剪去权重较小的权值。剪枝80%后准确率下降4.5%。 绿色曲线:剪枝+微调,最初甚至因减少过拟合而略微提高准确性。 红色曲线:迭代+剪枝+重新训
-
[MIT6.5940] Lect 2 - Basics of Neural Networks
系列序言 本系列为MIT 6.5940的课程笔记,希望通过记录和总结来督促自己学习,同时也能分享技术知识。由于本人为大模型初学者,对于课程的理解也许有一定的误差,如有错误,欢迎评论区或其他联系方式交流讨论;如果觉得有帮助的话,你的点赞将给我带来坚持分享的动力。 Lect 1主要是介绍Han老师过去的