本文主要关注deepseek v3架构和推理方面的知识,对于预训练和后训练方面后续有需要再完善。 摘要 DeepSeek-V3,一款强大的混合专家MoE语言模型,671B参数,其中每个token激活37B参数。 为了实现高效推理和成本优化的训练,V3采用了多头潜在注意力MLA和DeepSeekMoE
论文地址-《ZeRO++: Extremely Efficient Collective Communication for Giant Model Training》 摘要 ZeRO的缺点: 当在低带宽集群上进行训练时,或者在规模上迫使每个 GPU 的批量大小变小时,ZeRO 的有效吞吐量受到限制