Deepseek-V3——粗浅笔记

作者：Deepseek-V3——粗浅笔记

§ V3整体: 依然是DeepSeekMoE、MLA组合拳。相比V2，又开拓了“load balance优化不需要辅助loss”的策略(目标是降低为了load balance造成模型性能的损失)、设计了MTP。参数规模671B，每个token激活37B参数，训练了额14.8万亿token，需要2000张卡H800训练2个月即可完成，训练非常稳定。训练用的是“FP8混合精度”，设计了DualPipe算法来实现pipeline并行，和V2一样没有使用tensor并行。主导了post-training，包括sft和RL，从DeepSeek-R1做了知识蒸馏，主要是从R1的long-COT蒸馏学习推理能力。 § Multi-Token Prediction(MTP): 在ICML那篇MTP论文上做了优化，主要是使用了独立的output head串行的预估D个额外的token(ICML那篇论文是并行预估)。第k个MTP模块，包含了一个shared的Emb(•)模块、一个shared的output head 模块OutHead(•)、一个decoder的block模块TRM(•)、一个投影矩阵M(k)。其中OutHead(•)一般就是Softmax(•)。采用交叉熵loss训练，作为V3的一个额外训练目标的loss。只是训练的时候使用，在推理的时候，丢弃了MTP（竟然和我想的不一样？为啥不是推理的时候直接predict多个token呢？）。 § 预训练参数: tokenizer采用的是Byte-level BPE，vocabulary大小有12.8w(比V2多了2w），主要是多了一些标点符号。decoder的layer是61层，emb-dimension维度是7168，所有可学习的参数的初始化的标准差都是0.00。MLA里面，128个head(nh)，每个head的dimension(dh)是128（这里跟V2都一样）。前面3层的FFN没有用DeepSeekMoE，从第4层开始，每层的FFN都用了DeepSeekMoE。每一个DeepSeekMoE 都有1个shared expert、256个routed experts（相比V2是2个shared+160个routing），每一个token激活里面的8个routed experts（V2是激活6个）。 #大模型

文章详情

Deepseek-V3——粗浅笔记

推荐阅读