文章详情

专注互联网科技,赋能企业数字化发展

Deepseek-V3——粗浅笔记

作者:Deepseek-V3——粗浅笔记

§ V3整体: 依然是DeepSeekMoE、MLA组合拳。相比V2,又开拓了“load balance优化不需要辅助loss”的策略(目标是降低为了load balance造成模型性能的损失)、设计了MTP。参数规模671B,每个token激活37B参数,训练了额14.8万亿token,需要2000张卡H800训练2个月即可完成,训练非常稳定。训练用的是“FP8混合精度”,设计了DualPipe算法来实现pipeline并行,和V2一样 没有使用tensor并行。主导了post-training,包括sft和RL,从DeepSeek-R1做了知识蒸馏,主要是从R1的long-COT蒸馏学习推理能力。 § Multi-Token Prediction(MTP): 在ICML那篇MTP论文上做了优化,主要是使用了独立的output head串行的预估D个 额外的token(ICML那篇论文是并行预估)。第k个MTP模块,包含了一个shared的Emb(•)模块、一个shared的output head 模块OutHead(•)、一个decoder的block模块TRM(•)、一个投影矩阵M(k)。其中OutHead(•)一般就是Softmax(•)。采用交叉熵loss训练,作为V3的一个额外训练目标的loss。只是训练的时候使用,在推理的时候,丢弃了MTP(竟然和我想的不一样?为啥不是推理的时候直接predict多个token呢?)。 § 预训练参数: tokenizer采用的是Byte-level BPE,vocabulary大小有12.8w(比V2多了2w),主要是多了一些标点符号。decoder的layer是61层,emb-dimension维度是7168,所有可学习的参数的初始化的标准差都是0.00。MLA里面,128个head(nh),每个head的dimension(dh)是128(这里跟V2都一样)。前面3层的FFN没有用DeepSeekMoE,从第4层开始,每层的FFN都用了DeepSeekMoE。每一个DeepSeekMoE 都有1个shared expert、256个routed experts(相比V2是2个shared+160个routing),每一个token激活里面的8个routed experts(V2是激活6个)。 #大模型

返回新闻列表