DeepSeek-V3 / R1：MoE工程与纯RL推理的技术

作者：DeepSeek-V3 / R1：MoE工程与纯RL推理的技术

DeepSeek-V3：671B MoE，每次仅激活37B 训练成本557万美元，约GPT-4同级别模型的1/20。三个核心技术：多头潜在注意力（MLA）：将KV Cache压缩为低维潜在向量，显存占用降至标准MHA的5%-10%。推理时可缓存更长的上下文序列。辅助损失-free负载均衡：传统MoE需要额外损失函数来平衡专家负载。DeepSeek通过动态调整专家偏置项，在不干扰主损失的情况下实现负载均衡，训练更稳定。多token预测（MTP）：一次预测多个未来token。标准模型每步只预测下一个token，MTP让模型学会更长期的依赖关系，同时训练效率提升约2倍。 DeepSeek-R1：纯RL涌现推理能力核心发现：推理能力可以不依赖大规模人工标注数据，仅通过强化学习自主涌现。训练流程：冷启动（数千条带思考过程的CoT数据做监督微调）→ 推理导向RL（引入语言一致性奖励，解决中英文混用问题）→ 拒绝采样+再微调（混合推理数据与通用数据）→ 对齐导向RL（打磨有用性和安全性）。 Aha Moment：训练到一定程度，模型会自主生成“wait”“however”等自我反思词，纠正之前的推理路径。反思频率随训练提升5-7倍。蒸馏效果：用R1生成800k推理数据训练7B模型，后者在AIME数学测试中达到约70%准确率，超过GPT-4o。选择建议 R1适用：数学推理、代码生成、逻辑分析，推理时输出完整思维链。V3适用：知识问答、创意写作、多语言翻译、函数调用。一句话总结 V3把MoE工程推向极致，R1证明纯RL可以炼出推理能力。 #DeepSeek #V3 #R1 #MoE

文章详情

DeepSeek-V3 / R1：MoE工程与纯RL推理的技术

推荐阅读