文章详情

专注互联网科技,赋能企业数字化发展

DeepSeek-V3 / R1:MoE工程与纯RL推理的技术

作者:DeepSeek-V3 / R1:MoE工程与纯RL推理的技术

DeepSeek-V3:671B MoE,每次仅激活37B 训练成本557万美元,约GPT-4同级别模型的1/20。 三个核心技术: 多头潜在注意力(MLA):将KV Cache压缩为低维潜在向量,显存占用降至标准MHA的5%-10%。推理时可缓存更长的上下文序列。 辅助损失-free负载均衡:传统MoE需要额外损失函数来平衡专家负载。DeepSeek通过动态调整专家偏置项,在不干扰主损失的情况下实现负载均衡,训练更稳定。 多token预测(MTP):一次预测多个未来token。标准模型每步只预测下一个token,MTP让模型学会更长期的依赖关系,同时训练效率提升约2倍。 DeepSeek-R1:纯RL涌现推理能力 核心发现:推理能力可以不依赖大规模人工标注数据,仅通过强化学习自主涌现。 训练流程:冷启动(数千条带思考过程的CoT数据做监督微调)→ 推理导向RL(引入语言一致性奖励,解决中英文混用问题)→ 拒绝采样+再微调(混合推理数据与通用数据)→ 对齐导向RL(打磨有用性和安全性)。 Aha Moment:训练到一定程度,模型会自主生成“wait”“however”等自我反思词,纠正之前的推理路径。反思频率随训练提升5-7倍。 蒸馏效果:用R1生成800k推理数据训练7B模型,后者在AIME数学测试中达到约70%准确率,超过GPT-4o。 选择建议 R1适用:数学推理、代码生成、逻辑分析,推理时输出完整思维链。V3适用:知识问答、创意写作、多语言翻译、函数调用。 一句话总结 V3把MoE工程推向极致,R1证明纯RL可以炼出推理能力。 #DeepSeek #V3 #R1 #MoE

返回新闻列表