DeepSeek R1 不是突然冒出来的

作者：DeepSeek R1 不是突然冒出来的

开一个专门聊 #deepseek 系列。第一篇先看 DeepSeek LLM。现在回头看，R1 不是突然爆出来的，早期很多选择已经埋了伏笔。当时的 DeepSeek LLM 还不是后来的 MoE/R1 形态，整体更像是在对标 LLaMA-2：相近的数据规模，类似的 Dense 架构，然后看数据、训练和后训练还能榨出多少空间。我觉得最值得注意的不是超过 LLaMA-2这个结果，是三个研发选择：第一，数据不是只堆量。质量过滤、冷门领域补强、中英文更均衡，这些都是很早的数据工程意识。第二，后训练不是只做对齐。SFT 里大量 Math 和 Code 数据，说明他们更关心能力提升，尤其是推理和代码能力。第三，强化学习路线已经露头。没有直接沿用当时更主流的 RLHF，而是用了 DPO；论文后面也提到 RL 对复杂推理有帮助。所以 DeepSeek LLM 给我的感觉是：他当时还在追赶开源基线，但路线感已经很清楚了。 R1 的出现不是一夜奇迹，而是数据、架构、成本、后训练、强化学习一步步接上的结果。 #deepseek #deepseekr1 #大模型 #LLM #论文 #模型训练 #强化学习 #开源模型

文章详情

DeepSeek R1 不是突然冒出来的

推荐阅读