文章详情

专注互联网科技,赋能企业数字化发展

DeepSeek R1 不是突然冒出来的

作者:DeepSeek R1 不是突然冒出来的

开一个专门聊 #deepseek 系列。 第一篇先看 DeepSeek LLM。现在回头看,R1 不是突然爆出来的,早期很多选择已经埋了伏笔。当时的 DeepSeek LLM 还不是后来的 MoE/R1 形态,整体更像是在对标 LLaMA-2:相近的数据规模,类似的 Dense 架构,然后看数据、训练和后训练还能榨出多少空间。 我觉得最值得注意的不是超过 LLaMA-2这个结果,是三个研发选择: 第一,数据不是只堆量。质量过滤、冷门领域补强、中英文更均衡,这些都是很早的数据工程意识。 第二,后训练不是只做对齐。SFT 里大量 Math 和 Code 数据,说明他们更关心能力提升,尤其是推理和代码能力。 第三,强化学习路线已经露头。没有直接沿用当时更主流的 RLHF,而是用了 DPO;论文后面也提到 RL 对复杂推理有帮助。 所以 DeepSeek LLM 给我的感觉是:他当时还在追赶开源基线,但路线感已经很清楚了。 R1 的出现不是一夜奇迹,而是数据、架构、成本、后训练、强化学习一步步接上的结果。 #deepseek #deepseekr1 #大模型 #LLM #论文 #模型训练 #强化学习 #开源模型

返回新闻列表