DeepSeek-R1是怎么用纯RL练出推理能力的？

发布时间：2026-06-10 05:36:41 来源：神码AI知识网

作者：DeepSeek-R1是怎么用纯RL练出推理能力的？

今日大模型面试题：DeepSeek-R1 与 GRPO 传统RLHF需要Critic模型估算优势函数，成本高且不稳定。DeepSeek-R1用GRPO替代PPO：对同一问题生成一组回答，用组内相对奖励更新策略，去掉Critic后显存省一半。最震撼的是：纯RL训练中模型自发涌现了思维链推理能力（Aha Moment），没人教它"先推理再回答"，它自己发现这样能拿更高分。四阶段训练：冷启动SFT→GRPO推理RL→拒绝采样+SFT→GRPO安全对齐。滑动看卡片👆 #大模型面试 #DeepSeekR1 #GRPO #强化学习 #推理模型 #LLM #AI面试 #算法面试 #深度学习