文章详情

专注互联网科技,赋能企业数字化发展

DeepSeek-R1是怎么用纯RL练出推理能力的?

作者:DeepSeek-R1是怎么用纯RL练出推理能力的?

今日大模型面试题:DeepSeek-R1 与 GRPO 传统RLHF需要Critic模型估算优势函数,成本高且不稳定。DeepSeek-R1用GRPO替代PPO:对同一问题生成一组回答,用组内相对奖励更新策略,去掉Critic后显存省一半。 最震撼的是:纯RL训练中模型自发涌现了思维链推理能力(Aha Moment),没人教它"先推理再回答",它自己发现这样能拿更高分。 四阶段训练:冷启动SFT→GRPO推理RL→拒绝采样+SFT→GRPO安全对齐。滑动看卡片👆 #大模型面试 #DeepSeekR1 #GRPO #强化学习 #推理模型 #LLM #AI面试 #算法面试 #深度学习

返回新闻列表