最近在帮人搞的 DeepSeek V3到R1的演进,这个方向挺值得研究。很多人以为 R1 只是推理更强了,但核心是模型开始更像是在自己迭代自己。 我的理解,重点就三点: 1️⃣ R1-Zero的关键是强化学习驱动自我进化 不再高度依赖人工标注数据,而是让模型在训练中通过奖励机制不断试错,不断优化。答对有奖励,格式对也有奖励,慢慢把推理能力拉起来。 2️⃣R1 比 Zero 更完整,更实用 用少量高质量数据冷启动,接强化学习,再让模型自己生成一批新的 SFT 数据继续训练。本质上就是,少量人工引导和大量模型自进化。 3️⃣强模型还能反哺小模型 R1 生成的数据,可以拿去训练其他模型。也就是说,大模型不仅自己能进化,还能带着别的模型一起提升。 最近也在持续整理 大模型 / 深度学习 / 机器学习 / Python / MATLAB 这类知识。想看哪一块,我后面可以继续分享。#大模型 #数据分析 #深度学习 #提供思路和创新点 #算法 #复现 #matlab #Python #研究生 #硕博圈