起点: DeepSeek V3(Base Model) 第1️⃣阶段:SFT(监督微调) 数据: 数千条样本数据 数据来源三种方式: - 提供一个 CoT 作为示例,然后使用 Few-Shot prompting 生成更多例子 - 收集之前模型输出的一些回答,并通过人工标注对输出的质量进行增强 - 系统级直接提示模型(directly prompting models),让它生成带有反思和验证过程的详细回答 系统提示模板(directly prompting models 格式) → 产出 Checkpoint 节点1 第2️⃣阶段:强化学习(推理能力) 基于 Checkpoint 节点1,进行强化学习训练,专门提升推理能力 → 产出 Checkpoint 节点2 第3️⃣·1️⃣阶段:生成新SFT数据 基于 Checkpoint 节点2,生成新的 SFT 数据: - 800k 条推理数据 - 200k 条非推理数据 做 CoT 训练数据时,不能全堆推理题,要掺入一定比例的通用任务数据,用"分类配比"来防止模型偏科——这就是 800k + 200k 设计的原因。 第3️⃣·2️⃣阶段:SFT(再次微调) 使用上述 800k+200k 条数据进行第二轮 SFT 微调 → 产出 Checkpoint 节点3 第4️⃣阶段:强化学习(最终对齐) 基于 Checkpoint 节点3,进行最终强化学习训练 → 产出 DeepSeek R1 #深度学习 #算法 #cot #思维链 #AI人工智能 #ai #且曼AI训练师就业班 #人工智能发展 #就业