deepseek是怎么获得思考能力的？

作者：deepseek是怎么获得思考能力的？

起点： DeepSeek V3（Base Model）第1️⃣阶段：SFT（监督微调）数据：数千条样本数据数据来源三种方式： - 提供一个 CoT 作为示例，然后使用 Few-Shot prompting 生成更多例子 - 收集之前模型输出的一些回答，并通过人工标注对输出的质量进行增强 - 系统级直接提示模型（directly prompting models），让它生成带有反思和验证过程的详细回答系统提示模板（directly prompting models 格式） → 产出 Checkpoint 节点1 第2️⃣阶段：强化学习（推理能力）基于 Checkpoint 节点1，进行强化学习训练，专门提升推理能力 → 产出 Checkpoint 节点2 第3️⃣·1️⃣阶段：生成新SFT数据基于 Checkpoint 节点2，生成新的 SFT 数据： - 800k 条推理数据 - 200k 条非推理数据做 CoT 训练数据时，不能全堆推理题，要掺入一定比例的通用任务数据，用"分类配比"来防止模型偏科——这就是 800k + 200k 设计的原因。第3️⃣·2️⃣阶段：SFT（再次微调）使用上述 800k+200k 条数据进行第二轮 SFT 微调 → 产出 Checkpoint 节点3 第4️⃣阶段：强化学习（最终对齐）基于 Checkpoint 节点3，进行最终强化学习训练 → 产出 DeepSeek R1 #深度学习 #算法 #cot #思维链 #AI人工智能 #ai #且曼AI训练师就业班 #人工智能发展 #就业

文章详情

deepseek是怎么获得思考能力的？

推荐阅读