DeepSeek长文公开：模型训练究竟如何训练？

作者：DeepSeek长文公开：模型训练究竟如何训练？

网信办新规落地，DeepSeek除了上线AI生成内容标识，还发布了一份《模型原理与训练方法说明》。 DeepSeek究竟如何训练？数据来源是啥？究竟如何防止幻觉？一起来通过这篇文章一探究竟！一、基本原理 🔹 模型训练 DeepSeek的底层是一堆深度神经网络，里面塞着数十亿到万亿级参数，这些参数在训练过程中通过梯度下降算法持续优化。模型训练可以分为预训练和优化训练两个环节。 1️⃣ 预训练：大规模自监督学习。通过喂数据，让模型掌握通用的语言理解与生成能力，比如句子怎么接比较顺。这时它能生成内容，但还比较笼统，并不精确，因此需要进一步调整。 2️⃣ 优化训练：优化训练也称为微调，通过特定任务的数据进一步调整模型参数，使模型适应实际应用场景。一般通过有监督的微调（SFT）或强化学习（RL）等方法，让模型更听话，能更好回答问题、解决任务。 🔹 推理阶段这就是上线后大家使用的部分。用户输入一句话，模型通过对输入信息进行编码和计算来预测下一个词元，一步步生成答案。重点是，模型并非在数据库里查答案，也不是复制粘贴训练数据，而是通过概率计算预测最可能接续的词汇序列，基于对语言结构和语义关系的深度理解，动态生成符合语境的回答。二、训练数据来源模型聪不聪明，主要看喂的啥数据。而获取数据，最重要的就是合法合规。 1️⃣ 预训练阶段： - 数据主要来自公开互联网+合作方授权。 - 预训练阶段无需获取个人信息用于训练，因此不会主动收集个人信息，但大规模数据里可能会偶然包含个人信息，这种- 情况下会尽力筛除，保证合规。 - 自动过滤仇恨、色情、暴力、垃圾内容；再结合算法和人工减少偏见，保证数据多样性和公平性。 2️⃣ 优化训练阶段： - 这阶段，需要专门构造的问答数据，大部分由研究团队产出，少部分可能基于用户输入。 - 用户数据如果被用到，会做匿名化处理，不能反推出个人身份。用户也能选择退出，不想被用就不被用。 - 还会专门加入“安全训练”，确保模型的输出更符合人类价值观，不乱跑偏。除外，DeepSeek的这篇文章当中还提到了降低模型的幻觉率策略，包括但不限于：选取高质量的训练数据源、优化对齐的策略、通过检索增强生成（RAG）技术等。不过，他们也坦诚承认，现阶段无法保证模型不产生幻觉，咨询专业问题时需要尤其谨慎。感兴趣的朋友们，欢迎滑动图片，查看原文👀 #deepseek#大模型#模型训练#ai#AI#幻觉

文章详情

DeepSeek长文公开：模型训练究竟如何训练？

推荐阅读