文章详情

专注互联网科技,赋能企业数字化发展

DeepSeek长文公开:模型训练究竟如何训练?

作者:DeepSeek长文公开:模型训练究竟如何训练?

网信办新规落地,DeepSeek除了上线AI生成内容标识,还发布了一份《模型原理与训练方法说明》。 DeepSeek究竟如何训练?数据来源是啥?究竟如何防止幻觉?一起来通过这篇文章一探究竟! 一、基本原理 🔹 模型训练 DeepSeek的底层是一堆深度神经网络,里面塞着数十亿到万亿级参数,这些参数在训练过程中通过梯度下降算法持续优化。 模型训练可以分为预训练和优化训练两个环节。 1️⃣ 预训练:大规模自监督学习。通过喂数据,让模型掌握通用的语言理解与生成能力,比如句子怎么接比较顺。这时它能生成内容,但还比较笼统,并不精确,因此需要进一步调整。 2️⃣ 优化训练:优化训练也称为微调,通过特定任务的数据进一步调整模型参数,使模型适应实际应用场景。一般通过有监督的微调(SFT)或强化学习(RL)等方法,让模型更听话,能更好回答问题、解决任务。 🔹 推理阶段 这就是上线后大家使用的部分。用户输入一句话,模型通过对输入信息进行编码和计算来预测下一个词元,一步步生成答案。 重点是,模型并非在数据库里查答案,也不是复制粘贴训练数据,而是通过概率计算预测最可能接续的词汇序列,基于对语言结构和语义关系的深度理解,动态生成符合语境的回答。 二、训练数据来源 模型聪不聪明,主要看喂的啥数据。而获取数据,最重要的就是合法合规。 1️⃣ 预训练阶段: - 数据主要来自公开互联网+合作方授权。 - 预训练阶段无需获取个人信息用于训练,因此不会主动收集个人信息,但大规模数据里可能会偶然包含个人信息,这种- 情况下会尽力筛除,保证合规。 - 自动过滤仇恨、色情、暴力、垃圾内容;再结合算法和人工减少偏见,保证数据多样性和公平性。 2️⃣ 优化训练阶段: - 这阶段,需要专门构造的问答数据,大部分由研究团队产出,少部分可能基于用户输入。 - 用户数据如果被用到,会做匿名化处理,不能反推出个人身份。用户也能选择退出,不想被用就不被用。 - 还会专门加入“安全训练”,确保模型的输出更符合人类价值观,不乱跑偏。 除外,DeepSeek的这篇文章当中还提到了降低模型的幻觉率策略,包括但不限于:选取高质量的训练数据源、优化对齐的策略、通过检索增强生成(RAG)技术等。 不过,他们也坦诚承认,现阶段无法保证模型不产生幻觉,咨询专业问题时需要尤其谨慎。 感兴趣的朋友们,欢迎滑动图片,查看原文👀 #deepseek#大模型#模型训练#ai#AI#幻觉

返回新闻列表