文心一言4.5技术报告简要解读

作者：文心一言4.5技术报告简要解读

文心4.5在开源后发布了一个很长的报告，现在用简短的内容来总结一下，方便大伙理解～具体细节有：多模态预训练，预训练阶段就是多模态的使用了模态隔离路由，ffn中有三种专家：共享专家同时对文本和图片进行操作，文本专家处理文本，视觉专家处理图片，不同模态可以自由分配推理预算。视觉方面使用自适应分辨率的编码器，2d的rope，自适应的视频采样策略等使用质量评估模型过滤样本，数据合成，建立预训练数据图谱，结合人类评价来提升数据质量，对数据进行难度划分。使用了reeao（一次性全面记录一切）的数据流管理，确保集群重启的时候训练数据不重复。预训练阶段是三个，分别为：仅文本训练，仅视觉训练，以及联合训练。使用路由正交化损失防止专家同质化，token平衡损失减少多模态训练的梯度方差，使用指数移动平均（ema）来实现学习率衰减微调多模态预训练的模型，让它分成单一模态，变成语言模型和视觉模型文本后训练方面，在不同任务上分阶段强化学习，算法方面使用upo，在ppo的基础上集成dpo损失，并且过滤异常分布的奖励值视觉后训练方面，用仅文本推理冷启动，用拒绝采样来生成推理数据，推理与非推理混合训练，再使用deepseek-chimera提出的专家融合，用答案来强化学习。实现4bit和2bit的无损量化 infra方面，paddlepaddle有非常多优化，包括异构并行，分层负载均衡，专家混合并行，节点内专家并行，流水线调度，混合精度训练，内存权衡，flashmask，容错系统等，非常详细使用多专家并行协作来量化，实现无损保留性能。使用跨gpu节点的异常值转移，层自适应排列旋转量化，块旋转策略处理异常值。实现了2bit的近乎无损量化方法卷积码量化，使得300b模型可以部署在141gb的单卡上。介绍了多种量化加速方法以及相应的开源微调工具和部署工具总结：这个技术报告是有史以来最长的？（读着很累）能看得出文心在全力创新，没有直接抄作业。亮点在于预训练阶段就是多模态，再拆分成单独的模态，和很多主流做法不同。文心4.5turbo成本低（输出4元/百万）的疑问也解开了，主要是因为2bit量化，而不是模型参数偏小。但这就说明同参数下性能没有很领先（比起第一梯队的deepseek，qwen，doubao）百度的开源还是比较有诚意的

文章详情

文心一言4.5技术报告简要解读

推荐阅读