文心4.5在开源后发布了一个很长的报告,现在用简短的内容来总结一下,方便大伙理解~ 具体细节有: 多模态预训练,预训练阶段就是多模态的 使用了模态隔离路由,ffn中有三种专家:共享专家同时对文本和图片进行操作,文本专家处理文本,视觉专家处理图片,不同模态可以自由分配推理预算。 视觉方面使用自适应分辨率的编码器,2d的rope,自适应的视频采样策略等 使用质量评估模型过滤样本,数据合成,建立预训练数据图谱,结合人类评价来提升数据质量,对数据进行难度划分。 使用了reeao(一次性全面记录一切)的数据流管理,确保集群重启的时候训练数据不重复。 预训练阶段是三个,分别为:仅文本训练,仅视觉训练,以及联合训练。 使用路由正交化损失防止专家同质化,token平衡损失减少多模态训练的梯度方差,使用指数移动平均(ema)来实现学习率衰减 微调多模态预训练的模型,让它分成单一模态,变成语言模型和视觉模型 文本后训练方面,在不同任务上分阶段强化学习,算法方面使用upo,在ppo的基础上集成dpo损失,并且过滤异常分布的奖励值 视觉后训练方面,用仅文本推理冷启动,用拒绝采样来生成推理数据,推理与非推理混合训练,再使用deepseek-chimera提出的专家融合,用答案来强化学习。 实现4bit和2bit的无损量化 infra方面,paddlepaddle有非常多优化,包括异构并行,分层负载均衡,专家混合并行,节点内专家并行,流水线调度,混合精度训练,内存权衡,flashmask,容错系统等,非常详细 使用多专家并行协作来量化,实现无损保留性能。使用跨gpu节点的异常值转移,层自适应排列旋转量化,块旋转策略处理异常值。 实现了2bit的近乎无损量化方法卷积码量化,使得300b模型可以部署在141gb的单卡上。 介绍了多种量化加速方法以及相应的开源微调工具和部署工具 总结:这个技术报告是有史以来最长的?(读着很累)能看得出文心在全力创新,没有直接抄作业。 亮点在于预训练阶段就是多模态,再拆分成单独的模态,和很多主流做法不同。 文心4.5turbo成本低(输出4元/百万)的疑问也解开了,主要是因为2bit量化,而不是模型参数偏小。但这就说明同参数下性能没有很领先(比起第一梯队的deepseek,qwen,doubao) 百度的开源还是比较有诚意的