论文标题: Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE ✨ TL;DR: Mamoda2.5 把"理解+生成"统一在一个 AR-Diffusion 框架里,核心是 DiT-MoE:128 个细粒度专家、Top-8 路由,总参数 25B 但每步只激活 3B。再加上蒸馏+RL,把 30 步视频编辑压到 4 步,宣称最高 95.9× 提速。 ✨ 研究动机: 统一多模态模型一直在两难——参数规模越大效果越好,但推理代价跟着爆炸;视频生成/编辑链路太长,30 步迭代部署根本顶不住。作者想用 fine-grained MoE 撑住容量、用蒸馏+RL 砍掉迭代步数,做一个"训练扛得住、推理跑得动"的统一 baseline。 ✨ 方法简介: (1) DiT-MoE 架构:扩散 transformer 嵌入细粒度 MoE,128 专家 Top-8 激活,模型容量上去但激活参数压到 3B;(2) 视频生成与编辑能力一体化训;(3) 蒸馏 + 强化学习把 30 步编辑流程压成 4 步,相当于在采样链路上做了大幅 step 压缩。 ✨ 实验和结论: 视频生成和编辑都达到开源 SOTA,对标专有模型也不掉下风;编辑推理速度比 baseline 提升至多 95.9×。结论:MoE 不光能扛 LLM,DiT 这边也吃,再叠一道"步数蒸馏",就能拿到容量大、推理快的统一多模态模型。 #AI #人工智能 #机器学习 #大模型 #多模态 #AIGC #论文阅读 #科研日常 #模型评测 #强化学习