25B激活只用3B的视频模型

作者：25B激活只用3B的视频模型

论文标题: Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE ✨ TL;DR: Mamoda2.5 把"理解+生成"统一在一个 AR-Diffusion 框架里，核心是 DiT-MoE：128 个细粒度专家、Top-8 路由，总参数 25B 但每步只激活 3B。再加上蒸馏+RL，把 30 步视频编辑压到 4 步，宣称最高 95.9× 提速。 ✨ 研究动机: 统一多模态模型一直在两难——参数规模越大效果越好，但推理代价跟着爆炸；视频生成/编辑链路太长，30 步迭代部署根本顶不住。作者想用 fine-grained MoE 撑住容量、用蒸馏+RL 砍掉迭代步数，做一个"训练扛得住、推理跑得动"的统一 baseline。 ✨ 方法简介: (1) DiT-MoE 架构：扩散 transformer 嵌入细粒度 MoE，128 专家 Top-8 激活，模型容量上去但激活参数压到 3B；(2) 视频生成与编辑能力一体化训；(3) 蒸馏 + 强化学习把 30 步编辑流程压成 4 步，相当于在采样链路上做了大幅 step 压缩。 ✨ 实验和结论: 视频生成和编辑都达到开源 SOTA，对标专有模型也不掉下风；编辑推理速度比 baseline 提升至多 95.9×。结论：MoE 不光能扛 LLM，DiT 这边也吃，再叠一道"步数蒸馏"，就能拿到容量大、推理快的统一多模态模型。 #AI #人工智能 #机器学习 #大模型 #多模态 #AIGC #论文阅读 #科研日常 #模型评测 #强化学习

文章详情

25B激活只用3B的视频模型

推荐阅读