ICLR 2026 语音翻译不止内容准确(已开源)

作者：ICLR 2026 语音翻译不止内容准确(已开源)

宣传一下我们被ICLR接收的工作《UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice》 💡随着Speech Tokenizer + LLM 范式的普及，语音-语音翻译在翻译准确性上已经有了长足进步，一些研究开始关注到语音-语音翻译中独有且重要的任务：保留原始语音的音色、情感等具有表现力的特征。该领域研究面临一些问题： 1️⃣ 缺少成对的匹配数据：不止内容一致，还需要保留音色等特征。 2️⃣ 现有模型结构具有复杂性（图二）：现有工作一般需要二阶段LM或者修改基座。 3️⃣ 无法利用文本大模型本身的翻译能力：一些工作将LLM看作一个转换器，没有利用LLM预训练获得的文本能力。于是我们提出： ✨UniSS: 我们尝试将语音Tokens看作某种未被LLM训练的“方言”，统一语音和文本，在不修改LLM基座的前提下达到高质量翻译并保留原始的表现力特征。 ✨跨模态翻译：输入的Speech Tokens会在同一次infer中完成listen 👉 translate 👉 speak来降低直接语音-语音翻译的难度，并利用LLM的文本能力来提高翻译质量。模型提供Performance模式来移除listen步骤，以5.5%的翻译质量降低换取7%的加速。上述模型使用渐进式训练将文本翻译能力迁移到语音翻译（图三右）。 ✨大规模训练数据：45k小时的中-英语音翻译数据。我们做了大量的数据工作，提供了匹配的翻译数据对，在翻译一致性外也提供了音色的一致性。数据集分布比较自然，也做了大量的清洗和人工抽样检查（图四）。可惜的是全部数据都来源于合成，因为不可能找大量多语种人才来读双语音频…… 🎯客观指标：图五，SOTA！SLC代表输入-输出时长一致性，UniSS表现极佳，普通多模态模型和级联系统没有为此优化，并不适合某些翻译场景。 🎯主观指标：图六左，开源SOTA！Seed Live是商业模型，UniSS的水平不落下风） ❗️我们已经开源了1.5B版本和0.5B的small模型，可以根据场景进行选择（图六右），因为UniSS是完全的Qwen2.5基座，可以直接使用vLLM和SGLang进行部署。 🏁 数据集已经在HuggingFace开源啦，可以搜索UniST🤗 #ICLR #语音大模型 #深度学习 #翻译

文章详情

ICLR 2026 语音翻译不止内容准确(已开源)

推荐阅读