文章详情

专注互联网科技,赋能企业数字化发展

ICLR 2026 语音翻译不止内容准确(已开源)

作者:ICLR 2026 语音翻译不止内容准确(已开源)

宣传一下我们被ICLR接收的工作《UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice》 💡随着Speech Tokenizer + LLM 范式的普及,语音-语音翻译在翻译准确性上已经有了长足进步,一些研究开始关注到语音-语音翻译中独有且重要的任务:保留原始语音的音色、情感等具有表现力的特征。该领域研究面临一些问题: 1️⃣ 缺少成对的匹配数据:不止内容一致,还需要保留音色等特征。 2️⃣ 现有模型结构具有复杂性(图二):现有工作一般需要二阶段LM或者修改基座。 3️⃣ 无法利用文本大模型本身的翻译能力:一些工作将LLM看作一个转换器,没有利用LLM预训练获得的文本能力。 于是我们提出: ✨UniSS: 我们尝试将语音Tokens看作某种未被LLM训练的“方言”,统一语音和文本,在不修改LLM基座的前提下达到高质量翻译并保留原始的表现力特征。 ✨跨模态翻译:输入的Speech Tokens会在同一次infer中完成listen 👉 translate 👉 speak来降低直接语音-语音翻译的难度,并利用LLM的文本能力来提高翻译质量。模型提供Performance模式来移除listen步骤,以5.5%的翻译质量降低换取7%的加速。上述模型使用渐进式训练将文本翻译能力迁移到语音翻译(图三 右)。 ✨大规模训练数据:45k小时的中-英语音翻译数据。我们做了大量的数据工作,提供了匹配的翻译数据对,在翻译一致性外也提供了音色的一致性。数据集分布比较自然,也做了大量的清洗和人工抽样检查(图四)。可惜的是全部数据都来源于合成,因为不可能找大量多语种人才来读双语音频…… 🎯客观指标:图五,SOTA!SLC代表输入-输出时长一致性,UniSS表现极佳,普通多模态模型和级联系统没有为此优化,并不适合某些翻译场景。 🎯主观指标:图六 左,开源SOTA!Seed Live是商业模型,UniSS的水平不落下风) ❗️我们已经开源了1.5B版本和0.5B的small模型,可以根据场景进行选择(图六 右),因为UniSS是完全的Qwen2.5基座,可以直接使用vLLM和SGLang进行部署。 🏁 数据集已经在HuggingFace开源啦,可以搜索UniST🤗 #ICLR #语音大模型 #深度学习 #翻译

返回新闻列表