文章详情

专注互联网科技,赋能企业数字化发展

ChatGPT被曝测试双向语音模型Bidi 1!

作者:ChatGPT被曝测试双向语音模型Bidi 1!

今天有部分用户提到在ChatGPT的网页版和App端的模型选择界面里,发现了一个名为“Bidi 1”的双向语音模型踪迹。 虽然目前还没有来自OpenAI的正式公告,但从外部信息看,这个功能很可能已经进入小范围灰度测试阶段。 从用户反馈来看,“Bidi 1”出现在语音模型选项中,与现有的标准语音和高级语音并列,属于一个独立可选项。 选中之后,界面中的语音提示气泡颜色会变为黄色,用来区分当前模式状态。这种细节变化虽然不大,但通常意味着底层交互能力发生了调整,而不只是语音风格的更新。 更值得关注的是它的交互方式。所谓“双向语音”,核心不在“能说”,而在“能同时听”。根据测试视频描述,ChatGPT在启用 Bidi 1后,可以在输出语音的同时继续监听用户输入,而不是像传统语音助手那样必须“说完—停顿—再听”。这让对话更接近真实人类交流的节奏。 举个例子会更直观:用户让模型从1数到 10,在它说到一半时突然打断,要求改为倒数。传统语音系统通常需要等当前语音轮结束,再重新理解指令。而在Bidi 1的测试表现中,系统可以直接接收新的输入,并立刻切换任务,不需要完整等待上一轮结束。这种“边说边改”的能力,本质上是在降低语音交互的延迟感。 过去语音助手更多是“分段式对话”,而双向语音更像把对话流压缩成一个连续通道,让输入与输出并行处理。对用户来说,体感会更接近人与人之间的插话、纠正和即时反馈,而不是一问一答的机械节奏。 不过也需要注意,目前Bidi 1仍然只是外部测试层面的观察结果,具体能力边界、稳定性以及是否会正式上线,都还没有明确说明。语音模型一旦进入实时并行处理,对算力调度、语义中断处理以及误触发控制的要求都会明显提高,这些都会影响最终产品形态。 整体来看,如果这一方向继续推进,语音交互可能会从“可用”进一步走向“接近自然对话”。但它最终能否成为主流,还要看后续在真实场景里的表现,以及OpenAI对产品复杂度的取舍。 #人工智能 #ChatGPT #Bidi1 #OpenAI

返回新闻列表