ChatGPT被曝测试双向语音模型Bidi 1！

作者：ChatGPT被曝测试双向语音模型Bidi 1！

今天有部分用户提到在ChatGPT的网页版和App端的模型选择界面里，发现了一个名为“Bidi 1”的双向语音模型踪迹。虽然目前还没有来自OpenAI的正式公告，但从外部信息看，这个功能很可能已经进入小范围灰度测试阶段。从用户反馈来看，“Bidi 1”出现在语音模型选项中，与现有的标准语音和高级语音并列，属于一个独立可选项。选中之后，界面中的语音提示气泡颜色会变为黄色，用来区分当前模式状态。这种细节变化虽然不大，但通常意味着底层交互能力发生了调整，而不只是语音风格的更新。更值得关注的是它的交互方式。所谓“双向语音”，核心不在“能说”，而在“能同时听”。根据测试视频描述，ChatGPT在启用 Bidi 1后，可以在输出语音的同时继续监听用户输入，而不是像传统语音助手那样必须“说完—停顿—再听”。这让对话更接近真实人类交流的节奏。举个例子会更直观：用户让模型从1数到 10，在它说到一半时突然打断，要求改为倒数。传统语音系统通常需要等当前语音轮结束，再重新理解指令。而在Bidi 1的测试表现中，系统可以直接接收新的输入，并立刻切换任务，不需要完整等待上一轮结束。这种“边说边改”的能力，本质上是在降低语音交互的延迟感。过去语音助手更多是“分段式对话”，而双向语音更像把对话流压缩成一个连续通道，让输入与输出并行处理。对用户来说，体感会更接近人与人之间的插话、纠正和即时反馈，而不是一问一答的机械节奏。不过也需要注意，目前Bidi 1仍然只是外部测试层面的观察结果，具体能力边界、稳定性以及是否会正式上线，都还没有明确说明。语音模型一旦进入实时并行处理，对算力调度、语义中断处理以及误触发控制的要求都会明显提高，这些都会影响最终产品形态。整体来看，如果这一方向继续推进，语音交互可能会从“可用”进一步走向“接近自然对话”。但它最终能否成为主流，还要看后续在真实场景里的表现，以及OpenAI对产品复杂度的取舍。 #人工智能 #ChatGPT #Bidi1 #OpenAI

文章详情

ChatGPT被曝测试双向语音模型Bidi 1！

推荐阅读