Whisper。它是OpenAI 开源的一款语音识别模型,支持中英文夹杂(包括各种口音和模糊发音),好处如下且不限于: 1. 完全免费(本地运行,不联网) 2. 隐私安全,音频和转写内容都留在自己电脑上 3. 中英文夹杂完全OK转写95%准确 我附的图就是部分转写,还有时间轴。 小缺点就是:转写速度偏慢。我这两个小时的录音,跑了大概四个小时才转完(在我的Mac上,medium模型)。但如果不是那种“急着一分钟出结果”的场景,这个工具很推荐。 发现这个工具是前几天参加了一个2小时的 AI Agent 讲座,讲得很干货,特别想好好整理一下笔记。但这场讲座是中文为主,中英文夹杂,我用的otter.ai是没法转写的,于是我展开了一轮探索: 1. 讯飞听见:花了119块买了10小时语音包,转出来一看……准确率一般,好多句子完全不知所云。 2. 飞书妙记:网上说有免费300分钟,我没找到,花了$19.99升级。准确率确实比讯飞好一点,但遇到稍微复杂一点的英文术语或者行业黑话,转写还是挺迷的。 我用的安装方式是本地部署 Faster-Whisper(更快的优化版),直接问ChatGPT怎么装就可以。基本上只要有一点点 Python 环境知识,就可以搞定。 #whisper #AI转写 #中英文转写 #开源AI #语音转文字 #AI工具分享