vibe一个自动语音识别并生成字幕的工具

发布时间：2026-06-02 08:10:19 来源：神码AI知识网

作者：vibe一个自动语音识别并生成字幕的工具

SubtitlePipeline（https://github.com/saaak/SubtitlePipeline）是一个 Docker 部署的服务[嘻嘻R] 指定媒体目录并配置后全自动完成：扫描视频 → 提取音频 → WhisperX 语音识别 → LLM 翻译 → 生成 .srt 字幕自动为媒体库中的每个视频生成中文字幕，输出到视频同目录，同时支持配置生成的字幕文件名格式（影片.zh.srt 、影片.forced.zh.srt 等）这样就可以自动挂载到 Jellyfin / Emby / Plex 等流媒体服务器实测过程中使用了一个近 3 小时的视频，用的 whisper 的 small 模型。在 i5-12490f 下总共用时 20 分钟多点。 small 模型效果就那样吧，识别效果一般，不过基本上可以看懂意思了。有些大模型 API 会拦截 NSFW 内容的翻译，可以通过配置自定义 system prompt 解决[呃R] #nas #字幕 #AI工具

返回新闻列表

文章详情

vibe一个自动语音识别并生成字幕的工具

推荐阅读