这轮 Video Cut 优化借鉴了video- use结合DeepSeek- V4 flash 调用。 新的系统更像一条 transcript-first 的工程流水线:先把视频变成可计算的文本、词级时间轴、静音区间、候选片段和字幕层,再让 LLM 判断哪些内容值得留下。 模型负责内容价值、叙事顺序、情绪节奏和主题组织,本地程序负责词级边界、静音吸附、filler 修剪、音频 fade、字幕 remap 和最终渲染。 最关键的变化是:LLM 不再直接输出最终物理切点。它选择的是 phrase_id 或 cut_candidate_id,真正的起止时间由本地 cut_refiner 根据词级时间轴和静音边界来校准。 这样既保留了模型对语义和节奏的理解,又避免让模型承担它最不擅长的精确时间控制。说白了,AI 可以决定这句话值不值得留,但不要让它拿剪刀。 字幕系统也被拆成独立后处理层。字幕不再混在剪辑 Markdown 里由模型临时发挥,而是从转录、翻译、EDL remap 到最终 burn-in 形成单独链路。 模型调用侧,DeepSeek 被放在更合适的位置:大文本理解、候选片段筛选、结构化 EDL 初稿和字幕翻译。Codex CLI 更适合少量 review 或工程诊断,不适合把完整 transcript 塞进去硬跑。 工程封装上,Mac mini 的 OpenClaw skill 已经把输入路径、软链接、VIDEO_CUT_TARGET_PROJECT、ffmpeg-full、通知和验证封成统一入口。用户可以直接传任意视频路径,runner 只处理指定项目,不会把 input 目录里的旧素材顺手一起剪了。输出仍保持原项目结构,cache、timeline、renders、xml_exports 都能沿用。 这条路线的原则: AI 不该完全自动剪视频,它应该被放在最擅长的位置。理解内容、筛选价值、组织叙事交给模型;控制时间、渲染视频、校准字幕、记录日志交给程序。 by gegeewu 🦉 🏷️ #gegeewu #Gegeewu #嗝嗝巫 #AI视频剪辑 #技术优化 #DeepSeek #字幕系统 #自动化工作流 #ffmpeg