Claude Code 编辑视频：开源多特性，处理流程科学，高效实现精确剪辑

📅 2026/6/30 16:26:54 👁️ 次浏览

介绍 video-use — 使用 Claude Code 编辑视频video-use 是 100% 开源的。只需把原始素材放进文件夹和 Claude Code 对话就能得到最终的 .mp4 文件。它适用于各种内容像人物访谈、蒙太奇、教程、旅行记录、采访等无需预设或菜单。功能特性- **去除填充词和空白片段**能自动剔除填充词像“umm”“uh”以及拍摄间隙的空白。- **自动色彩分级**会为每个片段自动进行色彩分级可选择温暖的电影色调、中性明快色调也能自定义 ffmpeg 处理链。- **音频淡入淡出**在每个剪辑点做 30 毫秒的音频淡入淡出处理防止出现爆音。- **字幕嵌入**能以自定义风格嵌入字幕默认是两个单词的大写块状显示而且完全可定制。- **动画叠加**可通过 HyperFrames、Remotion、Manim 或 PIL 生成动画叠加效果每个动画由并行子代理生成。- **自我评估**在向用户展示任何内容前会在每个剪辑边界对渲染输出进行自我评估。- **会话记忆**将会话记忆保存在 project.md 中这样下周的会话就能从上一次中断的地方接着进行。设置提示把以下内容粘贴到 Claude Code、Codex、Hermes、Openclaw 或任何有 shell 访问权限的代理中为用户设置 https://github.com/browser-use/video-use。首先阅读 install.md 来安装此仓库配置 ffmpeg向运行的代理注册该技能还要设置 ElevenLabs API 密钥需要时可让用户粘贴。然后阅读 SKILL.md 了解日常使用方法一定要阅读 helpers/ 文件夹因为编辑脚本都存放在那里。安装完成后不用自行转录任何内容只需告知用户已准备好等用户把素材放进文件夹就行。代理会处理克隆、依赖安装、技能注册还会提示用户输入一次 ElevenLabs API 密钥可在 elevenlabs.io/app/settings/api-keys 获取。接着把代理指向包含原始素材的文件夹cd /path/to/your/videosclaude # 或 codex、hermes 等要是想从自己的 VPS 或 Telegram 进行持续编辑可通过 Browser Use Box 运行代理。观看 15 秒的演示视频。在会话中输入“edit these into a launch video”代理会对素材进行盘点提出编辑策略等用户确认后在素材旁边生成 edit/final.mp4 文件。所有输出文件都存放在 /edit/ 文件夹中技能目录保持整洁。手动安装要是用户更愿意手动安装1. **克隆并创建符号链接**git clone https://github.com/browser-use/video-use ~/Developer/video-useln -sfn ~/Developer/video-use ~/.claude/skills/video-use # Claude Code# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use # Codex2. **安装依赖项**cd ~/Developer/video-useuv sync # 或pip install -e .brew install ffmpeg # 必需brew install yt-dlp # 可选用于下载在线素材3. **添加 ElevenLabs API 密钥**cp .env.example .env$EDITOR .env # ELEVENLABS_API_KEY...工作原理大语言模型LLM并非直接观看视频而是通过两层处理来读取视频信息从而实现精确到单词边界的剪辑。- **第一层音频转录始终加载**每个素材调用一次 ElevenLabs Scribe获取单词级别的时间戳、说话人识别和音频事件如笑声、掌声、叹息声。所有素材打包成一个约 12KB 的 takes_packed.md 文件这是 LLM 的主要阅读视图。## C0103 (duration: 43.0s, 8 phrases)[002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted.[006.08-006.74] S0 We fixed this.- **第二层视觉合成按需加载**timeline_view 为任何时间范围生成包含胶片条、波形图和单词标签的 PNG 图像。仅在决策点调用如模糊的停顿、重拍比较、剪辑点合理性检查。传统方法会产生 30,000 帧 × 1,500 个令牌 4500 万个令牌的无用信息而 Video Use 仅需 12KB 文本和少量 PNG 图像。这和 browser-use 为 LLM 提供结构化 DOM 而非截图的思路类似但应用于视频处理。处理流程转录 → 打包 → LLM 推理 → 编辑决策列表EDL → 渲染 → 自我评估要是自我评估发现问题就进行修复并重新渲染最多 3 次。自我评估循环会在每个剪辑边界对渲染输出运行 timeline_view捕捉视觉跳跃、音频爆音和隐藏字幕等问题。只有通过评估后用户才能看到预览。设计原则- **文本与按需视觉结合**不进行逐帧处理以转录文本为核心音频为主视觉为辅。- **基于语音边界剪辑**剪辑依据语音边界和静音间隙进行。- **交互流程**询问 → 确认 → 执行 → 自我评估 → 保存。未经策略批准不进行剪辑操作。- **内容类型无预设**先观察、询问再进行编辑。遵循 12 条严格规则其他方面给予艺术创作自由。确保制作的正确性是不可协商的但审美方面可灵活处理。完整的制作规则和编辑技巧请参阅 SKILL.md。

相关新闻