
video-use 是 browser-use 团队在 2026 年 4 月发布的一个开源项目。发布时它的兄弟项目 browser-use 已经是 GitHub 上 8.8 万 Star 的明星项目。截至 7 月初,video-use 自己拿了 1.47 万 Star,单周曾涨过 3000 多。
video-use 是 browser-use 团队在 2026 年 4 月发布的一个开源项目。发布时它的兄弟项目 browser-use 已经是 GitHub 上 8.8 万 Star 的明星项目。截至 7 月初,video-use 自己拿了 1.47 万 Star,单周曾涨过 3000 多。
这个项目有意思的地方在于它的产品逻辑——跟市面上所有”AI 剪辑工具”走了一条完全相反的路。
几乎所有 AI 视频工具都在做同一件事:让 AI “看”视频。把视频拆成一帧一帧的画面,塞给多模态模型去理解。一段 3 分钟的 1080p 视频大约 5400 帧,按 GPT-4o 的视觉 token 计价,光”看完”就要烧掉几千万 token。还没动手剪,成本已经起飞了。
video-use 做了一个反直觉的决定:不让 AI 看画面,让 AI 读剧本。
具体怎么做的?两层结构。
第一层是音频转录,全程加载。每段素材通过 ElevenLabs Scribe 转成带词级时间戳、说话人分离、音频事件标注的文本稿。所有素材打包成一个约 12KB 的 takes_packed.md 文件。12KB 什么概念?一段可能几个 GB 的原始素材,被压缩到一条微信消息的大小。
第二层是视觉快照,按需加载。只在决策节点——比如判断一个长停顿是该保留还是该剪掉——才调用 timeline_view 生成一张胶片缩略 + 波形 + 单词标签的复合图。
官方算了一笔账:暴力逐帧方案 = 30,000 帧 × 1,500 tokens = 4,500 万 token 的噪音。video-use = 12KB 文本 + 少量几张 PNG。
这个思路跟 browser-use 处理网页的方式如出一辙。browser-use 不给 AI 看网页截图,给它结构化的 DOM 树。video-use 不给 AI 看视频帧,给它转写文本加时间轴。本质上是同一个产品哲学:先把信息结构化,再按需取用。不做全量多模态的暴力计算,做结构化数据的精准投喂。
技术路线确定了,产品形态怎么设计?
video-use 不是一个独立 App,它是一个 Skill。安装方式是把仓库克隆下来,软链接到 Claude Code 或 Codex 的 skills 目录。装完之后,你不需要打开任何剪辑软件。把素材丢进文件夹,在终端里启动 Claude Code,说一句”edit these into a launch video”。AI 会先盘点素材、提出剪辑策略、等你确认,然后产出 edit/final.mp4。
整个流程有一个值得注意的约束:Ask → confirm → execute → self-eval → persist。AI 在动手切素材之前,必须先用自然语言描述计划、等你确认。不是”一键出片”的黑箱,每一步都在你眼皮底下走。

那它到底能干什么?
翻一遍 README,功能覆盖了剪辑师日常最频繁的操作:剪掉 umm、uh、口误和空白停顿;每段素材独立调色;每个切点自动加 30ms 音频淡入淡出防爆音;烧录字幕;通过 HyperFrames、Remotion、Manim 或 PIL 生成动画叠加层。
- 去除填充词(、、假开头)和拍摄间的空白
ummuh - 自动调色每个片段(暖电影感、中性节奏或任何自定义ffmpeg链)
- 每次切换时音频都会渐渐衰落,所以你从未听到爆音
- 字幕可以按你的风格烧录——默认是两个字的大写段,完全可自定义
- 通过HyperFrames、Remotion、Manim或PIL(并行子代理)生成动画叠加层,每个动画生成一个子代理
- 在展示任何东西之前,会在每个切割边界处自我评估渲染输出
- 它会持续保留会话内存,这样下周的会话就能从你中断的地方继续project.md
这些操作不是写死在代码里的固定流程。AI 根据你的自然语言指令,动态生成 EDL(Edit Decision List,剪辑决策表)。你说”把第二段素材调成暖色电影风,去掉所有 umm”,它就生成对应的剪辑指令序列。
自评循环是另一个有意思的设计。渲染完成后,AI 会在每一个切点重新跑 timeline_view,检查三件事:视觉跳帧、音频爆音、字幕遮挡。发现问题就原地修正,最多重试三次,才把预览交给你。相当于 AI 自己给自己打完分再交作业。
8 步标准流程
| 步骤 | 动作 | 输出 |
|---|---|---|
| 1️⃣ 清点 | ffprobe 每个源,批量转录,生成 takes_packed.md | 转录文本 |
| 2️⃣ 预扫描 | 标记口误、明显错误 | 问题清单 |
| 3️⃣ 对话 | 描述所见,提问收集需求 | 需求文档 |
| 4️⃣ 提出策略 | 4-8 句话描述剪辑方案 | 策略确认 |
| 5️⃣ 执行 | 生成 EDL,并行动画,分段调色,渲染 | preview.mp4 |
| 6️⃣ 预览 | 生成 720p 快速预览 | preview.mp4 |
| 7️⃣ 自评估 | 在渲染输出上运行 timeline_view 检查剪辑边界 | 质检报告 |
| 8️⃣ 迭代+持久化 | 根据反馈调整,追加到 project.md | final.mp4 |
什么人适合用?
如果你已经在用 Claude Code 或 Codex 做开发,每天跟终端和 AI 打交道,video-use 装上去就是顺手的事。把录屏、教程素材、口播片段丢进去,让 AI 做粗剪和去口癖,能省不少时间。
如果你是视频从业者,指望它取代 Premiere 或 Final Cut Pro,那会失望。它做的是”把脏活累活自动化”,不是”取代剪辑师”。精细的节奏把控、情绪调度、创意剪辑,还得人来做。
video-use 真正有意思的地方,不是它”能剪视频”。是它用一个极其清醒的成本意识,重新定义了”AI 理解视频”这件事。在行业都在堆多模态、烧 token 的时候,它选择了一条更笨但更聪明的路——不让 AI 看画面,让 AI 读剧本。
评论列表 (0条):
加载更多评论 Loading...