video-use 是 browser-use 团队在 2026 年 4 月发布的一个开源项目。发布时它的兄弟项目 browser-use 已经是 GitHub 上 8.8 万 Star 的明星项目。截至 7 月初，video-use 自己拿了 1.47 万 Star，单周曾涨过 3000 多。

让AI读剧本，把故事剪成风铃般的诗。

立即访问✓ 链接正常 (2026-07-05)

推荐星级★★★★☆

官网github.com

收费模式免费

收录/更新时间2026-07-05

使用场景桌面端

ai视频开源项目

这个项目有意思的地方在于它的产品逻辑——跟市面上所有”AI 剪辑工具”走了一条完全相反的路。

几乎所有 AI 视频工具都在做同一件事：让 AI “看”视频。把视频拆成一帧一帧的画面，塞给多模态模型去理解。一段 3 分钟的 1080p 视频大约 5400 帧，按 GPT-4o 的视觉 token 计价，光”看完”就要烧掉几千万 token。还没动手剪，成本已经起飞了。

video-use 做了一个反直觉的决定：不让 AI 看画面，让 AI 读剧本。

具体怎么做的？两层结构。

第一层是音频转录，全程加载。每段素材通过 ElevenLabs Scribe 转成带词级时间戳、说话人分离、音频事件标注的文本稿。所有素材打包成一个约 12KB 的 takes_packed.md 文件。12KB 什么概念？一段可能几个 GB 的原始素材，被压缩到一条微信消息的大小。

第二层是视觉快照，按需加载。只在决策节点——比如判断一个长停顿是该保留还是该剪掉——才调用 timeline_view 生成一张胶片缩略 + 波形 + 单词标签的复合图。

官方算了一笔账：暴力逐帧方案 = 30,000 帧 × 1,500 tokens = 4,500 万 token 的噪音。video-use = 12KB 文本 + 少量几张 PNG。

这个思路跟 browser-use 处理网页的方式如出一辙。browser-use 不给 AI 看网页截图，给它结构化的 DOM 树。video-use 不给 AI 看视频帧，给它转写文本加时间轴。本质上是同一个产品哲学：先把信息结构化，再按需取用。不做全量多模态的暴力计算，做结构化数据的精准投喂。

技术路线确定了，产品形态怎么设计？

video-use 不是一个独立 App，它是一个 Skill。安装方式是把仓库克隆下来，软链接到 Claude Code 或 Codex 的 skills 目录。装完之后，你不需要打开任何剪辑软件。把素材丢进文件夹，在终端里启动 Claude Code，说一句”edit these into a launch video”。AI 会先盘点素材、提出剪辑策略、等你确认，然后产出 edit/final.mp4。

整个流程有一个值得注意的约束：Ask → confirm → execute → self-eval → persist。AI 在动手切素材之前，必须先用自然语言描述计划、等你确认。不是”一键出片”的黑箱，每一步都在你眼皮底下走。

那它到底能干什么？

翻一遍 README，功能覆盖了剪辑师日常最频繁的操作：剪掉 umm、uh、口误和空白停顿；每段素材独立调色；每个切点自动加 30ms 音频淡入淡出防爆音；烧录字幕；通过 HyperFrames、Remotion、Manim 或 PIL 生成动画叠加层。

去除填充词（、、假开头）和拍摄间的空白ummuh
自动调色每个片段（暖电影感、中性节奏或任何自定义ffmpeg链）
每次切换时音频都会渐渐衰落，所以你从未听到爆音
字幕可以按你的风格烧录——默认是两个字的大写段，完全可自定义
通过HyperFrames、Remotion、Manim或PIL（并行子代理）生成动画叠加层，每个动画生成一个子代理
在展示任何东西之前，会在每个切割边界处自我评估渲染输出
它会持续保留会话内存，这样下周的会话就能从你中断的地方继续project.md

这些操作不是写死在代码里的固定流程。AI 根据你的自然语言指令，动态生成 EDL（Edit Decision List，剪辑决策表）。你说”把第二段素材调成暖色电影风，去掉所有 umm”，它就生成对应的剪辑指令序列。

自评循环是另一个有意思的设计。渲染完成后，AI 会在每一个切点重新跑 timeline_view，检查三件事：视觉跳帧、音频爆音、字幕遮挡。发现问题就原地修正，最多重试三次，才把预览交给你。相当于 AI 自己给自己打完分再交作业。

8 步标准流程

步骤	动作	输出
1️⃣ 清点	ffprobe 每个源，批量转录，生成 `takes_packed.md`	转录文本
2️⃣ 预扫描	标记口误、明显错误	问题清单
3️⃣ 对话	描述所见，提问收集需求	需求文档
4️⃣ 提出策略	4-8 句话描述剪辑方案	策略确认
5️⃣ 执行	生成 EDL，并行动画，分段调色，渲染	preview.mp4
6️⃣ 预览	生成 720p 快速预览	preview.mp4
7️⃣ 自评估	在渲染输出上运行 timeline_view 检查剪辑边界	质检报告
8️⃣ 迭代+持久化	根据反馈调整，追加到 `project.md`	final.mp4

什么人适合用？

如果你已经在用 Claude Code 或 Codex 做开发，每天跟终端和 AI 打交道，video-use 装上去就是顺手的事。把录屏、教程素材、口播片段丢进去，让 AI 做粗剪和去口癖，能省不少时间。

如果你是视频从业者，指望它取代 Premiere 或 Final Cut Pro，那会失望。它做的是”把脏活累活自动化”，不是”取代剪辑师”。精细的节奏把控、情绪调度、创意剪辑，还得人来做。

video-use 真正有意思的地方，不是它”能剪视频”。是它用一个极其清醒的成本意识，重新定义了”AI 理解视频”这件事。在行业都在堆多模态、烧 token 的时候，它选择了一条更笨但更聪明的路——不让 AI 看画面，让 AI 读剧本。

项目网址：https://github.com/browser-use/video-use

你可能感兴趣的网站

AI图像处理五件套 – 修图，扣图，无损放大等功能全部免费用 AI漫剧开源三件套，将AI漫剧从剧本到成片全流程批量化魔因漫创 – 开源AI影视生产管线，从剧本到成片批量化 waoowaoo – 首个开源全流程AI影视生产平台

video-use 这个视频剪辑工具，让AI读剧本再剪辑视频

8 步标准流程

【安卓】酷我音乐 VIP会员版无损音乐下载

小宝追剧 – 免费追剧

评论列表 (0条)：

延伸阅读:

8 步标准流程

【安卓】酷我音乐 VIP会员版 无损音乐下载

小宝追剧 – 免费追剧

评论列表 (0条)：

延伸阅读:

【安卓】酷我音乐 VIP会员版无损音乐下载