AI操控浏览器已经卷到这个程度了？

2025 年底，Vercel 开源了 agentBrowser，打出了”浏览器是下一个 LLM 接口”的旗号。开源社区一片叫好，然后大家发现：这玩意演示很酷，一上生产就趴窝。

不是 agentBrowser 不行——它在省 Token 这件事上确实做到了极致，把原始 HTML 砍掉 90% 冗余只保留可交互元素。但真实世界的网页不是玩具。Cloudflare 的 Turnstile 验证、DataDome 的指纹检测、reCAPTCHA 的人机判断……这些反爬虫基础设施，过去十年一直在升级，它们的目标就是拦住非人类的浏览器行为。一个干净的 Playwright 实例，哪怕语义结构化做得再好，指纹一露馅什么都白搭。

2026 年上半年，这个赛道上出现了三个主力选手：agentBrowser（Vercel 开源）、PP-Browser（国内团队）、Browser-Use（开源社区）。

然后 BrowserAct 也进来了。而且它的打法和前三家都不太一样。

它解决的根本不是”能不能控制浏览器”

市面上所有的 AI 浏览器框架本质上都在解决同一个问题：帮 LLM 看懂网页并操作网页。agentBrowser 的做法是砍掉冗余 DOM 省 Token，Browser-Use 的做法是抽象出 Action 和 Agent 的中间层。

BrowserAct 承认这两个方向都对，但它认为还有一个更大的问题被忽略了：网页不想被你的 AI 控制，而且它有手段拒绝你。

真实世界里的网页是什么样的？Amazon、小红书、知乎、微信公众号后台、LinkedIn——每一个都有反爬逻辑。别说 AI 了，你用 Playwright 写个脚本去批量抓数据，不挂代理、不配指纹、不给 Cookie，大概率几分钟之内就会被识别弹验证码，甚至直接封 IP。

BrowserAct 做的就是在 LLM 和浏览器之间加了一个环境层，专门负责”让 AI 看起来像个真人”。

这个环境层包括：

Stealth 指纹——修改 Canvas、WebGL、AudioContext、字体列表等信号，让浏览器指纹看起来是个正常的人类设备
TLS 握手随机化——连 TCP 层的加密套件顺序都给你改，不让服务器从 TLS 指纹认出这是 Playwright
住宅代理——内置动态/静态住宅 IP，按国家、ASN 路由，不暴露数据中心 IP
CAPTCHA 自动求解——reCAPTCHA、Cloudflare Turnstile、DataDome、HUMAN Security，全包
人机接力兜底——遇到 2FA 或高级验证，自动生成远程协助链接，手机上确认后交回 AI 继续执行

单独看每一项都不新鲜——指纹浏览器、代理池、验证码打码平台，每一个都是成熟的赛道。但把它们和 AI Agent 的调度层整合成一个产品，BrowserAct 确实是第一个干得比较完整的。

三套浏览器模式，对应三个真实场景

BrowserAct 在官网上把能力拆成了三个模式，我觉得这个分类比很多竞品清晰：

1. 复用本地 Chrome

直接连你正在登录的 Chrome 浏览器，带上已有的 Cookie、SSO、扩展。场景很清楚：你需要 AI 帮你操作你已经登录好的网站——比如做内容分发，把公众号文章同步到知乎和小红书后台。不用配代理、不用搞指纹，打开直接用。

2. Stealth 隐身模式

每次新建一个干净的隐私会话，指纹和代理都是新的，用完即焚。专门给批量爬取用的——抓 Amazon Hot New Releases、扒电商竞品数据、监测价格波动。不跟任何身份绑定，事完了痕迹清除。

3. Stealth 固定身份模式

每个任务绑定一个固定的指纹 + 静态住宅 IP + Cookie 存储。场景：多账号运营——十个 Facebook 广告号、五个亚马逊店铺，每个账号配一个专属浏览器身份，指纹和代理长期固定，互不交叉。

三套模式对应三种不同的信任层级：本地信任（复用登录态）、零信任（一次性爬取）、半信任（固定身份运营）。这个区分在产品设计上比”全都用隐身模式”或者”全都用本地模式”合理得多。

Skill Forge 可能是最有想象力的功能

BrowserAct 内置了一个叫 Skill Forge 的能力——用自然语言描述需求，它会自动研究目标网站的页面结构和交互逻辑，设计执行方案，测试验证，最终生成一个可复用的 Skill。

举个例子，你说”每天早上 8 点抓取小红书’AI 工具’关键词下的前 50 条笔记，生成日报发到飞书群”，Skill Forge 会自己去研究小红书的页面结构，搞清楚搜索框在哪、搜索结果怎么翻页、每条笔记的标题/点赞/评论在哪个 DOM 节点底下，设计好执行路径，跑通，然后把整个流程打包成一个可复用的 Skill。下次直接调用就行。不用写代码，不用录步骤。

这个能力如果做深了，本质上是一个”浏览器自动化的应用商店”。社区贡献的 Skill 越多，新用户上手成本越低，网络效应越强。

目前 Skill Forge 还是通过 GitHub 仓库分发的，BrowserAct 官方还没做一个独立的 Skill 市场。但方向是对的。

跟竞品对比的话：

agentBrowser：开源免费，省 Token 极致，但反检测能力弱，需要自己搭指纹和代理
Browser-Use：开源框架，灵活性高，但配置门槛也高，适合有工程能力的团队
PP-Browser：国内团队做，对中文网站兼容好，价格低，但海外站点的指纹伪装不如 BrowserAct
BrowserAct：闭源商业产品，开箱即用，反检测最强，缺点是要花钱、生态靠官方维护

本质上这是一场”开源通用 vs 商业专用”的选择：你的场景是验证原型还是跑生产？你的团队有没有能力自建反检测层？

也有几个值得关注的问题

Credits 定价的隐性成本——代理流量也走 Credits，大文件传输和频繁的页面跳转会加速消耗。静运行一个爬虫任务，Cost 不一定比直接买代理+验证码方案便宜多少。

本地模式对 Windows 有依赖——复用本地 Chrome 的功能需要桌面 Chrome 运行中才能工作。服务器端的 headless 场景虽然有计划（Cloud Browser），但还没上线。

Skill Forge 的社区生态还没起来——思路很好，但 Skill 还是用户自己生成的，官方没有运营一个 Skill 市场。如果”每次都要自己生成 Skill”，那跟写自动化脚本的区别就没那么大了。

BrowserAct 做了 Agent 生态里一个”不想做但必须有人做”的脏活。它没有发明新的浏览器交互协议，也没有一个新的 LLM 接口标准——它只是把反检测、代理、验证码求解、会话隔离这些能力整合成了一个 AI Agent 可以直接调用的服务层。

脏活累活做到位了，有时候比做漂亮活更有价值。

立即查看>>

AI操控浏览器已经卷到这个程度了？

它解决的根本不是”能不能控制浏览器”

三套浏览器模式，对应三个真实场景

Skill Forge 可能是最有想象力的功能

跟竞品对比的话：

也有几个值得关注的问题

BrowserAct – 让AI像人一样操控网页

没有啦 (Ｔ▽Ｔ)

评论列表 (0条)：

延伸阅读: