2025 年底,Vercel 开源了 agentBrowser,打出了”浏览器是下一个 LLM 接口”的旗号。开源社区一片叫好,然后大家发现:这玩意演示很酷,一上生产就趴窝。
不是 agentBrowser 不行——它在省 Token 这件事上确实做到了极致,把原始 HTML 砍掉 90% 冗余只保留可交互元素。但真实世界的网页不是玩具。Cloudflare 的 Turnstile 验证、DataDome 的指纹检测、reCAPTCHA 的人机判断……这些反爬虫基础设施,过去十年一直在升级,它们的目标就是拦住非人类的浏览器行为。一个干净的 Playwright 实例,哪怕语义结构化做得再好,指纹一露馅什么都白搭。
2026 年上半年,这个赛道上出现了三个主力选手:agentBrowser(Vercel 开源)、PP-Browser(国内团队)、Browser-Use(开源社区)。
然后 BrowserAct 也进来了。而且它的打法和前三家都不太一样。
它解决的根本不是”能不能控制浏览器”
市面上所有的 AI 浏览器框架本质上都在解决同一个问题:帮 LLM 看懂网页并操作网页。agentBrowser 的做法是砍掉冗余 DOM 省 Token,Browser-Use 的做法是抽象出 Action 和 Agent 的中间层。
BrowserAct 承认这两个方向都对,但它认为还有一个更大的问题被忽略了:网页不想被你的 AI 控制,而且它有手段拒绝你。

真实世界里的网页是什么样的?Amazon、小红书、知乎、微信公众号后台、LinkedIn——每一个都有反爬逻辑。别说 AI 了,你用 Playwright 写个脚本去批量抓数据,不挂代理、不配指纹、不给 Cookie,大概率几分钟之内就会被识别弹验证码,甚至直接封 IP。
BrowserAct 做的就是在 LLM 和浏览器之间加了一个环境层,专门负责”让 AI 看起来像个真人”。
这个环境层包括:
- Stealth 指纹——修改 Canvas、WebGL、AudioContext、字体列表等信号,让浏览器指纹看起来是个正常的人类设备
- TLS 握手随机化——连 TCP 层的加密套件顺序都给你改,不让服务器从 TLS 指纹认出这是 Playwright
- 住宅代理——内置动态/静态住宅 IP,按国家、ASN 路由,不暴露数据中心 IP
- CAPTCHA 自动求解——reCAPTCHA、Cloudflare Turnstile、DataDome、HUMAN Security,全包
- 人机接力兜底——遇到 2FA 或高级验证,自动生成远程协助链接,手机上确认后交回 AI 继续执行
单独看每一项都不新鲜——指纹浏览器、代理池、验证码打码平台,每一个都是成熟的赛道。但把它们和 AI Agent 的调度层整合成一个产品,BrowserAct 确实是第一个干得比较完整的。
三套浏览器模式,对应三个真实场景
BrowserAct 在官网上把能力拆成了三个模式,我觉得这个分类比很多竞品清晰:
1. 复用本地 Chrome
直接连你正在登录的 Chrome 浏览器,带上已有的 Cookie、SSO、扩展。场景很清楚:你需要 AI 帮你操作你已经登录好的网站——比如做内容分发,把公众号文章同步到知乎和小红书后台。不用配代理、不用搞指纹,打开直接用。
2. Stealth 隐身模式
每次新建一个干净的隐私会话,指纹和代理都是新的,用完即焚。专门给批量爬取用的——抓 Amazon Hot New Releases、扒电商竞品数据、监测价格波动。不跟任何身份绑定,事完了痕迹清除。
3. Stealth 固定身份模式
每个任务绑定一个固定的指纹 + 静态住宅 IP + Cookie 存储。场景:多账号运营——十个 Facebook 广告号、五个亚马逊店铺,每个账号配一个专属浏览器身份,指纹和代理长期固定,互不交叉。
三套模式对应三种不同的信任层级:本地信任(复用登录态)、零信任(一次性爬取)、半信任(固定身份运营)。这个区分在产品设计上比”全都用隐身模式”或者”全都用本地模式”合理得多。
Skill Forge 可能是最有想象力的功能
BrowserAct 内置了一个叫 Skill Forge 的能力——用自然语言描述需求,它会自动研究目标网站的页面结构和交互逻辑,设计执行方案,测试验证,最终生成一个可复用的 Skill。
举个例子,你说”每天早上 8 点抓取小红书’AI 工具’关键词下的前 50 条笔记,生成日报发到飞书群”,Skill Forge 会自己去研究小红书的页面结构,搞清楚搜索框在哪、搜索结果怎么翻页、每条笔记的标题/点赞/评论在哪个 DOM 节点底下,设计好执行路径,跑通,然后把整个流程打包成一个可复用的 Skill。下次直接调用就行。不用写代码,不用录步骤。
这个能力如果做深了,本质上是一个”浏览器自动化的应用商店”。社区贡献的 Skill 越多,新用户上手成本越低,网络效应越强。
目前 Skill Forge 还是通过 GitHub 仓库分发的,BrowserAct 官方还没做一个独立的 Skill 市场。但方向是对的。
跟竞品对比的话:
- agentBrowser:开源免费,省 Token 极致,但反检测能力弱,需要自己搭指纹和代理
- Browser-Use:开源框架,灵活性高,但配置门槛也高,适合有工程能力的团队
- PP-Browser:国内团队做,对中文网站兼容好,价格低,但海外站点的指纹伪装不如 BrowserAct
- BrowserAct:闭源商业产品,开箱即用,反检测最强,缺点是要花钱、生态靠官方维护
本质上这是一场”开源通用 vs 商业专用”的选择:你的场景是验证原型还是跑生产?你的团队有没有能力自建反检测层?
也有几个值得关注的问题
Credits 定价的隐性成本——代理流量也走 Credits,大文件传输和频繁的页面跳转会加速消耗。静 运行一个爬虫任务,Cost 不一定比直接买代理+验证码方案便宜多少。
本地模式对 Windows 有依赖——复用本地 Chrome 的功能需要桌面 Chrome 运行中才能工作。服务器端的 headless 场景虽然有计划(Cloud Browser),但还没上线。
Skill Forge 的社区生态还没起来——思路很好,但 Skill 还是用户自己生成的,官方没有运营一个 Skill 市场。如果”每次都要自己生成 Skill”,那跟写自动化脚本的区别就没那么大了。
BrowserAct 做了 Agent 生态里一个”不想做但必须有人做”的脏活。它没有发明新的浏览器交互协议,也没有一个新的 LLM 接口标准——它只是把反检测、代理、验证码求解、会话隔离这些能力整合成了一个 AI Agent 可以直接调用的服务层。
脏活累活做到位了,有时候比做漂亮活更有价值。
评论列表 (0条):
加载更多评论 Loading...