字节跳动开源,用自然语言控制浏览器的 AI Agent,替代 Selenium/Playwright 手动编码。
核心功能
- 自然语言指令:”打开淘宝→搜索手机→截图价格”
- 页面理解、点击、输入、滚动、数据提取
- 支持无头模式、API 调用、批量任务

核心亮点
- 自然语言驱动:不再需要写繁琐的 CSS 选择器或 XPath。你只需用大白话告诉它“打开淘宝,搜索手机,截图价格”,它就能理解页面并自动规划执行路径。
- 纯视觉操作:它像人一样看屏幕,通过截图识别元素。这意味着它不依赖网页 DOM 结构,连 Canvas 绘图或动态渲染的内容都能搞定,界面怎么改通常都不影响脚本运行。
- 全平台通吃:除了控制 Web 浏览器,它还能通过 ADB 控制 Android 手机,或通过 WebDriverAgent 控制 iOS 设备,甚至能操控桌面应用。
- 多模型兼容:支持接入 GPT-4o、Qwen-VL、Gemini 等主流多模态大模型,你也可以配置本地开源模型来节省成本。
- 零门槛体验:不想写代码?直接安装 Chrome 插件,在侧边栏输入指令就能让它在当前页面跑起来;当然也支持集成到 Playwright 或 Puppeteer 代码里。
适用场景
- 省心测试:特别适合 UI 变动频繁的业务,或者需要快速验证流程的场景,不用再频繁修修补补选择器代码。
- 数据采集:批量执行“打开网页→提取信息→存储数据”的任务,轻松搞定电商比价或资讯抓取。
- 跨端脚本:用同一套逻辑,就能同时在网页、安卓和苹果设备上跑自动化流程。