如何让 AI Agent 更好地操作浏览器,一直是一个没有完美解答的课题。最近 GitHub 上出现了一个叫 BrowserAct 的项目,专注于让 AI Agent 操作真实浏览器,突破反爬虫检测。
很多人第一反应是:这不就是 Codex 的 Chrome 扩展做的事情吗?截图、点击、填表、跳转、读 DOM——给 AI 安了一双会操作浏览器的手。但深入对比后发现,Chrome 扩展和 BrowserAct 根本不是同一层的东西。

通用工具 vs 专业方案
Chrome 扩展是个通用浏览器控制工具——能看到当前页面、点元素、填表单、跳转导航、执行任意浏览器操作。能力是通用的,但问题也出在"都能干"这三个字上:因为它什么都能干,所以它什么坑都不防。
几个典型场景:
- 爬 Amazon 畅销榜?Cloudflare 五分钟就把你拦了
- 登录后 session 半路失效?它就傻在那
- 页面 DOM 直接喂给 LLM?90% 是垃圾 HTML,token 烧得飞起还不一定出活
- 需要同时跑十个账号?没有并发支持,每个账号还得保持不同的登录态和网络出口

通用工具有手,但没经验。BrowserAct 针对真实生产环境里最要命的几个麻烦——反爬检测、会话中断、Token 噪声、多账号串线——分别写了专门的防御性处理逻辑。
打个比方:Chrome 扩展 = 会开车的司机,什么路都能开;BrowserAct = 熟悉每条路的导航 + 专门的货运许可证,知道哪个路口有摄像头、哪段路常年修路、到了关卡拿什么证件能过。

实际案例测试
案例一:批量抓取小红书笔记
安装过程很简单——不需要配环境、不用折腾依赖,直接在对话框里输入它的 GitHub 地址:github.com/browser-act/skills/tree/main/browser-act,然后说一句"我想安装这个 skill",前后不到一分钟。
小红书是有门槛的——人机验证这一块一直比较棘手,对自动化工具的检测很敏感。但正因为有门槛,才更能测出它的真实水平。
输入关键词"AI Agent"、"浏览器自动化"、"AI 自动化",让它直接去小红书搜索并抓取数据。它直接调用了本地的 Chrome 浏览器,复用原有登录状态的前提下直接操作浏览器。整个过程中,它操作的就是自己的浏览器,不是专门为自动化另开的。

最终成功抓到了 84 条数据,包含了公开笔记的标题、互动数据、作者信息和发布时间。

更惊喜的是,它不只是把数据扔出来就不管了。它根据抓取到的 84 条数据,自动生成了一份分析报告,对内容角度、互动趋势做了归纳和总结。这种"抓数据 + 出报告"的闭环,确实省了不少时间。

案例二:多平台文章同步分发
第二个案例测试的是:把一篇公众号文章抓取下来,然后分发到小红书、知乎和抖音三个平台。
它先从公众号路径抓取文章内容。在这个过程中,它也检测到了平台的验证机制,但成功完成了验证。拿到了文章全文(包括图片),把文字内容全部提取下来,把图片打包下载。
接着,它分别进入了小红书、知乎和抖音三个平台的创作后台,把文章内容按照每个平台的风格改写之后,填入标题、正文、标签和简介,连图片也一并上传到了各个平台。最终,三篇文章全部保存到了对应平台的草稿箱里。

这一轮考的不是一次性的抓取,而是执行层的完整操作流——在真实网页里像人一样走完多步骤操作。从抓取到改写,从登录后台到填入内容再到上传图片,每一步都踩在真实的生产环境里。
有三层能力在背后支撑:
- 环境层:stealth 浏览器把自动化痕迹隐藏起来,指纹伪装让它看起来像一台正常设备
- 执行层:在真实浏览器里完成搜索、滚动、提取、整理、总结的完整流程
- 人机接力层:检测到验证码之后不硬闯,而是让人接管一次,完成后再继续执行

案例三:多账号多 IP 登录
第三个案例测试的是多账号隔离。BrowserAct 给出了两个配置隐私浏览器的方案:使用现有的静态 IP 地址配置到现有的浏览器上,或者购买一个新的静态地址。
配置完成后,有了两个独立的隐私浏览器,各自配置了不同的静态 IP 地址。这样一来,可以在同一个网站上同时登录两个不同的账号,各自独立操作。浏览器负责身份,Session 负责具体任务,谁也不会串到谁那边去。

对于经常需要做多账号运营的人来说,这个能力挺实际的——不用在一个浏览器里反复切换账号,不用担心登错号发错内容。每个账号都是独立的浏览器身份、独立的 Cookie、独立的登录态、独立的网络出口。
静态代理在今天不算什么新奇功能,很多工具都有。但在 BrowserAct 的设计里,它不是被当成一个单独卖点来吹的,而是"长期账号稳定身份"这个体系的一环。你的每个账号以稳定、统一的身份持续访问网站,风控系统看你就跟看一个正常用户一样。

Skill Forge:能力持续积累
除了上面的能力,还有一个值得单独说的功能:Skill Forge。安装之后,你只需要用自然语言描述你的需求,比如"我需要一个能每天自动抓取小红书指定关键词数据并生成报告的 skill"。
Skill Forge 会自行进行方案探测,研究目标网站的页面结构和交互逻辑,然后输出一套执行方案,接着自己跑通测试,验证可行之后,最终输出一个可以直接调用的 Skill。
这跟"把跑过的流程录制成脚本"不太一样。它不是录制回放,而是让一个专门的 skill 去帮你研究和生成新的 skill。你只需要描述目标,方案探测、测试验证这些脏活累活它自己干了。这就从"每次都是一次性折腾"变成了"能力持续积累"。
多 Session 并发也同样支持——不同的任务放在不同的 Session 里同时跑,互不干扰。

能力边界
BrowserAct 能做到的是:
- 真实浏览器控制
- 反检测浏览器环境
- 静态代理支撑长期身份稳定
- 遇到验证码时人机接力
- 多任务并发不串线
- 多账号独立身份隔离
- 跑通的流程沉淀成可复用 Skill
但它做不到的是:
- 保证百分百过验证码
- 保证账号永远不会被封
- 自动绕过所有平台风控
- 所有流程完全不需要人看
- 买一个代理就能一劳永逸解决多账号运营

苏米观察
Chrome 扩展把 AI 能不能点网页这件事解决了。但它解决不了 AI 能不能稳定地进入真实网站、把活干完、中间不翻车这件事。这两个问题听起来像是一件事,实际上是两层。
通用工具给 AI 安了一双手,BrowserAct 给这双手配上了经验、地图、应急方案和多线作战能力。用大白话说,你考了驾照、会踩油门打方向盘,跟你真能在晚高峰、下大雨、到处修路绕道的城市里把一车货准时送到,是两码事。
能开不算本事,能送到,才算。
GitHub 仓库:github.com/browser-act