当前位置：首页 » AI开源项目

BrowserAct：让 AI突破反爬虫检测的浏览器自动化 Skill

1月前 AI开源项目 591 0

如何让 AI Agent 更好地操作浏览器，一直是一个没有完美解答的课题。最近 GitHub 上出现了一个叫 BrowserAct 的项目，专注于让 AI Agent 操作真实浏览器，突破反爬虫检测。

很多人第一反应是：这不就是 Codex 的 Chrome 扩展做的事情吗？截图、点击、填表、跳转、读 DOM——给 AI 安了一双会操作浏览器的手。但深入对比后发现，Chrome 扩展和 BrowserAct 根本不是同一层的东西。

通用工具 vs 专业方案

Chrome 扩展是个通用浏览器控制工具——能看到当前页面、点元素、填表单、跳转导航、执行任意浏览器操作。能力是通用的，但问题也出在"都能干"这三个字上：因为它什么都能干，所以它什么坑都不防。

几个典型场景：

爬 Amazon 畅销榜？Cloudflare 五分钟就把你拦了
登录后 session 半路失效？它就傻在那
页面 DOM 直接喂给 LLM？90% 是垃圾 HTML，token 烧得飞起还不一定出活
需要同时跑十个账号？没有并发支持，每个账号还得保持不同的登录态和网络出口

通用工具有手，但没经验。BrowserAct 针对真实生产环境里最要命的几个麻烦——反爬检测、会话中断、Token 噪声、多账号串线——分别写了专门的防御性处理逻辑。

打个比方：Chrome 扩展 = 会开车的司机，什么路都能开；BrowserAct = 熟悉每条路的导航 + 专门的货运许可证，知道哪个路口有摄像头、哪段路常年修路、到了关卡拿什么证件能过。

实际案例测试

案例一：批量抓取小红书笔记

安装过程很简单——不需要配环境、不用折腾依赖，直接在对话框里输入它的 GitHub 地址：github.com/browser-act/skills/tree/main/browser-act，然后说一句"我想安装这个 skill"，前后不到一分钟。

小红书是有门槛的——人机验证这一块一直比较棘手，对自动化工具的检测很敏感。但正因为有门槛，才更能测出它的真实水平。

输入关键词"AI Agent"、"浏览器自动化"、"AI 自动化"，让它直接去小红书搜索并抓取数据。它直接调用了本地的 Chrome 浏览器，复用原有登录状态的前提下直接操作浏览器。整个过程中，它操作的就是自己的浏览器，不是专门为自动化另开的。

最终成功抓到了 84 条数据，包含了公开笔记的标题、互动数据、作者信息和发布时间。

更惊喜的是，它不只是把数据扔出来就不管了。它根据抓取到的 84 条数据，自动生成了一份分析报告，对内容角度、互动趋势做了归纳和总结。这种"抓数据 + 出报告"的闭环，确实省了不少时间。

案例二：多平台文章同步分发

第二个案例测试的是：把一篇公众号文章抓取下来，然后分发到小红书、知乎和抖音三个平台。

它先从公众号路径抓取文章内容。在这个过程中，它也检测到了平台的验证机制，但成功完成了验证。拿到了文章全文（包括图片），把文字内容全部提取下来，把图片打包下载。

接着，它分别进入了小红书、知乎和抖音三个平台的创作后台，把文章内容按照每个平台的风格改写之后，填入标题、正文、标签和简介，连图片也一并上传到了各个平台。最终，三篇文章全部保存到了对应平台的草稿箱里。

这一轮考的不是一次性的抓取，而是执行层的完整操作流——在真实网页里像人一样走完多步骤操作。从抓取到改写，从登录后台到填入内容再到上传图片，每一步都踩在真实的生产环境里。

有三层能力在背后支撑：

环境层：stealth 浏览器把自动化痕迹隐藏起来，指纹伪装让它看起来像一台正常设备
执行层：在真实浏览器里完成搜索、滚动、提取、整理、总结的完整流程
人机接力层：检测到验证码之后不硬闯，而是让人接管一次，完成后再继续执行

案例三：多账号多 IP 登录

第三个案例测试的是多账号隔离。BrowserAct 给出了两个配置隐私浏览器的方案：使用现有的静态 IP 地址配置到现有的浏览器上，或者购买一个新的静态地址。

配置完成后，有了两个独立的隐私浏览器，各自配置了不同的静态 IP 地址。这样一来，可以在同一个网站上同时登录两个不同的账号，各自独立操作。浏览器负责身份，Session 负责具体任务，谁也不会串到谁那边去。

对于经常需要做多账号运营的人来说，这个能力挺实际的——不用在一个浏览器里反复切换账号，不用担心登错号发错内容。每个账号都是独立的浏览器身份、独立的 Cookie、独立的登录态、独立的网络出口。

静态代理在今天不算什么新奇功能，很多工具都有。但在 BrowserAct 的设计里，它不是被当成一个单独卖点来吹的，而是"长期账号稳定身份"这个体系的一环。你的每个账号以稳定、统一的身份持续访问网站，风控系统看你就跟看一个正常用户一样。

Skill Forge：能力持续积累

除了上面的能力，还有一个值得单独说的功能：Skill Forge。安装之后，你只需要用自然语言描述你的需求，比如"我需要一个能每天自动抓取小红书指定关键词数据并生成报告的 skill"。

Skill Forge 会自行进行方案探测，研究目标网站的页面结构和交互逻辑，然后输出一套执行方案，接着自己跑通测试，验证可行之后，最终输出一个可以直接调用的 Skill。

这跟"把跑过的流程录制成脚本"不太一样。它不是录制回放，而是让一个专门的 skill 去帮你研究和生成新的 skill。你只需要描述目标，方案探测、测试验证这些脏活累活它自己干了。这就从"每次都是一次性折腾"变成了"能力持续积累"。

多 Session 并发也同样支持——不同的任务放在不同的 Session 里同时跑，互不干扰。

能力边界

BrowserAct 能做到的是：

真实浏览器控制
反检测浏览器环境
静态代理支撑长期身份稳定
遇到验证码时人机接力
多任务并发不串线
多账号独立身份隔离
跑通的流程沉淀成可复用 Skill

但它做不到的是：

保证百分百过验证码
保证账号永远不会被封
自动绕过所有平台风控
所有流程完全不需要人看
买一个代理就能一劳永逸解决多账号运营

苏米观察

Chrome 扩展把 AI 能不能点网页这件事解决了。但它解决不了 AI 能不能稳定地进入真实网站、把活干完、中间不翻车这件事。这两个问题听起来像是一件事，实际上是两层。

通用工具给 AI 安了一双手，BrowserAct 给这双手配上了经验、地图、应急方案和多线作战能力。用大白话说，你考了驾照、会踩油门打方向盘，跟你真能在晚高峰、下大雨、到处修路绕道的城市里把一车货准时送到，是两码事。

能开不算本事，能送到，才算。

GitHub 仓库：github.com/browser-act

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：BrowserAct：让 AI突破反爬虫检测的浏览器自动化 Skill

请登录后发表评论