当前位置：首页 » AI开源项目

BrowserAct：AI Agent 浏览器自动化工具，突破网页访问限制

50分钟前 AI开源项目 0 0

在讨论 AI Agent 的能力边界时，大多数人关注的是模型的推理能力和上下文长度。但有一个常被忽略的关键点：Agent 在真实网络环境中的执行能力。

现有的 Agent 工具在浏览网页时存在明显短板——面对需要登录、验证码或动态渲染的页面时，往往束手无策。

BrowserAct 正是为了解决这个问题而生的浏览器自动化 CLI 工具，目前在 GitHub 上已超过 2.8k Star。

BrowserAct 的三层架构设计

与依赖模型视觉能力的传统方案不同，BrowserAct 采用纯命令行方式执行浏览器操作，从环境伪装、执行策略和人工协作三个层面系统性地提升了 Agent 操作浏览器的成功率。

一、环境层：让 Agent 看起来像真人

环境层的核心是浏览器指纹伪装和动态网络身份切换，让 Agent 的浏览行为与真实用户几乎一致。每个账号可以绑定独立的登录空间和网络路径，多账号同时运行也不会互相干扰。

实际应用场景：

长期登录稳定：同一账号不会因为"自动化特征"被封号，Cookie 和登录状态长期保持
多账号隔离：同时运营多个店铺或社媒账号，每个账号有独立干净的环境，避免串号关联
免反复登录：登录状态持久化，不用反复扫码或重新认证

二、执行层：自动突破反机器人检测

当网站设置了人机验证或反爬虫检测时，执行层负责自动处理这些屏障，降低被识别为自动化行为的概率。

核心能力：

自动通过人机验证：登录时需要"我不是机器人"验证，Agent 可以自动完成，无需手动操作
跨越验证屏障：抓取需要登录态才能看到的数据（后台数据、会员内容），Agent 能自动突破
自主重试：遇到复杂页面检测时，Agent 会自主尝试突破，而不是直接放弃任务

三、人工层：人机接力无缝续接

有些情况只有人类能做到——短信验证码、扫码验证或敏感操作二次授权。BrowserAct 的处理方式是生成一个远程协作链接，在任何设备打开完成验证后，Agent 会从断点处继续执行，而不是从头开始。

典型场景：

短信验证码：AI 遇到验证码不会终止任务，用户输入后它继续执行
企业 SSO 登录：处理需要审批的场景，人工过一道后全自动继续
复杂长流程：AI 和人工交替配合，已完成的部分不会重复执行

苏米注：这三层设计的精髓在于"自动优先、人工兜底、无缝续接"。不是追求 100% 自动化，而是承认某些环节必须人类参与，并把这个参与过程做得尽可能平滑。这种务实的思路比全自动化的噱头更有长期价值。

额外功能

除了三层核心架构，BrowserAct 还提供了几个实用功能：

多任务并发：同一浏览器环境下同步执行多个任务，窗口间共享 Cookie 和登录状态
多账号隔离：每个账号运行在独立的 Stealth 浏览器中，互不干扰
三种浏览器模式：chrome 模式复用本地登录态（适合需登录场景）；stealth 隐私模式每次使用新指纹+代理（适合大批量抓取）；Stealth 固定身份模式提供稳定的指纹+IP（适合多账号独立运行）
技能沉淀：将跑通的流程沉淀为可复用的 Skill，后续直接运行，节省重复探索的 Token 和时间

实战场景测试

场景一：电商数据监测

以电商平台数据收集为例。正常情况下，Agent 的浏览器控制无法进入带有严格反制机制的电商平台。使用 BrowserAct 后，由于本地没有登录态，系统触发了人机接力。

BrowserAct 会发送一个云实例链接，在任何设备打开即可进入云端虚拟机的登录页面，扫码登录后关闭页面即可。

获取登录态后，BrowserAct 开始执行任务，每一步都会汇报具体操作。如果搜索词输入错误，它还会自行检查并纠正，然后按销量排序商品，最终成功获取目标数据。

如果这类任务需要每天重复执行，可以使用技能沉淀功能，将流程保存为 Skill。安装方式很简单，让 Agent 执行：

安装 BrowserAct Forge 这个技能，链接：https://github.com/browser-act/skills/tree/main/browser-act-skill-forge，并验证技能是否可用。

场景二：多店铺管理

电商商家同时管理多家店铺时，频繁切换账号很麻烦。BrowserAct 可以创建多个隐私浏览器，账号相互隔离在专属浏览器中。

创建时需要购买一个静态代理——给浏览器分配一个不变的 IP 地址，让账号处于稳定环境，避免触发平台风控。也可以使用本地已有的 IP 地址，不一定要购买。

配置完成后，使用 Agent 管理多个店铺账号时，无需频繁切换登录，每个账号都在独立环境中运行。

场景三：自媒体多平台分发

将稿件分发到多个平台是自媒体人的日常重复工作。BrowserAct 可以复用已登录的浏览器状态，自动完成发帖流程。

使用 Chrome 模式可以自动获取已登录的小红书和知乎状态，无需人机接力。

发帖流程包括找发送按钮、编辑标题、编辑正文等步骤，BrowserAct 会逐步执行。值得一提的是，它还会自动制作封面图，并以图片形式发送内容。

最终在小红书和知乎都顺利完成了发布。

安装与使用

BrowserAct 的技能开源免费，大部分功能都可以免费使用。只有在需要使用代理（如创建绑定静态代理的隐私浏览器）时才会产生费用。

安装非常简单，访问 BrowserAct 官网（https://www.browseract.ai/），点击中间的白色按钮获取提示词，发送给你所使用的 Agent 即可自动安装。

也可以直接告诉 Agent：

安装 browser-act 这个技能，链接：https://github.com/browser-act/skills/tree/main/browser-act，安装完成后验证一下它是否可用。

总结

BrowserAct 解决的是一类特定问题：如何让 AI Agent 在真实的、有人机验证和反爬虫机制的网络环境中可靠地执行浏览器操作。

这类问题不是单纯的"模型够强"就能解决的。需要的是对环境伪装、执行策略和人机协作的系统性设计。验证码、短信确认、企业审批等环节依然需要人类介入，但 BrowserAct 的设计让这些介入变得平滑无感。

对于正在尝试将 Agent 引入生产环境的团队来说，这种务实的设计思路值得参考。

相关链接：

BrowserAct 官网：https://www.browseract.ai/
GitHub 仓库：https://github.com/browser-act/skills

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：BrowserAct：AI Agent 浏览器自动化工具，突破网页访问限制

请登录后发表评论