在讨论 AI Agent 的能力边界时,大多数人关注的是模型的推理能力和上下文长度。但有一个常被忽略的关键点:Agent 在真实网络环境中的执行能力。
现有的 Agent 工具在浏览网页时存在明显短板——面对需要登录、验证码或动态渲染的页面时,往往束手无策。
BrowserAct 正是为了解决这个问题而生的浏览器自动化 CLI 工具,目前在 GitHub 上已超过 2.8k Star。

BrowserAct 的三层架构设计
与依赖模型视觉能力的传统方案不同,BrowserAct 采用纯命令行方式执行浏览器操作,从环境伪装、执行策略和人工协作三个层面系统性地提升了 Agent 操作浏览器的成功率。

一、环境层:让 Agent 看起来像真人
环境层的核心是浏览器指纹伪装和动态网络身份切换,让 Agent 的浏览行为与真实用户几乎一致。每个账号可以绑定独立的登录空间和网络路径,多账号同时运行也不会互相干扰。
实际应用场景:
- 长期登录稳定:同一账号不会因为"自动化特征"被封号,Cookie 和登录状态长期保持
- 多账号隔离:同时运营多个店铺或社媒账号,每个账号有独立干净的环境,避免串号关联
- 免反复登录:登录状态持久化,不用反复扫码或重新认证

二、执行层:自动突破反机器人检测
当网站设置了人机验证或反爬虫检测时,执行层负责自动处理这些屏障,降低被识别为自动化行为的概率。
核心能力:
- 自动通过人机验证:登录时需要"我不是机器人"验证,Agent 可以自动完成,无需手动操作
- 跨越验证屏障:抓取需要登录态才能看到的数据(后台数据、会员内容),Agent 能自动突破
- 自主重试:遇到复杂页面检测时,Agent 会自主尝试突破,而不是直接放弃任务

三、人工层:人机接力无缝续接
有些情况只有人类能做到——短信验证码、扫码验证或敏感操作二次授权。BrowserAct 的处理方式是生成一个远程协作链接,在任何设备打开完成验证后,Agent 会从断点处继续执行,而不是从头开始。
典型场景:
- 短信验证码:AI 遇到验证码不会终止任务,用户输入后它继续执行
- 企业 SSO 登录:处理需要审批的场景,人工过一道后全自动继续
- 复杂长流程:AI 和人工交替配合,已完成的部分不会重复执行
苏米注:这三层设计的精髓在于"自动优先、人工兜底、无缝续接"。不是追求 100% 自动化,而是承认某些环节必须人类参与,并把这个参与过程做得尽可能平滑。这种务实的思路比全自动化的噱头更有长期价值。

额外功能
除了三层核心架构,BrowserAct 还提供了几个实用功能:
- 多任务并发:同一浏览器环境下同步执行多个任务,窗口间共享 Cookie 和登录状态
- 多账号隔离:每个账号运行在独立的 Stealth 浏览器中,互不干扰
- 三种浏览器模式:
chrome模式复用本地登录态(适合需登录场景);stealth隐私模式每次使用新指纹+代理(适合大批量抓取);Stealth 固定身份模式提供稳定的指纹+IP(适合多账号独立运行) - 技能沉淀:将跑通的流程沉淀为可复用的 Skill,后续直接运行,节省重复探索的 Token 和时间

实战场景测试
场景一:电商数据监测
以电商平台数据收集为例。正常情况下,Agent 的浏览器控制无法进入带有严格反制机制的电商平台。使用 BrowserAct 后,由于本地没有登录态,系统触发了人机接力。

BrowserAct 会发送一个云实例链接,在任何设备打开即可进入云端虚拟机的登录页面,扫码登录后关闭页面即可。


获取登录态后,BrowserAct 开始执行任务,每一步都会汇报具体操作。如果搜索词输入错误,它还会自行检查并纠正,然后按销量排序商品,最终成功获取目标数据。




如果这类任务需要每天重复执行,可以使用技能沉淀功能,将流程保存为 Skill。安装方式很简单,让 Agent 执行:
安装 BrowserAct Forge 这个技能,链接:https://github.com/browser-act/skills/tree/main/browser-act-skill-forge,并验证技能是否可用。

场景二:多店铺管理
电商商家同时管理多家店铺时,频繁切换账号很麻烦。BrowserAct 可以创建多个隐私浏览器,账号相互隔离在专属浏览器中。

创建时需要购买一个静态代理——给浏览器分配一个不变的 IP 地址,让账号处于稳定环境,避免触发平台风控。也可以使用本地已有的 IP 地址,不一定要购买。



配置完成后,使用 Agent 管理多个店铺账号时,无需频繁切换登录,每个账号都在独立环境中运行。
场景三:自媒体多平台分发
将稿件分发到多个平台是自媒体人的日常重复工作。BrowserAct 可以复用已登录的浏览器状态,自动完成发帖流程。

使用 Chrome 模式可以自动获取已登录的小红书和知乎状态,无需人机接力。

发帖流程包括找发送按钮、编辑标题、编辑正文等步骤,BrowserAct 会逐步执行。值得一提的是,它还会自动制作封面图,并以图片形式发送内容。



最终在小红书和知乎都顺利完成了发布。


安装与使用
BrowserAct 的技能开源免费,大部分功能都可以免费使用。只有在需要使用代理(如创建绑定静态代理的隐私浏览器)时才会产生费用。

安装非常简单,访问 BrowserAct 官网(https://www.browseract.ai/),点击中间的白色按钮获取提示词,发送给你所使用的 Agent 即可自动安装。

也可以直接告诉 Agent:
安装 browser-act 这个技能,链接:https://github.com/browser-act/skills/tree/main/browser-act,安装完成后验证一下它是否可用。
总结
BrowserAct 解决的是一类特定问题:如何让 AI Agent 在真实的、有人机验证和反爬虫机制的网络环境中可靠地执行浏览器操作。
这类问题不是单纯的"模型够强"就能解决的。需要的是对环境伪装、执行策略和人机协作的系统性设计。验证码、短信确认、企业审批等环节依然需要人类介入,但 BrowserAct 的设计让这些介入变得平滑无感。
对于正在尝试将 Agent 引入生产环境的团队来说,这种务实的设计思路值得参考。
相关链接:
- BrowserAct 官网:https://www.browseract.ai/
- GitHub 仓库:https://github.com/browser-act/skills