10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Agent-Browser:为 AI Agents 优化的浏览器自动化CLI方案,减少 93% 上下文,强!

4小时前 AI开源项目 24 0

在浏览过众多 AI 产品和开源项目的过程中,我发现一个有趣的现象:当 AI Agent 需要与浏览器交互时,往往面临一个核心难题——如何在有限的 Token 预算内,让 AI 高效地理解和操作页面元素。

最近发现的 Vercel 开源项目 agent-browser(22.4K Stars)提供了一个有针对性的解决思路,值得深入了解。

项目概览

agent-browser 是一款专为 AI Agents 设计的浏览器自动化命令行工具。

与通用的浏览器自动化框架(如 Playwright、Selenium)不同,它的核心设计理念是最小化上下文消耗,通过结构化输出格式让 AI 模型更高效地理解页面状态。

核心特性对比

维度 agent-browser 通用自动化工具(Playwright)
设计目标 AI Agent 上下文优化 通用自动化测试
页面表示 可访问树 + Ref 标签 DOM 树或 HTML
上下文消耗 减少约 93% 基准(完整 HTML)
命令数量 50+ 专用命令 通用 API 接口
平台支持 macOS、Windows、Linux 跨平台

功能体系

1. 核心操作命令

  • 导航与页面管理:网页打开、关闭、刷新等基础操作
  • 页面解析:以可访问树形式提取页面结构,配合 ref 标签进行精确定位
  • 交互操作:点击、输入、表单提交等常见用户操作
  • 媒体捕获:页面截图、视频录制等
  • 页面等待:支持多种加载条件判断(networkidle、domcontentloaded 等)

2. Agent 专用设计

Ref 基础交互模式:每个可交互元素都被标记唯一 ref(如 @e3、@e26),AI 只需返回 ref 值而无需理解 CSS 选择器或 XPath,降低指令复杂度。

Session 隔离:支持多个独立浏览器实例,可模拟不同用户身份或并行执行多个任务。

快速开始

安装步骤

前置要求:Node.js 环境

# 全局安装 CLI 工具
npm install -g agent-browser

# 下载 Chromium 浏览器引擎
agent-browser install

首次运行 install 命令会下载 Chromium、FFmpeg 等依赖,总体大小约 250+ MiB。安装完成后会输出确认信息。

基础使用流程

打开网页

agent-browser open https://example.com

获取页面结构

agent-browser snapshot -i

输出示例:

- link "Home" [ref=e1]
- button "Submit" [ref=e2]
- input "Search query" [ref=e3]

通过 Ref 执行交互

agent-browser click @e2          # 点击 ref=e2 的元素
agent-browser type @e3 "search"  # 在 ref=e3 输入框输入内容

页面截图

agent-browser screenshot ./output.png

关闭浏览器

agent-browser close

与 AI Agents 集成

通过 Skills 扩展集成

支持在 Claude Code、Cursor、LM Studio 等 AI 环境中直接使用:

npx skills add vercel-labs/agent-browser --skill agent-browser

集成后,AI 可以理解 agent-browser 的工具调用,自动组织命令序列完成复杂任务。例如:

claude --model qwen3.5-35b-a3b
# 然后输入自然语言任务:
# "保存 https://example.com 的截图到当前目录"

AI 会自动:

  1. 调用 agent-browser open 打开网页
  2. 调用 agent-browser wait 等待加载完成
  3. 调用 agent-browser screenshot 保存截图

应用场景

  • 自动化测试:AI 驱动的端到端测试,无需编写传统测试脚本
  • 数据采集:AI Agent 浏览网站并提取结构化数据
  • RPA 流程:配合 AI 决策,实现复杂业务流程自动化
  • 移动 Web 测试:支持 iOS Safari 模拟器控制,适配移动应用场景
  • 远程浏览器操作:CDP(Chrome DevTools Protocol)模式支持连接本地或远程浏览器实例

相关项目参考

若需要对比评估,可参考以下项目:

  • Playwright:通用浏览器自动化,学习曲线陡峭,Token 消耗较大
  • Selenium:成熟的自动化框架,但同样不为 AI 上下文优化
  • Puppeteer:Node.js 原生,轻量但缺少 AI 友好的交互模式

相比之下,agent-browser 的差异化优势在于显式的 AI 优化设计,这在大规模 Token 成本计算中能产生显著差异。

配置与扩展

环境配置

  • 支持自定义 Chromium 路径
  • 支持代理配置(代理服务器 URL 传入)
  • 支持自定义用户代理字符串

高级特性

  • 多 Session 管理:通过 session ID 维护独立的浏览器状态
  • CDP 连接模式:直连 Chrome DevTools Protocol 端点
  • 视频录制:调试和审计浏览器操作

总结

agent-browser 的价值定位很清晰:它不是要替代通用自动化工具,而是填补 AI Agent 在浏览器交互领域的专用需求。

通过 93% 的上下文消耗减少和 Ref 基础的交互模式,它让 AI 模型能以更低的成本和更高的准确度理解和操作页面。

对于正在构建 AI Agent 应用、RPA 系统或自动化测试框架的团队,这是一个值得评估的工具。特别是在 Token 成本和模型精度成为核心考量时,专用工具往往比通用方案更具性价比。

建议的使用路径是:从小规模任务开始集成(如单页面操作),逐步扩展到复杂多步骤流程。同时关注官方文档中的 Skills 生态,充分利用与 AI IDE 的原生集成能力。

官方文档:https://agent-browser.dev/

项目地址:https://github.com/vercel-labs/agent-browser

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Agent-Browser:为 AI Agents 优化的浏览器自动化CLI方案,减少 93% 上下文,强!
#agent-browser #浏览器 
收藏 1
Agency-agents:82个agents组成的AI智能体天团 !2天斩获1万星
腾讯QClaw发布重大更新:微信入口升级为小程序,内测扩容“码管够”
推荐阅读
  • DocStrange:从PDF到Markdown的智能文档转换方案
  • Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
  • 4个开源Skills项目实战指南,从营销自动化到文档处理的效率大提升
  • Vue 生态 Skills 全家桶:从单点到体系的 AI 最佳实践方案
  • Interview Guide:开源智能面试平台,集简历分析、AI模拟面试与知识库问答于一体
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8286 5月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
6982 6月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
5256 2月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
4985 6月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4964 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
4741 1月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
4715 6月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4693 5月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
4436 6月前
Fogsight (雾象):一句话自动生成任何科普动画
4044 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Agent-Browser:为 AI Agents 优化的浏览器自动化CLI方案,减少 93% 上下文,强!
2 Agency-agents:82个agents组成的AI智能体天团 !2天斩获1万星
3 Edict:让你的openclaw 开设唐朝的三省六部制度设计的Multi-Agent 框架
4 OpenOcta:从个人助手到企业级运维,如何用一条命令解决部署难题
5 Fish Audio:开源语音合成突破性进展,中文TTS性能超越商用方案
6 bb-browser:用浏览器身份做 API, 如何让 AI Agent 绕过反爬机制
7 DeepDiagram:用自然语言生成图表的 AI 可视化平台,6 个专用 Agent 各司其职
8 AutoResearch:让AI自主优化神经网络训练,单卡也能跑的自适应研究系统
9 MindPocket:开源AI知识库,让收藏夹变成可全平台同步、自动摘要、智能对话,查询的第二大脑
10 MemOS 开源 OpenClaw 插件,让 AI Agent 拥有可复用的长期记忆
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联