10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Cua 开源:让 AI Agent 安全操控电脑的沙箱方案

4小时前 AI开源项目 28 0

对 AI Agent 的要求越来越高,除了写代码、查资料、帮忙规划执行任务,还想让它帮忙操作电脑,访问浏览器、填写表单、打开软件。但现实是,真让它接管时,鼠标和屏幕全被占了,我们反倒无法使用电脑,只能干等着。

直到在 GitHub 上看到 Cua 这个开源项目,已经斩获了 18000+ Star。

图片 1

Cua 核心只做一件事:让 AI Agent 安全流畅地操作整个桌面系统。看屏幕、移动鼠标、键盘输入、运行命令、打开各种桌面软件全都可以。它支持操作 Linux、macOS、Windows 甚至安卓系统,运行环境可放到云端或本地。

只需几行代码,就能建立起一个沙箱,类似一台虚拟电脑,让 Agent 在这里面进行操作。这样 Agent 不会抢占真实电脑上的鼠标焦点,也不会影响用户的任何操作。

如果想查看 Agent 在沙箱里的操作,可以通过 Cua 内置的 VNC 服务,在浏览器里打开一个窗口,实时查看 Agent 在虚拟电脑系统上的操作。也可以通过 MCP 接入 Claude Code、Codex 等 Agent 工具,下达指令指挥它操作。全程在本地机器上运行,不会把屏幕里的数据往外传,隐私安全有保障。

图片 2

Cua 不止是一个单一工具,而是一整套 Agent 操作系统。通过 Sandbox 来管理跨系统的运行环境,用 Driver 进行后台操控,Cua-Bench 拿来评测和训练 Agent,Lume 专门创建虚拟 macOS。

图片 3

除此之外,Cua 还有一个贴心设计:能给系统状态建立快照。万一某个任务中途执行失败,还能照原样复现回来,调试时能省心不少。

所以 Cua 不仅适合个人用来提升生产力,团队也能用它做大批量训练、评测 Computer Use Agent 的底座,比如跑 UI 自动化测试、批量处理桌面重复操作、给 Agent 积累训练数据等。Google DeepMind、Nous Research 的 Hermes、Snorkel 等知名团队都在使用。

图片 4

Cua 团队刚发表一篇博客,讲述使用 Cua-Bench 基准评测集测试 Gemini 3.5 Flash 的 Computer Use 表现。在 KiCad 设计的自动化操作任务共 25 个,将 Gemini 3.5 Flash 与 Claude Opus 4.8、GPT 5.5、Gemini 3.5 Pro 等顶级大模型进行横向测试对比,结果显示 Gemini 3.5 Flash 得分最高,比 GPT 5.5、Claude Sonnet 4.5 等模型都要好。

图片 5

如何上手体验

Cua 支持 macOS、Windows 和 Linux 系统,一条命令即可安装:

macOS 和 Linux:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

Windows(PowerShell):

irm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex

安装后接入到 Claude Code 或 Codex 等支持 MCP 服务器的 Agent 工具:

claude mcp add --transport stdio cua-driver -- cua-driver mcp

注意:目前 Linux 系统还处于预发布状态,建议在 Windows 或 macOS 上安装体验。

图片 6

为什么值得关注

Agent 的瓶颈正从「脑子」挪到「动手」,而操作电脑恰好是动手这关里最硬的一块骨头。盯着这块的大厂不少,Anthropic 的 Claude Computer Use、OpenAI 的 Operator、Google 的 Project Mariner,都在往这个方向探索。但他们走的是闭源道路,对数据安全能否得到保障难以确认。

Cua 选择开源,采用 MIT 协议,允许商用,可部署到自己的服务器或机器上使用。数据和执行过程全都自己说了算,不绑定在某一家厂商身上,不按次数掏钱。

现在的 Computer Use 有点像五年前的浏览器自动化,谁先探索明白,谁就先把这波红利攥手里。

GitHub 项目地址:github.com/trycua/cua

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Cua 开源:让 AI Agent 安全操控电脑的沙箱方案
#Cua #Computer Use #Agent #桌面自动化 #开源工具 
收藏 1
Spec-Kit 规格驱动开发:用结构化契约消除 AI 开发返工
Open File Viewer:一个容器统一 110 种文件格式的前端预览 SDK
推荐阅读
  • DeerFlow 2.0:近期霸榜 GitHub 的超级 AI 员工,字节开源的执行型Agent框架
  • Hermes Agent 架构深度拆解:三层骨架 + 六大子系统,为什么说它更像 Agent 操作系统
  • SBTI 人格测试中文 Wiki 开源:27 种结局全收录,稀有度大揭秘
  • Codex++ 开源:让 OpenAI Codex 接入国产大模型,告别 ChatGPT 订阅
  • Generative Models:从本地部署到模型训练,Stable Diffusion 官方的完整开源方案
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
10004 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9817 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7771 5月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
7088 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6895 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6784 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6673 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6655 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5951 10月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5914 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 开源中国古典诗词 API:37 万首诗,一键接入国风应用
2 Open File Viewer:一个容器统一 110 种文件格式的前端预览 SDK
3 Cua 开源:让 AI Agent 安全操控电脑的沙箱方案
4 Ponytail:让 AI 写代码前先思考的开源项目,减少 54% 代码量
5 webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍
6 rmux:专为 Agent 打造的 Rust 终端复用工具,兼容 tmux
7 Perry 开源编译器:把 TypeScript 直接编译为原生二进制,告别 Node.js 运行时依赖
8 BrowserAct:AI Agent 浏览器自动化工具,突破网页访问限制
9 PixiJS v8.19 发布:HTML-in-Canvas 正式落地,DOM 进入 GPU 渲染管线
10 FastClaw 开源框架评测:从 OpenClaw 到云原生多 Agent 架构的演进
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联