Cua 是一个开源项目,短短几个月在 GitHub 上收获了 1.7 万+ Star。它由曾在 Xbox 和 Microsoft AI 工作的开发者创建,后加入 YC 创业。Cua 的核心目标是:让 AI Agent 安全地控制整个桌面系统,就像在操作一台虚拟电脑一样。
截图、点击、打字、跑命令都可以。而且这台虚拟电脑是完全隔离的,AI 干什么都不会影响到你真实的电脑。


AI 真的在用电脑
最简单的使用方式是运行 Cuabot:
npx cuabot
它会弹出一个可视化窗口,让你亲眼目睹 Agent 在沙盒中是如何操作桌面的。

你能看到:
- AI 在独立窗口操作虚拟桌面
- 截图、点击、输入文字
- 执行命令行操作
- 和主机共享剪贴板
整个过程就像看着一个数字员工在工作。而且,在后台工作的时候,你的电脑不会受到影响——你可以继续写代码、看视频、回信息,互不影响。
Cua 最主要的功能就是使 AI 在隔离环境中安全地进行桌面操作,不会影响到你的实际机器。
三层架构:Agent、SDK、Sandbox
Cua 的核心思想是三层结构:上面是 AI Agent,中间是统一的 Computer SDK,下面是沙盒层。

不管底层使用什么虚拟化技术,对于 AI 来说都是相同的接口。写一次代码就可以在不同的系统中运行。
该设计的优点是:
- 统一接口:不需要关心底层是 macOS、Windows、Linux 还是 Android
- 安全隔离:所有的 AI 操作都放在沙盒中,不会影响到主机
- 灵活部署:可以使用云沙盒,也可以本地虚拟化
值得一提的是,Cua 不仅支持桌面系统,还支持移动端。Android 可以通过云沙盒或本地虚拟化运行,iOS 也通过 agent-device 内置支持。这意味着 AI Agent 可以像操作电脑一样操作手机,执行手势、点击、滑动等操作。

四大核心能力
01 Cua Driver:后台控制,不抢夺光标
后台桌面控制程序。可以在后台控制原生桌面应用程序,不会占用你的光标、焦点。AI 在工作的时候,你还可以继续使用电脑做其它的事情。
macOS、Windows 系统都可以正常使用,Linux 还处于预发布状态。

02 Cua Sandbox:隔离沙盒,热启动不到 1 秒
沙盒环境可以使用云沙盒也可以用本地虚拟化的方式。macOS 上有一个叫做 Lume 的组件,它是用 Apple Virtualization.Framework 开发的,可以达到原生 CPU 97% 的速度。Apple Silicon 用户会很开心。
支持快照、Fork。保持一个干净的状态,从这个快照中克隆出多个并行的实例,让几百个 Agent 同时运行不同的任务。

03 Cuabot:给编码 Agent 提供无缝沙盒
多 Agent 协作工具。可以使用 Claude Code、OpenClaw 或者其他的图形化工作流。
单独创建一个窗口来原生显示在桌面上,使用 H.265 编码,还可以和主机共享剪贴板以及支持音频。

04 Cua-Bench:用 OSWorld 基准来对 Agent 进行测试
评测基准模块。支持 OSWorld、ScreenSpot、WindowsArena 等主流基准,并可以导出 Agent 执行轨迹来训练。
想要大规模测试,可以使用 CLI 工具并行启动几百个 Agent,把数据喂给强化学习。

快速上手
macOS 或者 Linux,一条命令就可以安装好 CuaDriver:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
Windows 使用 PowerShell:
irm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex
使用 pip 命令安装 Python SDK:
pip install cua
Cuabot 快速体验:
npx cuabot
给一个可视化的窗口,看到 Agent 在沙盒中是如何操作桌面的。

已知限制
- Linux 的支持目前还处于预发布状态
- macOS 上 Rust 版本和 Swift 版本还没有对齐,生产环境建议使用 Swift 版本
- 使用 MCP Server 需要有效的模型 API Key
苏米注:如果你主要是用 Mac 或者 Windows,想要让 AI Agent 来帮你跑 GUI 任务,并且又不希望把主机暴露出来的话,那么 Cua 就可以帮到你。它的三层架构设计让 AI 操作桌面的方式变得统一且安全。
总结
以前我们认为 AI 可以写代码、画图、聊天,但是缺少一个环节——AI 能不能用电脑?不是调用 API、不是运行脚本,而是像人一样看屏幕、移动鼠标、点击按钮、输入文字。
Cua 给了一个轻量级的开源方案。它为 AI Agent 提供了一个安全的操作环境,使 AI 可以像数字员工一样真正地"使用"电脑,而不是"访问"电脑。这一切都在沙盒中进行,并不会影响到你的电脑。
该项目使用的是 MIT 许可协议。