端侧 GUI Agent实战:Mano-P 4B + Cider 本地部署与测试
CUA(Computer Use Agent)让 AI 直接操控电脑界面,把任何 App 变成 Agent 的 Skill。但两个现实问题一直存在:
- Token 消耗大:截屏、理解、定位、操作,每一步都在烧 Token,GUI 测试消耗占全自动编程流程的一半以上
- 隐私安全:每一帧截图都要上传到云端模型处理

Mano-P 是一个开源的端侧 GUI-VLA(视觉-语言-动作)模型,配合 Cider 推理加速框架,可以在本地 Mac 上运行,截图和任务数据不出设备。项目地址:https://github.com/MININGLAMP-AI/MANO-P
Mano-P 模型概述
Mano-P 目前开源两个版本:
| 版本 | 参数 | OSWorld 成功率 | 硬件要求 |
|---|---|---|---|
| 72B | 720 亿 | 58.2%(排名第一) | 高配设备 |
| 4B | 40 亿 | 与云端大模型相当 | Mac mini / MacBook(量化后峰值 4.3GB 内存) |

4B 版本的训练数据包括 20,000+ 条浏览器操作轨迹、40,000+ 条桌面操作轨迹,覆盖 300 万+ 动作。核心能力是纯视觉驱动,不依赖 CDP 协议,不解析 HTML,直接通过屏幕截图理解界面、定位元素、执行操作。
这意味着它不局限于浏览器——桌面软件、Canvas 渲染的页面、3D 应用、游戏界面,理论上都能操作。Playwright 等 DOM 操作工具在这些场景下直接失效,而 Mano-P 没有这个限制。

Cider 推理加速
本地跑模型的最大障碍是效率。Cider 是一个基于 Apple MLX 生态的推理加速框架,解决了这个问题。
Apple M 系列芯片原生支持 INT8 计算,但 MLX 之前只做了权重量化,没做激活量化。Cider 补齐了这块,是第一个在 Apple GPU 上实现硬件加速 INT8 TensorOps 的框架。

实测 W8A8 模式比 MLX 原生 W4A16 快 1.4 到 1.9 倍。Cider 不限于 Mano-P,Qwen、Llama、Mistral 等主流开源模型都能接入。
部署与安装
官方推荐硬件:Apple M4 芯片 + 32GB 内存的 Mac mini 或 MacBook。4B 模型跑起来不卡。
安装过程通过 Codex 自动化完成,全程基本不需要手动操作。


安装 Mano-P Skill 接入 Codex(也可接入 Claude Code 等其它 Agent):
Skill 地址:https://clawhub.ai/hanningwang/mano-cua

三项实测
测试一:小红书自动浏览与互动
任务:搜索 AI 话题→浏览前三个帖子→点赞→评论。小红书 UI 复杂,信息流、弹窗、多种交互方式混在一起。
结果:圆满完成任务。一个值得注意的细节:第一个帖子打开时已经是点赞状态,Mano-P 习惯性地点了点赞按钮(实际上是取消),但很快意识到不对,立马重新点了回来。
这说明它不是在机械执行,而是能根据视觉反馈判断操作是否正确并自动纠偏。这个能力对于 GUI Agent 非常关键。

测试二:tiktok-gen 项目 E2E 测试
项目地址:https://github.com/kangarooking/tiktok-gen
让 Codex + Mano-P 配合跑 GUI 测试:
- Codex:调度和监督
- Mano-P:GUI 操作(打开前端→测试注册登录→上传素材→生成文案→输出测试报告)

4B 小模型 GUI 操作能力不错,偶尔跑偏或卡住时 Codex 及时纠偏。这个组合比单独用 Codex 的 CUA 效果更好——单独用 Codex 自己做 GUI 操作速度快一些,但也会跑偏,而且没有另一个 AI 帮它纠偏。
更大的优点:整个过程不需要用到 Codex 的视觉能力。视觉理解由 Mano-P 在本地完成,Codex 只负责安排任务和纠偏。截图不上传云端,省 Token,私密性更好。

测试三:玩 4399 扫雷
Playwright 操作 4399 扫雷完全做不到——游戏界面是 Canvas 渲染的,Playwright 操作的是 DOM 树,在 Canvas 面前直接失效。
Mano-P 纯视觉路线确实能操作:打开 4399→搜索扫雷→进入游戏→点击方块。游戏确实能玩上。
但它不太理解扫雷逻辑,玩得比较随机,没有根据数字推理安全格子。不过 Playwright 做不到的事,4B 小模型通过纯视觉还是能做。
总结与建议
Mano-P 4B 的定位很明确:自动化执行给定的 GUI 任务,而不是全程独立思考。页面元素定位、按钮点击、表单填写、跨步骤任务执行,这些它都能做得不错。
最佳实践是搭配一个聪明的大模型(如 Codex + GPT-5.5)一起用。大模型负责调度和纠偏,Mano-P 负责实际的 GUI 操作。
回到开头的两个痛点:Token 成本和数据安全。Mano-P + Cider 的组合确实解决了这两个问题。本地 GUI 操作不花或少花 Token,数据不出设备——不是安全协议上写的「我们承诺不看你的截图数据」,而是物理上数据就没出过你的电脑。
苏米注:端侧 AI 的方向越来越清晰——端侧模型不需要具备通用性,而是在某一个具体场景深耕打穿。Mano-P 专注 GUI 操作这一件事,在本地就能跑,更私密、更省钱、更可控。如果你有 M4 Mac,推荐自己跑跑看。