当前位置：首页 » AI最新动态

Mano-P 4B 端侧 GUI Agent实战：本地部署、Cider 加速与三项测试

1小时前 AI最新动态 11 0

端侧 GUI Agent实战：Mano-P 4B + Cider 本地部署与测试

CUA（Computer Use Agent）让 AI 直接操控电脑界面，把任何 App 变成 Agent 的 Skill。但两个现实问题一直存在：

Token 消耗大：截屏、理解、定位、操作，每一步都在烧 Token，GUI 测试消耗占全自动编程流程的一半以上
隐私安全：每一帧截图都要上传到云端模型处理

Mano-P 是一个开源的端侧 GUI-VLA（视觉-语言-动作）模型，配合 Cider 推理加速框架，可以在本地 Mac 上运行，截图和任务数据不出设备。项目地址：https://github.com/MININGLAMP-AI/MANO-P

Mano-P 模型概述

Mano-P 目前开源两个版本：

版本	参数	OSWorld 成功率	硬件要求
72B	720 亿	58.2%（排名第一）	高配设备
4B	40 亿	与云端大模型相当	Mac mini / MacBook（量化后峰值 4.3GB 内存）

4B 版本的训练数据包括 20,000+ 条浏览器操作轨迹、40,000+ 条桌面操作轨迹，覆盖 300 万+ 动作。核心能力是纯视觉驱动，不依赖 CDP 协议，不解析 HTML，直接通过屏幕截图理解界面、定位元素、执行操作。

这意味着它不局限于浏览器——桌面软件、Canvas 渲染的页面、3D 应用、游戏界面，理论上都能操作。Playwright 等 DOM 操作工具在这些场景下直接失效，而 Mano-P 没有这个限制。

Cider 推理加速

本地跑模型的最大障碍是效率。Cider 是一个基于 Apple MLX 生态的推理加速框架，解决了这个问题。

Apple M 系列芯片原生支持 INT8 计算，但 MLX 之前只做了权重量化，没做激活量化。Cider 补齐了这块，是第一个在 Apple GPU 上实现硬件加速 INT8 TensorOps 的框架。

实测 W8A8 模式比 MLX 原生 W4A16 快 1.4 到 1.9 倍。Cider 不限于 Mano-P，Qwen、Llama、Mistral 等主流开源模型都能接入。

部署与安装

官方推荐硬件：Apple M4 芯片 + 32GB 内存的 Mac mini 或 MacBook。4B 模型跑起来不卡。

安装过程通过 Codex 自动化完成，全程基本不需要手动操作。

安装 Mano-P Skill 接入 Codex（也可接入 Claude Code 等其它 Agent）：

Skill 地址：https://clawhub.ai/hanningwang/mano-cua

三项实测

测试一：小红书自动浏览与互动

任务：搜索 AI 话题→浏览前三个帖子→点赞→评论。小红书 UI 复杂，信息流、弹窗、多种交互方式混在一起。

结果：圆满完成任务。一个值得注意的细节：第一个帖子打开时已经是点赞状态，Mano-P 习惯性地点了点赞按钮（实际上是取消），但很快意识到不对，立马重新点了回来。

这说明它不是在机械执行，而是能根据视觉反馈判断操作是否正确并自动纠偏。这个能力对于 GUI Agent 非常关键。

测试二：tiktok-gen 项目 E2E 测试

项目地址：https://github.com/kangarooking/tiktok-gen

让 Codex + Mano-P 配合跑 GUI 测试：

Codex：调度和监督
Mano-P：GUI 操作（打开前端→测试注册登录→上传素材→生成文案→输出测试报告）

4B 小模型 GUI 操作能力不错，偶尔跑偏或卡住时 Codex 及时纠偏。这个组合比单独用 Codex 的 CUA 效果更好——单独用 Codex 自己做 GUI 操作速度快一些，但也会跑偏，而且没有另一个 AI 帮它纠偏。

更大的优点：整个过程不需要用到 Codex 的视觉能力。视觉理解由 Mano-P 在本地完成，Codex 只负责安排任务和纠偏。截图不上传云端，省 Token，私密性更好。

测试三：玩 4399 扫雷

Playwright 操作 4399 扫雷完全做不到——游戏界面是 Canvas 渲染的，Playwright 操作的是 DOM 树，在 Canvas 面前直接失效。

Mano-P 纯视觉路线确实能操作：打开 4399→搜索扫雷→进入游戏→点击方块。游戏确实能玩上。

但它不太理解扫雷逻辑，玩得比较随机，没有根据数字推理安全格子。不过 Playwright 做不到的事，4B 小模型通过纯视觉还是能做。

总结与建议

Mano-P 4B 的定位很明确：自动化执行给定的 GUI 任务，而不是全程独立思考。页面元素定位、按钮点击、表单填写、跨步骤任务执行，这些它都能做得不错。

最佳实践是搭配一个聪明的大模型（如 Codex + GPT-5.5）一起用。大模型负责调度和纠偏，Mano-P 负责实际的 GUI 操作。

回到开头的两个痛点：Token 成本和数据安全。Mano-P + Cider 的组合确实解决了这两个问题。本地 GUI 操作不花或少花 Token，数据不出设备——不是安全协议上写的「我们承诺不看你的截图数据」，而是物理上数据就没出过你的电脑。

苏米注：端侧 AI 的方向越来越清晰——端侧模型不需要具备通用性，而是在某一个具体场景深耕打穿。Mano-P 专注 GUI 操作这一件事，在本地就能跑，更私密、更省钱、更可控。如果你有 M4 Mac，推荐自己跑跑看。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Mano-P 4B 端侧 GUI Agent实战：本地部署、Cider 加速与三项测试

请登录后发表评论