10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Mano-P 4B 端侧 GUI Agent实战:本地部署、Cider 加速与三项测试

1小时前 AI最新动态 11 0

端侧 GUI Agent实战:Mano-P 4B + Cider 本地部署与测试

CUA(Computer Use Agent)让 AI 直接操控电脑界面,把任何 App 变成 Agent 的 Skill。但两个现实问题一直存在:

  • Token 消耗大:截屏、理解、定位、操作,每一步都在烧 Token,GUI 测试消耗占全自动编程流程的一半以上
  • 隐私安全:每一帧截图都要上传到云端模型处理

图片 1

Mano-P 是一个开源的端侧 GUI-VLA(视觉-语言-动作)模型,配合 Cider 推理加速框架,可以在本地 Mac 上运行,截图和任务数据不出设备。项目地址:https://github.com/MININGLAMP-AI/MANO-P

Mano-P 模型概述

Mano-P 目前开源两个版本:

版本 参数 OSWorld 成功率 硬件要求
72B 720 亿 58.2%(排名第一) 高配设备
4B 40 亿 与云端大模型相当 Mac mini / MacBook(量化后峰值 4.3GB 内存)

图片 2

4B 版本的训练数据包括 20,000+ 条浏览器操作轨迹、40,000+ 条桌面操作轨迹,覆盖 300 万+ 动作。核心能力是纯视觉驱动,不依赖 CDP 协议,不解析 HTML,直接通过屏幕截图理解界面、定位元素、执行操作。

这意味着它不局限于浏览器——桌面软件、Canvas 渲染的页面、3D 应用、游戏界面,理论上都能操作。Playwright 等 DOM 操作工具在这些场景下直接失效,而 Mano-P 没有这个限制。

图片 3

Cider 推理加速

本地跑模型的最大障碍是效率。Cider 是一个基于 Apple MLX 生态的推理加速框架,解决了这个问题。

Apple M 系列芯片原生支持 INT8 计算,但 MLX 之前只做了权重量化,没做激活量化。Cider 补齐了这块,是第一个在 Apple GPU 上实现硬件加速 INT8 TensorOps 的框架。

图片 4

实测 W8A8 模式比 MLX 原生 W4A16 快 1.4 到 1.9 倍。Cider 不限于 Mano-P,Qwen、Llama、Mistral 等主流开源模型都能接入。

部署与安装

官方推荐硬件:Apple M4 芯片 + 32GB 内存的 Mac mini 或 MacBook。4B 模型跑起来不卡。

安装过程通过 Codex 自动化完成,全程基本不需要手动操作。

图片 5

图片 6

安装 Mano-P Skill 接入 Codex(也可接入 Claude Code 等其它 Agent):

Skill 地址:https://clawhub.ai/hanningwang/mano-cua

图片 7

三项实测

测试一:小红书自动浏览与互动

任务:搜索 AI 话题→浏览前三个帖子→点赞→评论。小红书 UI 复杂,信息流、弹窗、多种交互方式混在一起。

结果:圆满完成任务。一个值得注意的细节:第一个帖子打开时已经是点赞状态,Mano-P 习惯性地点了点赞按钮(实际上是取消),但很快意识到不对,立马重新点了回来。

这说明它不是在机械执行,而是能根据视觉反馈判断操作是否正确并自动纠偏。这个能力对于 GUI Agent 非常关键。

图片 8

测试二:tiktok-gen 项目 E2E 测试

项目地址:https://github.com/kangarooking/tiktok-gen

让 Codex + Mano-P 配合跑 GUI 测试:

  • Codex:调度和监督
  • Mano-P:GUI 操作(打开前端→测试注册登录→上传素材→生成文案→输出测试报告)

图片 9

4B 小模型 GUI 操作能力不错,偶尔跑偏或卡住时 Codex 及时纠偏。这个组合比单独用 Codex 的 CUA 效果更好——单独用 Codex 自己做 GUI 操作速度快一些,但也会跑偏,而且没有另一个 AI 帮它纠偏。

更大的优点:整个过程不需要用到 Codex 的视觉能力。视觉理解由 Mano-P 在本地完成,Codex 只负责安排任务和纠偏。截图不上传云端,省 Token,私密性更好。

图片 10

测试三:玩 4399 扫雷

Playwright 操作 4399 扫雷完全做不到——游戏界面是 Canvas 渲染的,Playwright 操作的是 DOM 树,在 Canvas 面前直接失效。

Mano-P 纯视觉路线确实能操作:打开 4399→搜索扫雷→进入游戏→点击方块。游戏确实能玩上。

但它不太理解扫雷逻辑,玩得比较随机,没有根据数字推理安全格子。不过 Playwright 做不到的事,4B 小模型通过纯视觉还是能做。

总结与建议

Mano-P 4B 的定位很明确:自动化执行给定的 GUI 任务,而不是全程独立思考。页面元素定位、按钮点击、表单填写、跨步骤任务执行,这些它都能做得不错。

最佳实践是搭配一个聪明的大模型(如 Codex + GPT-5.5)一起用。大模型负责调度和纠偏,Mano-P 负责实际的 GUI 操作。

回到开头的两个痛点:Token 成本和数据安全。Mano-P + Cider 的组合确实解决了这两个问题。本地 GUI 操作不花或少花 Token,数据不出设备——不是安全协议上写的「我们承诺不看你的截图数据」,而是物理上数据就没出过你的电脑。

苏米注:端侧 AI 的方向越来越清晰——端侧模型不需要具备通用性,而是在某一个具体场景深耕打穿。Mano-P 专注 GUI 操作这一件事,在本地就能跑,更私密、更省钱、更可控。如果你有 M4 Mac,推荐自己跑跑看。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Mano-P 4B 端侧 GUI Agent实战:本地部署、Cider 加速与三项测试
#Mano-P # GUI Agent # 端侧 AI # Cider # 本地推理 
收藏 1
New API:开源 AI 网关,一个接口统一管理所有大模型
skills-refiner:超越断言测试,诊断 Skill 设计质量的开源工具
推荐阅读
  • 字节Trae Windows版正式推出,更适合中文编程的IDE工具 + Claude 3.5免费用,完美替代Cursor
  • 腾讯QClaw发布重大更新:微信入口升级为小程序,内测扩容“码管够”
  • 扣子Coze重磅上线「扣子编程」,智能体、工作流、网页应用,移动应用通通都是一句话搞定!
  • 对标Cursor、Kiro,腾讯CodeBuddy IDE 最新深度实测体验
  • GPT-5.5正式发布:全面超越 Claude Opus 4.7,重新夺回 SOTA 宝座
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
29187 9月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
26479 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
18015 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17946 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15482 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
14633 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14097 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
13929 10月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13826 1年前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11844 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Mano-P 4B 端侧 GUI Agent实战:本地部署、Cider 加速与三项测试
2 阿里云百炼Token Plan 值不值,三个档位该如何选?
3 卖 API 不够用了:Anthropic 和 OpenAI 同日设立合资公司,把工程师直接派进企业
4 DeepSeek-V4 发布:开源模型首支持百万Token 上下文,Codeforces 评级 3206
5 商汤日日新开放免费Token:DeepSeek V4 Flash 等三大模型免费调用
6 HappyHorse 1.0 阿里最强 AI 视频模型:千问 App 首发灰测,1080P 长镜头叙事能力登顶
7 MiMo-V2.5-Pro 开源发布:MIT 协议 + 1M 上下文 + Token 效率超闭源旗舰 60%
8 Claude 桌面版支持第三方模型:Cowork 和 Code 模式全面开放
9 GPT-5.5 与 DeepSeek V4 同日发布:价格 8.5 倍差距背后的 AI 格局变化
10 小米 MiMo-V2.5 开源 + Orbit 百万亿 Token 计划:面向 AI Builder 的生态布局
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联