当前位置：首页 » AI开源项目

MAI-UI：阿里开源的GUI智能体，让大模型真正学会操作手机

4月前 AI开源项目 1077 0

作为一名长期关注AI产品迭代的产品经理，我经常会问自己一个问题：为什么现在的智能助手都停留在"对话"层面，而无法真正帮助用户完成跨应用的复杂操作？

最近阿里云团队开源的MAI-UI项目让我看到了答案——这不是简单的聊天机器人升级，而是一套完整的GUI自动化解决方案。

与其他类似项目相比，它在端云协同、任务完成率、跨应用操作等维度展现出了明显的技术优势。

一、项目定位与核心价值

MAI-UI是由阿里云Tongyi-MAI团队推出的GUI智能体基础模型家族。

与传统对话模型不同，MAI-UI的设计目标是让大模型具备"看图识界面+主动操作"的能力——用户描述需求后，模型能够理解屏幕内容，精确定位交互元素，完成端到端的GUI操作任务。

核心应用场景包括：

跨应用工作流自动化（如从小红书搜图→保存→淘宝反向搜索）
移动端和桌面端的日常操作代理
隐私敏感型任务的本地化执行

二、产品矩阵与性能指标

MAI-UI采用分层模型架构，目前已开源的主要包括：

模型规格	部署位置	适用场景	开源状态
2B / 8B	端侧（手机/PC）	简单任务、隐私优先	已开源
32B / 235B	云端	复杂多步骤任务	权重可用

性能对标数据：

AndroidWorld榜单：MAI-UI-235B以76.7%的成功率位列纯视觉端到端模型第一名
ScreenSpot-Pro基准：在2B/8B/32B三个量级全部排名第一，且未使用缩放优化技巧（反映真实的界面元素识别精度）
MobileWorld基准：端到端成功率达41.7%

三、技术架构亮点

3.1 端云协同机制

这是MAI-UI相比同类项目的核心差异。系统能根据任务特征动态调度：

Device-only模式：端侧2B/8B模型独立完成。优势是响应速度快、用户数据不离设备。适合查询机票、浏览等简单交互。

Device-cloud模式：端侧模型识别任务复杂度后，主动调用云端大模型接手。适合多步骤工作流、需要跨应用协同的场景。

这种设计避免了"全本地化导致能力受限"或"全云端导致隐私泄露"的二选一困境。

3.2 跨应用操作能力

官方Demo展示的场景：从小红书搜索商品图 → 保存到相册 → 打开淘宝进行图片反向搜索 → 加入购物车。这种跨App的操作序列完成度，代表了当前GUI智能体的实际落地水平。

3.3 交互增强

主动询问（ask_user）：模型在操作中遇到信息缺失时，可主动向用户请求补充信息，而非盲目猜测
工具调用集成：支持MCP (Model Context Protocol)，可调用外部工具（如高德地图API）完成复杂路径规划，突破纯GUI操作的局限

四、部署与使用指南

4.1 环境准备

推荐使用vLLM 0.11.0版本作为推理引擎（官方特别强调这个版本要求）。

4.2 快速启动

# 1. 克隆代码库
git clone https://github.com/Tongyi-MAI/MAI-UI.git
cd MAI-UI

# 2. 安装依赖
pip install vllm==0.11.0 transformers>=4.57.0

# 3. 从HuggingFace下载模型（推荐先选8B）并启动API服务
python -m vllm.entrypoints.openai.api_server \
  --model  \
  --served-model-name MAI-UI-8B \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --trust-remote-code

# 4. 进入cookbook目录，运行官方提供的Jupyter Notebook
# 修改llm_base_url为 http://localhost:8000/v1
# 可使用 grounding.ipynb 测试元素定位，run_agent.ipynb 测试完整工作流

4.3 硬件建议

8B模型在消费级GPU（如RTX 4090）上可流畅运行。2B模型可在边界设备上部署。具体配置需参考vLLM官方文档的显存估算。

五、对标与生态位

当前GUI智能体领域的主要参与者：

项目	技术方向	差异化特点
MAI-UI	纯视觉+端云协同	开源可用、性能SOTA、端云灵活调度
Claude Computer Use	基于API闭源	能力强但依赖云服务、成本高
Open WebUI等开源方案	主要针对Web界面	应用范围较窄

MAI-UI的差异化优势在于：同时提供轻量端侧模型和高能力云端模型，且已通过多个国际基准验证，是目前开源生态中可直接复用的最完整解决方案。

六、总结

从产品经理的角度，MAI-UI解决的是"能力与可用性"的平衡问题——既能通过开源的8B/2B模型让开发者快速迭代，也保留了云端235B模型处理复杂场景的可能。更重要的是，端云协同架构为后续的产品设计提供了清晰的技术路径：简单任务本地快速响应，复杂任务云端精准执行，隐私与性能兼顾。

对于想要探索AI自动化、构建下一代智能助手的开发团队，MAI-UI目前是最值得关注的参考实现。建议从8B模型开始实验，逐步理解端云协同的实际工程价值，而不是直接投入235B巨模型的部署。

项目地址：https://github.com/Tongyi-MAI/MAI-UI

模型权重：HuggingFace - Tongyi-MAI

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：MAI-UI：阿里开源的GUI智能体，让大模型真正学会操作手机

#MAI-UI #GUI智能体

请登录后发表评论

MAI-UI：阿里开源的GUI智能体，让大模型真正学会操作手机

文章目录

关注「苏米客」公众号