豆包AI手机的浪潮还未真正席卷市场,就遭遇重创,但智谱开源的AI手机自动化项目,却引发技术革命。
从智谱、字节、微软等厂商的开源进展来看,AI手机自动化的核心技术已经形成了几条不同的技术路线。
本文梳理了当前GitHub上四个代表性的AI控制安卓手机开源项目;
它们在模型选择、部署方式、跨平台能力上各有侧重,适配不同的使用场景。
1. Open-AutoGLM(智谱开源)
简介:基于智谱GLM大模型的端到端安卓手机自动化框架,支持本地部署。

功能特色:
- 视觉理解与定位:通过视觉识别手机屏幕元素,自动定位点击按钮位置
- 多步骤任务编排:支持复杂长链任务(如地图查询→高德收藏→12306订票)的自动分解与执行
- 本地部署:支持在本地显卡(24GB+显存)运行,敏感数据不上传云端
- ADB集成:通过Android Debug Bridge直接下发点击、滑动、输入等指令
技术特征:模型级解决方案,需要部署完整的GLM推理环境。
适配场景:对隐私保护要求高、需要离线运行的企业或个人开发者。
如何使用?
你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。
访问文档,为我安装 AutoGLM :https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
2. DroidMind
简介:通过MCP协议适配层,将安卓手机挂载到Claude/Cursor等IDE环境中。

功能特色:
- 轻量级适配器:不训练新模型,通过协议翻译复用现有大模型能力
- IDE集成:与Claude Desktop、Cursor、Claude Code无缝对接
- 模型无关:可适配Claude、Gemini等多个大模型后端
- 零部署成本:无需运行本地推理引擎
技术特征:协议层解决方案,依赖外部大模型服务。
适配场景:开发者已有Claude/Cursor订阅、优先考虑易用性而非隐私的用户。
3. UFO³ (微软开源)
简介:跨平台、多设备编排框架。从Windows单设备控制演进为分布式多设备协调系统。

功能特色:
- Galaxy-Constellation架构:中枢(Galaxy)负责任务分发,节点(Constellation)执行具体操作
- DAG任务分解:自动将复杂指令(如手机拍照→电脑Photoshop编辑)拆解为有向无环图
- 多设备编排:Windows、Linux、Android等作为独立节点并网协作
- MCP架构:支持异构设备间的能力对接
技术特征:分布式系统方案,强调跨平台协调能力。
适配场景:需要在PC、手机间联动自动化的复杂工作流场景。

4. UI-TARS(字节开源)
简介:基于视觉-语言模型(VLM)的GUI自动化Agent,支持手机、PC、网页多端。

功能特色:
- 端到端视觉驱动:从屏幕截图直接推导动作,无需中间表示
- 纯视觉方案:不依赖可访问性树等系统接口,适配度更广
- 跨界面支持:同一套逻辑支持手机、桌面、Web应用
- ADB指令转换:视觉决策自动转化为底层Android命令
技术特征:视觉-语言多模态方案,强调通用性。
适配场景:需要统一处理多类型UI界面、对接适配要求高的场景。
方案对比维度
| 维度 | Open-AutoGLM | DroidMind | UFO³ | UI-TARS |
| 部署方式 | 本地推理 | 云API调用 | 本地/云混合 | 本地/云可选 |
| 跨平台能力 | Android为主 | Android为主 | 强,多设备编排 | 强,手机/PC/Web |
| 隐私保护 | 高(本地化) | 低(云依赖) | 中等 | 中等 |
| 部署成本 | 高(需显卡) | 低(仅需SDK) | 中等 | 中等 |
| 开发友好度 | 中等 | 高(IDE集成) | 中等 | 中等 |
总结
这四个项目反映了AI手机自动化的不同技术取向。
Open-AutoGLM强调本地化与隐私保护,适合对数据安全有高要求的场景;
DroidMind追求最小化部署成本,将复杂度转移到云侧;
UFO³ Galaxy在跨设备协调上有独特优势,适合企业级流程自动化;
UI-TARS则在跨界面通用性上有优势。
在选型时,不应简单追求某个指标最优,而需根据具体场景权衡部署成本、隐私需求、跨平台要求、维护复杂度等因素。
这些开源项目的成熟度都在快速提升,关注其后续迭代会更好地理解AI移动自动化的发展方向。