当前位置：首页 » AI开源项目

豆包AI 手机平替，4个 AI 操纵手机的开源项目

1月前 AI开源项目 617 0

豆包AI手机的浪潮还未真正席卷市场，就遭遇重创，但智谱开源的AI手机自动化项目，却引发技术革命。

从智谱、字节、微软等厂商的开源进展来看，AI手机自动化的核心技术已经形成了几条不同的技术路线。

本文梳理了当前GitHub上四个代表性的AI控制安卓手机开源项目；

它们在模型选择、部署方式、跨平台能力上各有侧重，适配不同的使用场景。

1. Open-AutoGLM（智谱开源）

简介：基于智谱GLM大模型的端到端安卓手机自动化框架，支持本地部署。

功能特色：

视觉理解与定位：通过视觉识别手机屏幕元素，自动定位点击按钮位置
多步骤任务编排：支持复杂长链任务（如地图查询→高德收藏→12306订票）的自动分解与执行
本地部署：支持在本地显卡（24GB+显存）运行，敏感数据不上传云端
ADB集成：通过Android Debug Bridge直接下发点击、滑动、输入等指令

技术特征：模型级解决方案，需要部署完整的GLM推理环境。

适配场景：对隐私保护要求高、需要离线运行的企业或个人开发者。

如何使用？

你可以使用Claude Code，配置 GLM Coding Plan 后，输入以下提示词，快速部署本项目。

访问文档，为我安装 AutoGLM ：https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md

项目地址：https://github.com/zai-org/Open-AutoGLM

2. DroidMind

简介：通过MCP协议适配层，将安卓手机挂载到Claude/Cursor等IDE环境中。

功能特色：

轻量级适配器：不训练新模型，通过协议翻译复用现有大模型能力
IDE集成：与Claude Desktop、Cursor、Claude Code无缝对接
模型无关：可适配Claude、Gemini等多个大模型后端
零部署成本：无需运行本地推理引擎

技术特征：协议层解决方案，依赖外部大模型服务。

适配场景：开发者已有Claude/Cursor订阅、优先考虑易用性而非隐私的用户。

项目地址：https://github.com/hyperb1iss/DroidMind

3. UFO³ （微软开源）

简介：跨平台、多设备编排框架。从Windows单设备控制演进为分布式多设备协调系统。

功能特色：

Galaxy-Constellation架构：中枢（Galaxy）负责任务分发，节点（Constellation）执行具体操作
DAG任务分解：自动将复杂指令（如手机拍照→电脑Photoshop编辑）拆解为有向无环图
多设备编排：Windows、Linux、Android等作为独立节点并网协作
MCP架构：支持异构设备间的能力对接

技术特征：分布式系统方案，强调跨平台协调能力。

适配场景：需要在PC、手机间联动自动化的复杂工作流场景。

项目地址：https://github.com/microsoft/UFO

4. UI-TARS（字节开源）

简介：基于视觉-语言模型（VLM）的GUI自动化Agent，支持手机、PC、网页多端。

功能特色：

端到端视觉驱动：从屏幕截图直接推导动作，无需中间表示
纯视觉方案：不依赖可访问性树等系统接口，适配度更广
跨界面支持：同一套逻辑支持手机、桌面、Web应用
ADB指令转换：视觉决策自动转化为底层Android命令

技术特征：视觉-语言多模态方案，强调通用性。

适配场景：需要统一处理多类型UI界面、对接适配要求高的场景。

项目地址：https://github.com/bytedance/UI-TARS

方案对比维度

维度	Open-AutoGLM	DroidMind	UFO³	UI-TARS
部署方式	本地推理	云API调用	本地/云混合	本地/云可选
跨平台能力	Android为主	Android为主	强，多设备编排	强，手机/PC/Web
隐私保护	高（本地化）	低（云依赖）	中等	中等
部署成本	高（需显卡）	低（仅需SDK）	中等	中等
开发友好度	中等	高（IDE集成）	中等	中等

总结

这四个项目反映了AI手机自动化的不同技术取向。

Open-AutoGLM强调本地化与隐私保护，适合对数据安全有高要求的场景；

DroidMind追求最小化部署成本，将复杂度转移到云侧；

UFO³ Galaxy在跨设备协调上有独特优势，适合企业级流程自动化；

UI-TARS则在跨界面通用性上有优势。

在选型时，不应简单追求某个指标最优，而需根据具体场景权衡部署成本、隐私需求、跨平台要求、维护复杂度等因素。

这些开源项目的成熟度都在快速提升，关注其后续迭代会更好地理解AI移动自动化的发展方向。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：豆包AI 手机平替，4个 AI 操纵手机的开源项目

请登录后发表评论

豆包AI 手机平替，4个 AI 操纵手机的开源项目

1. Open-AutoGLM（智谱开源）

2. DroidMind

3. UFO³ （微软开源）

4. UI-TARS（字节开源）

方案对比维度

总结

文章目录

关注「苏米客」公众号