10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

豆包AI 手机平替,4个 AI 操纵手机的开源项目

12小时前 AI开源项目 34 0

豆包AI手机的浪潮还未真正席卷市场,就遭遇重创,但智谱开源的AI手机自动化项目,却引发技术革命。

从智谱、字节、微软等厂商的开源进展来看,AI手机自动化的核心技术已经形成了几条不同的技术路线。

本文梳理了当前GitHub上四个代表性的AI控制安卓手机开源项目;

它们在模型选择、部署方式、跨平台能力上各有侧重,适配不同的使用场景。

1. Open-AutoGLM(智谱开源)

简介:基于智谱GLM大模型的端到端安卓手机自动化框架,支持本地部署。

功能特色:

  • 视觉理解与定位:通过视觉识别手机屏幕元素,自动定位点击按钮位置
  • 多步骤任务编排:支持复杂长链任务(如地图查询→高德收藏→12306订票)的自动分解与执行
  • 本地部署:支持在本地显卡(24GB+显存)运行,敏感数据不上传云端
  • ADB集成:通过Android Debug Bridge直接下发点击、滑动、输入等指令

技术特征:模型级解决方案,需要部署完整的GLM推理环境。

适配场景:对隐私保护要求高、需要离线运行的企业或个人开发者。

如何使用?

你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。 

访问文档,为我安装 AutoGLM :https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md

项目地址:https://github.com/zai-org/Open-AutoGLM

2. DroidMind

简介:通过MCP协议适配层,将安卓手机挂载到Claude/Cursor等IDE环境中。

功能特色:

  • 轻量级适配器:不训练新模型,通过协议翻译复用现有大模型能力
  • IDE集成:与Claude Desktop、Cursor、Claude Code无缝对接
  • 模型无关:可适配Claude、Gemini等多个大模型后端
  • 零部署成本:无需运行本地推理引擎

技术特征:协议层解决方案,依赖外部大模型服务。

适配场景:开发者已有Claude/Cursor订阅、优先考虑易用性而非隐私的用户。

项目地址:https://github.com/hyperb1iss/DroidMind

3. UFO³ (微软开源)

简介:跨平台、多设备编排框架。从Windows单设备控制演进为分布式多设备协调系统。

功能特色:

  • Galaxy-Constellation架构:中枢(Galaxy)负责任务分发,节点(Constellation)执行具体操作
  • DAG任务分解:自动将复杂指令(如手机拍照→电脑Photoshop编辑)拆解为有向无环图
  • 多设备编排:Windows、Linux、Android等作为独立节点并网协作
  • MCP架构:支持异构设备间的能力对接

技术特征:分布式系统方案,强调跨平台协调能力。

适配场景:需要在PC、手机间联动自动化的复杂工作流场景。

项目地址:https://github.com/microsoft/UFO

4. UI-TARS(字节开源)

简介:基于视觉-语言模型(VLM)的GUI自动化Agent,支持手机、PC、网页多端。

功能特色:

  • 端到端视觉驱动:从屏幕截图直接推导动作,无需中间表示
  • 纯视觉方案:不依赖可访问性树等系统接口,适配度更广
  • 跨界面支持:同一套逻辑支持手机、桌面、Web应用
  • ADB指令转换:视觉决策自动转化为底层Android命令

技术特征:视觉-语言多模态方案,强调通用性。

适配场景:需要统一处理多类型UI界面、对接适配要求高的场景。

项目地址:https://github.com/bytedance/UI-TARS

方案对比维度

维度 Open-AutoGLM DroidMind UFO³ UI-TARS
部署方式 本地推理 云API调用 本地/云混合 本地/云可选
跨平台能力 Android为主 Android为主 强,多设备编排 强,手机/PC/Web
隐私保护 高(本地化) 低(云依赖) 中等 中等
部署成本 高(需显卡) 低(仅需SDK) 中等 中等
开发友好度 中等 高(IDE集成) 中等 中等

总结

这四个项目反映了AI手机自动化的不同技术取向。

Open-AutoGLM强调本地化与隐私保护,适合对数据安全有高要求的场景;

DroidMind追求最小化部署成本,将复杂度转移到云侧;

UFO³ Galaxy在跨设备协调上有独特优势,适合企业级流程自动化;

UI-TARS则在跨界面通用性上有优势。

在选型时,不应简单追求某个指标最优,而需根据具体场景权衡部署成本、隐私需求、跨平台要求、维护复杂度等因素。

这些开源项目的成熟度都在快速提升,关注其后续迭代会更好地理解AI移动自动化的发展方向。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:豆包AI 手机平替,4个 AI 操纵手机的开源项目
#Open-AutoGLM #AI手机 #豆包手机 
收藏 1
办公小浣熊:AI办公不是自动生成,而是可编辑,三大办公能力实测
从0到1打造Claude Skills:如何用AI辅助快速生成高质量Skill
推荐阅读
  • iFlow CLI:让命令行终端不止于编程的AI效率开源神器
  • banana-slides:你是不是在这个开源?用Nano Banana Pro生成PPT
  • ChatLab:本地化聊天记录分析平台,用AI解构社群数据 AI Agent 项目
  • Presentation AI:一款开源AI PPT工具,AI一键生成精美幻灯片!
  • Wei-Yu(微语):开源版飞书+钉钉!企业级IM系统,内置在线客服 + 知识库 + 工单系统 + AI问答等
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
6336 2月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
4494 3月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4412 2月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
3671 2月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
3421 4月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
3179 2月前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
3024 2月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
2784 3月前
Fogsight (雾象):一句话自动生成任何科普动画
2647 2月前
VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆
2555 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 豆包AI 手机平替,4个 AI 操纵手机的开源项目
2 Firecrawl:将网页秒变Markdown的AI数据抓取引擎,支持LLM结构化提取和整站爬取
3 Excalidraw:轻量级手绘风格协作画布,支持实时协作、手绘风格的开源在线无限画布工具!
4 ChatLab:本地化聊天记录分析平台,用AI解构社群数据 AI Agent 项目
5 ConvertX:自托管文件转换神器,支持1000+格式,一键转换图片视频文档,隐私完全掌控
6 Blinko:隐私优先的开源AI卡片笔记,用RAG检索秒找灵感
7 FlyMD:一款本地优先、集成 AI 与 PDF 解析能力的 Markdown 编辑器
8 wechat-chatgpt:快速把国内外主流大模型无缝接入微信生态
9 KnowNote:本地优先的开源知识笔记工具,腾讯ima开源平替
10 banana-slides:你是不是在这个开源?用Nano Banana Pro生成PPT
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联