10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

MiniCPM-o 4.5 技术报告解读:9B 全双工全模态模型,25 万下载量的端侧 AI 实现

1月前 AI开源项目 604 0

面壁智能联合 OpenBMB、清华大学正式发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架核心技术。该模型自 2026 年 2 月发布以来,Hugging Face 下载量突破 25 万+,以 9B 参数实现业界首个端到端全双工全模态大模型。

MiniCPM-o 4.5 技术报告封面

核心资源

  • 技术报告:PDF 下载
  • 在线 Demo:电脑端 | 手机端
  • API:免费开放
  • GitHub Demo:本地部署代码

为什么全双工是 AI 交互下一站

人类交流是流畅、并行的——边听边思考,甚至可以打断对方。但传统 AI 交互是半双工模式,像对讲机:你说完它才能处理,它说的时候听不见你的新指令。

这种「时空割裂」导致用户无法获得良好体验感,长期会影响多模态落地。MiniCPM-o 4.5 在全球首创「全双工全模态」:模型在持续感知环境(看视频、听声音)的同时进行思考和响应,AI 从被动工具变成可以主动帮助的真正助手。

交互范式演进对比图

苏米注:Omni-Flow 把视觉、音频、语言等所有信息流对齐到毫秒级时间片,模型在每个极小时间片内完成「感知-思考-响应」循环,从底层赋予持续感知和即时反应能力。

端到端架构:9B 模型协同设计

MiniCPM-o 4.5 端到端架构图

组件 参数量 功能
视觉编码器 0.4B SigLIP-ViT,负责「看」
音频编码器 0.3B Whisper-Medium,负责「听」
LLM 基座 8B Qwen3-8B,负责「思考」和理解
语音 Token 解码器 0.3B 轻量级 Llama,将文本转化为语音单元
声码器 - 将语音单元合成为最终波形

设计亮点:LLM 基座只生成文本 Token,语音合成「外包」给专业的小型解码器,避免大模型处理复杂声学任务,保证核心语言和推理能力。同时通过 token 级稠密连接保证能力上限。

TAIL 语音生成方案:为实时而生

流式语音的难题是延迟——模型需要「预读」大量文本才能保证自然,但会导致语音输出滞后于用户输入,在需要「即时打断」的全双工场景里致命。

TAIL(Time-Aligned Interleaving)方案让每个语音块生成紧跟实时最新文本内容,而非让文本「抢跑」。通过轻量级预读机制解决跨词发音连贯性,在保证音频流畅的同时将语音延迟降到最低。

性能表现:9B 硬刚业界顶尖

推理效率

推理效率对比

MiniCPM-o 4.5 INT4 量化版仅需 12GB 显存运行,几乎是 Qwen3-Omni INT4 版本的一半。解码速度 212 tokens/s,比 Qwen3 快 40%+,响应延迟更低。

踩坑记录:实测最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF 0.4),消费级显卡本地部署成为可能。

综合视觉能力

视觉基准评测

在 OpenCompass、MMBench 等基准上,9B 的 MiniCPM-o 4.5 与 Gemini 2.5 Flash 表现相当。

全模态与全双工交互

全模态交互评测

在联合音视频理解基准上,MiniCPM-o 4.5 全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上,胜率 54.4% 大幅领先专用流式视频模型。

语音生成

语音生成质量对比

中英文语音生成质量(字符/单词错误率更低)和情感表现力都优于 Qwen3-Omni 和 CosyVoice2。

端侧部署:Comni 安装包

基于 llama.cpp 完成模型量化和推理优化,桌面软件 Comni 集成模型下载、环境安装和 Demo 运行能力:

平台 下载链接 硬件要求
Windows GitHub 12GB+ 显存(RTX 5070/4090)
macOS GitHub M1-M5 Max/Pro,建议 16GB+

端侧部署演示

苏米注:启动本地服务后,强烈推荐通过手机用局域网连接进行全双工视频通话——数据不出本地,隐私安全,断网也能跑。

应用场景:全双工催生新应用

  • 主动式伴侣:烹饪、修理、运动时实时指导和提醒
  • 无障碍辅助:为视障人士持续观察环境,主动播报绿灯亮起、水杯将满等关键信息
  • 智能座舱:持续监控路况和驾驶员状态,主动提示左侧车位并引导泊车
  • 具身智能:作为机器人「大脑」,持续感知动态环境并自主决策交互时机

这些场景的共同点:需求不是一次性问答,而是需要 AI 作为「沉默的观察者」和「及时的提醒者」融入动态生活流——传统轮次对话模型无法胜任。

技术要点:MiniCPM-o 4.5 是原生全双工模型,摆脱对 VAD 依赖,支持 general 声音感知(环境噪音、音乐,不仅是语音),画面变化跟进更快,AI 说话时可被实时引导改变内容。

当前局限与未来

MiniCPM-o 4.5 还存在提升空间:长时间交互稳定性、主动行为丰富性等。多模态智能下一前沿不仅在于模型能力扩展,更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向的关键探索。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:MiniCPM-o 4.5 技术报告解读:9B 全双工全模态模型,25 万下载量的端侧 AI 实现
#MiniCPM-o 4.5 #全双工 #全模态 #Omni-Flow #开源模型 #端侧部署 #面壁智能 
收藏 1
AI 真正改变的不是设计,而是产品经理的能力模型
Claude Code 2.1.121 版本深度解析:底层内存优化、MCP/Plugin 机制完善与 Hooks 全局工具化
推荐阅读
  • NOFX:这个开源项目可以从0到1构建AI量化交易系统,8000+ 开发者力挺的开源 AI 交易系统
  • 两款超实用的Docker 端口可视化工具:快速定位端口占用问题
  • GitNexus:零服务器代码知识图谱引擎,Graph RAG 让 AI 真正读懂代码
  • Zvec:阿里巴巴开源的嵌入式向量数据库,嵌入式向量数据库如何改变应用架构选择
  • 花园开源4个神级Agent Skills:视频网页图片知识库
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9640 8月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9567 9月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7507 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6660 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6543 9月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6524 6月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6449 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6405 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5796 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5740 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 PinMe 2.0:一行命令部署全栈项目,AI Agent 也能发布网站
2 book-to-skill:将任何文档编译为 AI Skill,9 种格式支持 + 布局感知提取
3 harness-anything:让 AI 直接操控 WPS、Photoshop 的开源桌面工具,47 个命令覆盖办公设计学术
4 qwen2API:将 Qwen 网页版转为标准 API 接口的开源网关,支持多账号轮询与 Docker 部署
5 BrowserAct:让 AI突破反爬虫检测的浏览器自动化 Skill
6 HyperFrames 与 html-video:两个 HTML 生成视频的开源项目对比
7 JoyAI-Echo开源:京东5分钟长视频生成框架,角色不崩+对话式编辑
8 docx-editor:浏览器端直接编辑 Word 的开源编辑器
9 花园开源4个神级Agent Skills:视频网页图片知识库
10 Odysseus:PewDiePie开源AI工作台一周5万Star
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联