当前位置：首页 » AI开源项目

MiniCPM-o 4.5 技术报告解读：9B 全双工全模态模型，25 万下载量的端侧 AI 实现

1月前 AI开源项目 604 0

面壁智能联合 OpenBMB、清华大学正式发布 MiniCPM-o 4.5 技术报告，首次公开 Omni-Flow 流式全模态框架核心技术。该模型自 2026 年 2 月发布以来，Hugging Face 下载量突破 25 万+，以 9B 参数实现业界首个端到端全双工全模态大模型。

核心资源

技术报告：PDF 下载
在线 Demo：电脑端 | 手机端
API：免费开放
GitHub Demo：本地部署代码

为什么全双工是 AI 交互下一站

人类交流是流畅、并行的——边听边思考，甚至可以打断对方。但传统 AI 交互是半双工模式，像对讲机：你说完它才能处理，它说的时候听不见你的新指令。

这种「时空割裂」导致用户无法获得良好体验感，长期会影响多模态落地。MiniCPM-o 4.5 在全球首创「全双工全模态」：模型在持续感知环境（看视频、听声音）的同时进行思考和响应，AI 从被动工具变成可以主动帮助的真正助手。

苏米注：Omni-Flow 把视觉、音频、语言等所有信息流对齐到毫秒级时间片，模型在每个极小时间片内完成「感知-思考-响应」循环，从底层赋予持续感知和即时反应能力。

端到端架构：9B 模型协同设计

组件	参数量	功能
视觉编码器	0.4B	SigLIP-ViT，负责「看」
音频编码器	0.3B	Whisper-Medium，负责「听」
LLM 基座	8B	Qwen3-8B，负责「思考」和理解
语音 Token 解码器	0.3B	轻量级 Llama，将文本转化为语音单元
声码器	-	将语音单元合成为最终波形

设计亮点：LLM 基座只生成文本 Token，语音合成「外包」给专业的小型解码器，避免大模型处理复杂声学任务，保证核心语言和推理能力。同时通过 token 级稠密连接保证能力上限。

TAIL 语音生成方案：为实时而生

流式语音的难题是延迟——模型需要「预读」大量文本才能保证自然，但会导致语音输出滞后于用户输入，在需要「即时打断」的全双工场景里致命。

TAIL（Time-Aligned Interleaving）方案让每个语音块生成紧跟实时最新文本内容，而非让文本「抢跑」。通过轻量级预读机制解决跨词发音连贯性，在保证音频流畅的同时将语音延迟降到最低。

性能表现：9B 硬刚业界顶尖

推理效率

MiniCPM-o 4.5 INT4 量化版仅需 12GB 显存运行，几乎是 Qwen3-Omni INT4 版本的一半。解码速度 212 tokens/s，比 Qwen3 快 40%+，响应延迟更低。

踩坑记录：实测最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式（RTF 0.4），消费级显卡本地部署成为可能。

综合视觉能力

在 OpenCompass、MMBench 等基准上，9B 的 MiniCPM-o 4.5 与 Gemini 2.5 Flash 表现相当。

全模态与全双工交互

在联合音视频理解基准上，MiniCPM-o 4.5 全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上，胜率 54.4% 大幅领先专用流式视频模型。

语音生成

中英文语音生成质量（字符/单词错误率更低）和情感表现力都优于 Qwen3-Omni 和 CosyVoice2。

端侧部署：Comni 安装包

基于 llama.cpp 完成模型量化和推理优化，桌面软件 Comni 集成模型下载、环境安装和 Demo 运行能力：

平台	下载链接	硬件要求
Windows	GitHub	12GB+ 显存（RTX 5070/4090）
macOS	GitHub	M1-M5 Max/Pro，建议 16GB+

苏米注：启动本地服务后，强烈推荐通过手机用局域网连接进行全双工视频通话——数据不出本地，隐私安全，断网也能跑。

应用场景：全双工催生新应用

主动式伴侣：烹饪、修理、运动时实时指导和提醒
无障碍辅助：为视障人士持续观察环境，主动播报绿灯亮起、水杯将满等关键信息
智能座舱：持续监控路况和驾驶员状态，主动提示左侧车位并引导泊车
具身智能：作为机器人「大脑」，持续感知动态环境并自主决策交互时机

这些场景的共同点：需求不是一次性问答，而是需要 AI 作为「沉默的观察者」和「及时的提醒者」融入动态生活流——传统轮次对话模型无法胜任。

技术要点：MiniCPM-o 4.5 是原生全双工模型，摆脱对 VAD 依赖，支持 general 声音感知（环境噪音、音乐，不仅是语音），画面变化跟进更快，AI 说话时可被实时引导改变内容。

当前局限与未来

MiniCPM-o 4.5 还存在提升空间：长时间交互稳定性、主动行为丰富性等。多模态智能下一前沿不仅在于模型能力扩展，更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向的关键探索。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：MiniCPM-o 4.5 技术报告解读：9B 全双工全模态模型，25 万下载量的端侧 AI 实现

请登录后发表评论