10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

MiniCPM-V 4.6:1B参数端侧多模态模型发布

1月前 AI最新动态 468 0

面壁智能发布MiniCPM-V 4.6,这是MiniCPM-V系列端侧多模态家族中体量最小的新成员,整体参数规模仅约1.3B,但在性能和推理效率上表现突出。

MiniCPM-V 4.6

1B参数意味着什么?

模型参数量大致决定了硬件要求。1B量级意味着手机、普通笔记本电脑都能运行,不需要专用服务器或高端显卡集群。

过去能在手机上跑的多模态AI,要么能力有限,要么体验不佳。MiniCPM-V 4.6改变了这一现状。

部署到手机上,整个模型包仅2.5GB。token生成速度快,图片识别描述准确,本地运行的体感流畅,少了网络延迟的等待感。

性能对比

在1B参数量级,主要竞品是阿里的Qwen3.5-0.8B(0.8B参数)和谷歌的Gemma4-E2B-it。MiniCPM-V 4.6全面领先。

多模态任务综合能力

MiniCPM-V 4.6在多模态任务评测中表现优于Qwen3.5-0.8B和Gemma4-E2B-it。

多模态评测

AA评测

效率基准

MiniCPM-V 4.6仅用了Qwen3.5-0.8B 2.5%的token消耗量,就超过了它的得分。同样的一道题,它用了对方1/40不到的"思考量",就答得更好。

效率对比

这背后的规律被称为"密度定律"——用更少的计算量,完成更多的事。该理论2024年已发表在Nature子刊上。

推理速度

处理一张3136×3136分辨率的高清图片,首响延迟仅75.7毫秒,比Qwen3.5-0.8B快2.2倍。

推理速度

在高并发吞吐上,单卡可达2624 token/s、14.3张/s的1344²图片处理能力(输出长度为200token时),是Qwen3.5-0.8B的1.5倍。

并发吞吐

底层技术创新

ViT架构改造

面壁智能联合清华大学团队研发的LLaVA-UHD v4,将token压缩步骤提前到ViT(视觉编码器)内部。传统做法是在ViT处理完图像后才压缩token,而新架构让视觉编码器在处理图像过程中就降低token数量,计算量直接降低约50%。

ViT架构

4倍/16倍混合视觉Token压缩

模型处理图像时需要将图像转化为Token交给语言模型理解。视觉token的压缩率直接影响显存占用、首响延迟、推理吞吐等关键效率指标。

MiniCPM-V 4.6实现了4倍和16倍压缩的同时兼得:需要高精度时用4倍,需要极速推理时切16倍,两种模式自由切换。

工业验证

2025年快手推出OneRec推荐大模型,用于短视频主场景的内容推荐。该系统在处理视频封面图、字幕、OCR等多模态信息时,使用了MiniCPM-V-8B模型,承接了快手短视频推荐主场景25%的请求。

快手案例

快手数据

快手日活用户达亿级规模,25%的主场景请求意味着极高的并发压力。MiniCPM-V系列在该量级下稳定运行,说明16倍压缩率技术在真实工业场景中不仅测试数据好看。

MiniCPM-V 4.6将这项经过大规模验证的技术进一步搬到了1B量级,云端工业场景和端侧个人设备从此可以共用同一套技术路线。

对开发者的意义

MiniCPM-V 4.6将微调门槛降到了很实际的位置:一张RTX 4090消费级显卡就能跑完整个微调流程。独立开发者、高校研究团队、小型创业公司不需要租用昂贵的算力集群,可以直接在本地验证想法。

工具链已全面打通:微调框架支持ms-swift和LLaMA-Factory,推理框架兼容vLLM、sglang、llama.cpp、Ollama,几乎覆盖目前主流的开发选择。

应用场景

MiniCPM-V系列已在联想、吉利、上汽大众、长安马自达等品牌落地,覆盖汽车、PC、手机、智能家居等多个终端场景。将参数量压到1B,意味着进入更多设备的门槛又低了一截,不只是旗舰手机,很多此前算力有限的硬件都开始具备搭载真正可用视觉AI的条件。

总结

MiniCPM-V从2024年4月发布第一版至今,每一代都在做同一件事:用更小的代价,做不输甚至更好的事。真正决定一个模型能否被广泛使用的,往往不是它有多大,而是它能跑在哪里、跑得多快、用起来有多顺。

相关链接

  • HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-4.6
  • GitHub: https://github.com/OpenBMB/MiniCPM-V
  • Modelscope: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
  • Web Demo: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
  • App Demo: https://github.com/OpenBMB/MiniCPM-V-Apps
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:MiniCPM-V 4.6:1B参数端侧多模态模型发布
#MiniCPM-V #多模态 #端侧AI #面壁智能 #视觉模型 
收藏 1
4个常用的Claude Code Skills推荐
AI Agent时代下,Markdown和HTML如何正确分工
推荐阅读
  • 智谱老套餐启动迁移:无周限额方案退场,这回我兄弟真买不到了
  • 腾讯混元超强开源翻译模型 HY-MT1.5:本地部署的多语言翻译、方言,实时翻译
  • Coze重磅更新!扣子编程正式支持 Skill:从工具调用到专业工作流,你的智能体技能商店
  • 薅羊毛!手把手教你免费获取15个月Google Gemini AI Pro学生套餐
  • Anthropic 封杀 OpenClaw 事件回顾:13.5 万实例受影响,用户可领补偿额度
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
31429 11月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
28617 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
20561 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
20236 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
16427 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
16350 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15963 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
15152 1年前
国产大模型横向对比:Kimi K2.6、GLM-5.1、Qwen3、MiniMax M2 四大模型选型指南
15093 2月前
腾讯ima知识库skills上线:教你如何把腾讯 IMA 知识库接入 OpenClaw 一步打通
15020 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Hermes Agent上线MoA功能:多模型混合协作,基准测试超越GPT-5.5和Opus-4.8
2 GPT-5.6 宣而不发,Fable 5 归来再禁:出口管制下的模型封锁
3 千问输入法正式上线:阿里双输入法赛马,语音输入成新战场
4 Hermes 上线 MoA 混合 Agent 模式:多模型协作提升任务质量
5 Doubao-Seed-2.1 vs DeepSeek-V4 vs GPT-5.5 实测对比:谁最适合 Agent 开发任务?
6 GPT-5.6 预览版发布:三大模型 Sol/Terra/Luna,全球用户暂无法使用
7 TRAE CN 国内版悄然上线对话限额:免费及 Pro 套餐均受影响
8 OpenAI 内部数据:ChatGPT 只剩 0.2%,Agent 已成 AI 默认工具
9 OpenAI 首款自研芯片 Jalapeño:9 个月从设计到流片,专为推理优化
10 QQ 邮箱 Agently Mail:给 AI Agent 一个独立的工位邮箱
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联