10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

MiniMax M3 即将发布:MSA 稀疏注意力重构大模型效率

1小时前 AI最新动态 12 0

MiniMax 在 X 上发布预告:"M2 系列到头了,M3 要来了。"

工程负责人补充:"Tech blog coming soon. And M3 :)"。这条简短预告获得 37 万阅读、2000 多赞,社区嗅到了重要信号。

图片 1

性能数据:架构级跃升

MiniMax 流出的基准测试显示,M3 对比 M2 的提升幅度:

  • Prefill 速度:提升 9.7 倍
  • Decoding 速度(100 万 token 上下文):提升 15.6 倍
  • 100 万 token 任务延迟:从 1 秒降到 0.06 秒

以前处理超长文档可能需要等好几秒,现在几乎是瞬间。这不是调参能实现的,而是架构级的变化。

核心技术:MSA(MiniMax Sparse Attention)

M3 的核心创新叫 MSA——MiniMax Sparse Attention(稀疏注意力)。

图片 2

传统大模型处理长文本时,把所有内容一起计算,越长越慢。MSA 的思路是:先快速扫一遍,找出最重要的段落,然后重点计算这些区域,其他部分略过。速度快了,但该抓的重点没丢。

社区技术博主 eliebakouch 的评价广为传播(12 万阅读、696 赞):

"They didn't optimize attention, they rebuilt it from scratch."(他们没有优化注意力,他们重建了注意力。)

行业里大多数做稀疏注意力的方案是在现有架构上打补丁——加掩码、压缩维度、搞滑动窗口。MiniMax 是从零重新设计。

MSA 分两步:

  1. 用轻量级索引机制快速扫描全文,选出最重要的块
  2. 只对选出的块做精确的注意力计算

关键区别在于:它在真实数据上做注意力计算,不是在压缩后的近似值上做,信息没有损失。

与 DeepSeek 的路线对比

国内做稀疏注意力最知名的两家是 DeepSeek 和 MiniMax,但走的是完全不同的路线:

对比项 DeepSeek V4 MiniMax M3
基础架构 MLA(多潜在注意力) GQA(分组查询注意力)
选择粒度 block 级 block 级
注意力对象 压缩后的近似值 真实 KV 数据

关键差异在最后一行:DeepSeek 在压缩过的数据上做选择,MiniMax 在原始数据上选。就像在模糊照片上找重点,不如直接看原图。

社区评价:"比 DeepSeek 的方案更干净。"另一条高赞评论:"真实 KV 注意力保留了质量——这才是正确的取舍。"

图片 3

"先慢后快"的工程哲学

M2 系列用的是全注意力——不是稀疏的,是把所有内容都算一遍。M2 的 229.9 亿参数里每次推理只激活 98 亿,采用 MoE 架构,但注意力部分偏偏选了效率最低的全量计算。

MiniMax 在 M2 技术论文中解释了原因:

"We found no variant that reliably matches full attention quality in production settings."(在生产环境中,我们没有找到任何稀疏注意力变体能可靠地匹配全注意力的质量。)

翻译过来就是:他们知道稀疏注意力效率高,但当时做出来质量会下降。所以 M2 阶段故意选了慢的方式先把质量稳住。现在 MSA 被认为可以上线了,说明质量关过了,才放出来拼效率。

苏米注:这种"先质量后效率"的工程哲学,跟很多公司"先堆参数再调优"的思路完全不同。MiniMax 这次是反过来的:先告诉你能跑,再告诉你跑得快。这种纪律性在行业里不多见。

参数规模:可能是万亿级

关于 M3 的具体参数,官方尚未公布。市场传闻 M3 可能有 1 万亿参数。如果是真的,从 M2 的 229.9 亿到 1 万亿,翻了 4 倍多。

但关键不是这个数字,而是:配合 MSA 的 15.6 倍加速,万亿参数模型的推理成本可能跟 200B 参数模型差不多。大模型的经济学可能要被改写了。

商业化进展

MiniMax 今年 1 月在港交所上市,发行价 165 港元,首日涨 109%。到 5 月底,市值 2625 亿港元,超过快手。上市才 4 个月,又启动了 A 股上市辅导。

核心财务数据:

  • 2025 年营收 7900 万美元,同比 +159%
  • 毛利率从 12% 提升到 25%
  • 全球用户约 3 亿,企业客户突破 100 万
  • ARR 最近半年翻倍,最新超过 3 亿美元

图片 4

创始人闫俊杰,37 岁,中科院博士,2022 年创立。团队平均年龄 29 岁,研发占比超 70%。5 月 28 日,他出现在国新办记者见面会上——一个 AI 公司创始人站上那个平台,信号很清楚:MiniMax 已被列入"国家队"视野。

M3 不是孤立发布,MiniMax 正在搭建完整的 AI 平台:一个订阅解锁全部模型(文本、音乐、视频、语音),还有 Agent Teams、Mavis 个人 AI 助手。M3 将随模型一起开源。

竞争格局:六月是硬仗

M3 的发布时间窗口,正好赶上全球 AI 密集发布期。GPT-6 在安全对齐、Gemini 3.5 在路上、DeepSeek V4.1 下月发、Kimi K3 也在排队。

M3 有几个独特的卡位:

  • 第一,开源:在闭源为主的市场里,万亿参数级别的开源模型冲击力不小
  • 第二,长上下文:百万 Token 处理 + 15.6 倍加速,在长文档分析、代码库理解、多轮 Agent 对话等场景是实打实的优势
  • 第三,价格:M2.7 的 API 价格已做到每百万 Token 0.22 美元,全球性价比最高之一。如果 M3 延续这个策略,行业价格战会更激烈

图片 5

总结与判断

MSA 是认真的技术突破,不是噱头,有具体的数据和架构支撑。9.7 倍和 15.6 倍的提升,不是调参能搞出来的,是从底层重建的东西。

万亿参数 + 稀疏注意力,如果真成了,会改变大模型的成本曲线。推理成本下降,AI 能用到更多场景,对整个行业是好事。

开源是最大的变量。如果 M3 真的以宽松协议开源,对开源生态的冲击巨大,对开发者也是利好——不用非得付钱才能用顶级模型。

风险:多模态能力是社区反复提到的痛点。如果 M3 在这方面没有显著提升,在需要视觉、音频理解的应用场景里,还是会被 Claude 和 Gemini 压着打。

这两年 AI 圈的趋势:技术进步越来越快,但真正落地到普通人能用的产品还不够多。M3 这次瞄的方向挺实在的——长上下文、高效率、开源、性价比。这几个关键词加在一起,意思就是:让更多人用得上、用得起、用得爽。

5 月底到 6 月初,M3 就会正式发布。

苏米注:当所有人都在追求"快"的时候,有人选择先"做好"——半年后,慢的人反而跑到了前面。这种工程纪律性值得所有 AI 从业者学习。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:MiniMax M3 即将发布:MSA 稀疏注意力重构大模型效率
#MiniMax #M3 #MSA #稀疏注意力 #AI模型 
收藏 1
SOP 流程沉淀 Skill:把零散经验变成可复用操作手册
这是最后一篇
推荐阅读
  • 最强模型易主!刚刚Claude Opus 4.5发布,发布即降价
  • 滴滴也上车了:打车 AI 助手小滴与 MCP 开放服务体验分享
  • 阿里云腾讯云全面停售 Coding Plan:AI 编程低价时代终结,开发者如何应对
  • 宝塔面板一键部署OpenClaw 上新,宿主机安装、面板内管理、打开即可使用
  • 1-bit Bonsai 8B 大模型详解:8B 参数压缩至 1.15GB,手机也能跑 AI
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
30384 10月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
27394 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
18941 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
18908 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15859 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
15463 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15025 10月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14549 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
14065 1年前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
12312 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 MiniMax M3 即将发布:MSA 稀疏注意力重构大模型效率
2 MiniMax-M2.7 模型在 OpenHands Agent 平台上免费使用
3 OpenAI Codex Computer Use 正式登陆 Windows,附完整设置指南
4 Claude Opus 4.8 深度解析:从聊天机器人到自主工作系统的进化
5 Claude Code Dynamic Workflows:AI 自主调度并行处理复杂任务
6 Step 3.7 Flash:10 秒生成千行代码,生产级 Agent 的高效率之选
7 Codex Computer Use 登陆 Windows:手机远程调度 AI 成为现实
8 Claude Opus 4.8 发布:Dynamic Workflows 让 AI 自主编排大规模开发任务
9 Anthropic 发布 AI Agent Zero Trust 安全白皮书:六大能力域与八步部署指南
10 支付宝 AI 钱包发布:3 亿笔 Agent 支付背后的商业协议布局
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联