谷歌发布了 Gemini 3 和大香蕉 Nano Banana Pro。
OpenAI 掏出 GPT-5.1 应对。
Anthropic 这边也迭代出了 Claude Opus 4.5。
马斯克的 xAI 更是疯狂,Grok 4.1 Fast 直接免费开放,短短几天就以 1.16T tokens 的用量登顶了 OpenRouter 排行榜。

北美时间 11 月 27 日,也就是感恩节当天,DeepSeek 悄悄在 Hugging Face 上传了一个新模型:DeepSeekMath-V2。
不是因为“又一个高分”,而是它把一个在业内常被忽略的问题摆到了桌面:如何让数学推理过程可检验,并把这样的能力以开源形式提供给专业用户。
这是一个在国际数学奥林匹克竞赛(IMO)上达到金牌水平的「数学推理模型」。
免费开源;Apache 2.0 协议;权重全部公开。
Hugging Face 的 CEO Clement Delangue 直接发帖盛赞:
“想象一下,免费拥有世界上最顶尖数学家之一的大脑。据我所知,目前没有任何聊天机器人或 API 能让你免费访问 IMO 2025 金牌水平的模型。这是 AI 和知识民主化的最佳体现。
AI 的前沿,是开源的。”
- 开放方式:Apache 2.0 许可、权重公开,支持下载、研究、微调和商用。
- 能力边界:针对数学竞赛与证明类任务,重点在“严谨推理”的过程,而不仅是最终答案。
- 适配人群:数学教师/竞赛教练、研究人员、算法/量化岗位,以及需要可检查推理链的专业用户。
金牌水平的“数学推理模型”
- IMO 2025:6 题解出 5 题,35 分,达到金牌水平(当年金牌仅约 12%,630 人中 72 人)。
- CMO 2024:中国数学奥林匹克,金牌水平。
- Putnam 2024:北美大学生数学竞赛,满分 120。人类最高分 90,中位数 2;DeepSeekMath-V2 得分 118(解出 11/12,1 题小错误)。

对比背景(便于选型):今年 7 月,OpenAI 与谷歌也在 IMO 2025 上拿到金牌,但仍以闭源或付费形式提供,且存在降级版本与访问限制。
DeepSeekMath-V2 的差异在于:权重完全公开、无降级限制、可自由使用。
技术特点
DeepSeek 在技术文档里明确了一个关键点:答案正确不等于推理正确。为此,它采用了“Self-Verifiable(自验证)”训练思路:
- 生成器(Generator):负责产出逐步证明与最终答案。
- 验证器(Verifier):逐步检查逻辑链条,评估每一步的严谨性。打分信号作为训练奖励。
- 自纠机制:鼓励生成器在提交前主动发现并修复错误,避免“蒙对”或绕过验证规则。
- 动态难度:生成器增强的同时提升验证难度,降低“对验证器过拟合”的风险。
根据 DeepSeek 文档披露的测试结果(CNML 级别),在代数、几何、数论、组合、不等式五个分支上整体领先。
几何分支的差距更明显:DeepSeekMath-V2 0.52,GPT-5 0.15。
开源与闭源的差异化
| 维度 | DeepSeekMath-V2 | 谷歌(Gemini 2.5 Deep Think) | OpenAI(金牌水平模型) |
|---|---|---|---|
| 获取方式 / 许可 | 开源,Apache 2.0,权重可下载 | 付费订阅(Ultra),提供降级版;金牌版仅限少量学术用户 | 实验性,未公开广泛发布 |
| 功能定位 | 数学推理与形式化证明,强调过程可验证 | 深度推理能力,开放版本为降级 | 金牌水平推理,但渠道受限 |
| 成本与门槛 | 部署成本由用户承担,需算力与工程能力 | 订阅成本较高 | 不可直接选用,需等待或特批 |
| 推理延迟 | 较长(复杂题目更明显),强调完整过程 | 公开信息显示金牌版本单题可耗时数小时 | 未公开稳定通道,无法比较 |
| 适合人群 | 教师/教练、研究人员、算法/量化、需要可检验证明的团队 | 愿为闭源服务付费且接受降级的用户 | 研究合作与高权限用户 |
选型建议
- 教学与竞赛训练:需要完整推导与可检验过程,DeepSeekMath-V2 更贴合;注意准备算力与评审流程。
- 研究与论文草拟:适合用来生成初步的证明草稿或反例搜索,再配合人工验证与正式排版。
- 算法/量化场景:用于推导公式、检查推导路径、构建内部验证器;避免直接用于生产决策链。
- 通用问答/多领域任务:不建议作为主力;对于非数学知识、跨领域常识类任务,通用模型更高效。
总结
从产品视角看,DeepSeekMath-V2 把“可检验的数学推理”以开源的方式落在了专业用户手里。这并不意味着它要替代通用模型,也不是要竞速谁的分数更高。更现实的理解是:如果你的工作依赖严格的逻辑链和可复核的过程,这个模型提供了一个可控的起点;如果你的需求是高并发的通用问答或内容创作,它不是最佳适配。
持续提醒团队的两句话:分数不是能力的全部,过程才是可用性的核心;开源不是没有门槛,而是把可控权交给你。基于这两点来做选型和落地,才是这类模型真正的价值。
参考链接:
DeepSeekMath-V2 模型(Hugging Face)
GitHub 仓库