今天凌晨,Google DeepMind 发布了新一代开源模型 Gemma 4,以 30B 左右的参数,逼近其他头部开源模型。

Gemma 是 Google 的开源模型系列,和闭源旗舰 Gemini 共享底层技术,权重完全公开,任何人可以下载、修改、部署。上一代 Gemma 3 是 2025 年 3 月发布的,到这次更新整整一年。
苏米注:在这一年里,国内几家开源模型已经迭代了好几轮,Google 在开源赛道的存在感越来越弱。这次 Gemma 4 的发布,算是 Google 的强势回归。
四款模型规格
Gemma 4 发布了四个版本,分大模型组和小模型组,覆盖了手机到工作站全场景。
31B Dense(旗舰版)
- 310 亿参数全激活,60 层,256K 上下文
- 追求质量上限,Arena AI 开源排行榜第三
- 未量化 bfloat16 权重一张 80GB H100 就能装下,量化后消费级显卡也能跑
26B A4B MoE(性价比之选)
- 252 亿总参数、38 亿激活参数,MoE 架构(128 个专家,每次激活 8 个 +1 个共享)
- 30 层,256K 上下文,推理速度接近 4B 模型,质量远超 4B 水平
- Arena AI 开源排行榜第六

E4B(端侧高效版)
- 80 亿总参数、45 亿有效参数,42 层,128K 上下文
- E 代表 Effective,小模型用了 Per-Layer Embeddings 技术,有效参数远小于总参数
E2B(超轻量版)
- 51 亿总参数、23 亿有效参数,35 层,128K 上下文
- 在部分设备上内存占用可以压到 1.5GB 以下

所有模型都支持图像和视频输入,支持 140 多种语言。各模型均为多模态,小模型支持语音输入,大模型反而不支持。
E2B 和 E4B 各自带了一个约 3 亿参数的音频编码器,可以做语音识别和语音翻译(最长 30 秒)。Google 和 Pixel 团队、高通、联发科合作优化了端侧部署,E2B 和 E4B 可以在手机、树莓派、NVIDIA Jetson Orin Nano 上完全离线运行。

Benchmark 成绩
相比上一代 Gemma 3 27B,多个核心指标的提升是代际级别的。
| 测试项目 | Gemma 3 27B | Gemma 4 31B | 提升幅度 |
|---|---|---|---|
| 数学 (AIME 2026) | 20.8% | 89.2% | 4.3 倍 |
| 代码 (Codeforces ELO) | 110 | 2150 | 19.5 倍 |
| 代码 (LiveCodeBench v6) | 29.1% | 80.0% | 2.7 倍 |
| 综合推理 (GPQA Diamond) | 42.4% | 84.3% | 2 倍 |
| 综合推理 (MMLU Pro) | 67.6% | 85.2% | 26% |
| 视觉 (MMMU Pro) | 49.7% | 76.9% | 55% |
| 文档 OCR (OmniDocBench) | 0.365 | 0.131 | 64% 降低 |
| 长上下文 (MRCR v2 128K) | 13.5% | 66.4% | 4.9 倍 |
| 多语言 (MMMLU) | 70.7% | 88.4% | 25% |
苏米注:代码能力是这次进步最大的方向,Codeforces ELO 从 110 拉到 2150,这个提升幅度非常惊人。
26B MoE 和 31B 在大部分指标上只差 2 到 5 个百分点,但推理速度快得多。延迟敏感的场景下 26B MoE 性价比更高。
E4B 的 MMLU Pro 69.4%,有效参数只有 45 亿,接近上一代 27B 的水平。

核心能力详解
推理和思考
四款模型都内置了可开关的思考模式,开启后模型先输出内部推理再给答案。数学、逻辑、多步骤规划类任务效果好很多,和 Gemini 的 thinking 能力同源。
Agent 工作流
原生支持函数调用和结构化 JSON 输出,可以让模型调用外部工具和 API。Google 同步发布了 Agent Development Kit(ADK),一个开源的 Agent 框架。端侧 E2B/E4B 也能跑 Agent,Google AI Edge Gallery 里已有示范应用。
代码生成
支持离线写代码。Codeforces ELO 2150、LiveCodeBench 80.0%,在代码补全和生成场景里是可用的。
多模态理解
所有模型都能处理图片和视频(视频按帧处理,最长 60 秒)。图片支持可变分辨率和宽高比,视觉 token 预算可手动配置(70 到 1120 五档),低预算换速度,高预算换精度。OCR、文档解析、图表理解是重点场景。
长文档处理
大模型 256K 上下文,小模型 128K。架构上用混合注意力机制(局部滑动窗口 + 全局注意力交替),全局层用统一 KV 和 Proportional RoPE 优化长上下文的内存占用。
多语言支持
原生训练 140 多种语言,MMMLU 88.4%。
Apache 2.0 许可证
之前 Gemma 1/2/3 用的都是 Google 自己的许可协议,虽然允许商用但有附加条款。这次直接换成了 Apache 2.0,开源社区最认可的商业友好型许可证之一。开发者可以自由修改、分发、商用,没有用户量门槛。
Hugging Face 联合创始人 Clément Delangue 评价这是一个重大里程碑。从 Gemma 系列自身看(三代自定义协议 → Apache 2.0),这是一个明确的转向。
苏米注:Google 用许可证的选择回答了一个讨论了两年的问题:大厂做开源到底有多大诚意。Apache 2.0 的采用,说明 Google 这次是认真的。
开源赛道的竞争格局
Arena AI 开源排行榜上,Gemma 4 31B 排第三、26B MoE 排第六。排在前面的主要是国内的开源模型。
目前开源赛道的主要竞争者:
- DeepSeek:V3.2 在用,V4 即将发布
- 通义千问 Qwen3.5
- 智谱 GLM-5.1
- MiniMax M2.5
- 月之暗面 Kimi K2.5
这几家在今年春节前后密集发布了新版本,参数量从几百亿到上千亿不等,在推理、代码、Agent 等方向各有侧重。
Gemma 4 最大只有 31B,参数量的天花板是一个限制。但 Gemma 4 在端侧部署的工程完整度上做得最深:和高通、联发科的芯片级合作,和 Android 生态的原生打通,加上 Apache 2.0 的合规便利,这些是它的差异化优势。

去哪里用
在线体验:Google AI Studio(31B、26B),Google AI Edge Gallery App(E4B、E2B)
模型下载:Hugging Face、Kaggle、Ollama
云端部署:Vertex AI、Cloud Run、GKE
Android 开发:AICore Developer Preview(和 Gemini Nano 4 前向兼容)
推理框架:Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、LM Studio、Unsloth、SGLang 等
Gemma 系列到目前累计超过 4 亿 次下载,社区产出超过 10 万 个变体。Kaggle 上同步启动了 Gemma 4 Good Challenge,鼓励用 Gemma 4 做有社会价值的项目。
总结
Gemma 4 的发布标志着 Google 在开源模型赛道的强势回归。虽然参数量不是最大的,但在代码能力、端侧部署、Apache 2.0 许可证等方面有明显优势。对于需要离线部署、端侧运行的开发者来说,Gemma 4 是一个值得考虑的选择。
最佳实践:桌面端推荐 26B MoE(性价比高),移动端推荐 E2B/E4B(内存占用低),追求极致效果选 31B Dense。