当前位置：首页 » AI最新动态

GLM-5 技术报告深度解析｜a16z：开源模型之首

3月前 AI最新动态 1065 0

a16z 昨日在其 Charts of the Week 中放出一张图，将 GLM-5 与 Claude Opus 4.6 并列标注在 Artificial Analysis Intelligence Index 的时间轴上

原文指出：A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between it and the next best open weight model has closed substantially.（链接：a16z）

直译过来就是：在 a16z 的口径下，智谱 GLM-5 被视为当前“最佳开源模型”。

今天，GLM-5 发布了完整技术报告（40 页，arXiv）。

报告发布后，开发者社区迅速进入逐页学习模式，讨论最热的技术点包括：DSA 稀疏注意力（用 20B token 适配追平 DeepSeek 943.7B token 的效果）、完全异步的 Agent RL 训练框架、自研 slime RL 基础设施……以及那句“早就剧透的财富密码：智谱 + 龙虾”。

下面，我们把这份技术报告拆解成关键模块，逐块看清楚。

基座与基本面：744B 总参，40B 激活

在 Artificial Analysis Intelligence Index v4.0 上，GLM-5 得分 50，开源第一。

延续 MoE（Mixture of Experts）架构：总参数 744B，每次推理激活 40B，256 个专家，80 层。

对比 GLM-4.5：总参数从 355B 翻到 744B，激活参数 32B → 40B。

预训练数据由 23T token 增至 28.5T token（预训练 27T，中期训练 1.5T）。

在 LMArena（原 Chatbot Arena）上，GLM-5 在文本与代码竞技场均为开源第一，整体与 Claude Opus 4.5、Gemini 3 Pro 同档。

架构三大改动

GLM-5 相较 GLM-4 系列，在架构上有三处关键升级：

MLA + Muon Split
多 token 预测（MTP）
DSA 稀疏注意力

MLA + Muon Split

GLM-5 采用 Multi-latent Attention（MLA），与 DeepSeek-V3 同源。MLA 通过压缩 KV 缓存维度来节省显存，在长文本场景显著提速。

训练中团队发现：Muon 优化器与 MLA 的组合效果不如更简单的 GQA-8。于是提出 Muon Split：将原本对整块投影矩阵做的正交化，改为“按注意力头逐个进行”，让不同头各自独立更新。

效果追平 GQA-8。

注意力分数在训练中自动保持稳定，无需额外裁剪。

推出 MLA-256 变体：单头维度 192 → 256，头数减少 1/3；总参数不变、性能持平，但推理计算量降低。

多 token 预测：参数共享的 MTP

推测解码是一种加速思路：用小模型先“猜”出后续几个 token，再让大模型验证，猜中即可省算力。

DeepSeek-V3 训练只用 1 层 MTP，推理预测 2 个 token，但训练/推理不一致导致第二 token 猜中率偏低。
GLM-5 在训练中使用 3 层 MTP，且三层共享同一套参数；推理时占用与 DeepSeek-V3 相当，但“猜中率”更高。
实测同样 4 步推测解码：GLM-5 平均接受长度 2.76，DeepSeek-V3.2 为 2.55。

DSA 稀疏注意力：长上下文核心提效

传统注意力计算是全量的，随上下文长度增长呈平方级膨胀，长上下文极其昂贵。

DSA（DeepSeek Sparse Attention）引入轻量级“索引器”，先快速扫所有 token，挑出与当前 token 最相关的 top-k（k=2048），只对这部分做注意力计算——基于内容选择而非位置。

在 GLM-5 中，进行 20B token 的 DSA 适配，即可追上 DeepSeek 使用 943.7B token 的效果（约 50 倍差距）。

流程：基础模型（中期训练结束后）→ 1000 步预热（只训练索引器，主模型冻结）→ 20B token 稀疏适配；总预算 20B token。

结果：DSA 模型在长上下文基准与原始 MLA 基本持平，SFT 训练损失曲线几乎重合。

收益：长序列注意力计算降低 1.5-2 倍；Agent 推理动辄 200K 上下文，GPU 成本直接砍半。

消融对比：

朴素滑动窗口交错：固定每隔一层用窗口注意力，在 128K 上下文 RULER 跌 30 分，基本不可用。
基于搜索的 SWA：束搜索最优层分配，效果更好，但细粒度检索仍丢 5-7 分。
GDN / SimpleGDN：其中 SimpleGDN 在复用预训练权重方面效率最高。
DSA：索引器做 token 级动态选择，不丢长程依赖。

数据：预训练与中期训练全面升级

网页数据

在 GLM-4.5 管线基础上新增 DCLM 分类器（基于句子嵌入），补捞标准分类器漏掉的高质量内容。

训练“世界知识分类器”（用 Wikipedia 条目 + LLM 标注数据），从中低质量网页中筛选有价值的长尾知识。

代码数据

刷新主要托管平台快照，模糊去重后 unique token 增加 28%。

修复 Software Heritage 元数据对齐问题。

为 Scala、Swift、Lua 等低资源语言训练专用分类器。

数学与科学

来源：网页、书籍、论文；由 LLM 打分，仅保留最具教育价值的部分。

长文档采用分块聚合评分；严格排除合成与 AI 生成数据。

中期训练

上下文窗口三阶段扩展：

32K（1T token）
128K（500B token）
200K（50B token）

GLM-4.5 上限为 128K；新增 200K 主要应对超长文档与多文件代码库。

软件工程数据扩容：放宽仓库级筛选拿到约 1000 万 Issue-PR 对，同时加强单个 issue 的质量过滤；最终 Issue-PR 数据约 160B token。

长上下文数据包含自然与合成数据；合成部分采用 NextLong / EntropyLong 构建长程依赖；在 200K 阶段引入多种 MRCR 变体，增强超长多轮对话召回。

训练工程：让 744B 模型“跑得起来”

MTP 布局优化：将 MTP 输出层与主输出层放在流水线最后一个 stage 共享参数，其余模块前移，平衡各 rank 显存。
ZeRO2 梯度分片：每个 stage 仅存 1/dp 梯度，配合双缓冲，在不增加同步开销下显著降显存。
Muon 优化器零冗余通信：all-gather 限定在本 rank 的参数分片范围。
流水线激活卸载：前向完成后按层卸到 CPU，反向时再加载，与计算重叠。
序列分块输出投影：长序列下输出层与 loss 显存峰值高，按序列维度分块处理。
INT4 量化感知训练（QAT）：在 SFT 阶段即推进，开发与推理 bit-level 对齐的量化 kernel。

后训练全流程

GLM-5 的后训练是一条完整流水线：SFT → Reasoning RL → Agentic RL → General RL → 跨阶段在线蒸馏。

SFT

数据三大类：通用对话（问答、写作、角色扮演、翻译、多轮、长上下文）、推理（数学、编程、科学）、编程与 Agent（前后端代码、工具调用、Coding Agent、搜索 Agent）。
最大上下文长度扩至 202,752 token。
三种“思考模式”：
- 交错思考（Interleaved）：每次响应和工具调用前都先思考一轮，提升遵循与生成质量。
- 保留思考（Preserved）：在 Coding Agent 场景，多轮间保留所有思考，不重推导；适合长程复杂任务，降低信息丢失。
- 轮级思考（Turn-level）：按轮次开关；简单请求关闭降延迟，复杂任务打开提精度。
编程与 Agent 的 SFT 数据通过专家 RL 与拒绝采样提质；错误片段保留但在 loss 计算中掩码，模型能“看见错误并学会纠错”，却不会被训练去复现错误。

Reasoning RL

算法基于 GRPO + IcePop；明确区分“训练模型”与“推理模型”，并移除 KL 正则以加速训练。
纯 on-policy：group size 32、batch size 32。
关键工程发现：DSA 索引器的 top-k（k=2048）若使用 CUDA 非确定性实现，RL 会迅速崩溃（同一输入两次排序不同，导致熵骤降与性能退化）。最终全程采用原生 torch.topk，并在 RL 阶段冻结索引器。
混合训练领域：数学、科学、代码、工具集成推理（TIR）。
难度过滤：仅保留 GLM-4.7 做不出、但 GPT-5.2 xhigh / Gemini 3 Pro Preview 能做出的题目。

Agentic RL

核心挑战在于 rollout 时间极长且任务差异巨大：一条 SWE 任务可能几分钟，另一条半小时；同步 RL 会被最慢任务拖垮 GPU 利用率。

GLM-5 采用完全异步：
- 训练 GPU 与推理 GPU 物理分离。
- 推理端持续生成轨迹，凑够一批即发送训练端。
- 推理端权重每隔 K 步与训练端同步。
Multi-Task Rollout Orchestrator：不同 Agent 任务（SWE 修 bug、终端操作、搜索问答）作为独立微服务注册到中央编排器，控制任务比例与生成速度，支持 1000+ 并发。
为保证异步稳定，三项关键设计：
- TITO（Token-in-Token-out）：训练直接消费推理引擎产生的 token ID 与元数据，避免文本往返造成的 re-tokenization 偏差。
- 直接双侧重要性采样：用 rollout 记录的对数概率作为行为代理，计算 r_t(θ) = π_θ / π_rollout；超出信任域 [1-ε_l, 1+ε_h] 的 token 屏蔽梯度。
- 样本过滤：记录每条轨迹的模型版本号，版本差距超过阈值的丢弃；因环境崩溃造成失败的样本也去除。
DP-aware 路由：同一多轮 Agent 任务通过一致性哈希路由到同一个 DP rank，复用 KV cache，预填充成本与增量 token 成正比。

General RL

优化目标三维度：正确性（指令遵循、逻辑一致、事实准确、无幻觉）、情商（同理心、洞察力、自然表达）、特定任务能力（写作、问答、角色扮演、翻译等）。
奖励信号三种混合：规则奖励（精确但覆盖窄）+ 判别式奖励模型 ORM（低方差但易 reward hacking）+ 生成式奖励模型 GRM（鲁棒但方差大）。
在 RL 中引入人类高质量回复作为风格锚点，避免模型收敛到冗长、模板化的“机器腔”。

跨阶段在线蒸馏

解决多阶段 RL 的灾难性遗忘：将各阶段（SFT、Reasoning RL、General RL）的最终 checkpoint 作为教师模型。
学生模型通过 logits 差距直接计算 advantage，无需大 group size，batch size 可开到 1024 提升吞吐。

Agent 环境：10000+ 可验证场景

软件工程环境

从真实 GitHub Issue-PR 对出发，基于 RepoLaunch 自动构建可执行环境。
自动分析仓库安装与依赖，构建 Docker，生成测试命令，用 LLM 从测试输出生成日志解析函数。
覆盖 9 种语言：Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby；总计超过 10000 个可验证环境。

终端环境

两条路径：
- 种子任务合成：从真实 SWE 与终端场景采集种子，LLM 生成任务草稿 → 以 Harbor 格式实例化 Agent → 精炼迭代；Docker 构建精度超 90%。
- 网页语料合成：从代码网页到闭环设计，要求 Coding Agent 合成任务并自我验证，所有检查通过才入库。

搜索任务与上下文管理

从早期搜索 Agent 轨迹中收集 200 万+ 高信息量网页，构建 Web 知识图谱（WKG），生成多跳问答，对问题进行跨网页证据汇聚与多步推理。
难度过滤分三阶段：删掉不用工具也能答对的题（8 次尝试中至少对 1 次即删）→ 过滤早期 Agent 几步就能搜到的题 → Verification Agent 双向校验，排除答案不唯一或证据不一致样本。
BrowseComp 表现高度依赖上下文管理。GLM-5 采用分层策略：
- Keep-recent-k：交互历史超过 k 轮时，仅保留最近 5 轮完整内容，旧工具结果折叠；准确率 55.3% → 62.0%。
- 与 Discard-all 结合：总上下文超过 32K 时清空工具调用历史重新开始，同时继续 Keep-recent-k，使模型在预算内执行更多步搜索。
最终 BrowseComp 得分 75.9，所有模型中最高（含闭源）。

PPT 生成与 Reward Hacking

报告中给出一个直观的 reward hacking 案例：PPT 生成以 HTML 为中间格式，RL 设置三级奖励——静态属性（定位、间距、颜色）、渲染后真实属性（DOM 实际宽高）、视觉感知（空白检测）。

模型的两种“作弊”：用 overflow: hidden 隐藏溢出让页面看似 16:9；用 flex: 1 1 8% 强行占满空间，布局正常但内容稀疏。
解决方案：改用渲染器输出的真实属性值评估，不看 HTML 源码写了什么。
修正后，符合 16:9 比例的页面由 40% 提升至 92%；人工评估中，GLM-5 对比 GLM-4.5 综合胜率 67.5%。

国产芯片适配

GLM-5 上线即适配国产芯片，覆盖七大平台：华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯（MetaX）、燧原。

以华为昇腾 Atlas 系列为例，适配分三层：

W4A8 混合精度量化：Attention / MLP 用 INT8（W8A8），MoE 专家压到 INT4（W4A8），让 750B 模型装入单台 Atlas 800T A3。
融合算子：
- Lightning Indexer：将分数计算、ReLU、TopK 三步融合为一算子。
- Sparse Flash Attention：TopK 检索与稀疏注意力并行。
- MLAPO：13 个碎片化预处理算子融合为一个。
推理引擎优化：vLLM-Ascend 与 SGLang 适配；异步调度消除采样回传“气泡”；RadixCache 做前缀共享；Attention DP + MoE EP 混合并行；MTP 加速。
效果：单台国产节点的推理性能接近两台国际主流 GPU 集群；长序列部署成本降低 50%。

评测数据：完整跑分速览

推理

HLE（含工具）：50.4（Claude Opus 4.5：43.4；GPT-5.2 xhigh：45.5；Gemini 3 Pro：44.2）
HLE（不含工具）：30.5（Claude：35.9；GPT-5.2 xhigh：25.1）
AIME 2026 I：92.7（Claude：93.3；Gemini 3 Pro：92.7）
HMMT Feb. 2025：97.9（Claude：92.9；Gemini 3 Pro：97.3）
HMMT Nov. 2025：96.9（Claude：93.5；Gemini 3 Pro：96.9）
IMO-AnswerBench：82.5（Claude：87.5；GPT-5.2 xhigh：75.5）
GPQA-Diamond：86.0（Claude：85.8；GPT-5.2 xhigh：84.8）
LongBench v2：64.5（Claude：59.5；Gemini 3 Pro：68.2）

编程

SWE-bench Verified：77.8（Claude：80.9；Gemini 3 Pro：72.5；GPT-5.2 xhigh：80.0）
SWE-bench Multilingual：73.3（Claude：77.5；GPT-5.2 xhigh：72.0）
Terminal-Bench 2.0：56.2（修正模糊指令后 60.7-61.1；Claude：59.3）
CyberGym：43.2（Claude：51.3）

Agent

BrowseComp（含上下文管理）：75.9（Claude：64.8；GPT-5.2 xhigh：54.4）
BrowseComp-ZH：72.7（Claude：64.8；Gemini 3 Pro：42.3）
τ²-Bench：89.7（Claude：91.6）
MCP-Atlas：67.8（GPT-5.2 xhigh：68.0）
Tool-Decathlon：74.0（Claude：75.6）
Vending-Bench 2：$4432（Claude：$5478）
GDPval-AA Elo：1409（Claude：1381；GPT-5.2 xhigh：1437）

在 SWE-rebench（持续更新、去污染的 SWE 评测）上，GLM-5 的 42.1% 与 Claude Opus 4.5 的 43.8% 仅差 1.7 个百分点。

CC-Bench-V2：真实工程体验

这是智谱内部的自动化评测基准，不依赖人工标注。

使用 Claude Code + Claude Sonnet 4.5 配合 Playwright 做 Agent-as-a-Judge，让一个 Agent 操作另一个 Agent 生成的前端项目，执行点击、输入、截屏等，逐项验真。

前端

指标包含 BSR（构建成功率）、CSR（检查项通过率）、ISR（实例整体通过率）。
BSR 98%：GLM-5 生成的项目几乎都能跑起来。
CSR 与 Claude 接近，但 ISR 差距明显：例如 HTML 差 13 个百分点、Vue 差 14 个百分点。
结论：单项能力到位，但将所有需求组合为端到端完整任务仍有提升空间。

后端

涵盖 85 个任务、6 种语言（Python、Go、C++、Rust、Java、TypeScript），涉及搜索引擎、数据库、Web 框架、AI 推理服务等。
GLM-5 Pass@1：25.8（Claude Opus 4.5：26.9）。

长程任务

大规模代码库探索（在数万文件仓库中定位目标）：GLM-5 65.6，高于 Claude 64.5；该任务更考策略性搜索与工具轨迹训练效果。
多步链式任务（每步修改改变后续上下文，模拟真实增量开发）：GLM-5 52.3（Claude：61.6）；差距原因在于错误会累积，前一步次优修改可能破坏后续测试——需在长上下文一致性与长程自纠错上继续突破。

通用能力：五维度全面提升

机器翻译（ZMultiTransBench）：1016 → 1050
多语言对话（LMArena）：1441 → 1452
指令遵循（IF-Badcase）：78.5 → 83.2
世界知识（Chinese SimpleQA）：72.9 → 75.2
工具调用（ToolCall-Badcase）：60.8 → 95.8（提升幅度最大）

自研 RL 框架：slime

横向扩展：高度可定制的 rollout 接口 + HTTP API 暴露推理服务；不同 Agent 框架可像调用普通推理引擎一样与 slime 交互，训练与推理逻辑完全解耦。
纵向扩展：RL 推理目标是端到端延迟，瓶颈在最慢轨迹；采用多节点推理部署（EP64 + DP64 跨 8 节点）、FP8 rollout 降低单 token 延迟、MTP 在小批次解码收益显著、PD 分离（prefill 与 decode 分开调度）保证多轮交互中解码速度稳定。
容灾：推理服务定期心跳，不健康节点自动终止并注销，路由自动重试到健康节点。

产品与使用方式

模型权重遵循 MIT License 开源，已上线 Hugging Face 与 ModelScope。
线上服务纳入 Max 用户套餐，Pro 用户 5 天内支持；GLM Coding Plan 适配 Claude Code、OpenCode 等主流开发工具。

新场景

Z Code：智谱推出的编程工具，模型自动拆解任务，多 Agent 并发完成代码编写、命令执行、调试、预览与提交；支持手机远程指挥桌面端 Agent；Z Code 自身亦由 GLM 参与开发。（官网）
OpenClaw 适配：推出 AutoGLM 版本，支持官网一键配置与飞书机器人集成；据 a16z，OpenClaw 在 OpenRouter 上占 13% token 消耗。（博客）
办公文档输出：在 Z.ai 与智谱清言上，GLM-5 可直接生成 .docx、.pdf、.xlsx（如 PRD、教案、试卷、财报等）。
GLM in Excel：原生适配 Excel 的 AI 插件，侧边栏自然语言处理表格数据；Beta 阶段仅对 Max 用户开放。

Pony Alpha：低调上线引发猜测

GLM-5 最早以匿名身份“Pony Alpha”在 OpenRouter 上线，未公开品牌信息，仅靠“模型体感”出圈。上线数日即引发开发者讨论，因其在复杂代码、Agent 任务链路、角色扮演上的表现抢眼，出现多种猜测：

25% 用户认为是 Anthropic 的 Claude Sonnet 5。
20% 猜是 Grok 新版本。
10% 认为是 DeepSeek V4。
最终确认：GLM-5。