10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

GLM-5.1 技术报告:744B 参数开源模型,SWE-Bench Pro 58.4 分全球第一

4小时前 AI最新动态 32 0

 

智谱于 2026 年 4 月 8 日正式开源 GLM-5.1,这是一款拥有 744B 总参数、40B 激活参数的混合专家模型(MoE),采用 MIT 开源协议。该模型在长程任务执行能力上取得显著突破,能够零人工介入独立工作超过 8 小时。

在 SWE-Bench Pro 基准测试中,GLM-5.1 取得 58.4 分的成绩,超过 GPT-5.4(57.7)和 Claude Opus 4.6(57.3),位列全球第一。在三项编码基准综合评分中,GLM-5.1 排名全球第三、开源模型第一。

三项编码基准综合平均分对比

长程任务能力验证

GLM-5.1 的核心突破在于其长程任务执行能力。模型能够在长时间任务中持续保持有效工作状态,完成短对话模型无法处理的复杂工程任务。

案例一:自主优化向量搜索引擎,655 轮迭代

GLM-5.1 使用 Rust 从零实现了一个向量搜索引擎,并自主完成测试、分析和代码迭代,连续运行 655 轮优化循环。

向量数据库 655 轮优化过程

在优化过程中,模型完成了 6 次结构性策略跳跃,从最初的全库扫描方案,逐步优化至两级路由 + 提前剪枝架构。最终查询速度从 3108 QPS 提升至 21472 QPS,性能提升 6.9 倍。

向量数据库优化轨迹:阶梯型跳跃模式

案例二:50 个 AI 模型加速代码编写,1000+ 轮工具调用

KernelBench 基准测试要求模型为 50 个真实 AI 模型(包括 MobileNet、VGG、MiniGPT、Mamba 等)编写 GPU 加速代码,在保持功能完全一致的前提下提升运行速度。

KernelBench Level 3 优化曲线:四个模型对比

GLM-5.1 在 1000 多轮工具调用中自主编写了 Triton 和 CUDA 加速代码,最终实现 3.6 倍加速,远超 PyTorch 自带优化器 torch.compile 的 1.49 倍。

Benchmark 详细数据

GLM-5.1 的能力提升主要集中在编码和智能体两个维度,提升幅度在 19%-42% 之间。推理能力与 GLM-5 基本持平,与 Gemini 3.1 Pro、GPT-5.4 仍存在明显差距。

GLM-5.1 Benchmark 总览

编码能力

SWE-Bench Pro 评估模型在真实 GitHub 仓库中定位并修复高难度工程 Bug 的能力,是目前最接近真实软件开发的单项指标。GLM-5.1 得分 58.4,全球最高。

NL2Repo 要求模型根据自然语言描述从零构建完整的代码仓库,测试系统级工程能力。GLM-5.1 得分 42.7,相比 GLM-5 的 35.9 提升 19%,与 Claude Opus 4.6(49.8)仍有 7 分差距。

Terminal-Bench 2.0 评估模型在真实终端环境中解决系统管理、运维和开发任务的能力。GLM-5.1 得分 63.5,GLM-5 为 56.2。

CyberGym 是网络安全编码基准,要求模型完成渗透测试、漏洞分析等安全工程任务。GLM-5.1 得分 68.7,相比 GLM-5 的 48.3 提升 42%,是进步最大的单项。

编码能力详细对比

智能体能力

BrowseComp 测试模型通过自主浏览网页解决复杂信息检索问题的能力。GLM-5.1 带上下文管理得分 79.3。

τ³-Bench 在模拟客服场景中测试对话式 Agent 的双向控制能力。GLM-5.1 得分 70.6。

MCP-Atlas 评估模型在多步骤工作流中调用外部工具(MCP 服务器)的能力。GLM-5.1 得分 71.8。

Vending Bench 2 让模型经营一年的模拟自动售货机生意,测试长期规划和资源管理能力。GLM-5.1 最终账户余额 $5634,GLM-5 为 $4432,Claude Opus 4.6 为 $8017。

智能体能力详细对比

推理能力

HLE 被称为"人类最后的考试",由各领域专家出题,测试模型的知识和推理极限。GLM-5.1 得分 31.0,Gemini 3.1 Pro 为 45.0,GPT-5.4 为 39.8。

AIME 2026 是美国数学邀请赛 2026 年赛题。GLM-5.1 得分 95.3,各主流模型在这项指标上已非常接近。

GPQA-Diamond 是由博士级专家出题的科学问答,涵盖物理、化学、生物等领域。GLM-5.1 得分 86.2。

推理能力详细对比

技术架构解析

GLM-5.1 的技术细节沿用 GLM-5 的论文框架,技术报告已公开在 arXiv(编号 2602.15763)。以下是与长程能力直接相关的核心技术要点。

GLM-5 整体训练管线

异步 RL 基础设施

传统同步 RL 处理 Agent 任务时 GPU 空闲严重,因为不同任务的轨迹长度差异极大。智谱将训练引擎和推理引擎解耦到不同 GPU 设备上:推理引擎持续生成轨迹,达到阈值后批量送训练引擎更新模型,权重定期同步。

系统通过"多任务 Rollout 编排器"支持超过 1000 个并发 rollout,每个任务实现为独立的微服务,注册到中央编排器统一调度。

TITO(Token-in-Token-out)

异步 RL 中一个容易被忽视的问题:将推理引擎当作黑箱只取最终文本,训练器需要重新分词来重建轨迹。分词边界的微小不一致会在数千步的 Agent 任务中逐步累积。

TITO 直接消费推理引擎产出的 token ID 流和元数据,保持 action 级别的精确对应,消除重新分词带来的误差。

DSA 与 RL 的适配

GLM-5 在预训练阶段引入 DSA(DeepSeek Sparse Attention),用动态稀疏注意力将长上下文的注意力计算降低约 1.5-2 倍。

DSA 训练 SFT loss 对比

在 RL 阶段发现:DSA 的 indexer 必须使用确定性的 torch.topk。非确定性的 CUDA 实现会导致 RL 训练几步之后 entropy 急剧下降,性能严重退化。

双侧重要性采样

异步 RL 中不同轨迹可能由不同版本的模型生成,off-policy 问题严重。传统方案需要维护历史策略检查点来计算重要性采样比率。

智谱的方案更直接:直接用 rollout 时的 log-probability 作为行为策略的代理,用 token 级别的双侧裁剪机制控制信任域,超出区间的 token 从梯度计算中屏蔽。不需要跟踪历史策略。

环境规模

编码任务:构建超过 10000 个可验证训练环境,覆盖 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby 9 种语言。

搜索任务:构建 Web 知识图谱,从 200 万 + 高信息网页中抽取实体和关系,合成高难度多跳 QA 对。

BrowseComp 上下文管理策略对比

国产芯片全栈适配

GLM-5 从第一天起就完成了七家国产芯片平台的全栈适配:华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原。

在华为昇腾上通过 W4A8 混量化、Lightning Indexer 融合算子、MLAPO 预处理优化等手段,单节点性能接近双卡国际集群。

开源与使用

GLM-5.1 权重以 MIT 协议开源,提供 BF16 和 FP8 两个版本。支持 vLLM、SGLang、xLLM(华为昇腾)、Ktransformers 本地部署。

API 方面,GLM-5.1 已纳入 GLM Coding Plan(Max/Pro/Lite 套餐),支持 Claude Code、OpenCode、Kilo Code、Roo Code、Cline 等工具接入。

GLM-5.1 即将上线 chat.z.ai。

参考资源

  • GLM-5.1 Blog
  • GLM-5 Technical Report
  • GitHub
  • Hugging Face
  • ModelScope 魔搭社区
  • GLM Coding Plan
  • BigModel 开放平台
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:GLM-5.1 技术报告:744B 参数开源模型,SWE-Bench Pro 58.4 分全球第一
#GLM-5.1 #智谱 AI #开源模型 #大语言模型 #MoE 
收藏 1
OpenRouter 免费 Qwen3.6-Plus 接入 OpenClaw 教程:2 种配置方法详解
DeepSeek 网页版灰度测试双模式:快速模式基于 3.2,专家模式或为 V4 早期版本
推荐阅读
  • Qoder定价更新:Pro版20刀/月,到底值不值得入?
  • GLM-5.1 技术报告:744B 参数开源模型,SWE-Bench Pro 58.4 分全球第一
  • Cursor Agents 上线 Web & 移动端!随时随地远程调 Agent 写代码
  • Claude Code 正式推出全自动模式 Auto mode:AI 全权接管权限审核,兼顾高自由度与零误操
  • Nano Banana 免费玩到爽!Gemini 2.5 Flash Image使用地址汇总
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
27386 8月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
25416 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17215 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
16875 11月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15150 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13664 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13626 11月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
13288 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
11940 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11395 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 DeepSeek 网页版灰度测试双模式:快速模式基于 3.2,专家模式或为 V4 早期版本
2 GLM-5.1 技术报告:744B 参数开源模型,SWE-Bench Pro 58.4 分全球第一
3 Coze 2.5 发布:Agent 独立身份与网络架构详解
4 谷歌发布 Gemma 4 全能模型,2 步教你在手机完美运行,离线且免费!
5 智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
6 Anthropic 封杀 OpenClaw 事件回顾:13.5 万实例受影响,用户可领补偿额度
7 TRAE SOLO 不再只面向写代码:桌面端 + 网页端,开发与协作双模式(内测免费体验)
8 Google Gemma 4 发布:31B 参数开源第一梯队,代码能力提升 19 倍,改用 Apache 2.0 许可证
9 小米 MiMo Token Plan 上线:39 元起订阅,1M 上下文全模态共享额度
10 KAT-Coder-Pro V2发布:Claude Code + KAT-Coder-Pro V2实测新一代代码助手在前端生成与审美上显著进化
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联