10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

GLM-5.1 代码能力实测:SWE-Bench Pro 全球第一,长程任务可连续工作 8 小时

8小时前 AI最新动态 87 0

2026 年 4 月 8 日,智谱发布了 GLM-5.1 模型更新。官方博客披露的评测数据显示,这款开源模型在 SWE-Bench Pro(真实 GitHub 工程 Bug 修复)榜单上取得了 58.4 分,超越 GPT-5.4(57.7 分)和 Claude Opus 4.6(57.3 分),位列全球第一。

苏米注:这是首个在代码评测单项上超越 Opus 4.6 的开源模型,但需要理性看待——单项冠军不等于全能冠军。

代码能力评测:单项冠军,非全能

智谱使用了业界公认的三个代码评测基准进行测试:SWE-Bench Pro(修复真实 GitHub 工程 Bug)、Terminal-Bench 2.0(命令行问题解决)、NL2Repo(从零构建完整代码仓库)。

编码能力三项综合成绩柱状图

三项综合平均成绩排名如下:

模型 综合均分 排名
GPT-5.4 58.0 第 1
Opus 4.6 57.5 第 2
GLM-5.1 54.9 第 3
Gemini 3.1 52.0 第 4
Qwen3.6+ 51.0 第 5

单项成绩对比更能说明问题:

评测项目 GLM-5.1 Opus 4.6 GPT-5.4
SWE-Bench Pro 58.4(全球第一) 57.3 57.7
NL2Repo 42.7 49.8(领先 7 分) 41.3
Terminal-Bench 2.0 63.5 65.4 -

关键结论:GLM-5.1 在最硬的 SWE-Bench Pro 上拿到全球第一,但 NL2Repo(从零构建仓库)被 Opus 拉开 7 分差距,Terminal-Bench 也略逊一筹。对于开发者而言,SWE-Bench Pro 的含金量最高——这恰恰是 GLM-5.1 的强项。

长程任务能力:连续工作 8 小时的真正突破

相比代码跑分,官方博客中展示的长程任务能力更值得关注。传统模型像"考试型选手"——单题作答很快,但给一个完整项目要求"从头做到尾",往往二三十轮就开始原地转圈。

GLM-5.1 的设计目标是不仅能干,更能扛。

案例一:向量数据库优化(655 轮迭代)

官方展示了一个向量数据库近似搜索优化任务:

  • 初始状态:Opus 4.6 在 50 轮限制下跑出 3,547 QPS
  • GLM-5.1 结果:无轮数限制,最终达到 21,500 QPS,性能提升 6 倍
  • 迭代过程:655 轮迭代,6000+ 次工具调用

优化轨迹呈现"阶梯形"特征——每到一个平台期,模型会分析日志、定位瓶颈、主动切换策略。整个过程中策略切换了 6 次方向:IVF 分桶 → 量化粗排 → 两级路由 → u8 量化 → 提前剪枝。

苏米注:这种"碰壁、分析、换方向、恢复"的循环,已经接近真人工程师的工作模式。关键不是给它更多时间,而是让第 8 个小时的产出依然有价值。

案例二:8 小时搭建 Linux 桌面系统

GLM-5.1 在 8 小时内从零搭建了一套完整的 Linux 桌面系统:

  • 1200+ 步操作
  • 交付成果:窗口管理器、终端、文件浏览器、计算器、游戏库
  • 自写回归测试并通过

对比之下,大部分模型完成类似任务时往往只搭建空架子,放几个占位窗口就宣布完成。

案例三:24 小时优化 50 个机器学习任务

模型自主编写 GPU 优化代码、运行测试、分析结果、重写方案,最终实现 3.6 倍加速。不过在这个场景下,Opus 4.6 跑出了 4.2 倍,智谱在博客中大方承认了差距。

综合能力对比:与 Opus 4.6 正面对决

官方披露的其他维度评测数据:

评测项目 GLM-5.1 Opus 4.6 结论
数学推理(AIME 2026) 95.3 95.6 ≈ 持平
联网任务(BrowseComp) 79.3 84.0 Opus 领先 5 分
网络安全(CyberGym) 68.7 66.6 GLM 赢
商业模拟(Vending Bench 2) $5,634 $8,017 Opus 领先

综合判断:代码和智能体能力达到全球前三水平,推理能力不拉胯但未领先,综合实力与 GPT-5.4、Gemini 3.1 Pro 相比仍有差距。但对一个开源模型而言,能与闭源巨头逐项 PK 已属不易。

使用方式与定价

GLM-5.1 采用 MIT 协议完全开源,代码托管在 GitHub 和 HuggingFace:

  • github.com/zai-org/GLM-5
  • 官方博客

使用 Claude Code 或 OpenClaw 的用户,直接修改模型配置即可切换。所有 GLM Coding Plan 套餐用户均可使用,包括最便宜的 Lite 档。

定价策略方面,智谱在半年内已涨价 3 次,本次发布后又上调 10%。非高峰时段(日常简单任务使用 GLM-4.7)限时 1x 额度优惠至 4 月底,高峰期(14:00-18:00)额度消耗为 3x。

苏米注:一年前国产模型还在打价格战抢用户,现在价格已接近 Claude Sonnet 4.6。从"我便宜所以用我"到"我真能干活所以我敢贵",国产模型正在完成价值定位的转变。

总结

智谱在博客中提出了一个新标准:过去比谁更聪明,未来比谁能干更久。如果模型真的能独立工作 8 小时,使用范式将从"对话"转变为"交代任务"。

需要强调的是,以上所有数据均来自官方博客,实际表现仍需上手验证。跑分仅供参考,关键还是看实际应用场景中的表现。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:GLM-5.1 代码能力实测:SWE-Bench Pro 全球第一,长程任务可连续工作 8 小时
#GLM-5.1 #智谱 #开源模型 #代码能力 #AI 评测 
收藏 1
Gemma 4 端侧部署完整指南:手机/RK3588/笔记本硬件选型与部署步骤
Vibe Coding | 用 .md 文件给 AI 立规矩:把设计生成的边界“写死”进上下文
推荐阅读
  • Google Vids:AI数字人制作体验,vids .new免费制作数字人
  • Kimi Linear:以更低成本实现长文本高效推理的全能替代品
  • Uizard:Autodesigner 2.0 AI生成式辅助UI设计工具,产品经理+UI设计
  • Grok悄悄上线的 Imagine到底是什么?一句话即可生成图片流,超速转15秒的视频
  • Trae 突发!即日起 Trae AI 下架所有 Claude 模型
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
27421 8月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
25448 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17224 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
16915 11月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15166 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13681 12月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13628 11月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
13340 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
11992 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11400 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 GLM-5.1 代码能力实测:SWE-Bench Pro 全球第一,长程任务可连续工作 8 小时
2 DeepSeek 网页版灰度测试双模式:快速模式基于 3.2,专家模式或为 V4 早期版本
3 GLM-5.1 技术报告:744B 参数开源模型,SWE-Bench Pro 58.4 分全球第一
4 Coze 2.5 发布:Agent 独立身份与网络架构详解
5 谷歌发布 Gemma 4 全能模型,2 步教你在手机完美运行,离线且免费!
6 智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
7 Anthropic 封杀 OpenClaw 事件回顾:13.5 万实例受影响,用户可领补偿额度
8 TRAE SOLO 不再只面向写代码:桌面端 + 网页端,开发与协作双模式(内测免费体验)
9 Google Gemma 4 发布:31B 参数开源第一梯队,代码能力提升 19 倍,改用 Apache 2.0 许可证
10 小米 MiMo Token Plan 上线:39 元起订阅,1M 上下文全模态共享额度
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联