#代码能力

GLM-5.1 代码能力实测:SWE-Bench Pro 全球第一,长程任务可连续工作 8 小时
2026 年 4 月 8 日,智谱发布了 GLM-5.1 模型更新。官方博客披露的评测数据显示,这款开源模型在 SWE-Bench Pro(真实 GitHub 工程 Bug 修复)榜单上取得了 58.4 分,超越 GPT-5.4(57.7 …
Kimi K2 模型代码能力评测结果公开,Kimi K2超越DeepSeek拿下全球开源第一
开源第一,总榜第五,而且紧追GPT 4.5及马斯克Grok 4这样的顶尖闭源模型。 Kimi K2 发布有一段时间了,苏米之前也做过几期关于代码应用的分享,大家可以先回顾一下: Kimi K2 发布体验:万亿参数能否成为Claude 4 平…