智谱的 GLM-5.2 确实打破了我对国产模型 Coding 能力的偏见。它的实力能跟 Claude 和 GPT 坐一桌,用它做开发完全没有问题。
实话实说,GLM 最新系列在我心中一直是国产 Coding 大哥,算是目前在商业闭源模型打压下唯一能打的模型。虽然如此,一直以来我还是用 Claude 系列,最近转到了 GPT-5.5 + Codex。昨天 GLM 官宣了最新的 GLM-5.2 模型,看了很难不让人心动。在我写这个测评的时候,官方的所有 Coding Plan 居然都已经售罄了!这才过去不到一天!

距离上一次使用国产模型已经不知道过去多久了——上一次还是被 Qwen3 搞自闭的,它击垮了我对国产模型的最后一丝期望。自那以后就没碰过国产模型。本来打算去官方买 token 测一下的,但是看到它更新的配套开发工具 ZCode 新注册有五天的试用期,那正好。
测试场景与提示词
场景是我上周五遇到的浏览器自动化问题。我当时大概能猜到是什么问题——应该是 A service 的一些对 session 的操作逻辑比较复杂,在某些情况下重置了 session,B 一直拿着旧的对象,因此影响到了 B service。但更具体的细节就不知道了。
我给的提示词是这样的:

实测结果
同样的提示词,最后 GPT-5.5 和 GLM-5.2 都完成了任务。这个任务不算特别难,但也不是一般的简单测试场景,因为在我看来都算一个诡异的问题(因为之前的代码也是 GPT-5.5 写的)。
GLM-5.2 + ZCode 耗时更久,大概总共执行了 50 分钟,总 token 消耗 286K,软件提示缓存命中率在 98% 左右。

GPT-5.5 + Codex 耗时从 CLI 上面看不到,但应该是在 15 分钟以内,或者更少。因为在这里没有感受到明显的慢。但是 GLM-5.2 + ZCode 慢的体感很明显。

总 token 消耗 472K,缓存平均命中率为 82% 左右。
从最终结果来看,二者似乎没有太大的区别,并且 GLM-5.2 甚至在一些细节上更优一些。比如它做了一些设计模式,并且对于新的方案模块做了新的命名,并且中文注释写得也恰到好处。这些 GPT-5.5 没有做到。
速度差异分析
关于慢的问题,Coding Agent 其实是模型和工具的双相配合,大致可以分析出 5 个原因。先看一下 GLM-5.2 的推理过程:

从推理过程可以看出,GLM-5.2 每次 action 的时候查看的文件很少,基本上就是两到四个之间,它似乎是倾向于渐进式查看定位。造成这种表现的原因大概如下:
一:工具设计的差异
可能是它调用的工具设计诱导了模型的这种行为,无论是从工具名还是入参命名和约束等 schema。
二:内部工程提示词差异
也可能是它本身的 system prompt 约束引导了这种一次一小步的行为,因为这种设计往往可以减少 token 的消耗。
三:模型训练的差异
也有可能是模型的训练数据更偏向这种小跨步、长链路的推理。
而 GPT-5.5 + Codex 的组合,它明显的一个行为模式就是:针对问题,尽量一次性拿到相关最多的上下文。从代码设计模式上来说,它更偏向饥饿模式。GLM-5.2 + ZCode 则更像是懒汉模式(延迟加载)。
GLM-5.2 + ZCode 对首次的问题排查,跑了 11 轮 loop 最终得出了结论,GPT-5.5 + Codex 则只跑了 5 轮 loop。
四:在执行阶段自动切换 Plan 模式
这个是确定的,ZCode 在运行期间如果判定要进行代码比较复杂的修改和重构,会自动开启 Plan 模式。

这里其实它上面已经分析出来了问题的原因,我也选择了对应的解决方案让它去做,它还是很谨慎地在 Plan 中进行了再一次的全局梳理。
五:GLM-5.2 可设置的思考等级较少
它只有开启高级思考或者关闭思考,最高的思考模式会导致更长的耗时。

这是 GPT-5.5 的可选配置:

我通常只使用 Medium 级别,它在效果和速度之间达到了非常好的平衡。而我也没有在此次修改中设置 Codex 的 Plan 模式,这可能也是最终 GLM-5.2 的结果在细节方面稍优于 GPT-5.5 的一个重要原因。
测评局限性
此次测评还有一些不足之处,主要是两点:
- 工具方面:我用了 Codex CLI 版本,而 GLM-5.2 测试是基于 ZCode 这类桌面端工具。我认为 CLI 的终端对程序的输入输出接收可能更方便直接,因为它本身就在终端中运行,可能无需类似 run_terminal 或者 get_terminal_output 这类工具调用。
- 工作方面:我并没有开启 Codex 的 Plan 模式,而 ZCode 自动切换 Plan 和编辑模式也是我没想到的。但整体来看它的这个自动切换从设计上来说没有太大问题,看设计上怎么取舍了。
总结
如果你现在是 GPT-5.5 的 200 美元月付用户或者是 Claude 用户,我非常推荐可以试试 GLM-5.2。如果可以满足你的开发需求的话,一年来看能节省 1.5 万人民币。
最后还是忍不住夸一句,GLM-5.2 我非常推荐。本文主打真实,这不是商业广告。
苏米注:从这次实测来看,GLM-5.2 在 Coding 能力上确实已经达到了与 GPT-5.5 同台竞技的水平。速度上的差异主要来自工具设计策略的不同——GLM-5.2 倾向于渐进式定位(懒汉模式),而 GPT-5.5 + Codex 倾向于一次性获取上下文(饥饿模式)。对于追求细节质量的开发者来说,GLM-5.2 的多轮循环和自动 Plan 模式反而能带来更好的代码质量。考虑到价格优势,GLM-5.2 确实值得尝试。