GLM-5.2 在海外 AI 圈子里突然很热。很多人说它很强,甚至有人拿来和 Claude、GPT 的顶级模型比较。国内模型每次发布都容易被质疑"是不是又在刷榜",所以这次没有只看官方宣传,而是翻了一圈海外用户的真实反馈:Hacker News、Reddit 的 LocalLLaMA、opencodeCLI、SillyTavernAI 等社区。
结论先说:GLM-5.2 值得试,而且不是普通的发布炒作。但它还不能直接替代 Claude 或 GPT 的顶级模型。它更适合放在这样的位置:
- DeepSeek 负责便宜、明确、批量的任务
- GLM-5.2 负责更复杂、更开放、更像"交给 AI 做一件事"的任务
- Claude / GPT 顶级模型 继续负责关键判断和最终把关
海外用户反馈:两极分化
看到的反馈不是一边倒吹捧,而是比较清楚地分成两类。
兴奋的用户主要说:
- GLM-5.2 做代码任务明显更聪明,在规划、修 bug、接手项目、长时间执行时,比 DeepSeek V4 更让人放心
- 接到 OpenCode、ZCode、Claude Code 等工具里,体感接近 Claude Opus 4.6,少数场景甚至说接近 Opus 4.7 或 4.8
- 从零生成小游戏、重构中型项目、做前端页面,能跑出比普通开源模型更完整的东西
谨慎的用户提醒了这些:
- GLM-5.2 很能想,但也很能花 token。比 GLM-5.1 的 token 消耗高 2 到 3 倍
- 在 OpenRouter 上试了 30 分钟花了 5 美元,觉得效果并没有比 DeepSeek 好到 4 倍
- 目前是 text-only,没有视觉能力。涉及看界面、看截图、改视觉稿的任务会吃亏
- Hacker News 上也有人怀疑发布帖下面有水军或营销痕迹
GLM-5.2 比 DeepSeek 强在哪里
DeepSeek 的优势很明确:便宜、能跑、适合批量任务。批量改写文本、结构化抽取、写边界很清楚的代码,DeepSeek 依然很划算。
但如果任务变成理解项目、规划复杂功能、修改跨文件的 bug、从模糊目标推进到可运行结果,DeepSeek 容易想得不够稳、执行容易偏。GLM-5.2 的正向评价恰好集中在这些地方:规划、长链执行、复杂代码任务、bug fixing。
所以 GLM-5.2 不是 DeepSeek 的便宜替代品,而是 DeepSeek 上面的一档模型。当任务值得多花一点成本换更少返工时,GLM-5.2 就有意义。
能不能替代 Claude
不能直接替代。虽然有用户说 GLM-5.2 很像 Opus 4.6,但更克制的评价也很多——有人说它"像 Opus 4.6 high thinking"但还不是 Opus 4.8,有人说结果不错但耗时更长,有人说它便宜但不是效率更高只是愿意等。
这说明 GLM-5.2 已经进入了"可以认真比较"的区间,但还没到"可以无条件替代"的区间。关键事情不要只靠它最后拍板。
普通用户应该怎么用
建议把 AI 模型分成三层:
| 层级 | 模型 | 适用场景 |
|---|---|---|
| 第一层:便宜批处理 | DeepSeek | 数量多、要求清楚、错了也能校验的任务 |
| 第二层:复杂执行 | GLM-5.2 | 代码项目、长文分析、复杂任务拆解、需要模型连续工作 |
| 第三层:关键终审 | Claude / GPT | 客户交付、重要判断、战略决策、不能随便出错 |
这个分层比"全部换成某个模型"更现实。
最后的判断
GLM-5.2 值得接入。它不是一次普通的新模型营销。海外真实用户反馈证明,它在复杂 coding agent 和开放型任务上已经明显强于很多开源模型,也很可能比 DeepSeek 更适合承担高难度执行任务。
但它还不是 Claude Opus 4.8 的完整平替。它的问题也很实际:慢、费 token、没有视觉能力、服务稳定性还要观察。最稳的用法是"分层使用":便宜任务继续 DeepSeek,复杂任务上 GLM-5.2,关键终审留给 Claude / GPT。这样用,GLM-5.2 的价值最大,风险也最小。