当前位置：首页 » AI最新动态

Claude Opus 4.1模型抢先发布，OpenAI还在挤牙膏，Cursor已支持最新模型

1月前 AI最新动态 724 0

Anthropic 公司发布了他们最新的 AI 模型。这个新模型叫做 Claude Opus 4.1。

虽然我还没来得及深度测试（毕竟提升幅度看起来不大，短期测试很难感受到具体差异），但从官方数据和社区初步反馈来看，有些东西值得聊聊。

一、性能表现

官方放出的这个表格很有意思，我们来仔细看看：

编程能力全面领先

SWE-bench Verified: 74.5%，比Opus 4提升2个点，领先o3整整5.4个百分点
Terminal-Bench: 43.3%，这个提升就大了，从39.2%到43.3%，说明在终端操作这种更贴近实际开发的场景下进步明显

这两个指标我特别看重，因为它们测的都是真实场景，不是刷分用的toy problem。

特别是SWE-bench，用的是真实的GitHub issue，这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是，在一些传统的推理任务上，o3和Gemini 2.5 Pro反而更强：

GPQA Diamond（研究生级别推理）: o3以83.3%领先，Gemini也有86.4%
AIME 2025（高中数学竞赛）: o3和Gemini都是88%+，Claude只有78%

这说明什么？Claude在押宝实用性，而不是刷榜。 你想想，日常写代码时，你是更需要解高中奥数题的能力，还是更需要准确重构代码、修bug的能力？

TAU-bench的数据很亮眼

在Agentic tool use（智能体工具使用）这个维度：

Retail场景：82.4%，只比Opus 4高1个点
Airline场景：56.0%，反而比Opus 4低了3.6个点？

官方解释说他们调整了测试方法，增加了thinking步骤，把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步，把事情做对，比快速给个错误答案强多了。

更有意思的是社区反馈：

GitHub团队说多文件重构准确度提升明显
Rakuten说它能精确定位大型代码库的bug，不会乱改不相关的代码
Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度

OpenAI又难产了！

最近有个数据挺有意思：Anthropic的API收入达到31亿美元，首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么？在AI编程这个赛道，Claude已经是事实上的王者了。

你看现在国内发布新模型，都是说“接近Claude 4的水平”，没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果，Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强，但价格贵得离谱，而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口，神神秘秘的，但拿得出手的东西越来越少了。

二、快速使用Opus 4.1

API 调用方式

由于价格一致，Anthropic推荐所有用户从 Opus 4 升级到 4.1，调用模型 ID 为：claude-opus-4-1-20250805

Claude Code

Claude Code CLI 内直接支持 Opus 4.1（也是需要订阅的用户）
无需更改参数，可继续使用原来的对话与 agent 工作流
表现升级明显，交互反馈速度及准确性都有显著提升

Cursor使用

Cursor作为Anthropic的大客户，也在第一时间接入了Opus 4.1模型，可以直接使用了。

Claude官网

如果你订阅了Claude，在Claude官网同样可以直接使用Opus 4.1模型了。

最后想说

Claude Opus 4.1 模型本身显然只是个小版本的更新，但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。目前这个水平依旧是领先整个行业的，AI编程的首选。

而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了，他们是真的能为用户为企业解决实实在在的问题，他们也是tokens消耗的大户，所以，不管是OpenAI还是国内的开源大模型们，大家都在这块持续内卷，试图做出更适应Agentic和Coding需求，并且更快速、更便宜的模型。

就目前而言，在不考虑成本的情况下哎，Claude Opus 4.1 是最值得升级使用的编程模型。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Claude Opus 4.1模型抢先发布，OpenAI还在挤牙膏，Cursor已支持最新模型

请登录后发表评论