10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

最强模型易主!刚刚Claude Opus 4.5发布,发布即降价

14小时前 AI最新动态 28 0

今天凌晨,Anthropic 发布了 Claude Opus 4.5。这个模型在编码、智能体、计算机使用等领域刷新了行业记录。

这一次,Anthropic 没让人失望。

在软件工程基准测试中,Opus 4.5 拿下了 80.9% 的准确率。这个成绩超过了所有竞争对手。包括 GPT-5-Codex-Max、Gemini 3 Pro,还有上一代的 Opus 4.1。

更让人惊喜的是,价格直接降到了原来的五分之一。还有一个重大的突破在于它「理解」了什么叫做复杂任务。

不再需要保姆式指导

过去我们用 AI 编程时,经常遇到这样的情况。

你给它一个任务。它会问你要更多细节。你补充细节后,它又会问其他问题。来回几轮,你才能得到想要的结果。

Opus 4.5 改变了这个流程。

Anthropic 的工程师说,Opus 4.5 能够自己处理模糊性。它会权衡不同方案。它不需要你手把手地教。

举个例子。你让它修复一个涉及多个系统的 bug。传统 AI 可能会让你先定位问题出在哪里。但 Opus 4.5 会自己分析代码,找出问题所在,然后给出修复方案。

Anthropic 用一句话总结了这个特点:"Opus 4.5 just 'gets it.'"

它懂了。

我们来看看具体的测试结果

在 SWE-bench Verified 测试中,Opus 4.5 达到了 80.9%。这是目前最高的成绩。

Sonnet 4.5 是 77.2%。Opus 4.1 是 74.5%。GPT-5-Codex-Max 是 77.9%。Gemini 3 Pro 是 76.2%。

在终端编码任务中,Opus 4.5 的表现更加突出。它的准确率是 59.3%。比 Sonnet 4.5 高出 15 个百分点。

工具使用能力也很强。在 IF bench 测试中,Opus 4.5 得分 88.9%。在 TAU bench 中,得分更是达到了 98.2%。

这些数字说明 Opus 4.5 不仅能写代码,还能理解复杂的工作流程。它能够在多个步骤中保持推理能力,自主完成长期任务。

价格降了,能力反而更强了

以前 Opus 系列一直有个问题:太贵了。很多人只能在关键任务时才舍得用一次。

现在 Opus 4.5 的价格是:输入 5 美元 / 百万 tokens,输出 25 美元 / 百万 tokens。这个价格比之前的 Opus 便宜了很多。你可以把它当成日常工作的主力模型来用。

更神奇的是,Opus 4.5 用更少的 tokens 就能完成任务。在某些场景下,它比 Sonnet 4.5 少用 76% 的输出 tokens,但是效果还更好。

用户都在说什么?

Anthropic 在发布前让很多合作伙伴提前测试了这个模型。他们的反馈很有意思。

Cursor 的 CEO Michael Truell 说:Opus 4.5 在困难的编码任务上表现更好,价格还降了。

Devin 的 CEO Scott Wu 说:Opus 4.5 在最难的评估中表现出色,能在 30 分钟的自主编码会话中保持稳定性能。

Lovable 的 CTO Fabian Hedin 说:Opus 4.5 的推理深度改变了项目规划方式,好的规划让代码生成变得更好。

这些评价有个共同点:大家都觉得 Opus 4.5 "懂了"。它能理解模糊的需求,能权衡不同方案的利弊,不需要你手把手教。

技术上有什么新东西?

1. Effort 参数

这次 API 新增了一个 effort 参数。你可以控制模型的思考深度。

如果你想快速得到答案,可以设置较低的 effort。如果你需要模型深入思考,可以设置较高的 effort。

在中等 effort 下,Opus 4.5 就能达到 Sonnet 4.5 的最佳成绩,但是少用 76% 的输出 tokens。在最高 effort 下,它的成绩比 Sonnet 4.5 高出 4.3 个百分点,同时少用 48% 的 tokens。

2. 上下文管理

长对话不再有限制了。Claude 会自动总结早期的上下文。你可以一直聊下去,不用担心撞到上限。

在复杂研究任务中,结合上下文管理、记忆能力和高级工具使用,Opus 4.5 的表现提升了近 15 个百分点。

3. 多智能体协作

Opus 4.5 很擅长管理多个子智能体。你可以让不同的智能体负责不同的任务,Opus 4.5 来协调它们。

安全性也提升了

Anthropic 说 Opus 4.5 是他们发布过的最安全的模型。

在对抗提示注入攻击方面,Opus 4.5 比其他前沿模型都更难被欺骗。黑客或网络罪犯想要通过恶意指令误导模型,会变得更困难。

产品生态更新

1. Claude Code 升级

Claude Code 现在有了计划模式。它会先问清楚需求,然后生成一个可编辑的 plan.md 文件,最后再执行。

桌面版 Claude Code 也发布了。你可以同时运行多个本地或远程会话。一个智能体修 bug,另一个智能体查 GitHub,第三个智能体更新文档。

2. Chrome 和 Excel 集成

Claude for Chrome 现在向所有 Max 用户开放。它可以在浏览器标签页中帮你处理任务。

Claude for Excel 扩大了测试范围。现在所有 Max、Team 和 Enterprise 用户都可以用了。

3. 使用限制调整

对于可以使用 Opus 4.5 的用户,Anthropic 取消了 Opus 专属的限额。

Max 和 Team Premium 用户的整体使用限额提高了。你现在可以获得和之前 Sonnet 差不多的 Opus tokens 数量。

一个有趣的细节

Anthropic 有个出了名难的性能工程师招聘测试。他们也拿这个测试来评估模型。

在规定的 2 小时时间内,Claude Opus 4.5 的得分超过了历史上所有人类候选人。

这个测试主要考察技术能力和时间压力下的判断力。它不测试协作、沟通这些能力。但是这个结果说明,AI 在某些技术技能上已经达到了很高的水平。

怎么开始使用?

Opus 4.5 现在就可以用了。

如果你用 Claude 应用,直接选择 Opus 4.5 模型就行。

如果你是 Cursor 用户,可以直接在 Cursor 中使用 Opus 4.5 模型。

Elon Musk 回应了

Claude 官方推特发布了 Opus 4.5 的消息。Elon Musk 看到后回复说:"Grok might do better with v4.20. We shall see."

他说 Grok v4.20 可能表现更好。

这个回应很有意思,说明 AI 大模型的竞争正在加速,各家都在推出更强的模型。

但从目前的基准测试来看,Opus 4.5 的表现确实领先。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:最强模型易主!刚刚Claude Opus 4.5发布,发布即降价
#Claude #Anthropic #Claude Opus 4.5 
收藏 1
Claude Skills 精选集:提升 AI 工作流效率的开源技能库解析
Spec Kit 实战指南:用规范驱动开发告别 Prompt 工程难题
推荐阅读
  • Google花24亿拿下Windsurf核心团队,是赚还是亏?AI人才争夺战背后的深层逻辑
  • Cherry Studio零门槛快速启动和切换 Qwen Code、Gemini CLI、Claude Code
  • 白嫖百亿Token!50+顶级大模型一站式调用,claude 4.5、gpt-5、glm-4.6一键适配
  • Nano Banana 免费玩到爽!Gemini 2.5 Flash Image使用地址汇总
  • AI 模型 Claude 3.7 Sonnet 刚发布,Cursor 同步更新支持,AI编程再推新高度
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
21035 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
19157 6月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14516 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13333 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12754 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11566 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
11278 7月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10247 8月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9208 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
7008 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 最强模型易主!刚刚Claude Opus 4.5发布,发布即降价
2 麦肯锡《The State of AI》2025 年度报告:AI 的使用已成普遍,但真正把 AI“用好”的企业依然是少数
3 Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!
4 如何快速体验Gemini 3 Pro?全网 Gemini 3 Pro 的完整体验路径大全
5 Gemini 3.0:Google的生成式UI炸了,告别千篇一律的生成式UI,一句话生成高质量精美UI
6 Nano Banana 2.0 到底在哪里可以用?哪些入口是免费的?最全可用入口汇总
7 Nano Banana Pro 实测:Gemini 3 Pro Image 的中文文字渲染,AI 图像生成之王
8 重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线
9 MiniMax 推出 Coding Plan,首月价格 9.9 元起
10 Grok 4.1 突袭上线,碾压登顶,EQ 提升 + 幻觉率下降
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联