10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Claude Opus 4.7 发布:长任务处理能力与自我验证升级,企业测试数据详解

2小时前 AI最新动态 12 0

苏米注:Anthropic 刚刚发布迄今为止最强大的 Opus 模型 4.7 版本。相比前代 4.6 版本,它在处理长任务时更加严谨,能更精确地遵循指令,并在反馈前验证自己的输出。这意味着用户可以更放心地将复杂工作交给它处理,减少监督需求。

Claude Opus 4.7 发布信息图

一、核心能力提升

1. 长任务严谨性

Opus 4.7 对复杂、长时间运行的任务保持严谨和一致性。早期测试者反馈,它能处理那些以前需要密切监督的最困难编码工作。模型会在计划阶段捕获自己的逻辑错误,并加快执行速度。

2. 视觉能力突破

支持更高分辨率图像,长边最高 2576 像素(约 375 万像素),是之前 Claude 模型的 3 倍多。这为计算机使用代理读取密集截图、从复杂图表中提取数据等应用打开了新可能。

苏米注:这个视觉能力升级对于需要处理复杂图表、密集 UI 截图的场景非常实用。

3. 指令遵循精度

Opus 4.7 严格遵循指令细节,这意味着为早期模型编写的提示词可能需要重新调整。在实际使用中,它会对技术讨论推回,帮助用户做出更好的决策。

4. 记忆能力提升

Opus 4.7 更好地使用文件系统基于的记忆,能在长时间、多会话工作中记住重要备忘录,并在转向新任务时减少前期上下文需求。

二、企业级应用表现

企业测试数据对比图

根据 28 家企业的测试反馈,Opus 4.7 在多个领域表现突出:

公司 提升表现
Hex 低努力级别的 Opus 4.7 大致相当于中等努力级别的 Opus 4.6
Cursor 在 CursorBench 上达到 70% 通过率,相比 Opus 4.6 的 58% 有显著提升
CodeRabbit 代码审查召回率提升超过 10%,能发现最复杂 PR 中最难检测的 bug
XBOW 视觉识别准确率从 54.5% 跃升至 98.5%,解锁了之前无法使用的应用场景

三、新增功能

xhigh 努力级别

在 high 和 max 之间新增额外高努力级别,为困难问题提供更精细的推理 - 延迟权衡控制。

/ultrareview 命令

专门代码审查会话,标记审阅者会注意的问题。Pro 和 Max 用户可获得 3 次免费试用。

自动模式扩展

为 Max 用户扩展自动模式,减少长任务中断。

四、安全特性

作为 Project Glasswing 计划的一部分,Opus 4.7 的网络安全能力被有意限制,并配备了自动检测和阻止高风险网络安全请求的防护措施。

苏米注:安全专业人员可通过新的网络安全验证计划申请合法使用。

五、技术迁移注意事项

Token 使用量对比图

分词器更新

Opus 4.7 使用更新的分词器,相同输入可能映射到更多 token(约 1.0-1.35 倍,取决于内容类型)。

测试数据显示:

  • Claude Opus 4.7 处理相同内容使用了 5657 个 token
  • 比 4.6 版本的 4262 个 token 高出 33%
  • 与 Gemini Pro 的 2742 个 token 相比,更是多出 106%

踩坑记录:从这个角度看,4.7 相较于 4.6 更贵。

思考深度增加

在更高努力级别(特别是代理设置的后期回合)思考更多,提高可靠性但产生更多输出 token。

思考深度对比图

六、实际应用案例

Rust 语音引擎

Opus 4.7 自主构建了完整的 Rust 文本转语音引擎——包括神经网络模型、SIMD 内核和浏览器演示,然后通过语音识别器验证输出与 Python 参考匹配。

企业文档分析

在 Databricks 的 OfficeQA Pro 评估中,使用源信息时的错误比 Opus 4.6 减少 21%。

终端操作

通过 Terminal Bench 任务,包括 Opus 4.6 无法解决的并发 bug。

七、定价和可用性

定价和可用性信息

Opus 4.7 现已通过以下渠道提供:

  • Claude 官网(http://claude.ai)
  • Claude 平台
  • 所有主要云平台

定价(与 Opus 4.6 相同):

  • 输入 token:每百万 5 美元
  • 输出 token:每百万 25 美元

开发者可通过 Claude API 使用 claude-opus-4-7 模型。

八、总结

Claude Opus 4.7 在长任务处理、视觉能力、指令遵循和记忆管理方面都有显著提升。对于需要处理复杂编码任务、分析高分辨率图像、进行深度代码审查的企业用户来说,这是一个值得升级的版本。

最佳实践:由于分词器更新导致 token 使用量增加,建议在迁移到 4.7 时重新评估成本预算,并调整提示词以充分利用其更严格的指令遵循能力。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Claude Opus 4.7 发布:长任务处理能力与自我验证升级,企业测试数据详解
#Claude Opus 4.7 #Anthropic #AI 模型 #长任务处理 #代码审查 
收藏 1
LangChain Deep Agents v0.5 + Deploy 详解:异步子 Agent 与一条命令部署生产环境
Lovart 品牌设计新功能详解:字体生成、Brand Kit、Skill 复用与 PSD 导出完整工作流
推荐阅读
  • Gemini CLI 大更新:多模态初露锋芒,音视频处理、Markdown 更强,开发者更顺手!
  • LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
  • Cursor一发三连:免费 GPT-5、Cursor CLI、Cursor 1.4王炸发布!
  • SuperCLUE团队:中文大模型基准测评2024年度报告(报告下载)
  • Codex CLI 上线 Skills:与 Claude 生态兼容的可复用工作流,减少上下文开销的正确打开方式
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
28079 9月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
25852 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17475 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
17303 12月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15243 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13842 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
13774 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13700 12月前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
12642 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11536 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Gemini 3.1 Flash TTS 实测:3 个避坑指南 +2 个 Audio Tags 神技详解
2 Lovart 品牌设计新功能详解:字体生成、Brand Kit、Skill 复用与 PSD 导出完整工作流
3 Claude Opus 4.7 发布:长任务处理能力与自我验证升级,企业测试数据详解
4 LangChain Deep Agents v0.5 + Deploy 详解:异步子 Agent 与一条命令部署生产环境
5 国产大模型横向对比:Kimi K2.6、GLM-5.1、Qwen3、MiniMax M2 四大模型选型指南
6 1-bit Bonsai 8B 大模型详解:8B 参数压缩至 1.15GB,手机也能跑 AI
7 Hermes 接入 Kimi K2.6 实测:SOTA 代码能力深度评测,不限流但推理速度慢
8 Claude 身份验证政策详解:Anthropic 新规对中国用户的影响与应对
9 完整解读:斯坦福 AI 年度报告 2026|423 页 15 条核心要点
10 OpenClaw 2026.04.14 更新:修复日常体验问题,稳定性优先
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联