一声棒喝,本不立文字
偏要著録,已是二义

Anthropic · 产品发布

Claude Opus 4.7 介绍

Introducing Claude Opus 4.7

二〇二六年五月八日 · 英文原文

Anthropic 发布 Claude Opus 4.7,面向所有 Claude 产品、API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 开放,价格为每百万 input tokens 5 美元、output tokens 25 美元。模型提升 coding、vision、multimodal 和 memory,支持长边 2,576 像素图像,并加入 cyber safeguards、xhigh effort、task budgets 与 Claude Code /ultrareview。

我们的最新模型 Claude Opus 4.7 现已全面可用。

Opus 4.7 相比 Opus 4.6 在高级软件工程方面有明显改进,尤其在最困难的任务上提升更突出。用户反馈称,他们现在可以放心地把最难的编码工作交给 Opus 4.7——这类工作过去通常需要密切监督。Opus 4.7 能严谨且一致地处理复杂、长时间运行的任务,精准关注指令,并会在汇报前设计方法验证自己的输出。

该模型的 vision 能力也有显著提升:它能够以更高分辨率查看图像。在完成专业任务时,它的审美和创造性更好,能够生成质量更高的界面、幻灯片和文档。而且——尽管它的总体能力不如我们最强大的模型 Claude Mythos Preview——它在一系列 benchmark 上的表现优于 Opus 4.6:

图 1

上周我们宣布了 Project Glasswing,重点介绍 AI 模型在网络安全方面的风险与收益。我们表示,会继续限制 Claude Mythos Preview 的发布范围,并先在能力较弱的模型上测试新的网络安全防护措施。Opus 4.7 是首个此类模型:它的网络能力不如 Mythos Preview 先进(事实上,在训练过程中,我们尝试过有针对性地降低这些能力)。我们发布 Opus 4.7 时配套了防护措施,可自动检测并阻止表明存在被禁止或高风险网络安全用途的请求。我们从这些防护措施的真实部署中获得的经验,将帮助我们逐步实现广泛发布 Mythos 级模型的最终目标。

希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和 red-teaming)的安全专业人士,可申请加入我们的新 Cyber Verification Program

Opus 4.7 今天起可在所有 Claude 产品、我们的 API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 上使用。价格与 Opus 4.6 相同:每百万 input tokens $5,每百万 output tokens $25。开发者可通过 Claude API 使用 claude-opus-4-7

测试 Claude Opus 4.7

Claude Opus 4.7 获得了早期访问测试者的积极反馈:

图 2:logo

在早期测试中,我们看到了 Claude Opus 4.7 为我们的开发者带来显著跃升的潜力。它会在规划阶段发现自己的逻辑问题,并加速执行,远超以往的 Claude 模型。作为一个以相当规模服务数百万消费者和企业的金融科技平台,这种速度与精度的结合可能带来重要变化:加快开发速度,更快交付客户每天依赖的可信金融解决方案。

图 3:logo

Anthropic 已经为 coding 模型树立了标准,而 Claude Opus 4.7 作为市场上的 SOTA 模型,以有意义的方式进一步推进了这一标准。在我们的内部 evals 中,它突出的不仅是原始能力,还有它处理真实世界 async workflow 的能力——automations、CI/CD 和长时间运行任务。它也会更深入地思考问题,并提出更有主见的观点,而不是简单认同用户。

图 4:logo

Claude Opus 4.7 是 Hex 评估过的最强模型。它会在数据缺失时正确说明,而不是提供看似合理但不正确的替代答案;它还能抵抗连 Opus 4.6 都会中招的不一致数据陷阱。它是更智能、更高效的 Opus 4.6:低 effort 的 Opus 4.7 大致相当于中等 effort 的 Opus 4.6。

图 5:logo

在我们的 93 项 coding benchmark 中,Claude Opus 4.7 相比 Opus 4.6 将解决率提高了 13%,其中包括四项 Opus 4.6 和 Sonnet 4.6 都无法解决的任务。再加上更快的中位延迟和严格的指令遵循能力,它对复杂、长时间运行的 coding workflow 尤其有意义。它减少了多步骤任务中的摩擦,让开发者能够保持心流并专注于构建。

图 6:logo

根据我们的内部 research-agent benchmark,Claude Opus 4.7 在多步骤工作上拥有我们见过的最强效率基线。它在六个模块的总体得分中并列第一,得分为 0.715,并在我们测试过的所有模型中提供了最一致的 long-context 性能。在 General Finance——我们最大的模块——上,它相比 Opus 4.6 有明显提升,得分为 0.813,而 Opus 4.6 为 0.767;同时,它在同组模型中展现出最好的披露和数据纪律。在演绎逻辑方面,Opus 4.6 曾表现吃力,而 Opus 4.7 表现稳健。

图 7:logo

Claude Opus 4.7 扩展了模型调查问题并完成任务的能力边界。Anthropic 显然针对长时间运行中的持续推理进行了优化,市场领先的表现也证明了这一点。随着工程师从与 agent 进行 1:1 协作,转向并行管理多个 agent,这正是能够开启新 workflow 的前沿能力。

图 8:logo

我们看到 Claude Opus 4.7 的 multimodal 理解能力有大幅提升,从读取化学结构到解读复杂技术图都更好。更高分辨率支持正在帮助 Solve Intelligence 为生命科学专利 workflow 构建一流工具,覆盖撰写、审查、侵权检测和无效性比对表等环节。

图 9:logo

Claude Opus 4.7 在 Devin 中把 long-horizon autonomy 提升到了新水平。它可以连贯工作数小时,面对难题会继续推进而不是放弃,并解锁了一类我们以前无法可靠运行的深度调查工作。

图 10:logo

对 Replit 来说,升级到 Claude Opus 4.7 是一个容易做出的决定。对于用户每天开展的工作,我们观察到它能以更低成本达到同等质量——在分析日志和 traces、查找 bug、提出修复方案等任务上更高效、更精准。就我个人而言,我很喜欢它在技术讨论中提出不同意见,帮助我做出更好的决策。它确实感觉像一个更好的同事。

图 11:logo

Claude Opus 4.7 在 Harvey 的 BigLaw Bench 上展现出很强的实质准确性,在 high effort 下得分 90.9%,在审阅表格上的推理校准更好,对含糊文档编辑任务的处理也明显更智能。它能正确区分转让条款和控制权变更条款,而这项任务过去一直让 frontier models 感到棘手。在我们的评估中,实质质量始终被评为优势:正确、全面且引用充分。

图 12:logo

Claude Opus 4.7 是一个非常出色的 coding 模型,尤其在自主性和更具创造性的推理方面表现突出。在 CursorBench 上,Opus 4.7 的能力有明显跃升,达到 70%,而 Opus 4.6 为 58%。

图 13:logo

对复杂多步骤 workflow 而言,Claude Opus 4.7 明显提升:相比 Opus 4.6 高出 14%,使用更少 tokens,tool errors 只有三分之一。它是第一个通过我们隐性需求测试的模型,并且能在工具失败后继续执行,而这些失败过去会让 Opus 直接停下。这种可靠性提升让 Notion Agent 感觉像真正的队友。

图 14:logo

在我们的 evals 中,我们看到核心 orchestrator agents 在 tool calls 和规划准确性上有两位数提升。当用户利用 Hebbia 规划并执行检索、幻灯片创建或文档生成等 use cases 时,Claude Opus 4.7 展现出提升这些 workflow 中 agent 决策能力的潜力。

图 15:logo

在 Rakuten-SWE-Bench 上,Claude Opus 4.7 解决的生产任务数量是 Opus 4.6 的 3 倍,并在 Code Quality 和 Test Quality 上取得两位数提升。这是有意义的提升,也是我们团队每天交付的工程工作的一次明确升级。

图 16:logo

对 CodeRabbit 的代码审查工作负载来说,Claude Opus 4.7 是我们测试过最敏锐的模型。Recall 提升超过 10%,能在我们最复杂的 PR 中发现一些最难检测的 bug;尽管覆盖范围增加,precision 仍保持稳定。在我们的 harness 上,它比 GPT-5.4 xhigh 稍快;我们正准备在发布时把它用于最重的审查工作。

图 17:logo

对 Genspark 的 Super Agent 来说,Claude Opus 4.7 准确抓住了生产中最重要的三个差异化指标:loop resistance、一致性和优雅的错误恢复。loop resistance 最关键。一个每 18 个查询中就有 1 个会无限循环的模型,会浪费计算资源并阻塞用户。更低方差意味着 prod 中更少意外。而 Opus 4.7 达到了我们测得的最高 quality-per-tool-call 比率。

图 18:logo

Claude Opus 4.7 对 Warp 来说是有意义的提升。Opus 4.6 是面向开发者的最佳模型之一,而这个模型在此基础上可衡量地更全面。它通过了此前 Claude 模型失败的 Terminal Bench 任务,并解决了一个 Opus 4.6 无法破解的棘手并发 bug。对我们来说,这就是信号。

图 19:logo

Claude Opus 4.7 是世界上用于构建 dashboard 和数据密集型界面的最佳模型。它的设计品味确实让人意外——它做出的选择是我真的会发布的。它现在是我的默认日常主力。

图 20:logo

Claude Opus 4.7 是我们在 Quantium 测试过能力最强的模型。通过我们的专有 benchmarking 方案与领先 AI 模型对比评估后,最大提升出现在最重要的地方:推理深度、结构化问题框定,以及复杂技术工作。更少修正、更快迭代、更强输出,用于解决客户交给我们的最难问题。

图 21:logo

Claude Opus 4.7 让人感觉智能水平确实上了一个台阶。代码质量明显改善,它减少了过去会不断堆积的无意义 wrapper functions 和 fallback scaffolding,并且会边写边修复自己的代码。这是我们自 Sonnet 3.7 升级到 Claude 4 系列以来看到的最清晰的一次跃升。

图 22:logo

对 XBOW 自动化渗透测试核心的 computer-use 工作而言,新的 Claude Opus 4.7 是一次阶跃变化:在我们的 visual-acuity benchmark 上达到 98.5%,而 Opus 4.6 为 54.5%。我们在 Opus 上最大的痛点基本消失了,这使得我们可以把它用于一整类过去无法使用它完成的工作。

图 23:logo

Claude Opus 4.7 对 Vercel 来说是一次稳健升级,没有退化。它在 one-shot coding 任务上表现非常好,比 Opus 4.6 更正确、更完整,也明显更诚实地说明自己的限制。它甚至会在开始工作前对系统代码做 proof,这是我们以前从 Claude 模型中没见过的新行为。

图 24:logo

Claude Opus 4.7 非常强,对 Factory Droids 来说,相比 Opus 4.6 在任务成功率上提升了 10% 到 15%,tool errors 更少,对验证步骤的跟进也更可靠。它会把工作一直推进到底,而不是半途停下,这正是企业工程团队所需要的。

图 25:logo

Claude Opus 4.7 自主从零构建了一个完整的 Rust text-to-speech 引擎——neural model、SIMD kernels、浏览器 demo——然后把自己的输出送入语音识别器,以验证其与 Python reference 匹配。相当于数月资深工程工作,由模型自主完成。相比 Opus 4.6 的提升很清楚,而且代码库是公开的。

图 26:logo

Claude Opus 4.7 通过了三个此前 Claude 模型无法通过的 TBench 任务,并提交了我们之前最佳模型漏掉的修复,包括一个 race condition。它在识别真实问题方面表现出很强的 precision,并能发现其他模型要么放弃、要么未能解决的重要问题。在 Qodo 的真实世界代码审查 benchmark 中,我们观察到了一流水平的 precision。

图 27:logo

在 Databricks 的 OfficeQA Pro 上,Claude Opus 4.7 展现出明显更强的文档推理能力:在处理源信息时,错误比 Opus 4.6 少 21%。在我们针对数据的 agentic reasoning benchmark 中,它是表现最好的 Claude 模型,适用于企业文档分析。

图 28:logo

对 Ramp 来说,Claude Opus 4.7 在 agent-team workflow 中表现突出。我们看到它在角色一致性、指令遵循、协作和复杂推理方面更强,尤其是在跨工具、代码库和调试上下文的工程任务上。与 Opus 4.6 相比,它需要少得多的逐步指导,帮助我们扩展工程团队运行的内部 agent workflow。

图 29:logo

Claude Opus 4.7 在 Bolt 的长时间运行 app 构建工作上可衡量地优于 Opus 4.6,在最佳情况下可提升 10%,且没有我们通常从高度 agentic 模型中预期会出现的退化。它提高了用户在单次会话中可交付内容的上限。

01 /

28

以下是我们对 Opus 4.7 进行早期测试的一些重点和说明:

下方图表展示了我们发布前测试中来自不同领域的更多评估结果:

安全与 alignment

总体而言,Opus 4.7 的安全画像与 Opus 4.6 类似:我们的评估显示,欺骗、谄媚以及配合滥用等值得关注的行为发生率较低。在某些指标上,例如诚实性和抵御恶意 “prompt injection” 攻击的能力,Opus 4.7 相比 Opus 4.6 有所改进;在另一些指标上(例如它倾向于对管制物质提供过于详细的 harm-reduction 建议),Opus 4.7 略弱。我们的 alignment 评估认为,该模型“总体上 alignment 良好且可信,尽管其行为并非完全理想”。请注意,根据我们的评估,Mythos Preview 仍然是我们训练过 alignment 最好的模型。我们的安全评估在 Claude Opus 4.7 System Card 中有完整讨论。

图 30

来自我们自动化行为审计的总体 misaligned behavior 分数。在这项评估中,Opus 4.7 相比 Opus 4.6 和 Sonnet 4.6 略有改进,但 Mythos Preview 仍然表现出最低的 misaligned behavior 发生率。

今天同时发布

除了 Claude Opus 4.7 本身,我们还发布以下更新:

从 Opus 4.6 迁移到 Opus 4.7

Opus 4.7 是 Opus 4.6 的直接升级,但有两项变化值得提前规划,因为它们会影响 token 使用量。第一,Opus 4.7 使用了更新的 tokenizer,改进了模型处理文本的方式。代价是,同一输入可能映射到更多 tokens——大约为 1.0–1.35×,具体取决于内容类型。第二,Opus 4.7 在更高 effort levels 下会思考更多,尤其是在 agentic 场景中的后续轮次。这提升了它在困难问题上的可靠性,但也意味着它会生成更多 output tokens。

用户可以通过多种方式控制 token 使用量:使用 effort 参数、调整 task budgets,或 prompt 模型更简洁。在我们自己的测试中,净效果是有利的——如下所示,在一个内部 coding 评估中,所有 effort levels 下的 token 使用效率都有改善——但我们建议在真实流量上衡量差异。我们编写了一份迁移指南,提供关于从 Opus 4.6 升级到 Opus 4.7 的进一步建议。

图 31

内部 agentic coding 评估中,各 effort level 下分数与 token 使用量的关系。在这项评估中,模型从单个用户 prompt 出发自主工作,结果可能无法代表交互式 coding 中的 token 使用情况。关于调优 effort levels 的更多信息,请参阅迁移指南

脚注

1 这是一个模型级变化,而不是 API 参数,因此用户发送给 Claude 的图像会直接以更高保真度处理。由于更高分辨率图像会消耗更多 tokens,不需要额外细节的用户可以在发送给模型前对图像进行降采样。

相关内容

Anthropic 任命 Theo Hourmouzis 为澳大利亚和新西兰总经理,并正式启用悉尼办公室

关于我们选举防护措施的更新

我们说明了为确保 Claude 在今年美国中期选举和全球其他主要选举中发挥积极作用,我们正在采取哪些措施。

阅读更多

译自 Anthropic · 产品发布 · 录于 二〇二六年五月八日