Artificial Analysis · 评测

Opus 4.7：你需要知道的一切

Opus 4.7: Everything you need to know

二〇二六年五月十二日 · 英文原文

摘要

Claude Opus 4.7 在 Artificial Analysis Intelligence Index 得分为 57，与 GPT-5.4 和 Gemini 3.1 Pro 并列榜首。Anthropic 在 agent 基准 GDPval-AA（44 个职业、9 大行业）上以 1,753 Elo 领先，Google 在 HLE、GPQA Diamond 等知识推理基准领先，OpenAI 在 TerminalBench Hard 等编程基准领先。Opus 4.7 输出 token 使用量较 Opus 4.6 减少约 35%，运行成本约 4,406 美元（降低 11%），定价维持每百万输入/输出 token 5/25 美元。

Claude Opus 4.7 与 GPT-5.4 和 Gemini 3.1 Pro 并列 Artificial Analysis Intelligence Index 榜首，并领跑我们衡量通用 agent 能力的主要基准 GDPval-AA

Claude Opus 4.7 在 Artificial Analysis Intelligence Index 上得分为 57，较 Opus 4.6（Adaptive Reasoning, Max Effort，53 分）提升 4 分。

这造就了 Artificial Analysis 历史上最大的并列：三大前沿实验室首次并列第一。

Anthropic 在真实世界的 agent 任务中领先，在 GDPval-AA（我们衡量 44 个职业和 9 大行业表现的主要 agent 基准）上排名第一。Google 在知识和科学推理方面领先，在 HLE、GPQA Diamond、SciCode、IFBench 和 AA-Omniscience 上排名第一。OpenAI 在长周期编程和科学推理方面领先，在 TerminalBench Hard、CritPt 和 AA-LCR 上排名第一。

我们将 Intelligence Index 校准为 95% 置信区间 ±1 分，并将数值四舍五入到最接近的整数。Claude Opus 4.7 的精确得分（57.3）使其位列第一，但我们建议将其视为与 Gemini 3.1 Pro（57.2）和 GPT-5.4（56.8）并列。

以下所有结果和要点均反映 Opus 4.7 在最大努力（Adaptive Reasoning, Max Effort）下的评估结果，与我们报告 Opus 4.6 的方式一致。

关键要点：

➤ Opus 4.7 在 GDPval-AA（我们衡量知识工作类通用 agent 性能的主要指标）上成为新领跑者。 Opus 4.7 得分为 1,753 Elo，领先紧随其后的模型 Claude Sonnet 4.6（Adaptive Reasoning, Max Effort，1,674 Elo）和 GPT-5.4（xhigh，1,674 Elo）约 79 Elo 分，并领先 Opus 4.6（Adaptive Reasoning, Max Effort，1,619 Elo）134 Elo 分。GDPval-AA 衡量 44 个职业和 9 大行业任务的表现，模型通过我们的开源 agent 参考框架 Stirrup 在 agent 循环中使用 shell 访问和网页浏览

➤ Opus 4.7 在 Artificial Analysis Omniscience Index 上排名第二（仅次于 Gemini 3.1 Pro），主要得益于幻觉减少而非准确率提升。 Opus 4.7 在 AA-Omniscience 上得分为 26，较 Opus 4.6（Adaptive Reasoning, Max Effort，14 分）提升 12 分，仅次于 Gemini 3.1 Pro（33 分）。Opus 4.7 的幻觉率下降 25 个百分点至 36%（Opus 4.6 Adaptive 为 61%），而准确率保持不变。Opus 4.7 通过更频繁地弃答实现这一点，尝试率降至 70%（Opus 4.6 为 82%）

➤ 尽管得分高出 4 分，Opus 4.7 运行 Artificial Analysis Intelligence Index 使用的输出 token 比 Opus 4.6 少约 35%。 Opus 4.7 使用了 1.02 亿个输出 token，而 Opus 4.6（Adaptive Reasoning, Max Effort）为 1.57 亿个，少于 GPT-5.4（xhigh，1.21 亿个），但多于 Gemini 3.1 Pro（5,700 万个）

➤ 与 Opus 4.6（Adaptive Reasoning, Max Effort）相比，Opus 4.7 在 IFBench（+5.5 个百分点）、TerminalBench Hard（+5.3 个百分点）、HLE（+2.9 个百分点）、SciCode（+2.6 个百分点）和 GPQA Diamond（+1.8 个百分点）上均有提升。我们在 τ²-Bench 上观察到轻微下降（-3.5 个百分点），LCR 和 Critpt 得分持平

➤ 尽管得分高出 4 分，Opus 4.7（Adaptive Reasoning, Max Effort）运行 Artificial Analysis Intelligence Index 的成本约为 4,406 美元，比 Opus 4.6（Adaptive Reasoning, Max Effort，约 4,970 美元）低约 11%。这得益于更低的输出 token 使用量，即使考虑了 Opus 4.7 的新 tokenizer 后也是如此。该指标未考虑缓存的输入 token 折扣，我们将在不久的将来将其纳入成本计算

➤ Opus 4.7 的定价与 Opus 4.6 和 Opus 4.5 相同，均为每 100 万输入/输出 token 5/25 美元。

Anthropic 在发布 Opus 4.7 的同时对其 API 进行了多项更改：

➤ Opus 4.7 引入了新的 'xhigh' 推理努力设置，介于 'high' 和 'max' 之间。 Opus 4.7 的完整范围现在是 low、medium、high、xhigh 和 max。我们在最大努力下评估了 Opus 4.7，与我们评估 Opus 4.6（Adaptive Reasoning, Max Effort）的方式一致

➤ Opus 4.7 引入了任务预算（task budgets），这是一个覆盖整个 agent 循环（思考、工具调用、工具结果和输出）的 advisory token 预算。模型会看到一个运行中的倒计时，并利用它在预算消耗时优先处理工作并优雅地结束。任务预算在 Opus 4.7 上处于公开测试阶段

➤ Opus 4.7 中已完全移除 extended thinking。 Adaptive reasoning 现在是唯一的推理模式

关键模型详情：

➤ 上下文窗口： 100 万 token（与 Opus 4.6 相同）

➤ 最大输出 token： 128K token（与 Opus 4.6 相同）

➤ 定价： 每 100 万输入/输出 token 5/25 美元（与 Opus 4.5 和 Opus 4.6 相同）

➤ 可用性： Claude Opus 4.7 可通过 Anthropic 的 API、Amazon Bedrock、Microsoft Azure 和 Google Vertex 获取。也可在 Claude App、Claude Code 和 Claude Cowork 中使用

Opus 4.7 在 GDPval-AA（我们衡量真实世界知识工作任务的通用 agent 性能的主要基准）上成为新领跑者。Opus 4.7 得分为 1,753 Elo，领先紧随其后的模型 Sonnet 4.6（Adaptive Reasoning, Max Effort，1,674 Elo）和 GPT-5.4（xhigh，1,673 Elo）79 Elo 分

Opus 4.7 在 Artificial Analysis Omniscience Index 上排名第二，主要得益于显著降低的幻觉率。Opus 4.7 更频繁地弃答其不知道的问题，将幻觉率从 61%（Opus 4.6 Adaptive）降至 36%，而准确率基本保持不变

尽管得分高出 4 分，Opus 4.7（Adaptive Reasoning, Max Effort）运行 Artificial Analysis Intelligence Index 的成本约为 4,406 美元，比 Opus 4.6（Adaptive Reasoning, Max Effort，约 4,970 美元）低约 11%。这得益于更低的输出 token 使用量，即使考虑了 Opus 4.7 的新 tokenizer 后也是如此

Opus 4.7 与 Opus 4.6（Adaptive Reasoning, Max Effort）、Opus 4.5（Reasoning）及领先前沿同行模型的完整结果细分

译自 Artificial Analysis · 评测 · 录于二〇二六年五月十二日