Opus 4.7:你需要知道的一切
Opus 4.7: Everything you need to know
Claude Opus 4.7 在 Artificial Analysis Intelligence Index 得分为 57,与 GPT-5.4 和 Gemini 3.1 Pro 并列榜首。Anthropic 在 agent 基准 GDPval-AA(44 个职业、9 大行业)上以 1,753 Elo 领先,Google 在 HLE、GPQA Diamond 等知识推理基准领先,OpenAI 在 TerminalBench Hard 等编程基准领先。Opus 4.7 输出 token 使用量较 Opus 4.6 减少约 35%,运行成本约 4,406 美元(降低 11%),定价维持每百万输入/输出 token 5/25 美元。
Claude Opus 4.7 与 GPT-5.4 和 Gemini 3.1 Pro 并列 Artificial Analysis Intelligence Index 榜首,并领跑我们衡量通用 agent 能力的主要基准 GDPval-AA
Claude Opus 4.7 在 Artificial Analysis Intelligence Index 上得分为 57,较 Opus 4.6(Adaptive Reasoning, Max Effort,53 分)提升 4 分。
这造就了 Artificial Analysis 历史上最大的并列:三大前沿实验室首次并列第一。
Anthropic 在真实世界的 agent 任务中领先,在 GDPval-AA(我们衡量 44 个职业和 9 大行业表现的主要 agent 基准)上排名第一。Google 在知识和科学推理方面领先,在 HLE、GPQA Diamond、SciCode、IFBench 和 AA-Omniscience 上排名第一。OpenAI 在长周期编程和科学推理方面领先,在 TerminalBench Hard、CritPt 和 AA-LCR 上排名第一。
我们将 Intelligence Index 校准为 95% 置信区间 ±1 分,并将数值四舍五入到最接近的整数。Claude Opus 4.7 的精确得分(57.3)使其位列第一,但我们建议将其视为与 Gemini 3.1 Pro(57.2)和 GPT-5.4(56.8)并列。
以下所有结果和要点均反映 Opus 4.7 在最大努力(Adaptive Reasoning, Max Effort)下的评估结果,与我们报告 Opus 4.6 的方式一致。
关键要点:
➤ Opus 4.7 在 GDPval-AA(我们衡量知识工作类通用 agent 性能的主要指标)上成为新领跑者。 Opus 4.7 得分为 1,753 Elo,领先紧随其后的模型 Claude Sonnet 4.6(Adaptive Reasoning, Max Effort,1,674 Elo)和 GPT-5.4(xhigh,1,674 Elo)约 79 Elo 分,并领先 Opus 4.6(Adaptive Reasoning, Max Effort,1,619 Elo)134 Elo 分。GDPval-AA 衡量 44 个职业和 9 大行业任务的表现,模型通过我们的开源 agent 参考框架 Stirrup 在 agent 循环中使用 shell 访问和网页浏览
➤ Opus 4.7 在 Artificial Analysis Omniscience Index 上排名第二(仅次于 Gemini 3.1 Pro),主要得益于幻觉减少而非准确率提升。 Opus 4.7 在 AA-Omniscience 上得分为 26,较 Opus 4.6(Adaptive Reasoning, Max Effort,14 分)提升 12 分,仅次于 Gemini 3.1 Pro(33 分)。Opus 4.7 的幻觉率下降 25 个百分点至 36%(Opus 4.6 Adaptive 为 61%),而准确率保持不变。Opus 4.7 通过更频繁地弃答实现这一点,尝试率降至 70%(Opus 4.6 为 82%)
➤ 尽管得分高出 4 分,Opus 4.7 运行 Artificial Analysis Intelligence Index 使用的输出 token 比 Opus 4.6 少约 35%。 Opus 4.7 使用了 1.02 亿个输出 token,而 Opus 4.6(Adaptive Reasoning, Max Effort)为 1.57 亿个,少于 GPT-5.4(xhigh,1.21 亿个),但多于 Gemini 3.1 Pro(5,700 万个)
➤ 与 Opus 4.6(Adaptive Reasoning, Max Effort)相比,Opus 4.7 在 IFBench(+5.5 个百分点)、TerminalBench Hard(+5.3 个百分点)、HLE(+2.9 个百分点)、SciCode(+2.6 个百分点)和 GPQA Diamond(+1.8 个百分点)上均有提升。 我们在 τ²-Bench 上观察到轻微下降(-3.5 个百分点),LCR 和 Critpt 得分持平
➤ 尽管得分高出 4 分,Opus 4.7(Adaptive Reasoning, Max Effort)运行 Artificial Analysis Intelligence Index 的成本约为 4,406 美元,比 Opus 4.6(Adaptive Reasoning, Max Effort,约 4,970 美元)低约 11%。 这得益于更低的输出 token 使用量,即使考虑了 Opus 4.7 的新 tokenizer 后也是如此。该指标未考虑缓存的输入 token 折扣,我们将在不久的将来将其纳入成本计算
➤ Opus 4.7 的定价与 Opus 4.6 和 Opus 4.5 相同,均为每 100 万输入/输出 token 5/25 美元。
Anthropic 在发布 Opus 4.7 的同时对其 API 进行了多项更改:
➤ Opus 4.7 引入了新的 'xhigh' 推理努力设置,介于 'high' 和 'max' 之间。 Opus 4.7 的完整范围现在是 low、medium、high、xhigh 和 max。我们在最大努力下评估了 Opus 4.7,与我们评估 Opus 4.6(Adaptive Reasoning, Max Effort)的方式一致
➤ Opus 4.7 引入了任务预算(task budgets),这是一个覆盖整个 agent 循环(思考、工具调用、工具结果和输出)的 advisory token 预算。模型会看到一个运行中的倒计时,并利用它在预算消耗时优先处理工作并优雅地结束。任务预算在 Opus 4.7 上处于公开测试阶段
➤ Opus 4.7 中已完全移除 extended thinking。 Adaptive reasoning 现在是唯一的推理模式
关键模型详情:
➤ 上下文窗口: 100 万 token(与 Opus 4.6 相同)
➤ 最大输出 token: 128K token(与 Opus 4.6 相同)
➤ 定价: 每 100 万输入/输出 token 5/25 美元(与 Opus 4.5 和 Opus 4.6 相同)
➤ 可用性: Claude Opus 4.7 可通过 Anthropic 的 API、Amazon Bedrock、Microsoft Azure 和 Google Vertex 获取。也可在 Claude App、Claude Code 和 Claude Cowork 中使用

Opus 4.7 在 GDPval-AA(我们衡量真实世界知识工作任务的通用 agent 性能的主要基准)上成为新领跑者。Opus 4.7 得分为 1,753 Elo,领先紧随其后的模型 Sonnet 4.6(Adaptive Reasoning, Max Effort,1,674 Elo)和 GPT-5.4(xhigh,1,673 Elo)79 Elo 分

Opus 4.7 在 Artificial Analysis Omniscience Index 上排名第二,主要得益于显著降低的幻觉率。Opus 4.7 更频繁地弃答其不知道的问题,将幻觉率从 61%(Opus 4.6 Adaptive)降至 36%,而准确率基本保持不变

尽管得分高出 4 分,Opus 4.7(Adaptive Reasoning, Max Effort)运行 Artificial Analysis Intelligence Index 的成本约为 4,406 美元,比 Opus 4.6(Adaptive Reasoning, Max Effort,约 4,970 美元)低约 11%。这得益于更低的输出 token 使用量,即使考虑了 Opus 4.7 的新 tokenizer 后也是如此

Opus 4.7 与 Opus 4.6(Adaptive Reasoning, Max Effort)、Opus 4.5(Reasoning)及领先前沿同行模型的完整结果细分
