Anthropic · 产品发布

Claude Opus 4.8 发布

Introducing Claude Opus 4.8

二〇二六年五月二十八日 · 英文原文

Anthropic 将 Claude Opus 升级至 4.8 版本,在编码、agent 技能、推理等 benchmark 上均优于 Opus 4.7,价格不变。新功能包括 claude.ai 上的精力控制、Claude Code 的“动态工作流”(可运行数百个并行子 agent),以及 2.5 倍速度的快速模式(价格比前代模型便宜三倍)。早期测试者(如 Cursor、Devin、Databricks)报告其在 agent 任务中更可靠、判断力更敏锐,且诚实性显著提升——对代码缺陷视而不见的可能性比前代低约四倍。对齐评估显示其失调行为发生率远低于 Opus 4.7。

我们正在将 Claude Opus 升级至新版本:Claude Opus 4.8。它在 Opus 4.7 的基础上,在各项 benchmark 上均有改进,并且是一个更高效的协作者。即日起可用,价格不变。

Opus 4.8 的发布还伴随多项新功能。claude.ai 上的用户现在可以控制 Claude 在任务上投入的精力。Claude Code 新增了“动态工作流”功能,使其能够处理超大规模问题。而 Opus 4.8 的快速模式——模型能以 2.5 倍速度运行——现在比之前模型便宜了三倍。

Opus 4.8 的能力

下表展示了 Opus 4.8 与其前代及其他模型在编码、agent 技能、推理和实际知识工作任务测试中的对比。更多详情及更广泛的能力评估,请参阅 Claude Opus 4.8 System Card

Image 1

与 Opus 4.8 协作

早期测试者发现,Claude Opus 4.8 在执行 agent 任务时更可靠,判断力也更敏锐。以下是其中一些测试者关于与 Opus 4.8 协作体验的引述:

Image 2:  logo

Claude Opus 4.8 的判断力明显更好。在 Claude Code 中,它会提出正确的问题,发现自己的错误,在计划不合理时提出异议,并在进行重大更改前,围绕复杂的多服务探索逐步建立信心。这是一个非常适合构建的模型。

Image 3:  logo

在我们的 Super-Agent benchmark 上,Claude Opus 4.8 是唯一一个端到端完成所有案例的模型,在成本相同的情况下超越了之前的 Opus 模型和 GPT-5.5。对于翻译、深度研究、幻灯片制作和分析等 agent 产品,它提供了强大的可靠性。

Image 4:  logo

在 CursorBench 上,Claude Opus 4.8 在每个努力级别上都超越了之前的 Opus 模型。工具调用效率显著提高,以更少的步骤实现相同的智能,并且能完整执行端到端任务。

Image 5:  logo

Claude Opus 4.8 在我们的 Legal Agent Benchmark 上取得了有史以来的最高分,并且是第一个在全部通过标准上突破 10% 的模型。对于实质性的法律工作,这种准确率的提升直接转化为我们的客户可以放心交托的实际律师工作量。

Image 6:  logo

Claude Opus 4.8 感觉像是 Opus 4.7 的一次重大生活质量更新:更快,更易于协作,并且能更好地在长会话中保持上下文和风格方向。在需要同时兼顾语气、品味和技术执行的工作中,Opus 4.8 是我持续信赖的模型。

Image 7:  logo

Claude Opus 4.8 是我们测试过的最强的计算机使用和浏览器 agent 模型,在 Online-Mind2Web 上得分为 84%,相比 Opus 4.7 和 GPT-5.5 有显著提升。它保持反思和专注,符合我们客户 agent 工作负载对端到端可靠性的要求。

Image 8:  logo

Claude Opus 4.8 能干净地使用工具,并以我们自主工程工作负载所需的稳定性遵循指令,从而实现无人值守运行。它改进了 Opus 4.6,并修复了我们在 Opus 4.7 中看到的注释冗长和工具调用问题。Anthropic 的这次发布直接转化为在 Devin 上构建的工程师更快的能力提升。

Image 9:  logo

在我们长期运行的评估中,Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成得更快,并产生更丰富、信息密度更高的输出。总体而言,信噪比明显更好。最大的区别在于 Opus 4.8 倾向于主动标记分析输入和输出中的问题,而其他模型通常会忽略这些问题,留给用户去发现。

Image 10:  logo

在 CoCounsel Legal 中,与之前的 Opus 模型相比,Claude Opus 4.8 在一致性和推理质量方面带来了显著改进。对于我们的客户所依赖的高风险专业工作流,这种可靠性至关重要。在我们为法律和税务专业人士构建信托级 AI 系统时,此类进步有助于提高现实工作流中可信 AI 性能的标准。

Image 11:  logo

Claude Opus 4.8 为企业 AI 设立了新标杆。在 Databricks 的数据和知识工作 AI agent Genie 中,新的 Opus 模型实现了 agent 推理的阶跃式变化,比任何之前的 Opus 模型更快地处理更深层、多步骤的问题。其多模态能力还让 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理,token 成本比 Opus 4.7 低 61%。

Image 12:  logo

在 Hebbia 编排器的财务文档工作流中,Claude Opus 4.8 提供了与 Opus 4.7 相同的强大质量,同时引用精度明显更高,检索时的 token 效率也更高,这对于我们的客户每天处理的那种密集文件非常有效。

01 /

11

Opus 4.8 最显著的改进之一是其 诚实性。我们训练所有模型都保持诚实——例如,避免做出无法支持的断言。但 AI 模型的一个普遍问题是,它们有时会仓促下结论,尽管证据不足,却自信地声称工作取得了进展。早期测试者报告称,Opus 4.8 更有可能标记其工作中的不确定性,并且不太可能做出无根据的断言。这在我们的评估中得到了证实,该评估显示,Opus 4.8 对其所编写代码中的缺陷视而不见的可能性比其前代低约四倍。

与往常一样,我们在发布前对模型进行了详细的对齐评估。在积极特质方面,我们的对齐团队得出结论,Opus 4.8 “在我们衡量亲社会特质(如支持用户自主性和以用户最佳利益行事)的指标上达到了新高。”评估还显示,Opus 4.8 的失调行为(例如欺骗或与滥用行为合作)发生率远低于 Opus 4.7,并且与我们对齐最佳的模型 Claude Mythos Preview 相似。完整的对齐评估,连同部署前安全测试套件,已在 Claude Opus 4.8 System Card 中报告。

Image 13

今日同步发布

除了 Claude Opus 4.8,我们还进行了以下更新:

关于精力的说明

Opus 4.8 默认使用高精力,我们认为这是质量和用户体验的最佳平衡。在编码任务上,此精力级别消耗的 token 数量与 Opus 4.7 的默认设置相似,但性能更好。用户可以选择“额外”(在 Claude Code 中为“xhigh”)或“最大”,模型将消耗更多 token 以获得更好的结果;我们建议对困难任务和长时间运行的异步工作流使用“额外”。我们已提高 Claude Code 中的速率限制,以适应更高精力级别带来的更高 token 使用量;用户可以根据自己的特定项目选择最合适的设置。

下一步是什么?

用户会发现 Opus 4.8 相比其前代是一个适度但切实的改进。仍有更多工作要做:我们正在开发并发布能够以更低成本提供与 Opus 许多相同能力的模型。

不仅如此,我们还计划发布一类比 Opus 智能程度更高的新模型。作为 Project Glasswing 的一部分,少数组织目前正在将 Claude Mythos Preview 用于网络安全工作。这种能力水平的模型需要更强的网络安全保障才能公开发布。我们正在快速推进这些保障措施的开发,并预计在未来几周内将 Mythos 类模型带给所有客户。

可用性

Claude Opus 4.8 即日起全面可用。常规使用的定价与 Opus 4.7 相同:每百万输入 token 5 美元,每百万输出 token 25 美元。快速模式的定价为每百万输入 token 10 美元,每百万输出 token 50 美元。开发者可以通过 Claude API 使用 claude-opus-4-8

相关内容

Anthropic 以 9650 亿美元投后估值完成 650 亿美元 H 轮融资

了解更多

Anthropic 开设米兰办事处,支持意大利企业、研究和开发者

我们正在米兰开设新办事处,这是我们在欧洲的第六个办事处。

了解更多

Anthropic 任命 KiYoung Choi 为韩国代表理事,首尔办事处即将开业

了解更多

译自 Anthropic · 产品发布 · 录于 二〇二六年五月二十八日