Claude Opus 4.8：“微小但切实的改进”

Claude Opus 4.8: "a modest but tangible improvement"

二〇二六年五月二十九日 · 英文原文

摘要

Anthropic发布Claude Opus 4.8，称其相比前代有适度但切实的改进，最显著改进是诚实性——模型更倾向于标记不确定性，且对代码缺陷未加注意的概率比前代低约四倍。在所有基准测试中，Opus 4.8错误率最低，主要通过在不确信问题上弃权实现。定价与Opus 4.5/4.6/4.7相同（输入5美元/百万token，输出25美元/百万token），快速模式价格大幅降低。新特性包括支持对话中插入系统消息，最小可缓存prompt长度从4,096降至1,024 token。上下文窗口为1,000,000 token，最大输出128,000 token，知识截止日期为2026年1月。

Anthropic 今天发布了 Claude Opus 4.8。我最喜欢的是发布公告中的这段说明：用户会发现 Opus 4.8 相比前代有适度但切实的改进。仍有更多工作要做：我们正在开发并发布能够以更低成本提供与 Opus 类似能力的模型。看到一家 AI 实验室诚实地将一次发布描述为对前代模型的小幅增量改进，真是令人耳目一新！诚实似乎是一个主题。以下是该公告中我另一个最喜欢的说明：Opus 4.8 最显著的改进之一是其诚实性。我们训练所有模型保持诚实——例如，避免做出无法支持的声明。但 AI 模型的一个普遍问题是，它们有时会仓促下结论，尽管证据不足，却自信地声称工作取得了进展。早期测试者报告称，Opus 4.8 更倾向于标记工作中的不确定性，且更少做出无依据的声明。这在我们评估中得到了证实，评估显示 Opus 4.8 对其所写代码中的缺陷未加注意而放过的概率比前代低约四倍。链接的系统卡包含以下内容：Claude Opus 4.8 在所有基准测试中，六个模型里错误率最低——这是对事实幻觉最直接的衡量。它主要通过在不确信的问题上弃权来实现这一点，而非通过正确回答更多问题。

模型特性自 4.7 以来变化不大。定价与 Opus 4.5/4.6/4.7 相同——每百万输入 token 5 美元，每百万输出 token 25 美元。"快速模式"价格翻倍，相比前代模型大幅降低——4.6/4.7 的快速模式仍为 30/150 美元。注意，快速模式仅对参与研究预览的组织开放，"请联系您的客户经理申请访问权限"。可靠知识截止日期和训练数据截止日期均为 2026 年 1 月，与 4.7 相同。上下文窗口仍为 1,000,000 token，最大输出为 128,000 token。

Claude Opus 4.8 的新特性文档包含一些更有趣的细节。以下几点引起了我的注意：对话中系统消息。Claude Opus 4.8 接受 role: "system" 消息，可紧跟在 messages 数组中用户轮次之后（受放置规则约束）。这允许您在长时间运行的对话中稍后追加更新指令，而无需重述完整系统 prompt，从而保留早期轮次的 prompt 缓存命中，并降低 agentic 循环的输入成本。另请参见 Anthropic Python SDK 的此更新。能够在对话中途调整系统 prompt 听起来非常强大。我曾担心这与我的 LLM 库提供的抽象不兼容，该库期望每个对话只有一个系统 prompt……但事实证明，我最近的重设计应该能很好地处理这一点。更低的 prompt 缓存最小值。Claude Opus 4.8 的最小可缓存 prompt 长度为 1,024 token，低于 Claude Opus 4.7。我检查过，4.7 的最小值是 4,096。

还有一些鹈鹕以下是所有五个思考级别（low、medium、high、xhigh 和 max）的骑自行车鹈鹕：

low medium high xhigh max

这次我使用 LLM CLI 运行它们，将日志导出为 Markdown，然后让 Claude Opus 4.8 为我构建了一个 HTML 工具，该工具可以将该 Markdown 渲染出来，并将 svg 围栏代码块作为 SVG 显示在页面上。（后来我让 Codex 中的 GPT-5.5 xhigh 更新了该代码，以消除任何 XSS 漏洞。我相信如果我要求，Claude 也能做到，但 GPT-5.5 目前是我的代码安全毯。）max 那个显然是最好的，但它消耗了 25 个输入 token 和 17,167 个输出 token，总成本为 43 美分！

标签：ai、generative-ai、llms、anthropic、claude、pelican-riding-a-bicycle、llm-release

译自 Simon Willison · 博客 · 录于二〇二六年五月二十九日