Claude Opus 4.8:“微小但切实的改进”
Claude Opus 4.8: "a modest but tangible improvement"
Anthropic发布Claude Opus 4.8,称其相比前代有适度但切实的改进,最显著改进是诚实性——模型更倾向于标记不确定性,且对代码缺陷未加注意的概率比前代低约四倍。在所有基准测试中,Opus 4.8错误率最低,主要通过在不确信问题上弃权实现。定价与Opus 4.5/4.6/4.7相同(输入5美元/百万token,输出25美元/百万token),快速模式价格大幅降低。新特性包括支持对话中插入系统消息,最小可缓存prompt长度从4,096降至1,024 token。上下文窗口为1,000,000 token,最大输出128,000 token,知识截止日期为2026年1月。
Anthropic 今天发布了 Claude Opus 4.8。我最喜欢的是发布公告中的这段说明:用户会发现 Opus 4.8 相比前代有适度但切实的改进。仍有更多工作要做:我们正在开发并发布能够以更低成本提供与 Opus 类似能力的模型。看到一家 AI 实验室诚实地将一次发布描述为对前代模型的小幅增量改进,真是令人耳目一新!诚实似乎是一个主题。以下是该公告中我另一个最喜欢的说明:Opus 4.8 最显著的改进之一是其诚实性。我们训练所有模型保持诚实——例如,避免做出无法支持的声明。但 AI 模型的一个普遍问题是,它们有时会仓促下结论,尽管证据不足,却自信地声称工作取得了进展。早期测试者报告称,Opus 4.8 更倾向于标记工作中的不确定性,且更少做出无依据的声明。这在我们评估中得到了证实,评估显示 Opus 4.8 对其所写代码中的缺陷未加注意而放过的概率比前代低约四倍。链接的系统卡包含以下内容:Claude Opus 4.8 在所有基准测试中,六个模型里错误率最低——这是对事实幻觉最直接的衡量。它主要通过在不确信的问题上弃权来实现这一点,而非通过正确回答更多问题。
模型特性 自 4.7 以来变化不大。定价与 Opus 4.5/4.6/4.7 相同——每百万输入 token 5 美元,每百万输出 token 25 美元。"快速模式"价格翻倍,相比前代模型大幅降低——4.6/4.7 的快速模式仍为 30/150 美元。注意,快速模式仅对参与研究预览的组织开放,"请联系您的客户经理申请访问权限"。可靠知识截止日期和训练数据截止日期均为 2026 年 1 月,与 4.7 相同。上下文窗口仍为 1,000,000 token,最大输出为 128,000 token。
Claude Opus 4.8 的新特性文档包含一些更有趣的细节。以下几点引起了我的注意:对话中系统消息。Claude Opus 4.8 接受 role: "system" 消息,可紧跟在 messages 数组中用户轮次之后(受放置规则约束)。这允许您在长时间运行的对话中稍后追加更新指令,而无需重述完整系统 prompt,从而保留早期轮次的 prompt 缓存命中,并降低 agentic 循环的输入成本。另请参见 Anthropic Python SDK 的此更新。能够在对话中途调整系统 prompt 听起来非常强大。我曾担心这与我的 LLM 库提供的抽象不兼容,该库期望每个对话只有一个系统 prompt……但事实证明,我最近的重设计应该能很好地处理这一点。更低的 prompt 缓存最小值。Claude Opus 4.8 的最小可缓存 prompt 长度为 1,024 token,低于 Claude Opus 4.7。我检查过,4.7 的最小值是 4,096。
还有一些鹈鹕 以下是所有五个思考级别(low、medium、high、xhigh 和 max)的骑自行车鹈鹕:
low medium high xhigh max
这次我使用 LLM CLI 运行它们,将日志导出为 Markdown,然后让 Claude Opus 4.8 为我构建了一个 HTML 工具,该工具可以将该 Markdown 渲染出来,并将 svg 围栏代码块作为 SVG 显示在页面上。(后来我让 Codex 中的 GPT-5.5 xhigh 更新了该代码,以消除任何 XSS 漏洞。我相信如果我要求,Claude 也能做到,但 GPT-5.5 目前是我的代码安全毯。)max 那个显然是最好的,但它消耗了 25 个输入 token 和 17,167 个输出 token,总成本为 43 美分!
标签:ai、generative-ai、llms、anthropic、claude、pelican-riding-a-bicycle、llm-release