一声棒喝,本不立文字
偏要著録,已是二义

Anthropic · 研究

捐赠我们的开源对齐工具

Donating our open-source alignment tool

二〇二六年五月八日 · 英文原文

Anthropic 发布开源 alignment 测试工具 Petri,并将其用于 Claude Sonnet 4.5 后的模型评估。Petri 3.0 拆分 auditor 与 target 组件,引入 Dish 提升测试真实性,集成 Bloom 做深度评估,并移交 AI 评估非营利组织 Meridian Labs 维护。

2025 年 10 月,我们发布了 Petri,这是一个开源的 alignment 测试工具箱,可应用于任何大型语言模型。Petri 是我们 Anthropic Fellows 计划的一部分,可用于快速、便捷地测试 AI 模型是否存在欺骗、谄媚以及配合有害请求等令人担忧的倾向。它也是我们开发开放且对整个 AI 开发社区有用的 alignment 工具的工作之一。

自 Claude Sonnet 4.5 以来,Petri 一直是我们对每个 Claude 模型进行 alignment 评估的一部分。它会比较新模型在一系列与 alignment 相关的场景中的行为,这些场景由一个独立的“auditor”模型模拟。随后,另一个“judge”模型会对生成的 transcripts 中的 misaligned behaviors 进行评分。

我们很高兴看到外部组织也在使用 Petri:例如,英国 AI Security Institute (AISI) 将其作为评估模型破坏 AI 研究倾向的重要组成部分

我们现在将 Petri 更新到第三个版本。以下是其中一些最大的变化:

我们还为 Petri 找到了一个新的归属。我们已将其开发工作移交给 Meridian Labs,这是一家 AI 评估非营利组织。此举类似于我们将 Model Context Protocol (MCP) 捐赠给 Linux Foundation,有助于确保 Petri 保持独立于任何 AI lab,从而使其结果被行业内外视为中立且可信。

作为 Meridian Labs 的一部分,Petri 将与 InspectScout 等其他工具一起,构建一个向 labs、独立研究人员和政府开放的技术栈。在当下,对 AI 模型行为进行可靠测试比以往任何时候都更重要。

你可以在 Meridian Labs 博客上阅读更多关于 Petri 3.0 的内容。

Petri 的安装和使用说明可在 Petri 网站上找到。

相关内容

Natural Language Autoencoders:将 Claude 的思考转化为文本

像 Claude 这样的 AI 模型用文字交流,却用数字思考。在这项研究中,我们训练 Claude 将其思考翻译成人类可读的文本。

The Anthropic Institute 的重点领域

在 The Anthropic Institute (TAI),我们将利用可从 frontier lab 内部获取的信息,研究 AI 对世界的影响,并向公众分享我们的发现。这里,我们分享推动我们研究议程的问题。

阅读更多

人们如何向 Claude 寻求个人指导

阅读更多

译自 Anthropic · 研究 · 录于 二〇二六年五月八日