Anthropic · 研究

捐赠我们的开源对齐工具

Donating our open-source alignment tool

二〇二六年五月八日 · 英文原文

摘要

Anthropic 发布开源 alignment 测试工具 Petri，并将其用于 Claude Sonnet 4.5 后的模型评估。Petri 3.0 拆分 auditor 与 target 组件，引入 Dish 提升测试真实性，集成 Bloom 做深度评估，并移交 AI 评估非营利组织 Meridian Labs 维护。

2025 年 10 月，我们发布了 Petri，这是一个开源的 alignment 测试工具箱，可应用于任何大型语言模型。Petri 是我们 Anthropic Fellows 计划的一部分，可用于快速、便捷地测试 AI 模型是否存在欺骗、谄媚以及配合有害请求等令人担忧的倾向。它也是我们开发开放且对整个 AI 开发社区有用的 alignment 工具的工作之一。

自 Claude Sonnet 4.5 以来，Petri 一直是我们对每个 Claude 模型进行 alignment 评估的一部分。它会比较新模型在一系列与 alignment 相关的场景中的行为，这些场景由一个独立的“auditor”模型模拟。随后，另一个“judge”模型会对生成的 transcripts 中的 misaligned behaviors 进行评分。

我们很高兴看到外部组织也在使用 Petri：例如，英国 AI Security Institute (AISI) 将其作为评估模型破坏 AI 研究倾向的重要组成部分。

我们现在将 Petri 更新到第三个版本。以下是其中一些最大的变化：

适应性。 Petri 3.0 包含重大的架构变化，使用户能够将其适配到更多用途，尤其是通过将 auditor 模型和 target 模型拆分为可分别调整的独立组件；
真实性。 尽管 alignment 研究人员会尽力让测试看起来真实，但模型往往可以从设置中的各种人为痕迹推断出自己实际上正在接受测试。而如果模型意识到自己正在被评估，研究人员就无法再看到模型_通常情况下_会如何表现。Petri 的一个附加组件，我们称之为 “Dish”，让测试设置真实得多，例如使用模型真实的 system prompt，以及真实模型部署中会使用的实际 “scaffold”（包裹在模型外、帮助其达成目标的软件）来运行测试；
深度。 我们现在已将 Petri 与另一个开源 alignment 工具 Bloom 集成，后者可以对选定的特定行为进行更深入的评估（相比之下，Petri 的方法覆盖范围更广）。

我们还为 Petri 找到了一个新的归属。我们已将其开发工作移交给 Meridian Labs，这是一家 AI 评估非营利组织。此举类似于我们将 Model Context Protocol (MCP) 捐赠给 Linux Foundation，有助于确保 Petri 保持独立于任何 AI lab，从而使其结果被行业内外视为中立且可信。

作为 Meridian Labs 的一部分，Petri 将与 Inspect 和 Scout 等其他工具一起，构建一个向 labs、独立研究人员和政府开放的技术栈。在当下，对 AI 模型行为进行可靠测试比以往任何时候都更重要。

你可以在 Meridian Labs 博客上阅读更多关于 Petri 3.0 的内容。

Petri 的安装和使用说明可在 Petri 网站上找到。

捐赠我们的开源对齐工具

相关内容

Natural Language Autoencoders：将 Claude 的思考转化为文本

The Anthropic Institute 的重点领域

人们如何向 Claude 寻求个人指导