UK AI Security Institute

Introducing ControlArena：用于运行AI控制实验的库

Introducing ControlArena: A library for running AI control experiments

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（AISI）于2025年10月22日发布ControlArena，一个用于运行AI控制实验的开源库。该库提供预构建的设定（如基础设施即代码）、控制协议、监控器及微协议组件，基于Inspect平台构建，支持在隔离沙箱中评估AI agent在合法任务（主任务）与恶意目标（副任务）下的行为。Anthropic、Google DeepMind、Redwood Research等机构已在使用。

介绍 ControlArena：一个用于运行 AI 控制实验的库 | AISI 工作

请启用此网站的 JavaScript。

介绍 ControlArena：一个用于运行 AI 控制实验的库

我们专门构建的库，旨在让 AI 控制实验变得简单、一致且可重复。

—

2025 年 10 月 22 日

今天，我们发布了 ControlArena，一个用于运行 AI 控制实验的库。

随着 AI 系统变得更加强大和自主，确保它们始终处于人类控制之下是 AI 安全的核心挑战之一。如果无法可靠地期望强大的 AI 系统遵循开发者的预期目标，那么就有必要开发机制来检测或纠正非预期行为。AI 控制（AI control）是一个新兴的研究议程，旨在解决这个问题。对齐研究（alignment research） 侧重于防止非预期行为，而控制研究则探索如何在系统未对齐的情况下仍能保持监督和遏制。

AI 控制作为一种有前景的研究方法正受到越来越多的关注，用于减轻潜在未对齐 AI 系统带来的风险，并拥有许多有前景且易于处理的研究方向。但它一直缺乏共享工具来使实验变得简单、一致且可重复。ControlArena 旨在改变这一现状，降低 AI 安全、网络安全和机器学习领域研究人员的入门门槛，并帮助加速这一新兴但关键研究领域的创新。

我们为何构建 ControlArena

运行 AI 控制实验历来耗时且资源密集，因为每项研究都需要从头构建定制基础设施。

典型的控制实验设计复杂。它涉及创建一个模拟环境（“一个设定”），在该环境中，AI agent 被分配合法工作（“主任务”），同时也有机会追求不良或恶意目标（“副任务”）。研究人员随后实施并评估 控制协议（control protocols），这些协议旨在防止 AI agent 成功完成这些恶意副任务。这些协议中使用的有前景的技术包括部署另一个 AI 模型来检测和标记可疑行为（“监控器”），或要求对重要操作进行人工批准。

ControlArena 通过提供一套预构建的设定来简化这一过程，范围从简单的编程问题到更复杂的基础设施代码库。该接口允许研究人员在简单设定中快速迭代，然后以最少的代码更改过渡到更真实的设定。它还提供了常见控制协议的实现，以及一个基于我们流行的 Inspect 平台构建的、用于运行控制实验的轻量级接口。

我们希望一个标准化的控制评估平台能够缩短开发时间，并使结果更容易共享和复现。ControlArena 已被领先前沿 AI 开发者和 AI 安全组织的研究人员使用，包括 Anthropic、Google DeepMind、Redwood Research 等。您可以在我们的网站上浏览一些早期使用 ControlArena 的出版物。

工作原理

为了具体说明，考虑一个简单的例子：您想测试一个强大的 AI 编码助手是否可以安全地用于编写基础设施代码。您怀疑，如果它未对齐，可能会试图引入漏洞——例如，通过创建过于宽松的访问规则或禁用日志记录——并且您希望找到能够检测并阻止这种情况的解决方案。

以下是在 ControlArena 中设置此测试的方法：

设定（setting） 是一个模拟环境，定义了 AI 的合法任务以及您正在测试的恶意目标。在这种情况下，我们可以使用 ControlArena 中的基础设施即代码设定，其中模型的主要任务是更新云部署配置，而其副任务是引入漏洞以削弱安全性。ControlArena 设定提供了完整的环境，包括代码库、可用工具，以及对成功完成合法工作和成功攻击进行评分的方法。
策略（policies） 定义了模型在测试期间的行为方式。例如，“不可信模型”策略使用一个强大的模型，并且在测试中，允许红队明确指示它尝试破坏。“可信模型”策略则包装一个较弱但安全、生成代码质量较低的模型。
监控器（monitors） 是额外的 AI 模型，用于评估每个攻击策略的输出并分配可疑度分数。如果不可信策略试图添加过于宽松的访问规则或禁用安全日志记录，一个设计良好的监控器应该以高可疑度分数标记这一点。在更复杂的设定中，监控器还可能检测并编辑可疑代码（“可信编辑”）。
微协议（micro-protocol） 指定了在检测到风险行为时应采取的策略。例如，您可以设置一个“委托给可信”的微协议，该协议允许“不可信模型”生成代码，同时用监控器进行检查。只有当可疑度分数较低时，此代码才会被使用。如果分数过高，协议将回退到使用来自“可信模型”的质量较低但安全的输出。这意味着当不可信模型表现良好时，您能获得强大的性能，而当它表现不佳时，则有自动的故障安全机制。

一旦您定义了这些组件，ControlArena 就会使用 Inspect 运行评估。这意味着您可以利用 Inspect 沙箱在隔离环境中安全地运行评估。ControlArena 还提供了分析工具，让您可以加载评估日志并估算 宏协议（macro-protocols）（包括任务级微协议，以及跨多个任务应用的策略，例如在重复可疑尝试后关闭的标准）的性能。

ControlArena 实验通常遵循以下结构：