一声棒喝,本不立文字
偏要著録,已是二义

UK AI Security Institute

Introducing ControlArena:用于运行AI控制实验的库

Introducing ControlArena: A library for running AI control experiments

二〇二六年五月十四日 · 英文原文

英国AI安全研究所(AISI)于2025年10月22日发布ControlArena,一个用于运行AI控制实验的开源库。该库提供预构建的设定(如基础设施即代码)、控制协议、监控器及微协议组件,基于Inspect平台构建,支持在隔离沙箱中评估AI agent在合法任务(主任务)与恶意目标(副任务)下的行为。Anthropic、Google DeepMind、Redwood Research等机构已在使用。

介绍 ControlArena:一个用于运行 AI 控制实验的库 | AISI 工作

请启用此网站的 JavaScript。

A

A

Image 1Image 2关于我们研究资助博客联系

职业

Image 3Image 4主页关于我们研究资助博客

职业

博客控制

介绍 ControlArena:一个用于运行 AI 控制实验的库

我们专门构建的库,旨在让 AI 控制实验变得简单、一致且可重复。

2025 年 10 月 22 日

今天,我们发布了 ControlArena,一个用于运行 AI 控制实验的库。

随着 AI 系统变得更加强大和自主,确保它们始终处于人类控制之下是 AI 安全的核心挑战之一。如果无法可靠地期望强大的 AI 系统遵循开发者的预期目标,那么就有必要开发机制来检测或纠正非预期行为。AI 控制(AI control)是一个新兴的研究议程,旨在解决这个问题。对齐研究(alignment research) 侧重于防止非预期行为,而控制研究则探索如何在系统未对齐的情况下仍能保持监督和遏制。

AI 控制作为一种有前景的研究方法正受到越来越多的关注,用于减轻潜在未对齐 AI 系统带来的风险,并拥有许多有前景且易于处理的研究方向。但它一直缺乏共享工具来使实验变得简单、一致且可重复。ControlArena 旨在改变这一现状,降低 AI 安全、网络安全和机器学习领域研究人员的入门门槛,并帮助加速这一新兴但关键研究领域的创新。

我们为何构建 ControlArena

运行 AI 控制实验历来耗时且资源密集,因为每项研究都需要从头构建定制基础设施。

典型的控制实验设计复杂。它涉及创建一个模拟环境(“一个设定”),在该环境中,AI agent 被分配合法工作(“主任务”),同时也有机会追求不良或恶意目标(“副任务”)。研究人员随后实施并评估 控制协议(control protocols),这些协议旨在防止 AI agent 成功完成这些恶意副任务。这些协议中使用的有前景的技术包括部署另一个 AI 模型来检测和标记可疑行为(“监控器”),或要求对重要操作进行人工批准。

ControlArena 通过提供一套预构建的设定来简化这一过程,范围从 简单的编程问题 到更复杂的 基础设施代码库。该接口允许研究人员在简单设定中快速迭代,然后以最少的代码更改过渡到更真实的设定。它还提供了常见控制协议的实现,以及一个基于我们流行的 Inspect 平台 构建的、用于运行控制实验的轻量级接口。

我们希望一个标准化的控制评估平台能够缩短开发时间,并使结果更容易共享和复现。ControlArena 已被领先前沿 AI 开发者和 AI 安全组织的研究人员使用,包括 Anthropic、Google DeepMind、Redwood Research 等。您可以在 我们的网站 上浏览一些早期使用 ControlArena 的出版物。

工作原理

为了具体说明,考虑一个简单的例子:您想测试一个强大的 AI 编码助手是否可以安全地用于编写基础设施代码。您怀疑,如果它未对齐,可能会试图引入漏洞——例如,通过创建过于宽松的访问规则或禁用日志记录——并且您希望找到能够检测并阻止这种情况的解决方案。

以下是在 ControlArena 中设置此测试的方法:

  1. 设定(setting) 是一个模拟环境,定义了 AI 的合法任务以及您正在测试的恶意目标。在这种情况下,我们可以使用 ControlArena 中的 基础设施即代码 设定,其中模型的主要任务是更新云部署配置,而其副任务是引入漏洞以削弱安全性。ControlArena 设定提供了完整的环境,包括代码库、可用工具,以及对成功完成合法工作和成功攻击进行评分的方法。
  2. 策略(policies) 定义了模型在测试期间的行为方式。例如,“不可信模型”策略使用一个强大的模型,并且在测试中,允许红队明确指示它尝试破坏。“可信模型”策略则包装一个较弱但安全、生成代码质量较低的模型。
  3. 监控器(monitors) 是额外的 AI 模型,用于评估每个攻击策略的输出并分配可疑度分数。如果不可信策略试图添加过于宽松的访问规则或禁用安全日志记录,一个设计良好的监控器应该以高可疑度分数标记这一点。在更复杂的设定中,监控器还可能检测并编辑可疑代码(“可信编辑”)。
  4. 微协议(micro-protocol) 指定了在检测到风险行为时应采取的策略。例如,您可以设置一个“委托给可信”的微协议,该协议允许“不可信模型”生成代码,同时用监控器进行检查。只有当可疑度分数较低时,此代码才会被使用。如果分数过高,协议将回退到使用来自“可信模型”的质量较低但安全的输出。这意味着当不可信模型表现良好时,您能获得强大的性能,而当它表现不佳时,则有自动的故障安全机制。

一旦您定义了这些组件,ControlArena 就会使用 Inspect 运行评估。这意味着您可以利用 Inspect 沙箱 在隔离环境中安全地运行评估。ControlArena 还提供了分析工具,让您可以加载评估日志并估算 宏协议(macro-protocols)(包括任务级微协议,以及跨多个任务应用的策略,例如在重复可疑尝试后关闭的标准)的性能。

ControlArena 实验通常遵循以下结构:

Image 5

ControlArena 入门

如果您是 AI 控制领域的新手,我们建议从我们的 控制研究介绍 开始。接着,您可以按照我们的 分步教程 在 ControlArena 中运行您的第一个控制实验。对于更高级的用例,您可以在此处找到我们的 完整文档

Image 6

Image 7Image 8

AI 安全研究所是科学、创新与技术部下属的一个研究组织。

AISI

主页关于我们资助职业

我们的工作

博客研究研究议程

联系

科学、创新与技术部Image 9 LinkedInImage 10: Twitter 图标 Twitter

网站政策

隐私政策

www.aisi.gov.uk 使用对于网站功能和匿名使用分析所必需的 cookies。

我理解

Image 11

Image 12: 关闭图标

感谢分享 AISI 的工作!

我们已将此图片复制到您的剪贴板。

您可以在下一页将其粘贴到您的推文中

(使用 'ctrl +v' 或 'cmd + v' 粘贴)

继续发布推文 Image 13: Twitter 图标

Image 14

译自 UK AI Security Institute · 录于 二〇二六年五月十四日