如何评估AI agent的控制措施？

How to evaluate control measures for AI agents?

二〇二六年五月十五日 · 英文原文

摘要

AI控制（AI Control）领域专注于设计控制协议以约束大语言模型（LLM）行为，即使存在“诡计”（scheming）风险。英国AI安全研究所（AISI）新论文提出五个AI控制等级（ACL），从ACL-0（无法诡计）到ACL-5（诡计能力远超人类），并论证控制协议应适应模型能力限制。现有措施如人工审批和红队测试已构成最小可行产品，但有效控制ACL-5系统仍需基础研究突破。论文还发布了ControlArena环境套件用于开发控制协议。

大语言模型（LLM）的进展引发了关于如何确保其行为与人类目标一致的重要问题。一个关键挑战是潜在的“目标偏离”，即 LLM 的目标与开发者的目标出现分歧。这带来了重大风险，并且随着 LLM 变得更加自主、人类监督减少，这种风险只会增加。虽然当前旨在训练期间对齐 LLM 行为的缓解措施已被证明有助于让 LLM 更有用、更无害，但它们可能并不总是足够。事实上，近期研究表明，AI 系统可能会主动隐藏追求替代目标的策略，这种现象被称为“诡计”。

随着 LLM 获得更强的独立行动能力，目标偏离带来的潜在危害也随之增加。因此，开发稳健且可扩展的对齐策略至关重要。“AI 控制”提供了一种与对齐互补的方法，其重点在于约束 LLM 的行为，即使训练后仍存在一些目标偏离。尽管目前已在应用 AI 控制的某些要素，但随着 LLM 的进步，其可扩展性仍存疑问。

我们的新论文审视了 AI 控制的优势，并探讨了如何为能力日益增强的 LLM 智能体扩展和评估这些技术。这篇博文总结了我们的发现，并讨论了工作中的关键见解。

什么是 AI 控制？

AI 控制领域专注于设计“控制协议”，以约束 AI 系统，即使在存在诡计的情况下也能确保安全。AI 控制采取一种保守立场：它假设模型可能耍诡计，并据此设计防护措施，而不是假设仅通过训练就能使模型完全安全。

控制措施： AI 控制使用多种“控制措施”，包括监控智能体的推理过程、要求对重大行动进行人工审批、限制对敏感资源的访问，以及在检测到可疑行为时保持终止部署的能力。
控制评估： 为了评估控制措施是否充分降低了风险，开发者可以使用“控制评估”，将安全问题设定为两个团队之间的博弈。红队设计模型通过破坏控制来造成危害，而蓝队则实施监控和其他保护措施来阻止这种情况。成功的控制评估表明，即使是对抗性模型也无法造成不可接受的后果，从而为安全性声明提供经验证据。

AI 控制方法的一个特别吸引人的特点是，它可能无需基础研究突破就能提供缓解对齐风险的潜力。我们的论文通过概述 AI 控制如何帮助确保能力日益增强的自主智能体的安全部署，为这一讨论做出了贡献。

AI 控制技术如何扩展到能力更强的系统？

随着 AI 系统自主造成危害的能力越来越强，AI 开发者将需要越来越复杂的控制措施和评估，以证明模型可以安全部署。我们的框架为此扩展提供了一条可能的路线图，提出了五个不同的 AI 控制等级（ACL），从无法胜任诡计的模型（ACL-0）到诡计能力远超人类的模型（ACL-5）。

Tweet This Image

Download Image

在我们的论文中，我们：

论证控制协议应适应模型的能力限制： 先前关于 AI 控制的工作侧重于旨在对执行人类已知最佳攻击策略的模型保持稳健的控制措施。近期模型不太可能对控制措施做出最优响应。因此，我们认为可以利用对模型局限性的了解来设计更具成本效益的控制协议。
论证 AI 开发者已经在进行 AI 控制： 现有的措施，如人工审批，以及评估，如红队测试，代表了 AI 控制的最小可行产品。我们认为，AI 开发者思考 AI 控制时，将其视为将这些现有实践扩展到未来能力更强的系统，可能会有所帮助。
描绘 AI 控制安全案例随时间演进的路径： “AI 控制安全案例”是一个结构化的论证，证明模型_无法_破坏控制措施以造成不可接受的后果。先前大多数 AI 控制的草图都集中在特定的能力水平上。然而，前沿 AI 开发者的运作本质上是迭代的：每个模型发布通常只比前一个版本能力稍强。我们展示了一个具体的轨迹，说明 AI 控制安全案例如何随着未来可能的能力发展而演变。
探讨 AI 控制能否扩展到能力远超人类的系统： 我们认为，现有的 AI 控制方法不足以扩展到诡计能力远超人类（ACL-5）的系统，有效控制这些系统需要基础研究突破。

需要更多研究

我们的论文提供了关于 AI 控制措施如何扩展到越来越强大的系统的早期草图，但仍需更多研究，特别是在以下领域：

模型能力到控制评估的映射： 针对不同能力系统所需评估的详细论证，超越我们早期的概述。
开发现实的控制评估： 可用于估计部署安全性并迭代协议设计的现实评估。
设计控制协议： 有助于在越来越强大系统的有用性和安全性之间实现最佳平衡的程序。

AI 控制领域正在快速发展，至少有一家前沿模型开发者已经概述了致力于开发针对故意诡计能力的评估。1 近期 AISI 对此议程的贡献包括：

AI 控制安全案例草图：我们的论文概述了一个基于证据的结构化论证，说明了在存在诡计的情况下安全部署大致人类水平系统所需的程序。
ControlArena：一个不断扩展的、用于开发和评估控制协议的现实环境套件。

您可以参与这项工作：考虑申请加入我们的控制团队！我们正在招聘研究科学家和工程师。

1 Google DeepMind 前沿安全框架 2.0 版（于 2025 年 2 月更新）概述了致力于“检测模型何时可能发展出基线工具性推理能力，使其有可能破坏人类控制”的承诺。

译自 UK AI Security Institute · 录于二〇二六年五月十五日