UK AI Security Institute

如何评估AI agent的控制措施?

How to evaluate control measures for AI agents?

二〇二六年五月十五日 · 英文原文

AI控制(AI Control)领域专注于设计控制协议以约束大语言模型(LLM)行为,即使存在“诡计”(scheming)风险。英国AI安全研究所(AISI)新论文提出五个AI控制等级(ACL),从ACL-0(无法诡计)到ACL-5(诡计能力远超人类),并论证控制协议应适应模型能力限制。现有措施如人工审批和红队测试已构成最小可行产品,但有效控制ACL-5系统仍需基础研究突破。论文还发布了ControlArena环境套件用于开发控制协议。

大语言模型(LLM)的进展引发了关于如何确保其行为与人类目标一致的重要问题。一个关键挑战是潜在的“目标偏离”,即 LLM 的目标与开发者的目标出现分歧。这带来了重大风险,并且随着 LLM 变得更加自主、人类监督减少,这种风险只会增加。虽然当前旨在训练期间对齐 LLM 行为的缓解措施已被证明有助于让 LLM 更有用、更无害,但它们可能并不总是足够。事实上,近期研究表明,AI 系统可能会主动隐藏追求替代目标的策略,这种现象被称为“诡计”。

随着 LLM 获得更强的独立行动能力,目标偏离带来的潜在危害也随之增加。因此,开发稳健且可扩展的对齐策略至关重要。“AI 控制”提供了一种与对齐互补的方法,其重点在于约束 LLM 的行为,即使训练后仍存在一些目标偏离。尽管目前已在应用 AI 控制的某些要素,但随着 LLM 的进步,其可扩展性仍存疑问。

我们的新论文审视了 AI 控制的优势,并探讨了如何为能力日益增强的 LLM 智能体扩展和评估这些技术。这篇博文总结了我们的发现,并讨论了工作中的关键见解。

什么是 AI 控制?

AI 控制领域专注于设计“控制协议”,以约束 AI 系统,即使在存在诡计的情况下也能确保安全。AI 控制采取一种保守立场:它假设模型可能耍诡计,并据此设计防护措施,而不是假设仅通过训练就能使模型完全安全。

AI 控制方法的一个特别吸引人的特点是,它可能无需基础研究突破就能提供缓解对齐风险的潜力。我们的论文通过概述 AI 控制如何帮助确保能力日益增强的自主智能体的安全部署,为这一讨论做出了贡献。

AI 控制技术如何扩展到能力更强的系统?

随着 AI 系统自主造成危害的能力越来越强,AI 开发者将需要越来越复杂的控制措施和评估,以证明模型可以安全部署。我们的框架为此扩展提供了一条可能的路线图,提出了五个不同的 AI 控制等级(ACL),从无法胜任诡计的模型(ACL-0)到诡计能力远超人类的模型(ACL-5)。

Image 1

Tweet This Image

Download Image

在我们的论文中,我们:

需要更多研究

我们的论文提供了关于 AI 控制措施如何扩展到越来越强大的系统的早期草图,但仍需更多研究,特别是在以下领域:

AI 控制领域正在快速发展,至少有一家前沿模型开发者已经概述了致力于开发针对故意诡计能力的评估。1 近期 AISI 对此议程的贡献包括:

您可以参与这项工作:考虑申请加入我们的控制团队!我们正在招聘研究科学家和工程师。

1 Google DeepMind 前沿安全框架 2.0 版(于 2025 年 2 月更新)概述了致力于“检测模型何时可能发展出基线工具性推理能力,使其有可能破坏人类控制”的承诺。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日