我们如何弥合AI能力与防护之间的差距

How we’re addressing the gap between AI capabilities and mitigations

二〇二六年五月十五日 · 英文原文

摘要

英国AI安全研究所（AISI）正通过设立挑战基金（最高20万英镑资助）和招聘研究科学家与工程师，扩大其技术研究规模，以缩小AI能力与安全缓解措施之间的差距。该机构聚焦三大方向：保障措施分析（防御托管系统滥用、第三方攻击及开源权重模型滥用）、控制（设计并评估能抵御不对齐AI蓄意颠覆的控制协议）和对齐（改进可扩展监督、可解释性与自动化对齐方法）。

随着人工智能能力的提升，它们带来了安全风险，而AI安全研究所（AISI）正致力于缓解和控制这些风险。这不仅仅局限于我们的风险评估，还包括开展并资助技术研究，以主动_改善_安全与保障措施。

然而，能力与缓解措施之间的差距正在迅速扩大。这一差距存在于多种风险之中，包括对抗性行为者_滥用_AI系统以促成大规模危害、开发者可能_失去对_高度智能AI系统的控制，以及AI可能对社会产生的一系列其他潜在不稳定影响。这篇博客概述了我们针对滥用和失控问题的技术解决方案思路。

我们正在招聘研究科学家和工程师，加入我们的保障措施分析团队（以应对滥用问题），以及控制和对齐团队（以应对失控问题）。

为了快速推进AI安全科学，AISI旨在最大化解决这一问题的优质研究数量。因此，我们最近设立了挑战基金，将为学术界和非营利组织提供高达20万英镑的资助。

保障措施分析

随着AI系统的进步，攻击者滥用AI造成大规模危害或破坏其运行以损害关键系统的风险也在增加。迫切需要开展研究，以理解、评估和改进旨在应对这些风险的技术措施（保障措施）。

我们对以下三个关键挑战的进展感到兴奋：

**防御托管的前沿AI系统免受滥用。**当AI系统由良性行为者托管时，可以使用一系列保障措施来防止攻击者利用AI协助非法活动。这些措施包括_模型级_保障措施，如安全训练；_系统级_保障措施，如实时监控；_访问_保障措施，如仅允许经过审查的用户或组织访问受保护较少或更先进的系统；或_维护_保障措施，如快速漏洞修复。我们还必须防御其他形式的模型访问，例如内部威胁和微调API。
**防御第三方攻击。**在训练期间暴露于攻击者控制的数据（"数据投毒"）或推理期间暴露于此类数据（"提示注入"），以及直接对抗性操纵模型权重（"模型投毒"），都可能导致对手控制原本良性AI系统的行为或目标。这可能导致AI代理窃取敏感信息或造成大量危害，或对关键AI系统的可用性发起广泛攻击。
**缓解开源权重模型的滥用。**开源权重模型支持多种防御性和有益的应用场景。然而，一旦AI模型权重公开，系统级保障措施、访问保障措施和维护保障措施在很大程度上变得不可行。模型级保障措施也变得更加困难，因为用户可以在完全信息（白盒）环境下微调掉拒绝行为或设计攻击。新的研究方法可以着眼于防止开源权重模型的滥用，或提高社会对恶意行为者滥用这些模型的抵御能力。

控制

我们目前无法保证高能力AI系统会与人类意图保持一致，而滥用保障措施也并非设计用来抵御不对齐AI的蓄意颠覆。AI控制领域试图设计和评估_控制协议_：即能够稳健抵御AI系统蓄意颠覆的安全措施。有前景的协议种类繁多，从网络安全的应用到AI监控和人工审计。这些协议通过红队使用代理AI和环境进行实证评估，以模拟如果部署了一个不对齐的模型会发生什么。

由于AI控制是一个新兴领域，在将协议和评估应用于高级AI代理之前，还有许多问题需要解决。我们特别关注以下领域：

开发现实的评估方法对于迭代协议设计至关重要，这需要解决两个挑战：
- 开发代理环境，使其紧密反映关键部署场景（特别是那些镜像前沿实验室代码和基础设施的研究工程AI环境）。
- 创建更逼真的红队AI，从使用人工编写的脚手架进行压力测试，转向使用权重内方法。
设计控制协议，以应对更现实的部署环境、更自主的代理和更高能力水平带来的挑战。未来的协议可能包括白盒技术，如线性探针、监控器集成、分层审计和特定的反合谋缓解措施。
研究人在回路中的协议，即要求人类审计被AI监控器标记为可疑的AI行为。控制评估可能需要估计人类在时间限制下准确审计不安全行为的能力。

对齐

我们目前对AI控制方法的理解是，它们无法可靠地扩展到超过一定水平的AI能力，届时在没有进一步科学进展的情况下，人类审计员将面临过大的挑战。因此，将AI系统有意义地与人类意图对齐的工作，对于未来更强大的系统至关重要。

我们的重点是通过在齐空间内进行基础性工作来分解问题，然后将资源和精力系统地投入到一组经过梳理的问题和研究议程中，以利用学术界和工业界的集体努力。我们尤其对资助以下方向的研究感到兴奋：

**对齐方法：**我们对现有方法的改进（包括辩论、可解释性的形式化、行为最坏情况保证）以及开发新颖的对齐方法感兴趣。对齐方法必须组合起来解决三个问题：
- 可扩展监督：我们如何正确奖励期望的行为，而超越人类高效判断这些行为的能力？
- 用于最坏情况保证的可解释性：给定训练中的误差界限，我们如何确保随机误差不具有相关性和结构，从而在部署时被用来颠覆人类意图？
- 探索与激发：为了在人类监督不可用的任务上训练AI，我们预计将使用AI辅助来帮助人类监督AI系统。减轻AI系统意外错误的一种方法是在辅助任务上激发AI的最大性能。
**对齐评估：**衡量对齐方法的有效性需要开发不依赖人工标注的评估方法。我们对开发新的评估方法论感兴趣，这些方法论模拟不完美的人类判断，例如通过部分可观测性、夹层法或对抗性初始化。
**自动化对齐：**许多研究人员和AI开发者希望部分自动化对齐算法的搜索和评估。我们认为这对于对齐的某些子问题可能是可行的，但诸如自动化崩溃等障碍可能会阻碍这种方法在其他子问题上的应用。我们对能够绘制或扩展可处理子问题集的研究感兴趣，例如通过研究长程泛化、代码代理环境中的奖励黑客行为等。

加入我们

在过去一年中，AISI建立了世界一流的评估体系，以评估模型能力和风险。AISI现在将扩大其工作规模，开展并资助缓解这些风险的技术研究。

你可以成为这项工作的一部分：考虑申请加入我们的解决方案团队！我们正在招聘所有团队的研究科学家和工程师。

译自 UK AI Security Institute · 录于二〇二六年五月十五日