UK AI Security Institute

我们如何弥合AI能力与防护之间的差距

How we’re addressing the gap between AI capabilities and mitigations

二〇二六年五月十五日 · 英文原文

英国AI安全研究所(AISI)正通过设立挑战基金(最高20万英镑资助)和招聘研究科学家与工程师,扩大其技术研究规模,以缩小AI能力与安全缓解措施之间的差距。该机构聚焦三大方向:保障措施分析(防御托管系统滥用、第三方攻击及开源权重模型滥用)、控制(设计并评估能抵御不对齐AI蓄意颠覆的控制协议)和对齐(改进可扩展监督、可解释性与自动化对齐方法)。

随着人工智能能力的提升,它们带来了安全风险,而AI安全研究所(AISI)正致力于缓解和控制这些风险。这不仅仅局限于我们的风险评估,还包括开展并资助技术研究,以主动_改善_安全与保障措施。

然而,能力与缓解措施之间的差距正在迅速扩大。这一差距存在于多种风险之中,包括对抗性行为者_滥用_AI系统以促成大规模危害、开发者可能_失去对_高度智能AI系统的控制,以及AI可能对社会产生的一系列其他潜在不稳定影响。这篇博客概述了我们针对滥用和失控问题的技术解决方案思路。

我们正在招聘研究科学家和工程师,加入我们的保障措施分析团队(以应对滥用问题),以及控制对齐团队(以应对失控问题)。

为了快速推进AI安全科学,AISI旨在最大化解决这一问题的优质研究数量。因此,我们最近设立了挑战基金,将为学术界和非营利组织提供高达20万英镑的资助。

保障措施分析

随着AI系统的进步,攻击者滥用AI造成大规模危害或破坏其运行以损害关键系统的风险也在增加。迫切需要开展研究,以理解、评估和改进旨在应对这些风险的技术措施(保障措施)。

我们对以下三个关键挑战的进展感到兴奋:

控制

我们目前无法保证高能力AI系统会与人类意图保持一致,而滥用保障措施也并非设计用来抵御不对齐AI的蓄意颠覆。AI控制领域试图设计和评估_控制协议_:即能够稳健抵御AI系统蓄意颠覆的安全措施。有前景的协议种类繁多,从网络安全的应用到AI监控和人工审计。这些协议通过红队使用代理AI和环境进行实证评估,以模拟如果部署了一个不对齐的模型会发生什么。

由于AI控制是一个新兴领域,在将协议和评估应用于高级AI代理之前,还有许多问题需要解决。我们特别关注以下领域:

对齐

我们目前对AI控制方法的理解是,它们无法可靠地扩展到超过一定水平的AI能力,届时在没有进一步科学进展的情况下,人类审计员将面临过大的挑战。因此,将AI系统有意义地与人类意图对齐的工作,对于未来更强大的系统至关重要。

我们的重点是通过在齐空间内进行基础性工作来分解问题,然后将资源和精力系统地投入到一组经过梳理的问题和研究议程中,以利用学术界和工业界的集体努力。我们尤其对资助以下方向的研究感到兴奋:

加入我们

在过去一年中,AISI建立了世界一流的评估体系,以评估模型能力和风险。AISI现在将扩大其工作规模,开展并资助缓解这些风险的技术研究。

你可以成为这项工作的一部分:考虑申请加入我们的解决方案团队!我们正在招聘所有团队的研究科学家和工程师。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日