UK AI Security Institute

新型评估与Agent脚手架赏金计划

Bounty programme for novel evaluations and agent scaffolding

二〇二六年五月十六日 · 英文原文

AI安全研究所(AISI)发布悬赏计划,征集自主agent能力评估与agent脚手架方案,以测试前沿AI系统在危险能力(如网络攻击、自主复制)上的表现。申请截止延长至2024年12月14日,成功入选者可获2,000英镑计算资助,最终提交按100-200英镑/小时奖励,总金额3,000-15,000英镑。提交物需适配Inspect平台,最晚于2025年3月15日完成。

致读者:我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处

由于申请热度超出预期,我们将初步评估或脚手架方案的提交截止日期延长至12月14日。

AI安全研究所(AISI)对先进AI系统进行跨多个潜在风险领域的评估,包括社会影响、攻击性网络能力、双重用途化学/生物学以及自主系统。

为扩大评估套件的覆盖面,我们正在寻找有才华的个人和组织,帮助我们构建评估方案,特别是针对自主系统相关风险的评估。此外,我们也在寻求授权使用能够提升相关任务性能的agent脚手架工具,以便测试前沿AI系统能力的完整边界。

本悬赏计划将直接服务于AISI评估未来AI模型、为稳健且适当的治理提供依据的工作。成功入选者将获得相应报酬。

开放危险能力评估与agent脚手架悬赏

危险能力评估用于测试前沿模型执行危险行为的能力,以及这些危险行为所需的基础技能。更细粒度的评估有助于我们制定更精确的能力阈值,为治理和政策提供依据。更全面的评估套件能确保我们在测试模型时覆盖所有可能的风险。此外,高性能的agent脚手架对于评估这些模型能力的上限至关重要,避免我们低估其潜力。

我们正在征集以下主题的申请和提案:

自主agent能力评估

这类评估用于衡量AI模型独立工作的能力,即完成可能带来风险或导致意外后果的任务。例如,我们关注AI系统在互联网上自我复制的能力,这可能削弱监督与控制。请参考我们的自主系统评估标准,并在构建评估时使用我们的模板仓库。关于评估思路、评判标准以及知识产权和报酬的详细信息,请参见此处

Agent脚手架

Agent脚手架由一组工具、提示流程和错误处理机制组成,用于帮助agent排查工具调用过程中出现的问题。我们有意购买或授权使用最先进的agent脚手架,以提升在相关规划、执行和编码任务上的性能——参见此处的一个代表性示例。

最终提交物应为Inspect-solvers形式,并附带相关工具。该agent脚手架应有助于在Inspect平台上解决基于agent的任务。关于Inspect agent API的更多细节,请参见此处。我们已拟定了一份优先在Inspect中实现的现有agent脚手架清单,以及一些新思路。关于这些内容、评判标准以及知识产权和报酬的详细信息,请参见此处

如何申请

请通过申请表格提交申请。

申请必须于2024年11月30日前提交。 每份申请将由AISI的技术人员审阅。成功进入第二阶段(构建评估)的评估申请人将获得2,000英镑的计算费用资助。届时我们将与申请人商定最终提交的时间表。应申请人要求,我们可以为您匹配其他对类似思路感兴趣的申请人。

全额悬赏金将在提交符合我们标准的最终评估后发放。如果您的初步申请成功,我们将尽早告知您获得悬赏金的可能性。悬赏金额度将根据所需开发时间以及对照评判标准的成功程度确定。作为参考,我们预计对成功任务按每开发小时100-200英镑给予奖励。这意味着成功申请人完成一项任务可获得3,000-15,000英镑,但对于质量特别高、投入特别大的任务,我们将给予更高报酬。

时间线

2024年12月14日,全球任何时区的午夜: 第一阶段申请截止。在第一阶段,您需提交评估设计方案或agent脚手架提案。2024年12月15日至2025年1月19日: 向申请人反馈意见,确认进入第二阶段。在12月14日之前收到的申请可能会提前审阅并推进。第二阶段提交时间灵活: 在第二阶段,您需构建并提交相应的评估或脚手架。最晚可于2025年3月15日提交,但我们希望大部分工作能在2025年2月15日前完成。在此期间,我们将对您的申请进行迭代反馈。

答疑时间

我们此前举办了两场答疑时间,回答社区关于评估方法、重点领域以及Inspect框架的问题。

两场会议的录像现已提供:

为AI安全前沿贡献力量

通过为我们的评估套件做出贡献,您将直接支持我们的关键工作。您的贡献将有助于塑造最先进AI系统的衡量与治理,为确保AI安全、负责任地发展带来切实影响。这是一个站在AI安全前沿的独特机会。我们期待审阅您的申请!

本悬赏与AISI的系统性AI安全资助计划有何不同?

系统性AI安全是一个新兴领域,专注于从整体上理解并减轻AI部署在社会和各行业中的风险——模型评估只是减轻风险的一个组成部分。AISI的系统性AI安全快速资助计划是一个并行项目,旨在激励对这一新兴领域的研究,并为英国研究机构及适用的国际项目合作伙伴提供高达20万英镑的种子资金。该计划为期12个月,资助申请截止日期为11月26日。更多信息请访问aisi.gov.uk/grants

资源

以下资源提供了我们所选风险模型的信息,并展示了高质量的评估任务(尽管后者并非始终符合我们选定的风险模型):

以下资源提供了关于agent脚手架的有用指导:

译自 UK AI Security Institute · 录于 二〇二六年五月十六日