UK AI Security Institute

Geoffrey Irving:我为何加入AISI

Why I joined AISI by Geoffrey Irving

二〇二六年五月十六日 · 英文原文

英国AI安全研究所(AISI)前OpenAI反思团队与DeepMind可扩展对齐团队负责人Geoffrey Irving于2024年4月加入该政府机构,从事政策驱动的技术工作,包括向政府提供AI风险评估及缓解措施建议,并提升社会协调降低风险的能力。他解释转变原因为安全进展相对AI发展缓慢,且协调资源不足。AISI技术工作主体为经验性评估,Irving主要研究针对失控风险的安全案例,并参与评估与外交事务。AISI在布莱切利公园AI安全峰会和AI首尔峰会上推动讨论与承诺。

致读者:我们已于2025年2月14日更名为AI安全研究所。更多信息请点击此处

协调至关重要,但资源不足

(本文是此前一条推文串的详细版本。)

我在AI和机器学习领域工作了10年,曾领导OpenAI的反思团队(Reflection Team)和DeepMind的可扩展对齐团队(Scalable Alignment Team)。但今年,我第一次在政府任职,加入了英国AI安全研究所(AISI)。人们常问我为什么这么做(通常是因为他们也在考虑类似的转变)。

我仍然认为,直接从事AI和AGI安全的技术工作至关重要:我们面临大量棘手的社会技术挑战,但只要有足够的时间,我相信能找到好的解决方案。

相比之下,在AISI,我从事的是由政策驱动的技术工作,有两个主要目标:

  1. 向政府提供关于AI风险及缓解措施的信息

  2. 提升社会在降低风险的决策上进行协调的能力

我做出转变的原因主要有两个:

安全进展缓慢

首先,我担心安全方面的进展相对于AI的发展速度过于缓慢。这既适用于概念性和理论性的安全工作,也适用于经验性方法。我对许多安全方法在原则上有效抱有希望,前提是有足够的时间,但我们确实需要那个足够的时间。即便只考虑已知的未知因素:所有现有的技术安全方法都需要在关键的概念或经验里程碑上取得突破,我们才能放心地依赖它们。其中许多问题已存在多年,但进展缓慢。

因此,将风险和不确定性公之于众具有巨大价值,以便社会和政府能做出明智的决策。AI实验室的大多数员工和领导者都心怀善意,但市场力量意味着始终存在优先考虑速度而非谨慎的压力。我相信政府在促进协调以采取更安全行动方面扮演着关键角色。竞赛动态可能加剧风险,但这并非不可避免。

协调资源不足

其次,我觉得我在AISI能产生的影响远大于在实验室的技术安全团队。安全的所有方面都人手不足,但与政策相关的技术工作更是如此,尤其是在人数本就较少的高级研究人员中。这一点在与许多人讨论这个决定时得到了印证:除一人外,所有人都认为AISI是更好的选择。如果所有技术安全人员都转向政策相关领域,那将是不利的,但在边际上,更多人这样做是正确的选择。

这对我来说仍然是一个重大转变,也是一场赌注,赌我会喜欢政策相关的工作。这场赌注得到了回报!我发现,在一个专注于安全的组织工作极具激励性,而从事自己确信总体有益的工作,也让我个人感到解脱。实验室的技术安全工作既能提升安全性,也会加速AI的整体发展速度。我曾希望这项工作的安全收益能超过加速AI发展带来的潜在风险,并且我认为这种论点在许多情况下是正确的,但我发现每天身处其中令人不安。

评估、安全案例及其他

当我于2024年4月加入AISI时,我们技术工作的主体是对相关能力和防护措施有效性进行经验性评估。在我决定是否加入时,有一次有趣的会议,我问如果评估工作已经有人负责,我在AISI会做什么。其中一个回答是“你觉得呢?”于是我走到白板前,写下一长串待研究的话题,然后想:“好吧,确实有大量工作要做。”现在,我的大部分时间都用于研究针对失控风险的安全案例,梳理一系列技术和能力水平(从能力太弱无法造成严重危害的模型,到强大到足以引发对齐担忧的模型)的安全论证。我还为AISI的其他工作提供建议,包括评估和外交事务。

AISI是一个很棒的工作场所!

才华横溢、聪明有趣的人们专注于让AI和AGI发展顺利,这里融合了公务员、政策、机器学习和其他科学领域的优秀人才,午餐和白板讨论令人愉快,食物也还可以(比免费午餐更重要的事情还有很多!)。跨学科工作令人愉悦,与AISI以及更广泛的科学、信息和技术部(DSIT)的外交、政策和法律领域人士的交流让我印象深刻。整个组织有一种共同目标感,分歧主要集中在如何实现这些目标的策略和细节上。

关键在于,现在有大量重要的工作,只有像AISI这样的组织才能独特地执行。如果存在大量安全、有益的行动可供选择,就更容易避免高风险行为,而AISI拥有巨大的杠杆来扩大这一空间并采取此类行动。在布莱切利公园的AI安全峰会和韩国的AI首尔峰会上,AISI在推动讨论和具体承诺以平衡AI进展与风险方面发挥了核心作用。我作为英国代表团成员参加了首尔峰会,觉得既有趣又有用。

所以,这就是我决定加入AISI的原因。

如果你读到这里,并且其中某些内容引起了你的共鸣,那么请考虑加入我们的团队!我们正在招聘各技术团队的研究科学家和工程师。

译自 UK AI Security Institute · 录于 二〇二六年五月十六日