UK AI Security Institute

当前AI系统的局限性映射

Mapping the limitations of current AI systems

二〇二六年五月十五日 · 英文原文

英国AISI(AI安全研究所)发布报告,追踪未来能自动化大多数认知劳动的AGI(通用人工智能)系统的进展。报告通过专家访谈、文献综述和研讨会,识别了当前LLM(大语言模型)的八项局限性:在难以验证任务上表现滞后、无法完成需人类长时间执行的任务(METR研究显示软件工程任务时长每七个月翻一番)、在复杂真实环境中表现挣扎(如Anthropic的Project Vend中Claude运营自动售货机未盈利)、可靠性不足(产生幻觉且自信出错)、缺乏适应性(无持续学习机制)、以及无法产生原创性见解。报告指出,尽管每项局限均有进展证据,但克服所有障碍前AGI仍不可实现。

几家领先的AI公司公开宣称,其目标是构建在大多数认知领域达到或超越人类水平的AI系统。这类系统可能带来变革性影响,例如提高生产力,并加速能源、医药等关键领域的科学研究。然而,专家警告,如果这些系统无法可靠地对齐人类意图,它们也可能构成国家安全威胁,并可能对劳动力市场造成破坏性影响。

AISI(AI安全研究所)的优先事项之一,是与众多专家和开发者密切合作,以理解AI的发展轨迹。在一份新报告中,我们追踪了假设中、未来能够自动化大多数认知劳动的AI系统的进展。当前的大语言模型(LLMs)令人印象深刻,但在几个重要方面尚未达到这一标准。还存在哪些障碍?

我们的新报告向AISI内外的专家提出了这个问题。基于这些访谈、文献综述以及与AISI研究部门的一次研讨会,该报告识别了当前AI系统的八项局限性,以及表明在克服这些局限性方面取得进展的证据。

这篇博文是对我们研究结果的高层总结。

我们为何撰写此报告

尽管能够自动化大多数认知劳动的AI系统出现的时间和可能性仍是热议话题,但其后果可能极其重大,这意味着追踪其进展至关重要。在访谈和下文的分析中,我们使用行业通用术语“通用人工智能”(AGI)作为此类系统的简称。

尽管报告聚焦于这一特定里程碑,我们认识到,高能力AI系统的许多影响可能是逐渐显现,而非一蹴而就的。还应注意,具备自动化大多数认知劳动所需技术能力的AI系统,其开发时间可能远早于大规模自动化的实际发生——新技术的开发与采用之间通常存在滞后。

一些专家认为,持续扩展大语言模型(LLMs)的规模就足以产生AGI,而另一些专家则认为需要根本性的范式转变。在我们的报告中,我们主要采访了持前一种观点的专家,以分析在相对近期内开发AGI的障碍。我们的报告优先考虑了这种情景,因此不应被视为代表了专家意见的全貌。

当前AI系统的局限性

我们的报告指出了针对当前AI系统局限性取得进展的几个指标,本文其余部分将提供高层概述。尽管在我们强调的局限性方面已取得进展,但在AI系统能够可靠地自动化大多数认知劳动之前,所有方面仍需进一步推进。我们强调,我们并非对自动化大多数认知劳动是否可取做出规范性论断,而是在考察当前系统在相关能力方面的技术局限性。

难以验证的任务上的表现

在数学和编码等某些可验证的领域,AI系统的表现已达到人类专家水平,但在自动化大多数认知劳动所需的其他任务上仍显吃力。当检查模型是否提交了问题的正确解决方案变得简单直接时,研究人员更容易生成稳健的奖励信号,用于进一步提升性能。但劳动的广泛自动化需要在比易验证领域更广泛的范围内表现出色。例如,许多现实世界战略决策的后果可能需要很长时间才能显现,并且难以归因于特定的行动和干预措施。决策也可能需要审美或直觉判断,这些更难客观评分。

当然,当前的LLMs并非仅限于可验证领域,但在此之外的表现仍显滞后。取得进展的证据可能包括在无法自动评分的竞赛中取得官方认可的胜利,例如某些论文奖项。

需要人类长时间完成的任务上的表现

认知劳动的广泛自动化将要求AI系统能够在长时间跨度内可靠地行动。许多现实世界任务涉及连续数小时、数天甚至数周保持正轨,并在此过程中自我修正。在完成耗时超过几小时的任务方面,人类目前仍对AI系统保持优势——但这种情况可能很快改变。模型评估与威胁研究(METR)的研究表明,AI系统能完成的软件工程任务时长大约每七个月翻一番。外推这一趋势预测,到2030年,模型将能够完成(以50%的可靠性)持续一个月的任务。

随着模型的发展,追踪METR等基准测试的进展至关重要,同时也要衡量这一趋势在软件工程之外的泛化程度。监控模型的思维链以寻找“执行功能”(例如刻意努力保持任务专注)的迹象,并评估这些推理策略的有效性,也能提供有用的证据。

在复杂环境中的表现

从事现实劳动的人必须在混乱复杂的环境中工作,他们需要与他人沟通、应对意外障碍并确定任务优先级。野外评估表明,AI系统目前在这些更真实的环境中表现挣扎。例如,Anthropic的Project Vend让其旗舰模型Claude负责运营一台自动售货机,以及AI Village项目,其中智能体团队被赋予诸如为慈善机构筹款等挑战。这些实验往往发现在这些更真实的环境中存在令人惊讶的性能限制。例如,由Claude运营的自动售货机并未盈利。

像这样的实地测试提供了证据,表明AI系统在严格受控环境之外有效运作的能力——这是实现AGI的必要前提。

可靠性

AI系统偶尔会出错,例如产生幻觉(hallucinating)虚假信息。这些错误会降低其在高风险场景中部署的意愿,也会损害其在长任务上的表现(因为许多连续步骤中的小错误会累积成更大的失败)。AI系统不仅有时会出错,而且常常表现得_自信满满_地出错,这表明它们缺乏对自身知识范围的高度“元认知”。这是一个重要的缺陷,因为现实世界的决策通常涉及计算风险或预测未来。话虽如此,AI的幻觉可能并不总是揭示能力限制。它们可能是训练目标激励自信断言的结果,甚至可能是故意欺骗的结果——这在几个前沿模型中已被检测到。

有许多基准测试可用于追踪AI的可靠性。这些基准包括涉及长序列推理问题的测试(RE-BenchHCAST)以及衡量幻觉的测试(HalluEvalHalluLensHHEM)。

适应性

现实世界的工作需要高度的适应性,即“在工作中学习”。这需要消化大量关于角色性质、总体目标等背景信息。这方面的改进可能来自扩展或更好地利用模型的上下文窗口(它们在任何时候能一起处理的信息量),或者来自快速、高效地将模型权重适应特定用例的方法。

我们采访的一些专家认为,没有“持续学习”(continual learning),AGI就不可能实现,即模型在部署后通过获取现实世界经验而持续改进。这是人类智能的一个重要方面,但可以说,当前AI系统并没有自主实现这一点的自然机制。

已有一些基准测试用于测试LLMs的上下文感知能力,例如LoCoMoLongMemEval。允许模型根据新知识或示例调整自身权重的技术(例如自适应语言模型)的进步,可以作为持续学习进展的领先指标,尤其是当这些技术超越实验室演示并进入实际应用时。

原创性见解

我们采访的大多数专家都认为,无法产生具有科学价值的原创性见解是当前AI系统的一个主要缺陷。例如,构建能够撰写科学论文的AI智能体的尝试,通常导致的结果是回收现有想法或追求无关紧要、无趣的假设。这可能会成为AGI的一个重大障碍——既因为许多现实工作受益于原创性见解,也因为一些专家认为,辅助或自动化AI研究本身的AI系统是实现AGI最可能的途径之一。

我们可以留意许多迹象,表明AI系统正在发展这种能力,例如AI生成假设的验证率提高,或AI撰写的论文被顶级期刊接受。


我们的报告总结道,尽管障碍依然存在,但在我们研究的每个类别中,朝着能够自动化大多数认知劳动的AI都取得了显著进展,而克服这些障碍的难易程度仍存在不确定性。

展望未来,我们将继续密切追踪更强大AI系统的进展。AI发展的轨迹是不确定的,新的、不可预见的瓶颈可能会出现。尽管如此,我们希望报告中提供的指标能成为有用的工具,供更广泛的AI安全与国家安全社区用于监测和预测AI能力。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日