AI与工作的未来:衡量AI驱动的工作任务生产力提升
AI and the future of work: Measuring AI-driven productivity gains for workplace tasks
英国AI安全研究所(AISI)与政府新成立的未来工作部门合作,开展了一项针对500名参与者的随机对照试验(RCT),衡量AI对工作任务的提升效果。研究基于O*NET分类法设计了4项通用工作活动,使用2025年初发布的最先进LLM作为干预工具。结果显示,AI使参与者平均得分提高25%,每分钟得分提高61%,但在完成任务时间上无显著差异。任务3(组织、规划和优先安排工作)未观察到统计显著提升。该研究旨在为英国劳动力市场的AI影响提供实验证据。
AI 与工作的未来:衡量 AI 驱动的工作任务生产力提升 | AISI 工作
请为此网站启用 JavaScript。
A
A
AI 与工作的未来:衡量 AI 驱动的工作任务生产力提升
与政府新成立的未来工作部门合作,我们开展了一项试点研究,探索 AI 模型在常见任务中能多大程度提升工人生产力。
—
2026 年 2 月 2 日
AI 能力的快速增长以及跨经济领域的日益普及,引发了关于 AI 对全球经济和劳动力市场未来影响的广泛讨论。
AI 将如何影响英国劳动力市场存在很大不确定性,研究人员正使用多种方法试图回答这个问题。在 AI 安全研究所(AISI),我们针对英国劳动力的代表性样本开展了一项独立试点研究。该研究通过基于 O*NET 分类法创建一套可泛化的 benchmark,并在受控环境中用人类参与者进行测试,扩展了现有文献。这种方法支撑了一个新框架,用于基于稳健的实验数据生成全经济范围的影响估计。
英国政府最近宣布建立全面的 AI 与未来工作计划,以确保英国做好准备从 AI 将给工作、工人和劳动力市场带来的深刻变化中受益并适应这些变化。这包括启动一个新的跨政府 AI 与未来工作部门,并任命一个由行业、学术界、民间社会和工会组成的独立专家小组来指导这项工作。
本博客文章描述的研究是该新部门基于 AISI 的研究分支的早期成果。
我们的研究设计
在职业自动化文献中,工作通常被理解为任务的集合,其中一些任务在不同职业中是共通的。这一点在职业信息网络(O*NET)中得到了形式化,该网络是由美国劳工部开发的综合性职业分类法。
出于试点研究的目的,我们使用了 O*NET 的通用工作活动。这些代表了跨职业共通的、最清晰的工作行为示例,并且针对这些行为设计实验任务是可行的。
通用工作活动分为 4 个主要类别:信息输入、工作输出、与他人互动以及心理过程。鉴于试点范围必然有限,我们从每个类别中选择在最多 O*NET 职业中出现的工作活动,如图 1 所示。这实现了可行性与得出有意义的可泛化结论之间的最佳平衡。

图 1:选定的 O*NET 工作活动
我们设计了实验任务来模拟这些工作活动会被部署的真实场景,同时不需要特定领域知识即可执行任务。这确保了任务适用于多种职业。我们与未来工作研究所(IFOW)、其学术网络以及 Educate Ventures 的专家合作,为本实验设计和验证了任务。
在本研究的试点阶段,我们旨在回答一个关键问题:“AI 在多大程度上为执行工作相关任务的个人带来生产力提升?”
为了隔离和衡量这些生产力提升,我们使用了随机对照试验(RCT)方法。该方法从同一人群中选取两个可比较的组,并将单一干预措施——在本例中,是访问一个于 2025 年初发布的最先进大语言模型(large language model)——分配给其中一组,而不分配给另一组。因此,我们观察到的结果中的任何后续差异都可以归因于接受了干预。
我们通过 Prolific 招募了 500 名参与者,并将这四项任务随机分配给他们。然后,参与者被随机分配到处理组(可使用 AI 工具)或对照组(不可使用 AI 工具),并接受关于如何使用研究平台功能和可用工具的简短教程。
结果
所有参与者的回答均使用针对任务特定评分标准校准的定制 AI 自动评分器进行评分。来自处理组和对照组的部分回答由人工评分,对于任务 1、2 和 4,人工与 AI 评分者之间的一致性很强,对于任务 3 则稍弱¹。
对于所有参与者,我们衡量了 3 个结果变量:
质量:任务获得的总分。
时间:完成任务所花费的总时间。
每分钟得分:一个单一的生产力衡量指标,将任务得分除以所用时间。这假设每多花一分钟都会为产出增加相同的质量(例如,5 分钟得 10 分与 10 分钟得 20 分一样好)。

图 1:选定的 O*NET 工作活动
图 2 显示了由于使用 AI,处理组相对于对照组的结果平均百分比变化。条形图代表 3 个相应结果指标的幅度,星号表示估计值的统计显著性(*** p<0.01, ** p<0.05, * p<0.1)。结果变量从对数尺度转换为百分比变化。对于每分钟得分和质量指标,我们预期看到大于 0 的值,换句话说,这两个指标预计会随着 AI 的使用而改善。对于时间,我们预期看到小于 0 的值,换句话说,处理组完成任务的速度比对照组快。
平均而言,在 4 个任务中,我们观察到处理组参与者的得分比对照组参与者高出 25%,每分钟得分高出 61%。然而,在完成任务所需时间上,我们未观察到两个研究组之间存在统计上显著的差异。
按任务分解结果,我们观察到 AI 增强对参与者生产力的影响存在差异。

图 3:单个任务结果
任务 1(监控流程、材料或环境): AI 的使用显著提升了任务质量(22%),但对时间或每分钟得分没有影响。
任务 2(起草、布局和指定技术设备、部件和装备): 我们观察到与任务 1 非常相似的结果,AI 使任务质量提升了 23%,但对其他指标没有影响。
任务 3(组织、规划和优先安排工作): 这是唯一一个我们在任何指标上均未观察到统计上显著提升的任务。
任务 4(为他人解读信息含义): 对于此任务,我们看到了与任务 1 和 2 相反的结果——AI 的使用并未提高表现质量,但确实改善了时间(-42%)和每分钟得分(+102%)。
按任务分解生产力影响揭示了 AI 系统的锯齿状能力。任务 1、2 和 4 都需要对数据进行一些分析、综合和解读,以回答封闭式问题——这是我们知道 AI 系统擅长的领域。相比之下,任务 3 需要更主观和开放式的输出,要求参与者提出前瞻性的战略建议。虽然 AI 在该领域的能力持续提升,但它们仍然落后于其他任务中存在的更结构化要求。
由于样本量有限,我们对所有估计值都有很高的不确定性(尽管它们与更广泛文献中发现的其他结果大致一致)。因此,这些结果应被视为初步指标。需要进一步分析才能对所有三个生产力指标的影响幅度建立更大的信心。
下一步
我们的结果表明,AI 可能为英国大量工人带来生产力提升;我们选择的 4 个工作活动在大多数 412 个 SOC2020 职业组中都是“相关的”(根据 O*NET 相关性阈值定义)。
我们正在试点研究成功的基础上继续推进,正在开展工作以扩展在此框架下测试的工作活动套件。这将使我们能够基于初步发现,为英国劳动力市场中 AI 驱动的生产力提升提供全面的证据。此外,我们计划通过在这些任务上测试 agentic 系统能力(在最少人工输入的情况下),对最先进 AI 系统的性能进行 benchmark。这将旨在通过生成关于英国经济中任务(以及因此职业)暴露于自动化的实验证据,来填补当前文献中的一个关键空白。
随着科学、创新与技术部启动 AI 与未来工作部门,这项研究体现了我们使命核心的以证据为导向的方法。我们的目标是将政策建立在稳健的实验数据之上,使我们能够预见颠覆、利用生产力提升,并确保英国为 AI 驱动变革带来的机遇和挑战做好准备。
致谢
本研究是与未来工作研究所、Educate Ventures、Frontier Economics、Revealing Reality、Prolific 和 Faculty AI 合作进行的——特别感谢 Abby Gilbert、Rose Luckin、Benedict du Boulay、Noa Sher、Madiha Khan、Ali Chaudhry、Jolene Skordis 和 Arjun Ramani。
- Krippendorff's Alpha 统计量:任务 1(α= 0.822),任务 2(α= 0.919),任务 3(α= 0.693),任务 4(0.841)
AI 安全研究所是科学、创新与技术部下属的研究机构。
AISI
我们的工作
联系
网站政策
www.aisi.gov.uk 使用对网站功能和匿名使用分析必不可少的 cookie。
我了解
感谢分享 AISI 的工作!
我们已将此图复制到您的剪贴板。
您可以在下一页将其粘贴到您的推文中。
(使用 'ctrl + v' 或 'cmd + v' 粘贴)