METR · 评估与政策

Anthropic 风险报告（2026年2月）中“自动化研发风险”章节评述

Review of the "Risks from automated R&D" section in the Anthropic Risk Report (February 2026)

二〇二六年五月十三日 · 英文原文

摘要

METR（Nikola Jurkovic、Beth Barnes、Hjalmar Wijk）于2026年5月8日发布了对Anthropic 2026年2月风险报告中“自动化研发风险”章节的外部评审。评审指出，该章节认为Claude Opus 4.6及更低能力模型在任何领域自动化研发带来的灾难性风险非常低，但METR认为报告在分析严谨性（如调查样本量、问题粒度）和信息呈现（如将缺失回答误计为否定）上存在重大问题，未能充分支持其结论。METR同意底线结论，但认为报告证据不足。

对Anthropic风险报告（2026年2月）中"自动化研发风险"章节的评审 - METR

](https://metr.org/)

菜单

对Anthropic风险报告（2026年2月）中"自动化研发风险"章节的评审

贡献者

Nikola Jurkovic, Beth Barnes, 和 Hjalmar Wijk

日期

2026年5月8日

复制链接引用

BibTeX引用×

@misc{review-of-the-risks-from-automated-r-d-section-in-the-anthropic-risk-report-february-2026,
    title = {Review of the "Risks from automated R&D" section in the Anthropic Risk Report (February 2026)},
    author = {Nikola Jurkovic, Beth Barnes, Hjalmar Wijk},
    howpublished = {\url{https://metr.org/blog/2026-05-08-rd-section-anthropic-risk-report-feb-2026-review/}},
    year = {2026},
    month = {05},
}

复制

我们评审了Anthropic 2026年2月风险报告中的"自动化研发风险"章节，并制作了两份对应的评审文档：我们的原始评审和我们的更新评审。我们建议读者参考我们的原始评审，它代表了我们最初收到的报告的评审意见。1

以下是原始评审的执行摘要。完整文档以PDF形式提供（原始，更新）。

执行摘要

本文档是METR对Anthropic风险报告（2026年2月）中"自动化研发风险"章节的外部评审，该章节认为Claude Opus 4.6或能力更低的Anthropic模型在任何领域自动化研发所带来的灾难性风险非常低。

Anthropic向我们分享了额外的非公开材料以供评审，并且我们使用了先前一次评审中分享的一些非公开信息。我们在附录中进一步详细说明了这一过程。

我们将发现分为两个部分：

Anthropic论证概要。
我们的评估：我们认为该报告未能充分支持其结论。我们注意到几个关键领域存在重大问题： * 分析严谨性：我们在整体论证和模型使用调查结果解读的分析严谨性方面发现若干重大问题。我们认为所引用的调查结果几乎无法提供关于整体风险水平的证据，原因包括样本量、问题粒度、调查框架，以及METR先前研究表明难以从类似调查中获得校准后的回答。我们还认为，整体论证忽略了在研发完全自动化之前可能出现的显著AI研发加速，这也可能助长威胁模型。 * 信息充分性：我们在证据呈现方面发现一个重大问题，即Anthropic在总结调查结果时，将一个问题的缺失回答错误地计为否定回答。 * 风险降低建议：我们建议Anthropic改进其内部模型使用调查（包括框架调整、更大样本量和更细粒度的回答选项），并建议Anthropic报告其他可能具有价值且可作为AI进展更领先指标的证据来源。

如果我们必须完全依赖Anthropic在原始风险报告中呈现的证据，我们很可能不同意该报告关于研发自动化带来的灾难性风险非常低的结论。然而，自Opus 4.6最初发布以来，已有额外证据表明该模型在关键领域不具备研发能力，包括METR评估的结果以及缺乏该模型自动化任何关键领域的公开报告。

因此，我们同意报告的底线结论——即Opus 4.6或能力更低的Anthropic模型在任何领域自动化研发带来灾难的风险非常低——但我们认为报告中呈现的证据不足以确立这一结论。

我们预计报告的公开版本将在内容上更新，以接近我们更新评审中预期的变化，但不一定在措辞上完全一致。我们预计更新评审将涵盖这些变化，但如果更新后的公开版本包含任何实质性影响我们意见的变化，我们将发布进一步的更新评审。两份文档均包含一个附录，详细说明我们的评审过程以及两个版本评审之间的差异。↩

Bib

@misc{review-of-the-risks-from-automated-r-d-section-in-the-anthropic-risk-report-february-2026,
    title = {Review of the "Risks from automated R&D" section in the Anthropic Risk Report (February 2026)},
    author = {Nikola Jurkovic, Beth Barnes, Hjalmar Wijk},
    howpublished = {\url{https://metr.org/blog/2026-05-08-rd-section-anthropic-risk-report-feb-2026-review/}},
    year = {2026},
    month = {05},
}

METR 研究、开发和评估前沿AI系统，以衡量它们自主执行复杂任务的能力。订阅我们的通讯以获取更新。