Anthropic · 研究

Anthropic 经济指数报告：学习曲线

Anthropic Economic Index report: Learning curves

二〇二六年五月八日 · 英文原文

摘要

Anthropic Economic Index 分析2026年2月5日至12日 Claude.ai 与 1P API 各100万条对话。报告显示 Claude.ai 任务更分散，前10个 O*NET 任务占比由24%降至19%，augmentation 小幅上升；API 中 Computer and Mathematical 任务增加。高 tenure 用户更常用于工作和复杂任务，成功率高约3至5个百分点，Opus 更多用于高价值任务。

Anthropic Economic Index 使用我们的隐私保护数据分析系统，跟踪 Claude 在整个经济中的使用情况。这是我们尽早理解 AI 经济影响的努力的一部分，以便研究人员和政策制定者有足够时间做好准备。

这份最新报告研究了 2026 年 2 月 Claude 的使用情况，并延续了我们上一份报告（使用 2025 年 11 月数据）中提出的 economic primitives（经济基本要素）框架。我们的样本覆盖 2 月 5 日至 2 月 12 日，即 Claude Opus 4.5 发布后三个月，并与 Claude Opus 4.6 发布同期。

我们首先记录了相较于此前报告，使用情况发生了哪些变化：augmentation（增强）比例，即 AI 补充用户能力的协作式交互，在 Claude.ai 和 API 流量中都有小幅上升。在 Claude.ai 中，使用场景更加多样化，排名前 10 的任务在上个月所占使用份额低于 2025 年 11 月。因此，由于这种多样化，Claude.ai 中平均对话对应的任务工资水平较此前报告略低。

随后，我们聚焦于 Claude 对劳动力市场和更广泛经济影响的一个重要决定因素：Claude 采用过程中的学习曲线。我们提供证据表明，高 tenure（使用资历）用户已经形成了习惯和策略，使他们能够更好地利用 Claude 的能力。事实上，我们记录到，更有经验的用户不仅会尝试价值更高的任务，也更有可能在对话中引出成功的回复。

在第一章中，我们重新审视了 2026 年 1 月发布的上一份 Economic Index 报告中的发现。我们发现：

Economic Index 的一个核心发现是，Claude 的早期采用非常不均衡：Claude 在高收入国家使用更密集，在美国则更多用于知识工作者占比较高的地区，并且集中于相对少数的专业化任务和职业。

一个重要问题是，采用不平等可能如何决定 AI 的收益会在哪里、归属于谁。例如，如果有效使用 AI 需要互补技能和专业知识——我们在上一份报告中提出了这一点——而这些技能又可以通过使用和实验获得，那么早期采用带来的收益可能会自我强化。

在第二章中，我们研究用户似乎如何塑造他们从 Claude 获得的价值：他们如何将模型能力与手头任务匹配，以及使用模式和结果如何随着平台使用经验而变化。

我们首先考察 Claude 被要求执行的任务类型。我们使用隐私保护系统，该系统允许我们在聚合层面描述行为，而不暴露单个 transcript（对话记录）的内容。我们分别从 Claude.ai（面向消费者的 web 产品）和第一方 API（面向开发者、用于将 Claude 集成到产品和 workflow 中的接口）抽取 100 万条对话样本。2

Coding 仍然是我们平台上最常见的用途，与 Computer and Mathematical 职业相关的任务占 Claude.ai 对话的 35%（见 Appendix）。3 然而，在 2025 年 11 月至 2026 年 2 月之间，Claude.ai 上的用例集中度下降：最常见的前 10 个 O*NET 任务占对话比例从 24% 降至仅 19%（Figure 1.1）。

这种集中度下降部分反映出 coding 任务从 Claude.ai 迁移到了我们的第一方 API，在那里 Claude Code 已增长为样本流量中的很大一部分。Claude Code 的 agentic architecture（agent 式架构）会将 coding 工作拆分为更小的 API 调用，这些调用被标记为不同任务。因此，虽然 coding 在 API 总流量中的份额有所增长，但它分布在许多任务类别中，而不是集中在少数几类任务中。结果是，尽管 coding 活动大量涌入，API 中的任务集中度仍大致持平。

Coding 从 Claude.ai 迁移出去并不是集中度下降的唯一原因。部分下降源于两个时期之间用例组合的变化。Coursework 在对话中的占比从 19% 降至 12%，而个人用途从 35% 升至 42%。Coursework 下降的一部分可以由一些国家的校历解释：在我们的样本期内，这些国家的学生正处于寒假。4 与此同时，从 2 月前后开始增加的注册带来了更多轻度 AI 用户。

虽然 Claude 的工作任务范围变得更加多样，但几乎所有这些任务此前都曾出现在我们的数据中。在上一份报告中，我们指出 49% 的工作中，至少四分之一的任务曾使用 Claude 执行。在本次数据抽取中，这一累计估计几乎没有变化（Appendix Figure A.2）。本报告的数据中，新的 O*NET 任务数量远少于上一份报告。

自第一份报告以来，我们一直将对话归类为五种 interaction type（交互类型）之一——directive、feedback loop、task iteration、validation 和 learning——并将其分为两大类：automation（自动化）和 augmentation（增强）。5 Figure 1.3 显示，Claude.ai 中的 augmentation 略有增加。这主要由 validation 和 learning 模式的小幅上升推动。在 Appendix Figure A.3 中，我们显示 1P API 数据中的 automation 大幅下降。

我们的 API 平台继续获得相对更高份额的 Computer and Mathematical 任务（按职业类别划分的使用份额见 Appendix）。自 2025 年 8 月以来，API 中该类别任务的份额增加了 14%，而 Claude.ai 中下降了 18%。正如我们在劳动力市场影响报告中指出的，这种从 Claude.ai 向 API 的迁移可能预示相关工作的转型更为临近。Claude.ai 中与 Management 职业相关的任务从其流量的 3% 上升到 5%，来自分析类任务（例如准备投资备忘录）和回复客户问题的混合增长。

衡量 Claude 上任务组合变化的另一种方式，是观察任务平均价值的变化；我们将其定义为执行该任务的美国工人的平均时薪（Figure 1.4）。6 Claude.ai 中这一任务价值估计从 $49.3 略降至 $47.9，主要原因是简单事实性问题（例如体育比赛结果、天气）增加，以及 coding 随着迁移到 API 而减少。如我们在上一份报告中所述，我们在 Claude 上看到的任务往往需要更高教育水平。图表显示，这些任务的工资也往往高于美国全国平均水平。

虽然幅度不大，但从上一份报告到当前报告，多个 primitives 的变化都反映了 Claude.ai 上任务复杂度的类似下降。人类输入所需的平均受教育年限从 12.2 年降至 11.9 年，用户给予 AI 更多 autonomy（自主性），人类独自完成任务所需时间下降约 2 分钟。有一项变化表面上朝相反方向发展：Claude 执行的任务被判断为，对于没有 AI 的人类来说，可能性略低。

随着任务迁移到 API，它们可能更暴露于 automation。API workflow 更有可能是 directive，人类参与 loop 的需求更少。在此前一份报告中，我们强调，客户服务任务在 API 数据中很常见，例如支付和账单问题的自动化支持。这些任务使 Customer Service Representatives 的观测暴露度更高——Claude 被记录为在 automated workflow 中执行了他们很大比例的任务，因此随着 AI 扩散，这些工作可能更有可能发生变化。

我们重点列出两个在 2 月出现频率高于三个月前的 API workflow，它们在最新样本中的份额至少翻倍：7

在上一份报告中，我们指出，Anthropic AI Usage Index（AUI）在美国各州之间正迅速趋同；该指数按某一地区的劳动年龄人口对使用量进行调整：初始人均使用量较低的州呈现更快采用速度。

Figure 1.6 左图显示，在我们最新的数据中，这种趋同仍在继续，但速度有所放缓。从 2025 年 8 月到 2026 年 2 月，前五个州占人均使用量的份额从 30% 降至 24%。Gini coefficient（基尼系数）自 2025 年 8 月以来有所下降，但趋同速度已经放缓。当我们更新上一份报告中的估计时，发现按这一速度，各州大约需要 5–9 年才能达到大致相等的人均使用量，而不是 2–5 年。8

在国家层面（右图），模式相反：使用量变得略微更集中，同期 Gini 上升。人均使用 Claude 最多的国家现在占总体使用量的更大份额，前 20 个国家经人口调整后的使用份额从 45% 上升到 48%。

在本章中，我们聚焦于使用行为的两个特征，它们反映人们如何部署 AI，以及如何学习与 AI 协作：model selection（模型选择）和长期用户的习惯。

首先，我们通过研究人们何时选择 Opus——我们性能最强的模型类别——来揭示对 intelligence（智能）的需求。关于 AI 用户如何在不同模型之间选择、如何权衡速度、性能和成本，目前所知不多。如果用户会根据手头任务进行校准，我们应当看到 Opus 集中用于更困难、价值更高的工作。

接下来，我们研究使用方式如何因 tenure 而异，观察不同注册时间用户之间的差异。这有助于理解学习曲线：有经验的用户会随着时间变得更熟练吗？他们的使用方式有何不同？我们发现了与 learning-by-doing（边做边学）一致的证据。高 tenure 用户不仅在对话中有更高成功率，也更常与 Claude 协作，将更具挑战性的任务交给 Claude，并且更可能将 Claude 用于工作目的和更广泛的任务范围。

不同 Claude 模型类别（Haiku、Sonnet 和 Opus）在成本、速度和性能之间提供不同取舍。Opus 类模型使用最多 tokens，并擅长复杂任务，但在我们的 API 上每 token 价格更高。如果用户意识到这一点，并且在意成本和使用限制，他们应当把最复杂、最有价值的任务交给 Opus，同时为较简单任务选择其他模型。总体而言，这正是我们在数据中观察到的情况。

下面的 Figure 2.1 显示，对于可访问所有模型类别的 Claude.ai 付费账户，55% 的 Computer and Mathematical 任务（如编写软件）使用 Opus，而 Educational 任务中这一比例为 45%。技术用户可能注意到性能提升，并主动从默认模型 Sonnet 切换出去。或者，注重效率的用户可能学会对较简单任务使用 Sonnet，以避免触及使用限制。与此相关，这里的差异也可能反映出大多数教育任务对 Sonnet 来说已经相当容易，或者学生更可能在意使用限制。

下面的 Figure 2.2 以更细粒度展示了这一点。当用户执行与高薪工作相关的任务时，他们更常使用 Opus。例如，在 Claude.ai 上，34% 的 Software Developer 任务涉及 Opus，而 Tutor 任务只有 12%。总体而言，对 Claude.ai 用户来说，任务时薪每增加 $10，使用 Opus 的对话份额就增加 1.5 个百分点。1P API 流量对任务复杂度的反应更明显。其斜率约为两倍，任务价值每增加 $10，Opus 份额增加 2.8 个百分点。与 web 用户相比，部署 programmatic workflow 的用户可能有更多理由在模型之间切换。

第一个 Claude 模型于 2023 年 3 月发布。此后，Claude.ai 和 API 的用户群都快速增长。我们的最新样本包含不同类型的用户：有些人在 Claude 首次发布时就注册了，有些人则是在我们测量其使用情况的前一天才注册。一个人与 Claude 的 tenure 会如何塑造其使用体验？9

Table 2.1 显示了低 tenure 用户和高 tenure 用户之间的差异；后者定义为至少 6 个月前注册 Claude 的用户，低 tenure 用户则为其他所有用户。10 高 tenure 用户更可能使用 Claude 对自己的工作进行 iterate（迭代），并且更不可能通过 directive 使用模式将更大责任委托给 Claude。他们将 Claude 用于工作的概率高 7 个百分点，并且使用 Claude 处理往往需要更高教育水平的任务。最后，他们的使用较少集中于特定任务。前 10 个 O*NET 任务占高 tenure 组使用量的份额略低（20.7%，相比之下低 tenure 组为 22.2%）。

下面，我们进一步分析上述 primitives 中的两个：与每次对话相关的人类受教育年限，以及 transcript 中用于个人用途的份额。

在左图中，我们显示，理解人类 prompt 所需的受教育年限，会随着 Claude 使用时间每增加一年而增加近 1 年。在右图中，我们显示，与此同时，个人用途下降：一年前注册的人将 38% 的对话用于个人用例，而最新用户为 44%。

对于一种快速发展的通用技术，其用户群中的这些模式可能由多个因素解释。高 tenure 用户是自我选择的，这里的差异可能反映稳定特征。例如，他们可能是更有可能成为早期采用者的计算机程序员。此外，这里存在固有的 survivorship bias（幸存者偏差）：在我们抽取数据前一年注册的人，可能是在使用中看到了积极结果。我们观察不到一年前注册但现在已不再使用 Claude 的人。

这些发现与我们在 Economic Primitives 报告中看到的情况相呼应：收入较低、教育程度较低的国家，在某些情况下反而显示出更复杂的使用。最早的采用者通常拥有高价值、技术性用例。在 AI 采用率低得多的较贫穷国家，这些早期采用者仍然主导用户群。

当 AI 扩散到更广泛人群时，更轻度的使用就会出现。事实上，在 request cluster（请求聚类）中，平均 tenure 最高的任务包括：AI research、git operations、revising manuscripts 和 startup fundraising。平均 tenure 最低的任务则包含更简单的 workflow，例如写 haikus、查询体育比分，以及为聚会推荐食物。11

我们在下面的 Figure 2.4 中进一步探讨这些关系，使用 log-level 数据对对话特征进行细粒度控制。在上方面板中，specification (1) 展示了一个简单的二元回归，以任务成功作为结果变量，以 long-tenure indicator 作为预测变量。Success 是 Claude 对对话是否成功的评估，已在上一份报告中描述。图表显示，long-tenure 用户的对话成功率约高 5 个百分点。

这可能反映出高 tenure 用户更擅长 prompting。但如果这反映的是他们带给 Claude 的任务不同——那些更容易成功的任务——又该如何解释？

在 Specification (2) 中，我们纳入了特定 O*NET 任务和 request cluster 的 fixed effects（固定效应）。这相当于在同一个狭义定义的任务内部比较高 tenure 和低 tenure 用户，而不是跨任务比较。例如，我们有一个 request cluster 名为“Perform corporate financial analysis, valuation, and modeling for specific companies”。固定效应会在该 cluster 内比较高 tenure 和低 tenure 用户，并在其他每个 cluster 内同样比较。只有当 long-tenure 用户在这些任务内比较中平均更成功时，我们才会观察到正系数。这一控制在一定程度上削弱了效果，使其接近 3 个百分点。

最后，我们询问这一关系是否受到高 tenure 用户选择不同模型、使用不同语言交流、拥有不同用例，或来自不同国家的影响。该回归得到的高 tenure 影响略高，表明在纳入完整控制后，成功率高出 4 个百分点。

这些结果表明，高 tenure 用户在 Claude 对话中更成功，而且这并非由语言或所执行任务等简单因素导致。一个值得关注的潜在解释是，这些用户更好地学会了从 AI 中提取自己想要的结果。熟练使用这些平台可能是成功的关键决定因素，并且似乎会随经验增长而提升。

本报告重新审视了我们用于跟踪 Claude 使用情况的核心指标，并首次分析了 model selection 和 success。自 2025 年 8 月以来，1P API 使用变得更加集中，前 10 个 O*NET 任务现在占流量的 33%，高于此前的 28%。另一方面，自 2025 年 11 月数据以来，Claude.ai 任务更加多样化。在美国，低使用量州的采用速度更快这一趋势仍在继续，但速度慢于上一份报告。低采用率国家则略微进一步落后。

通过本报告，我们可以开始描绘各种 economic primitives 如何变化。Coursework 在使用中的占比下降，而个人对话增加。我们还注意到，Claude.ai 上 prompt 的总体复杂度略有下降，Claude.ai 中的对话显示出不那么复杂的输入，以及更短的估计完成时间。

总体而言，Claude 被用于高价值、复杂工作，而这些工作并不能广泛代表美国经济。但随着用户群扩大，报酬较低的任务在流量中所占份额略有上升。任务平均价值——以与这些任务相关职业中的工人估计工资衡量——自第一份报告以来在 Claude.ai 上有所下降，而在 API 用户中上升。在两个界面上，用户都会将最复杂的任务交给我们更强大的模型类别 Opus。这一拐点在 API 客户中更明显。

更有经验的用户往往以更协作的方式使用 Claude，更多出于工作相关原因，用于更复杂任务，并取得更高成功率。这反驳了我们去年提出的一个假设，即自动化使用可能更典型地出现在更有经验、更成熟的用户中；相反，我们发现最高阶用户更可能与 Claude 进行 iterate。这也与 learning-by-doing 一致：一个人使用 AI 的时间越长，就越能有效利用它。

当然，另一种解释是，这些结果由 cohort effects（队列效应）或 survivorship bias 驱动。早期采用者可能更技术化。持续使用 Claude 的人，可能是那些拥有 Claude 特别适合执行的任务的人。但经过仔细控制的回归排除了这种混杂的简单版本，例如 long-tenured 用户带来不同类型任务这一解释。随着时间推移，我们将能够更清晰地区分 cohort effects、survivorship bias 与 learning-by-doing。

这些观测到的成功率差异可能会加深劳动力市场中的不平等。经济学家长期以来指出 skill-biased technological change（技能偏向型技术变革）的可能性：创新提高高技能工人的工资，同时压低其他人的工资。本报告的分析识别出这样一种技能偏向型转型可能已经展开的渠道：拥有高技能任务的早期采用者，与 Claude 的交互比更晚、技术性较弱的采用者更成功。这些早期采用用户可能同时是最暴露于 AI 驱动扰动的人，也是在这些早期、增强式采用浪潮中最受 AI 帮助的人。

可在此处获取。

本报告的数据可在此处获取。

Maxim Massenkoff, Eva Lyubich, Peter McCrory

*报告主要作者

Ruth Appel, Ryan Heller

Tim Belonax, Keir Bradwell, Andy Braden, Dexter Callender III, Miriam Chaum, Madison Clark, Evan Frondorf, Deep Ganguli, Kunal Handa, Hanah Ho, Owen Kaye-Kauderer, Jennifer Martinez, Miles McCain, Jared Mueller, Kelsey Nanan, Tyler Neylon, Dianne Penn, Sarah Pollack, Ankur Rathi, David Saunders, Michael Stern, Alex Tamkin, Kim Withee, Jack Clark

译自 Anthropic · 研究 · 录于二〇二六年五月八日