Anthropic 经济指数报告:学习曲线
Anthropic Economic Index report: Learning curves
Anthropic Economic Index 分析2026年2月5日至12日 Claude.ai 与 1P API 各100万条对话。报告显示 Claude.ai 任务更分散,前10个 O*NET 任务占比由24%降至19%,augmentation 小幅上升;API 中 Computer and Mathematical 任务增加。高 tenure 用户更常用于工作和复杂任务,成功率高约3至5个百分点,Opus 更多用于高价值任务。
Anthropic Economic Index 使用我们的隐私保护数据分析系统,跟踪 Claude 在整个经济中的使用情况。这是我们尽早理解 AI 经济影响的努力的一部分,以便研究人员和政策制定者有足够时间做好准备。
这份最新报告研究了 2026 年 2 月 Claude 的使用情况,并延续了我们上一份报告(使用 2025 年 11 月数据)中提出的 economic primitives(经济基本要素)框架。我们的样本覆盖 2 月 5 日至 2 月 12 日,即 Claude Opus 4.5 发布后三个月,并与 Claude Opus 4.6 发布同期。
我们首先记录了相较于此前报告,使用情况发生了哪些变化:augmentation(增强)比例,即 AI 补充用户能力的协作式交互,在 Claude.ai 和 API 流量中都有小幅上升。在 Claude.ai 中,使用场景更加多样化,排名前 10 的任务在上个月所占使用份额低于 2025 年 11 月。因此,由于这种多样化,Claude.ai 中平均对话对应的任务工资水平较此前报告略低。
随后,我们聚焦于 Claude 对劳动力市场和更广泛经济影响的一个重要决定因素:Claude 采用过程中的学习曲线。我们提供证据表明,高 tenure(使用资历)用户已经形成了习惯和策略,使他们能够更好地利用 Claude 的能力。事实上,我们记录到,更有经验的用户不仅会尝试价值更高的任务,也更有可能在对话中引出成功的回复。
在第一章中,我们重新审视了 2026 年 1 月发布的上一份 Economic Index 报告中的发现。我们发现:
Economic Index 的一个核心发现是,Claude 的早期采用非常不均衡:Claude 在高收入国家使用更密集,在美国则更多用于知识工作者占比较高的地区,并且集中于相对少数的专业化任务和职业。
一个重要问题是,采用不平等可能如何决定 AI 的收益会在哪里、归属于谁。例如,如果有效使用 AI 需要互补技能和专业知识——我们在上一份报告中提出了这一点——而这些技能又可以通过使用和实验获得,那么早期采用带来的收益可能会自我强化。
在第二章中,我们研究用户似乎如何塑造他们从 Claude 获得的价值:他们如何将模型能力与手头任务匹配,以及使用模式和结果如何随着平台使用经验而变化。
我们首先考察 Claude 被要求执行的任务类型。我们使用隐私保护系统,该系统允许我们在聚合层面描述行为,而不暴露单个 transcript(对话记录)的内容。我们分别从 Claude.ai(面向消费者的 web 产品)和第一方 API(面向开发者、用于将 Claude 集成到产品和 workflow 中的接口)抽取 100 万条对话样本。2
Coding 仍然是我们平台上最常见的用途,与 Computer and Mathematical 职业相关的任务占 Claude.ai 对话的 35%(见 Appendix)。3 然而,在 2025 年 11 月至 2026 年 2 月之间,Claude.ai 上的用例集中度下降:最常见的前 10 个 O*NET 任务占对话比例从 24% 降至仅 19%(Figure 1.1)。
这种集中度下降部分反映出 coding 任务从 Claude.ai 迁移到了我们的第一方 API,在那里 Claude Code 已增长为样本流量中的很大一部分。Claude Code 的 agentic architecture(agent 式架构)会将 coding 工作拆分为更小的 API 调用,这些调用被标记为不同任务。因此,虽然 coding 在 API 总流量中的份额有所增长,但它分布在许多任务类别中,而不是集中在少数几类任务中。结果是,尽管 coding 活动大量涌入,API 中的任务集中度仍大致持平。
Coding 从 Claude.ai 迁移出去并不是集中度下降的唯一原因。部分下降源于两个时期之间用例组合的变化。Coursework 在对话中的占比从 19% 降至 12%,而个人用途从 35% 升至 42%。Coursework 下降的一部分可以由一些国家的校历解释:在我们的样本期内,这些国家的学生正处于寒假。4 与此同时,从 2 月前后开始增加的注册带来了更多轻度 AI 用户。
虽然 Claude 的工作任务范围变得更加多样,但几乎所有这些任务此前都曾出现在我们的数据中。在上一份报告中,我们指出 49% 的工作中,至少四分之一的任务曾使用 Claude 执行。在本次数据抽取中,这一累计估计几乎没有变化(Appendix Figure A.2)。本报告的数据中,新的 O*NET 任务数量远少于上一份报告。
自第一份报告以来,我们一直将对话归类为五种 interaction type(交互类型)之一——directive、feedback loop、task iteration、validation 和 learning——并将其分为两大类:automation(自动化)和 augmentation(增强)。5 Figure 1.3 显示,Claude.ai 中的 augmentation 略有增加。这主要由 validation 和 learning 模式的小幅上升推动。在 Appendix Figure A.3 中,我们显示 1P API 数据中的 automation 大幅下降。
我们的 API 平台继续获得相对更高份额的 Computer and Mathematical 任务(按职业类别划分的使用份额见 Appendix)。自 2025 年 8 月以来,API 中该类别任务的份额增加了 14%,而 Claude.ai 中下降了 18%。正如我们在劳动力市场影响报告中指出的,这种从 Claude.ai 向 API 的迁移可能预示相关工作的转型更为临近。Claude.ai 中与 Management 职业相关的任务从其流量的 3% 上升到 5%,来自分析类任务(例如准备投资备忘录)和回复客户问题的混合增长。
衡量 Claude 上任务组合变化的另一种方式,是观察任务平均价值的变化;我们将其定义为执行该任务的美国工人的平均时薪(Figure 1.4)。6 Claude.ai 中这一任务价值估计从 $49.3 略降至 $47.9,主要原因是简单事实性问题(例如体育比赛结果、天气)增加,以及 coding 随着迁移到 API 而减少。如我们在上一份报告中所述,我们在 Claude 上看到的任务往往需要更高教育水平。图表显示,这些任务的工资也往往高于美国全国平均水平。
虽然幅度不大,但从上一份报告到当前报告,多个 primitives 的变化都反映了 Claude.ai 上任务复杂度的类似下降。人类输入所需的平均受教育年限从 12.2 年降至 11.9 年,用户给予 AI 更多 autonomy(自主性),人类独自完成任务所需时间下降约 2 分钟。有一项变化表面上朝相反方向发展:Claude 执行的任务被判断为,对于没有 AI 的人类来说,可能性略低。
随着任务迁移到 API,它们可能更暴露于 automation。API workflow 更有可能是 directive,人类参与 loop 的需求更少。在此前一份报告中,我们强调,客户服务任务在 API 数据中很常见,例如支付和账单问题的自动化支持。这些任务使 Customer Service Representatives 的观测暴露度更高——Claude 被记录为在 automated workflow 中执行了他们很大比例的任务,因此随着 AI 扩散,这些工作可能更有可能发生变化。
我们重点列出两个在 2 月出现频率高于三个月前的 API workflow,它们在最新样本中的份额至少翻倍:7
在上一份报告中,我们指出,Anthropic AI Usage Index(AUI)在美国各州之间正迅速趋同;该指数按某一地区的劳动年龄人口对使用量进行调整:初始人均使用量较低的州呈现更快采用速度。
Figure 1.6 左图显示,在我们最新的数据中,这种趋同仍在继续,但速度有所放缓。从 2025 年 8 月到 2026 年 2 月,前五个州占人均使用量的份额从 30% 降至 24%。Gini coefficient(基尼系数)自 2025 年 8 月以来有所下降,但趋同速度已经放缓。当我们更新上一份报告中的估计时,发现按这一速度,各州大约需要 5–9 年才能达到大致相等的人均使用量,而不是 2–5 年。8
在国家层面(右图),模式相反:使用量变得略微更集中,同期 Gini 上升。人均使用 Claude 最多的国家现在占总体使用量的更大份额,前 20 个国家经人口调整后的使用份额从 45% 上升到 48%。
在本章中,我们聚焦于使用行为的两个特征,它们反映人们如何部署 AI,以及如何学习与 AI 协作:model selection(模型选择)和长期用户的习惯。
首先,我们通过研究人们何时选择 Opus——我们性能最强的模型类别——来揭示对 intelligence(智能)的需求。关于 AI 用户如何在不同模型之间选择、如何权衡速度、性能和成本,目前所知不多。如果用户会根据手头任务进行校准,我们应当看到 Opus 集中用于更困难、价值更高的工作。
接下来,我们研究使用方式如何因 tenure 而异,观察不同注册时间用户之间的差异。这有助于理解学习曲线:有经验的用户会随着时间变得更熟练吗?他们的使用方式有何不同?我们发现了与 learning-by-doing(边做边学)一致的证据。高 tenure 用户不仅在对话中有更高成功率,也更常与 Claude 协作,将更具挑战性的任务交给 Claude,并且更可能将 Claude 用于工作目的和更广泛的任务范围。
不同 Claude 模型类别(Haiku、Sonnet 和 Opus)在成本、速度和性能之间提供不同取舍。Opus 类模型使用最多 tokens,并擅长复杂任务,但在我们的 API 上每 token 价格更高。如果用户意识到这一点,并且在意成本和使用限制,他们应当把最复杂、最有价值的任务交给 Opus,同时为较简单任务选择其他模型。总体而言,这正是我们在数据中观察到的情况。
下面的 Figure 2.1 显示,对于可访问所有模型类别的 Claude.ai 付费账户,55% 的 Computer and Mathematical 任务(如编写软件)使用 Opus,而 Educational 任务中这一比例为 45%。技术用户可能注意到性能提升,并主动从默认模型 Sonnet 切换出去。或者,注重效率的用户可能学会对较简单任务使用 Sonnet,以避免触及使用限制。与此相关,这里的差异也可能反映出大多数教育任务对 Sonnet 来说已经相当容易,或者学生更可能在意使用限制。
下面的 Figure 2.2 以更细粒度展示了这一点。当用户执行与高薪工作相关的任务时,他们更常使用 Opus。例如,在 Claude.ai 上,34% 的 Software Developer 任务涉及 Opus,而 Tutor 任务只有 12%。总体而言,对 Claude.ai 用户来说,任务时薪每增加 $10,使用 Opus 的对话份额就增加 1.5 个百分点。1P API 流量对任务复杂度的反应更明显。其斜率约为两倍,任务价值每增加 $10,Opus 份额增加 2.8 个百分点。与 web 用户相比,部署 programmatic workflow 的用户可能有更多理由在模型之间切换。
第一个 Claude 模型于 2023 年 3 月发布。此后,Claude.ai 和 API 的用户群都快速增长。我们的最新样本包含不同类型的用户:有些人在 Claude 首次发布时就注册了,有些人则是在我们测量其使用情况的前一天才注册。一个人与 Claude 的 tenure 会如何塑造其使用体验?9
Table 2.1 显示了低 tenure 用户和高 tenure 用户之间的差异;后者定义为至少 6 个月前注册 Claude 的用户,低 tenure 用户则为其他所有用户。10 高 tenure 用户更可能使用 Claude 对自己的工作进行 iterate(迭代),并且更不可能通过 directive 使用模式将更大责任委托给 Claude。他们将 Claude 用于工作的概率高 7 个百分点,并且使用 Claude 处理往往需要更高教育水平的任务。最后,他们的使用较少集中于特定任务。前 10 个 O*NET 任务占高 tenure 组使用量的份额略低(20.7%,相比之下低 tenure 组为 22.2%)。
下面,我们进一步分析上述 primitives 中的两个:与每次对话相关的人类受教育年限,以及 transcript 中用于个人用途的份额。
在左图中,我们显示,理解人类 prompt 所需的受教育年限,会随着 Claude 使用时间每增加一年而增加近 1 年。在右图中,我们显示,与此同时,个人用途下降:一年前注册的人将 38% 的对话用于个人用例,而最新用户为 44%。
对于一种快速发展的通用技术,其用户群中的这些模式可能由多个因素解释。高 tenure 用户是自我选择的,这里的差异可能反映稳定特征。例如,他们可能是更有可能成为早期采用者的计算机程序员。此外,这里存在固有的 survivorship bias(幸存者偏差):在我们抽取数据前一年注册的人,可能是在使用中看到了积极结果。我们观察不到一年前注册但现在已不再使用 Claude 的人。
这些发现与我们在 Economic Primitives 报告中看到的情况相呼应:收入较低、教育程度较低的国家,在某些情况下反而显示出更复杂的使用。最早的采用者通常拥有高价值、技术性用例。在 AI 采用率低得多的较贫穷国家,这些早期采用者仍然主导用户群。
当 AI 扩散到更广泛人群时,更轻度的使用就会出现。事实上,在 request cluster(请求聚类)中,平均 tenure 最高的任务包括:AI research、git operations、revising manuscripts 和 startup fundraising。平均 tenure 最低的任务则包含更简单的 workflow,例如写 haikus、查询体育比分,以及为聚会推荐食物。11
我们在下面的 Figure 2.4 中进一步探讨这些关系,使用 log-level 数据对对话特征进行细粒度控制。在上方面板中,specification (1) 展示了一个简单的二元回归,以任务成功作为结果变量,以 long-tenure indicator 作为预测变量。Success 是 Claude 对对话是否成功的评估,已在上一份报告中描述。图表显示,long-tenure 用户的对话成功率约高 5 个百分点。
这可能反映出高 tenure 用户更擅长 prompting。但如果这反映的是他们带给 Claude 的任务不同——那些更容易成功的任务——又该如何解释?
在 Specification (2) 中,我们纳入了特定 O*NET 任务和 request cluster 的 fixed effects(固定效应)。这相当于在同一个狭义定义的任务内部比较高 tenure 和低 tenure 用户,而不是跨任务比较。例如,我们有一个 request cluster 名为“Perform corporate financial analysis, valuation, and modeling for specific companies”。固定效应会在该 cluster 内比较高 tenure 和低 tenure 用户,并在其他每个 cluster 内同样比较。只有当 long-tenure 用户在这些任务内比较中平均更成功时,我们才会观察到正系数。这一控制在一定程度上削弱了效果,使其接近 3 个百分点。
最后,我们询问这一关系是否受到高 tenure 用户选择不同模型、使用不同语言交流、拥有不同用例,或来自不同国家的影响。该回归得到的高 tenure 影响略高,表明在纳入完整控制后,成功率高出 4 个百分点。
这些结果表明,高 tenure 用户在 Claude 对话中更成功,而且这并非由语言或所执行任务等简单因素导致。一个值得关注的潜在解释是,这些用户更好地学会了从 AI 中提取自己想要的结果。熟练使用这些平台可能是成功的关键决定因素,并且似乎会随经验增长而提升。
本报告重新审视了我们用于跟踪 Claude 使用情况的核心指标,并首次分析了 model selection 和 success。自 2025 年 8 月以来,1P API 使用变得更加集中,前 10 个 O*NET 任务现在占流量的 33%,高于此前的 28%。另一方面,自 2025 年 11 月数据以来,Claude.ai 任务更加多样化。在美国,低使用量州的采用速度更快这一趋势仍在继续,但速度慢于上一份报告。低采用率国家则略微进一步落后。
通过本报告,我们可以开始描绘各种 economic primitives 如何变化。Coursework 在使用中的占比下降,而个人对话增加。我们还注意到,Claude.ai 上 prompt 的总体复杂度略有下降,Claude.ai 中的对话显示出不那么复杂的输入,以及更短的估计完成时间。
总体而言,Claude 被用于高价值、复杂工作,而这些工作并不能广泛代表美国经济。但随着用户群扩大,报酬较低的任务在流量中所占份额略有上升。任务平均价值——以与这些任务相关职业中的工人估计工资衡量——自第一份报告以来在 Claude.ai 上有所下降,而在 API 用户中上升。在两个界面上,用户都会将最复杂的任务交给我们更强大的模型类别 Opus。这一拐点在 API 客户中更明显。
更有经验的用户往往以更协作的方式使用 Claude,更多出于工作相关原因,用于更复杂任务,并取得更高成功率。这反驳了我们去年提出的一个假设,即自动化使用可能更典型地出现在更有经验、更成熟的用户中;相反,我们发现最高阶用户更可能与 Claude 进行 iterate。这也与 learning-by-doing 一致:一个人使用 AI 的时间越长,就越能有效利用它。
当然,另一种解释是,这些结果由 cohort effects(队列效应)或 survivorship bias 驱动。早期采用者可能更技术化。持续使用 Claude 的人,可能是那些拥有 Claude 特别适合执行的任务的人。但经过仔细控制的回归排除了这种混杂的简单版本,例如 long-tenured 用户带来不同类型任务这一解释。随着时间推移,我们将能够更清晰地区分 cohort effects、survivorship bias 与 learning-by-doing。
这些观测到的成功率差异可能会加深劳动力市场中的不平等。经济学家长期以来指出 skill-biased technological change(技能偏向型技术变革)的可能性:创新提高高技能工人的工资,同时压低其他人的工资。本报告的分析识别出这样一种技能偏向型转型可能已经展开的渠道:拥有高技能任务的早期采用者,与 Claude 的交互比更晚、技术性较弱的采用者更成功。这些早期采用用户可能同时是最暴露于 AI 驱动扰动的人,也是在这些早期、增强式采用浪潮中最受 AI 帮助的人。
可在此处获取。
本报告的数据可在此处获取。
Maxim Massenkoff, Eva Lyubich, Peter McCrory
*报告主要作者
Ruth Appel, Ryan Heller
Tim Belonax, Keir Bradwell, Andy Braden, Dexter Callender III, Miriam Chaum, Madison Clark, Evan Frondorf, Deep Ganguli, Kunal Handa, Hanah Ho, Owen Kaye-Kauderer, Jennifer Martinez, Miles McCain, Jared Mueller, Kelsey Nanan, Tyler Neylon, Dianne Penn, Sarah Pollack, Ankur Rathi, David Saunders, Michael Stern, Alex Tamkin, Kim Withee, Jack Clark