X · 研究者一手

@karpathy 从我的时间线看，人们对 AI 能力的理解差距正在扩大

@karpathy Judging by my tl there is a growing gap in understanding of AI capabi…

二〇二六年五月八日 · 英文原文

摘要

作者指出，AI 能力认知差距来自使用层级和场景差异：免费旧版 ChatGPT/Advanced Voice Mode 不能代表 SOTA agentic models；付费用户在编程、数学、研究中使用 OpenAI Codex、Claude Code，可让模型执行重构代码库、漏洞发现等任务，因 verifiable rewards 和 b2b 价值成为优化重点。

从我的时间线来看，人们对 AI 能力的理解差距正在扩大。

我认为第一个问题在于近期体验和使用层级。很多人去年某个时候试用了 ChatGPT 的免费层，并让这次体验在很大程度上塑造了他们对 AI 的看法。这类反应通常是在嘲笑模型的各种怪癖、hallucination（幻觉）等。是的，我也看过那些病毒式传播的视频，OpenAI 的 Advanced Voice Mode 在“我应该开车还是走路去洗车店”这类简单问题上出错。但问题在于，这些免费且旧的/已弃用的模型，并不能反映今年最新一轮 SOTA agentic models（具备 agent 能力的模型）的能力，尤其是 OpenAI Codex 和 Claude Code。

但这引出了第二个问题。即使人们每月支付 $200 使用 SOTA models，很多能力也相对集中在高度技术性的领域。围绕搜索、写作、建议等的典型 query，并不是能力提升最明显、最剧烈的领域。部分原因在于 reinforcement learning（强化学习）的技术细节以及其对 verifiable rewards（可验证奖励）的使用。但部分原因也在于，这些 use case 在公司的 hillclimbing（爬坡式优化）过程中优先级不够高，因为它们带来的 $$$ 价值没有那么大。金矿在别处，重点也随之转移。

所以这就带到了第二类人：他们同时 1) 付费并使用 SOTA frontier agentic models（OpenAI Codex / Claude Code），并且 2) 在编程、数学和研究等技术领域中专业使用这些模型。这类人最容易出现所谓的 “AI Psychosis”，因为截至今年，这些领域里的近期改进可以说极其显著。当你把一个计算机 terminal 交给这些模型时，你现在可以看着它们解决通常需要数天/数周工作的编程问题。正是这第二类人，会对这些能力、其增长斜率，以及各种与 cyber 相关的后果赋予更高的权重。

TLDR：这两类人在互相错位地对话。现实确实可以同时成立：OpenAI 免费且我觉得有点被放养（？）的 “Advanced Voice Mode” 会在你 Instagram reels 里的最蠢问题上翻车；与此同时，OpenAI 最高层级、付费的 Codex model 会运行 1 小时，有条理地重构整个 code base，或者发现并利用计算机系统中的漏洞。这一部分真的有效，而且取得了显著进展，原因有 2 个特性：1) 这些领域提供了明确且可验证的 reward functions，因此很容易用于 reinforcement learning 训练（例如 unit tests 是否通过，是或否；相比之下，写作要难得多，因为很难显式判断）；同时 2) 它们在 b2b 场景中价值高得多，这意味着团队中最大的一部分精力会集中在改进它们上。所以我们就走到了这里。

最近有人对我说，OpenClaw 时刻之所以影响这么大，是因为这是第一次有一大群非技术人士（他们原本只把 AI 理解为 ChatGPT 这个网站的同义词）体验到了最新的 agentic models。

译自 X · 研究者一手 · 录于二〇二六年五月八日