一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@karpathy 从我的时间线看,人们对 AI 能力的理解差距正在扩大

@karpathy Judging by my tl there is a growing gap in understanding of AI capabi…

二〇二六年五月八日 · 英文原文

作者指出,AI 能力认知差距来自使用层级和场景差异:免费旧版 ChatGPT/Advanced Voice Mode 不能代表 SOTA agentic models;付费用户在编程、数学、研究中使用 OpenAI Codex、Claude Code,可让模型执行重构代码库、漏洞发现等任务,因 verifiable rewards 和 b2b 价值成为优化重点。

从我的时间线来看,人们对 AI 能力的理解差距正在扩大。

我认为第一个问题在于近期体验和使用层级。很多人去年某个时候试用了 ChatGPT 的免费层,并让这次体验在很大程度上塑造了他们对 AI 的看法。这类反应通常是在嘲笑模型的各种怪癖、hallucination(幻觉)等。是的,我也看过那些病毒式传播的视频,OpenAI 的 Advanced Voice Mode 在“我应该开车还是走路去洗车店”这类简单问题上出错。但问题在于,这些免费且旧的/已弃用的模型,并不能反映今年最新一轮 SOTA agentic models(具备 agent 能力的模型)的能力,尤其是 OpenAI Codex 和 Claude Code。

但这引出了第二个问题。即使人们每月支付 $200 使用 SOTA models,很多能力也相对集中在高度技术性的领域。围绕搜索、写作、建议等的典型 query,并不是能力提升最明显、最剧烈的领域。部分原因在于 reinforcement learning(强化学习)的技术细节以及其对 verifiable rewards(可验证奖励)的使用。但部分原因也在于,这些 use case 在公司的 hillclimbing(爬坡式优化)过程中优先级不够高,因为它们带来的 $$$ 价值没有那么大。金矿在别处,重点也随之转移。

所以这就带到了第二类人:他们同时 1) 付费并使用 SOTA frontier agentic models(OpenAI Codex / Claude Code),并且 2) 在编程、数学和研究等技术领域中专业使用这些模型。这类人最容易出现所谓的 “AI Psychosis”,因为截至今年,这些领域里的近期改进可以说极其显著。当你把一个计算机 terminal 交给这些模型时,你现在可以看着它们解决通常需要数天/数周工作的编程问题。正是这第二类人,会对这些能力、其增长斜率,以及各种与 cyber 相关的后果赋予更高的权重。

TLDR:这两类人在互相错位地对话。现实确实可以同时成立:OpenAI 免费且我觉得有点被放养(?)的 “Advanced Voice Mode” 会在你 Instagram reels 里的最蠢问题上翻车;与此同时,OpenAI 最高层级、付费的 Codex model 会运行 1 小时,有条理地重构整个 code base,或者发现并利用计算机系统中的漏洞。这一部分真的有效,而且取得了显著进展,原因有 2 个特性:1) 这些领域提供了明确且可验证的 reward functions,因此很容易用于 reinforcement learning 训练(例如 unit tests 是否通过,是或否;相比之下,写作要难得多,因为很难显式判断);同时 2) 它们在 b2b 场景中价值高得多,这意味着团队中最大的一部分精力会集中在改进它们上。所以我们就走到了这里。

最近有人对我说,OpenClaw 时刻之所以影响这么大,是因为这是第一次有一大群非技术人士(他们原本只把 AI 理解为 ChatGPT 这个网站的同义词)体验到了最新的 agentic models。

译自 X · 研究者一手 · 录于 二〇二六年五月八日