@karpathy nanochat 现可在单卡上仅用2小时训练出GPT-2能力级模型

@karpathy nanochat now trains GPT-2 capability model in just 2 hours on a singl…

二〇二六年五月十五日 · 英文原文

摘要

nanochat 在单个 8XH100 节点上训练 2 小时即可获得 GPT-2 级别能力的模型（此前需约 3 小时）。主要改进包括 fp8 调优和将数据集从 FineWeb-edu 切换为 NVIDIA ClimbMix。开发者已让 AI Agent 自动迭代改进 nanochat，过去 12 小时内完成 110 次改动，将 d12 模型的验证损失从 0.862415 降至 0.858039，且未增加训练时间。

nanochat 现在只需在单个 8XH100 节点上训练 2 小时就能获得 GPT-2 级别能力的模型（一个月前还需要约 3 小时）。越来越接近~交互式体验了！我们做了大量调优和功能改进（fp8），但最大的变化是将数据集从 FineWeb-edu 切换为 NVIDIA ClimbMix（干得漂亮 NVIDIA！）。我之前试过 Olmo、FineWeb、DCLM，都导致性能倒退，而 ClimbMix 开箱即用效果非常好（好到我有点怀疑是否存在 Goodhart 效应，不过读了论文后感觉问题不大）。

另外，在尝试了几种设置方法后，我现在已经让 AI Agent 自动迭代改进 nanochat 了。所以我就让它一直跑着，自己放松一下，享受后 AGI 时代的感觉 :) 这里举个例子：过去约 12 小时内完成了 110 次改动，将 d12 模型的验证损失从 0.862415 降至 0.858039，且没有增加训练时间。Agent 在功能分支上工作，尝试各种想法，有效就合并，然后继续迭代。有趣的是，过去两周我几乎感觉自己在"元设置"上的迭代比直接改进 nanochat 仓库还要多——我花更多精力优化和调校 Agent 流程。

抱歉澄清一下——真正值得关注的 benchmark 是：

"哪种研究组织 Agent 代码能最快地改进 nanochat？"

这才是新的元问题。

啊对，这就是后 AGI 时代的感觉 :) 我什么都没碰。去蒸桑拿了，回见。https://t.co/odILIDAQaF

译自 X · 研究者一手 · 录于二〇二六年五月十五日