@karpathy nanochat 现可在单卡上仅用2小时训练出GPT-2能力级模型
@karpathy nanochat now trains GPT-2 capability model in just 2 hours on a singl…
nanochat 在单个 8XH100 节点上训练 2 小时即可获得 GPT-2 级别能力的模型(此前需约 3 小时)。主要改进包括 fp8 调优和将数据集从 FineWeb-edu 切换为 NVIDIA ClimbMix。开发者已让 AI Agent 自动迭代改进 nanochat,过去 12 小时内完成 110 次改动,将 d12 模型的验证损失从 0.862415 降至 0.858039,且未增加训练时间。
nanochat 现在只需在单个 8XH100 节点上训练 2 小时就能获得 GPT-2 级别能力的模型(一个月前还需要约 3 小时)。越来越接近~交互式体验了!我们做了大量调优和功能改进(fp8),但最大的变化是将数据集从 FineWeb-edu 切换为 NVIDIA ClimbMix(干得漂亮 NVIDIA!)。我之前试过 Olmo、FineWeb、DCLM,都导致性能倒退,而 ClimbMix 开箱即用效果非常好(好到我有点怀疑是否存在 Goodhart 效应,不过读了论文后感觉问题不大)。
另外,在尝试了几种设置方法后,我现在已经让 AI Agent 自动迭代改进 nanochat 了。所以我就让它一直跑着,自己放松一下,享受后 AGI 时代的感觉 :) 这里举个例子:过去约 12 小时内完成了 110 次改动,将 d12 模型的验证损失从 0.862415 降至 0.858039,且没有增加训练时间。Agent 在功能分支上工作,尝试各种想法,有效就合并,然后继续迭代。有趣的是,过去两周我几乎感觉自己在"元设置"上的迭代比直接改进 nanochat 仓库还要多——我花更多精力优化和调校 Agent 流程。
抱歉澄清一下——真正值得关注的 benchmark 是:
"哪种研究组织 Agent 代码能最快地改进 nanochat?"
这才是新的元问题。
啊对,这就是后 AGI 时代的感觉 :) 我什么都没碰。去蒸桑拿了,回见。https://t.co/odILIDAQaF