参数高尔夫教给我们的AI辅助研究经验
What Parameter Golf taught us about AI-assisted research
OpenAI 推出 Parameter Golf 挑战,要求参与者在固定 FineWeb 数据集上最小化留出集损失,提交物(含模型权重和训练代码)限制在 16 MB 内,训练预算为 8×H100 运行 10 分钟。八周内收到超 1000 名参与者的 2000 多份提交,涵盖训练优化、量化、测试时训练及新建模思路。组织者开发了基于 Codex 的分类机器人辅助审查。RunPod 赞助了 100 万美元计算资源。
我们推出了 Parameter Golf,旨在吸引并支持机器学习研究社区探索一个全新的、严格受限的机器学习问题。我们希望这个挑战足够有趣,能够奖励真正的技术创造力,同时保持概念上的简洁和易于验证。
参与者需要在一个固定的 FineWeb 数据集上最小化留出集(held-out)的损失,同时将整个提交物(artifact)限制在 16 MB 以内(包括模型权重和训练代码),并且训练预算为在 8×H100 上运行 10 分钟。我们提供了基线模型、数据集和评估脚本,以便参与者可以复刻(fork)代码仓库、改进模型,并通过 GitHub 提交结果。
在八周的时间里,我们收到了来自超过 1000 名参与者的 2000 多份提交。从精心的优化器调优和量化工作,到新的建模思路和测试时训练,这些提交在技术广度、创造力和规则边缘的探索方面都给我们留下了深刻印象。
这个挑战最激动人心的部分之一,是看到参与者如此广泛地使用 AI 编码智能体(coding agents)。智能体帮助降低了实验成本,让更多人更容易参与,并改变了比赛的节奏。它们也为提交审核、归属认定和评分带来了新的挑战。
这个挑战也成为了我们一个有意义的人才发现渠道。这是我们为 Parameter Golf 设定的目标之一,也是一个有用的信号,表明开放式技术挑战能够揭示出非凡的机器学习品味和毅力。
在这篇文章中,我们将重点介绍一些我们认为令人惊讶和有趣的提交,并分享我们在强大的 AI 智能体时代举办编程竞赛中学到的东西。
技术印象
我们对记录赛道(record-track)排行榜上的每个提交进行了评判和独立复现,并验证了每个提交在提交时都是破纪录的。有几个主题尤为突出。
训练优化
一些最强结果来自于对现有组件的精心调优。
提交贡献者技术****重要性 @notapplica 结合了来自 #50、#42 以及可能 #39 的先前获胜方案,然后通过 Muon 权重衰减、谱嵌入初始化、残差混合调度和编译评估,使一个更深的模型得以工作。一个纪律严明的排行榜工作的优秀范例:识别哪些现有改进是重要的,并将其干净地组合起来。
量化
一些提交在压缩和导出方面下了很大功夫。
提交贡献者技术****重要性 #414@signalrush 使用 GPTQ-lite 在训练后对权重进行量化。首个成功使用 GPTQ-lite 的排行榜提交,带来了更好的评估结果。 #1060@dexhunter 基于 @raahilshah 的 #634 提交,成功使用了完整的 Hessian GPTQ。将早期的量化工作扩展为更强的压缩路径。
测试时与评估策略
一些提交推动了模型改进与评估策略之间的界限。这些方法在规则下是有效的,但需要我们作为组织者进行仔细审查。
提交贡献者技术****重要性 #77@samacqua 使用了先评分、后逐文档的 LoRA 测试时训练:先评分,仅在已评分的块上进行适配,并在文档边界处重置。在规则可审查的前提下,推动了模型改进与评估策略之间的界限。 #1019@abaybektursun 使用了自生成的 GPTQ 校准:从训练好的模型生成校准文本,然后从这些激活值构建 GPTQ Hessian 矩阵。一种创造性的校准策略,需要组织者仔细审查。
新的建模与数据思路
一些提交引入了特别有创意的建模或数据思路。
提交贡献者技术****重要性 #1729@romeerp 引入了 CaseOps 分词器:无损的大小写操作符 token,带有原始字节 BPB 辅助记账。一个创造性的分词器和数据表示思路。 #265@unnir 引入了 XSA,一种高效的、具有 GQA 感知分组视图的部分独占自注意力(Exclusive Self Attention)方法。为挑战带来了一种高效的注意力变体。 #65@aquariouseworkman 引入了 SmearGate 和 BigramHash:一种学习到的前一个 token 嵌入混合加上相邻 token 对哈希特征。从头开始添加了新的特征机制。 #1204@msisovic 引入了迷你深度循环:重复第 4 层和第 5 层,在训练中期才启用循环,并部分解绑了重复的 MLP。首个被接受的、使循环层有效工作的排行榜行。
我们选择重点介绍这九个提交,因为它们代表了我们希望挑战能够呈现的结果范围。一些参与者通过精心调优取得了成功。另一些则推动了量化和低秩技术。还有一些探索了评估规则的边缘。此外,有几个提交引入了来自文献或从零开始的建模或数据思路,并产生了意想不到的收益。
非记录赛道(nonrecord track)是许多创意提交的温床。我们重点介绍了 15 个最喜欢的提交,包括从非自回归文本建模到动态分词化等各种方法。
由于这个赛道更具实验性,我们更少关注原始性能,而更多关注该方法在技术上是否有趣。有三个提交尤其突出:
这是我们最喜欢的三个非记录赛道提交,尽管它们在性能上不一定是前三名。
话虽如此,非记录赛道仍然竞争激烈。非记录排行榜上一半的提交都优于 1.22 BPB 的朴素基线,而排名第一的提交达到了 1.12 BPB。
我们对此感到鼓舞。即使面对强大的 Transformer 基线,替代方法有时也能与主流架构一较高下。
我们还认为,这个赛道尤其受益于强大编码智能体的可用性。智能体使得原型化推测性想法变得更加便宜,包括那些在短期竞赛中可能以前感觉过于耗时或不确定而不敢尝试的方法。
经验教训
Parameter Golf 与之前类似竞赛的一个主要区别是编码智能体的广泛使用。绝大多数提交者都提到在他们的工作中使用了智能体。
这降低了参与门槛。参与者可以更快地设置实验、检查不熟悉的代码,并以更少的摩擦测试想法。RunPod 赞助的 100 万美元计算资源也在使更多人能够参与挑战方面发挥了重要作用。
同时,智能体的使用也给提交和评分带来了新问题。许多提交只是对现有高分提交的小改动,而不是根本性的新方法。这通常是有用的:好的想法传播迅速,并被其他人改进。但这也造成了噪音。当不符合竞赛指南的提交产生了异常高的分数时,其他智能体有时会复制这些想法,并沿着同样的无效路径继续下去。
提交的数量也改变了我们运营竞赛的方式。我们无法手动检查每一份提交,同时还能保持排行榜的更新。在挑战期间,我们开发了一个基于 Codex 的内部分类机器人,用于监控新的提交并将其标记出来供人工审查。在我们每天收到数百份提交的时期,这一点变得尤为重要。
AI 智能体也成为了挑战社区的一部分。在比赛的大部分时间里,@notapplica 和他们的编码智能体运行着一个“实时更新”公告栏,追踪重大事件,解释排行榜上的方法,并帮助其他参与者跟上比赛节奏。社区审查工具也出现了,帮助经验不足的参与者检查他们的提交是否符合规则,并避免常见的无效方法。
接下来是什么?
我们的主要目标是发起一个挑战,让符合条件的参与者(在新窗口中打开)能够参与并体验机器学习研究。Parameter Golf 吸引了大量技术实力强且富有创意的提交,并让我们更清晰地看到,随着 AI 智能体能力越来越强、使用越来越广泛,开放研究竞赛可能会如何演变。