通过简单统一缩放实现金牌级奥赛推理
Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
摘要
近期推理模型的进展显著推动了长程数学与科学问题的求解能力,多个系统已在国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)题目上达到金牌水平。本文提出一种简单统一的方案,将后训练推理主干模型转化为严格的奥赛级求解器。该方案首先采用基于反向困惑度课程表的SFT(监督微调)来灌输严谨的证明搜索与自我验证行为,随后通过两阶段RL(强化学习)流水线扩展这些行为——从基于可验证奖励的RL逐步过渡到更精细的证明级RL,最后利用测试时扩展提升求解性能。应用该方案,我们在约34万条长度不超过8K token的轨迹上对30B-A3B主干模型进行SFT,随后执行200步RL。由此得到的模型SU-01能够稳定处理轨迹超过10万token的难题,并在数学与物理奥赛(包括IMO 2025/USAMO 2026和IPhO 2024/2025)中达到金牌水平。此外,该模型还展现出将科学推理能力泛化至数学与物理之外领域的强大能力。
译自 Hugging Face · Daily Papers · arXiv:2605.13301 · 录于 二〇二六年五月十五日