Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
Reward model(RM)已成为语言模型(LM)后训练流程中不可或缺的一环,用于支持 policy alignment 和 test-time scaling。然而,关于 RM 在代码生成中的应用研究相对较少,现有工作主要集中在 execution feedback 上。这一选择将后训练限制在对自包含可执行代码的 functional correctness 进行优化。
在本文中,我们研究了多语言、多 criteria 代码 RM 的训练与评估。为此,我们首先构建了 Themis-CodeRewardBench,这是一个用于评估代码 RM 的 benchmark,覆盖五个 preference 维度(即 criteria)和八种编程语言,并在其上分析了 50 多个代码、数学和通用 RM。我们观察到,当前 RM 除了评估 functional correctness 之外能力有限,因此开发了 Themis-CodePreference,这是迄今最大的开源代码 preference 数据集,包含超过 350k 个 preference pair,并用它训练了 Themis-RM:一组用于灵活多 criteria 评分的多语言代码 reward model,规模从 600M 到 32B 参数不等。
我们的实验和 ablation 表明,模型呈现正向 scaling 趋势;在多样化 preference 上训练时,具有较强的跨语言迁移能力;multi-criteria training 对于可靠的代码 reward modeling 至关重要。