Hugging Face · Daily Papers

Themis：训练鲁棒的多语言代码奖励模型，用于灵活的多标准评分

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Indraneil Paul, Glavaš Glavas, Iryna Gurevych

来自 Themis

二〇二六年五月四日 · arXiv:2605.00754 · PDF · Code

摘要

Reward model（RM）已成为语言模型（LM）后训练流程中不可或缺的一环，用于支持 policy alignment 和 test-time scaling。然而，关于 RM 在代码生成中的应用研究相对较少，现有工作主要集中在 execution feedback 上。这一选择将后训练限制在对自包含可执行代码的 functional correctness 进行优化。

在本文中，我们研究了多语言、多 criteria 代码 RM 的训练与评估。为此，我们首先构建了 Themis-CodeRewardBench，这是一个用于评估代码 RM 的 benchmark，覆盖五个 preference 维度（即 criteria）和八种编程语言，并在其上分析了 50 多个代码、数学和通用 RM。我们观察到，当前 RM 除了评估 functional correctness 之外能力有限，因此开发了 Themis-CodePreference，这是迄今最大的开源代码 preference 数据集，包含超过 350k 个 preference pair，并用它训练了 Themis-RM：一组用于灵活多 criteria 评分的多语言代码 reward model，规模从 600M 到 32B 参数不等。

我们的实验和 ablation 表明，模型呈现正向 scaling 趋势；在多样化 preference 上训练时，具有较强的跨语言迁移能力；multi-criteria training 对于可靠的代码 reward modeling 至关重要。