DVAO: 面向多奖励强化学习的动态方差自适应优势优化

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

Guochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

二〇二六年五月二十六日 · arXiv:2605.25604 · PDF

摘要

强化学习已成为将大型语言模型与人类意图及任务需求对齐的标准范式。尽管Group Relative Policy Optimization为Proximal Policy Optimization提供了一种高效、无需价值模型的替代方案，但将其适配到现实世界中的多奖励场景仍具挑战性。标准的标量化方法，如Reward Combination和Advantage Combination，存在显著缺陷：Reward Combination频繁生成平方量级过大的优势值，导致训练不稳定；而Advantage Combination依赖静态超参数，且忽略了跨目标的相关性。为解决这些局限，我们提出动态方差自适应优势优化（Dynamic Variance-adaptive Advantage Optimization, DVAO），该方法根据每个目标在rollout组内的经验奖励方差动态调整组合权重，有效提升学习信号较强的目标权重，同时抑制噪声较大的目标。我们从数学上证明，DVAO能保持有界的优势量级以实现稳定训练，并引入一种自适应的跨目标正则化机制。在数学推理和工具使用基准上，使用Qwen3和Qwen2.5模型进行的大量实验表明，DVAO显著优于基线方法，实现了更优的多目标Pareto前沿和稳健的训练稳定性。

译自 Hugging Face · Daily Papers · arXiv:2605.25604 · 录于二〇二六年五月二十六日