apple-ml-research

RVPO：通过方差正则化实现风险敏感对齐

RVPO: Risk-Sensitive Alignment via Variance Regularization

二〇二六年五月九日 · 英文原文

摘要

文章提出 Reward-Variance Policy Optimization (RVPO)，针对无 critic RLHF 中多目标 rewards 算术平均导致约束忽视的问题，在 advantage 聚合时加入 reward 方差惩罚，将优化目标从最大化总和转向提高多目标表现一致性，并通过 Taylor expansion 进行理论说明。

当前的无 critic RLHF 方法通过算术平均聚合多目标 rewards，使其容易受到约束忽视的影响：某个目标上的高幅度成功，可能在数值上抵消其他目标中的关键失败（例如 safety 或 formatting），从而掩盖对可靠多目标 alignment 至关重要的低表现“瓶颈” rewards。我们提出 Reward-Variance Policy Optimization (RVPO)，这是一种风险敏感框架，在 advantage 聚合期间惩罚 reward 之间的方差，将目标从“最大化总和”转向“最大化一致性”。我们通过 Taylor expansion 表明……

译自 apple-ml-research · 录于二〇二六年五月九日