apple-ml-research
RVPO:通过方差正则化实现风险敏感对齐
RVPO: Risk-Sensitive Alignment via Variance Regularization
摘要
文章提出 Reward-Variance Policy Optimization (RVPO),针对无 critic RLHF 中多目标 rewards 算术平均导致约束忽视的问题,在 advantage 聚合时加入 reward 方差惩罚,将优化目标从最大化总和转向提高多目标表现一致性,并通过 Taylor expansion 进行理论说明。
当前的无 critic RLHF 方法通过算术平均聚合多目标 rewards,使其容易受到约束忽视的影响:某个目标上的高幅度成功,可能在数值上抵消其他目标中的关键失败(例如 safety 或 formatting),从而掩盖对可靠多目标 alignment 至关重要的低表现“瓶颈” rewards。我们提出 Reward-Variance Policy Optimization (RVPO),这是一种风险敏感框架,在 advantage 聚合期间惩罚 reward 之间的方差,将目标从“最大化总和”转向“最大化一致性”。我们通过 Taylor expansion 表明……
译自 apple-ml-research · 录于 二〇二六年五月九日