一声棒喝,本不立文字
偏要著録,已是二义

apple-ml-research

RVPO:通过方差正则化实现风险敏感对齐

RVPO: Risk-Sensitive Alignment via Variance Regularization

二〇二六年五月九日 · 英文原文

文章提出 Reward-Variance Policy Optimization (RVPO),针对无 critic RLHF 中多目标 rewards 算术平均导致约束忽视的问题,在 advantage 聚合时加入 reward 方差惩罚,将优化目标从最大化总和转向提高多目标表现一致性,并通过 Taylor expansion 进行理论说明。

当前的无 critic RLHF 方法通过算术平均聚合多目标 rewards,使其容易受到约束忽视的影响:某个目标上的高幅度成功,可能在数值上抵消其他目标中的关键失败(例如 safety 或 formatting),从而掩盖对可靠多目标 alignment 至关重要的低表现“瓶颈” rewards。我们提出 Reward-Variance Policy Optimization (RVPO),这是一种风险敏感框架,在 advantage 聚合期间惩罚 reward 之间的方差,将目标从“最大化总和”转向“最大化一致性”。我们通过 Taylor expansion 表明……

译自 apple-ml-research · 录于 二〇二六年五月九日