ProRL:通过修正策略梯度估计实现主动推荐的有效强化学习
ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation
来自 Fudan University
摘要
主动推荐系统(PRS)旨在通过生成中间推荐路径,引导用户偏好向目标物品转移。强化学习(RL)为优化此类序列决策任务提供了原则性框架,因为路径奖励能自然捕捉短期接受度与长期引导有效性。然而,将策略梯度直接应用于PRS会导致梯度估计存在缺陷。我们识别出两个缺陷:(1)路径级奖励分解为具有正均值的步骤级奖励,产生长度依赖偏差,导致梯度倾向于路径延伸而非有意义的探索;(2)用整个路径级奖励对每一步进行加权忽略了分解结构,导致梯度方差过高。为修正这两个缺陷,我们提出了一种有效的RL框架ProRL,其中包含两种针对主动推荐的新机制。首先,逐步奖励中心化(Stepwise Reward Centering)减去期望奖励以消除长度依赖偏差,确保路径延伸产生零期望梯度信号。其次,位置特定优势估计(Position-Specific Advantage Estimation)利用奖励分解结构计算步骤依赖的基线,降低梯度方差。这两种机制共同产生精准针对路径质量的策略梯度。我们在三个真实世界数据集上的实验表明,ProRL显著优于当前最先进的PRS。我们的代码已开源:https://github.com/hongruhou89/ProRL。
译自 Hugging Face · Daily Papers · arXiv:2605.28293 · 录于 二〇二六年五月二十八日