ProRL：通过修正策略梯度估计实现主动推荐的有效强化学习

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

Hongru Hou, Tiehua Mei, Denghui Geng, Jinhui Huang, Ao Xu, Hengrui Chen, Jiaqing Liang, Deqing Yang

来自 Fudan University

二〇二六年五月二十八日 · arXiv:2605.28293 · PDF · Code

摘要

主动推荐系统（PRS）旨在通过生成中间推荐路径，引导用户偏好向目标物品转移。强化学习（RL）为优化此类序列决策任务提供了原则性框架，因为路径奖励能自然捕捉短期接受度与长期引导有效性。然而，将策略梯度直接应用于PRS会导致梯度估计存在缺陷。我们识别出两个缺陷：（1）路径级奖励分解为具有正均值的步骤级奖励，产生长度依赖偏差，导致梯度倾向于路径延伸而非有意义的探索；（2）用整个路径级奖励对每一步进行加权忽略了分解结构，导致梯度方差过高。为修正这两个缺陷，我们提出了一种有效的RL框架ProRL，其中包含两种针对主动推荐的新机制。首先，逐步奖励中心化（Stepwise Reward Centering）减去期望奖励以消除长度依赖偏差，确保路径延伸产生零期望梯度信号。其次，位置特定优势估计（Position-Specific Advantage Estimation）利用奖励分解结构计算步骤依赖的基线，降低梯度方差。这两种机制共同产生精准针对路径质量的策略梯度。我们在三个真实世界数据集上的实验表明，ProRL显著优于当前最先进的PRS。我们的代码已开源：https://github.com/hongruhou89/ProRL。

译自 Hugging Face · Daily Papers · arXiv:2605.28293 · 录于二〇二六年五月二十八日