一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@cwolferesearch 大多数人都知道 RL 中的 KL 正则化,但初始 …

@cwolferesearch Most people are aware of KL regularization for RL, but initial …

二〇二六年五月八日 · 英文原文

内容介绍 RL 中 entropy bonus 作为 regularization 的用法:按 decoding step 计算 LLM token distribution 的 entropy,并在轨迹上取平均,再乘系数 β 并入 reward 或 objective。PPO 论文采用该方法,用于降低过早 entropy collapse;近期部分 RL + reasoning 论文仍使用。

大多数人都知道 RL 中的 KL regularization,但早期工作(例如 PPO 论文)也使用 entropy bonus 作为 regularization 手段。

从信息论角度看,entropy 描述的是一个变量可能状态所对应的不确定性水平:

在 LLM 领域,我们可以测量模型 token distribution 的 entropy——低 entropy 意味着 LLM 将大部分概率分配给一小组 token,反之亦然。具体来说,可以使用图中所示公式计算 entropy。

通常,entropy 会针对每个 token 计算(即在每个 decoding step),然后在生成轨迹上取平均。见

计算出 entropy 后,我们可以把它转成 entropy bonus,并将其作为 regularization term 使用:只需乘以一个系数 β,然后并入 reward——原始 PPO 论文就是这么做的——或并入 objective function。这基本上和我们把 KL divergence 加入 RL objective 的方式相同。

entropy bonus 的目的是防止 LLM 对其 token distribution 变得过度自信,从而避免过早的 entropy collapse。

与 KL divergence 类似,entropy bonus 现在更常被并入 loss function。近期 RL 工作使用的 regularization 更少(例如,不使用 KL divergence 现在已是常见做法)。不过,你仍会看到一些近期的 RL + reasoning 论文使用 entropy bonus!例如:https://t.co/rUSdUvJyNH

更多细节可查看我最近关于 scaling + RL 的文章:https://t.co/40JcTJWyyT

应该是“见图中的代码” :)

译自 X · 研究者一手 · 录于 二〇二六年五月八日