X · 研究者一手

@cwolferesearch 大多数人都知道 RL 中的 KL 正则化，但初始 …

@cwolferesearch Most people are aware of KL regularization for RL, but initial …

二〇二六年五月八日 · 英文原文

摘要

内容介绍 RL 中 entropy bonus 作为 regularization 的用法：按 decoding step 计算 LLM token distribution 的 entropy，并在轨迹上取平均，再乘系数 β 并入 reward 或 objective。PPO 论文采用该方法，用于降低过早 entropy collapse；近期部分 RL + reasoning 论文仍使用。

大多数人都知道 RL 中的 KL regularization，但早期工作（例如 PPO 论文）也使用 entropy bonus 作为 regularization 手段。

从信息论角度看，entropy 描述的是一个变量可能状态所对应的不确定性水平：

高 entropy：概率质量分散在许多结果上。
低 entropy：概率质量集中在少数结果上。

在 LLM 领域，我们可以测量模型 token distribution 的 entropy——低 entropy 意味着 LLM 将大部分概率分配给一小组 token，反之亦然。具体来说，可以使用图中所示公式计算 entropy。

通常，entropy 会针对每个 token 计算（即在每个 decoding step），然后在生成轨迹上取平均。见

计算出 entropy 后，我们可以把它转成 entropy bonus，并将其作为 regularization term 使用：只需乘以一个系数 β，然后并入 reward——原始 PPO 论文就是这么做的——或并入 objective function。这基本上和我们把 KL divergence 加入 RL objective 的方式相同。

entropy bonus 的目的是防止 LLM 对其 token distribution 变得过度自信，从而避免过早的 entropy collapse。

与 KL divergence 类似，entropy bonus 现在更常被并入 loss function。近期 RL 工作使用的 regularization 更少（例如，不使用 KL divergence 现在已是常见做法）。不过，你仍会看到一些近期的 RL + reasoning 论文使用 entropy bonus！例如：https://t.co/rUSdUvJyNH

更多细节可查看我最近关于 scaling + RL 的文章：https://t.co/40JcTJWyyT

应该是“见图中的代码” :)

译自 X · 研究者一手 · 录于二〇二六年五月八日