@cwolferesearch 大多数人都知道 RL 中的 KL 正则化,但初始 …
@cwolferesearch Most people are aware of KL regularization for RL, but initial …
内容介绍 RL 中 entropy bonus 作为 regularization 的用法:按 decoding step 计算 LLM token distribution 的 entropy,并在轨迹上取平均,再乘系数 β 并入 reward 或 objective。PPO 论文采用该方法,用于降低过早 entropy collapse;近期部分 RL + reasoning 论文仍使用。
大多数人都知道 RL 中的 KL regularization,但早期工作(例如 PPO 论文)也使用 entropy bonus 作为 regularization 手段。
从信息论角度看,entropy 描述的是一个变量可能状态所对应的不确定性水平:
- 高 entropy:概率质量分散在许多结果上。
- 低 entropy:概率质量集中在少数结果上。
在 LLM 领域,我们可以测量模型 token distribution 的 entropy——低 entropy 意味着 LLM 将大部分概率分配给一小组 token,反之亦然。具体来说,可以使用图中所示公式计算 entropy。
通常,entropy 会针对每个 token 计算(即在每个 decoding step),然后在生成轨迹上取平均。见
计算出 entropy 后,我们可以把它转成 entropy bonus,并将其作为 regularization term 使用:只需乘以一个系数 β,然后并入 reward——原始 PPO 论文就是这么做的——或并入 objective function。这基本上和我们把 KL divergence 加入 RL objective 的方式相同。
entropy bonus 的目的是防止 LLM 对其 token distribution 变得过度自信,从而避免过早的 entropy collapse。
与 KL divergence 类似,entropy bonus 现在更常被并入 loss function。近期 RL 工作使用的 regularization 更少(例如,不使用 KL divergence 现在已是常见做法)。不过,你仍会看到一些近期的 RL + reasoning 论文使用 entropy bonus!例如:https://t.co/rUSdUvJyNH
更多细节可查看我最近关于 scaling + RL 的文章:https://t.co/40JcTJWyyT
应该是“见图中的代码” :)