Hugging Face · Daily Papers

Length Value Model：面向 Token 级长度建模的可扩展 Value 预训练

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Zhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen 等 14 位

来自 Apple

二〇二六年五月一日 · arXiv:2604.27039 · PDF · Code

摘要

Token 是现代 autoregressive models 中的基本计算单元，生成长度会直接影响 inference cost 和 reasoning performance。尽管生成长度很重要，现有方法仍缺乏细粒度的长度建模，主要停留在粗粒度的序列层面。我们提出 Length Value Model (LenVM)，这是一个 token-level framework，用于建模剩余生成长度。通过将长度建模表述为 value estimation 问题，并为每个生成的 token 分配一个恒定的负 reward，LenVM 预测一个有界的 discounted return，作为剩余生成范围的单调 proxy。这一表述带来了无需 annotation、dense、unbiased 且可扩展的监督信号。

在 LLMs 和 VLMs 上的实验表明，LenVM 在 inference time 提供了非常有效的信号。在 LIFEBench exact length matching 任务中，将 LenVM 应用于一个 7B 模型，可将 length score 从 30.9 提升到 64.8，显著优于前沿闭源模型。此外，LenVM 能够连续控制 performance 与 efficiency 之间的 trade off。在 GSM8K 上，当预算为 200 tokens 时，LenVM 保持 63% accuracy，而 token budget baseline 仅为 6%。它还能够从 prompt 边界准确预测总生成长度。

最后，LenVM 的 token-level values 为生成动态提供了可解释视角，揭示了特定 token 如何将 reasoning 推向更短或更长的模式。结果表明，LenVM 支持广泛的应用，并且 token length 可以被有效建模为 token-level value signal，这凸显了 LenVM 作为通用长度建模框架的潜力，以及作为特定于长度的 value signal 支持未来 RL training 的潜力。代码见 https://github.com/eric-ai-lab/Length-Value-Model.