一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Length Value Model:面向 Token 级长度建模的可扩展 Value 预训练

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Zhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen 等 14 位
来自 Apple
二〇二六年五月一日 · arXiv:2604.27039 · PDF · Code

Token 是现代 autoregressive models 中的基本计算单元,生成长度会直接影响 inference cost 和 reasoning performance。尽管生成长度很重要,现有方法仍缺乏细粒度的长度建模,主要停留在粗粒度的序列层面。我们提出 Length Value Model (LenVM),这是一个 token-level framework,用于建模剩余生成长度。通过将长度建模表述为 value estimation 问题,并为每个生成的 token 分配一个恒定的负 reward,LenVM 预测一个有界的 discounted return,作为剩余生成范围的单调 proxy。这一表述带来了无需 annotation、dense、unbiased 且可扩展的监督信号。

在 LLMs 和 VLMs 上的实验表明,LenVM 在 inference time 提供了非常有效的信号。在 LIFEBench exact length matching 任务中,将 LenVM 应用于一个 7B 模型,可将 length score 从 30.9 提升到 64.8,显著优于前沿闭源模型。此外,LenVM 能够连续控制 performance 与 efficiency 之间的 trade off。在 GSM8K 上,当预算为 200 tokens 时,LenVM 保持 63% accuracy,而 token budget baseline 仅为 6%。它还能够从 prompt 边界准确预测总生成长度。

最后,LenVM 的 token-level values 为生成动态提供了可解释视角,揭示了特定 token 如何将 reasoning 推向更短或更长的模式。结果表明,LenVM 支持广泛的应用,并且 token length 可以被有效建模为 token-level value signal,这凸显了 LenVM 作为通用长度建模框架的潜力,以及作为特定于长度的 value signal 支持未来 RL training 的潜力。代码见 https://github.com/eric-ai-lab/Length-Value-Model.

译自 Hugging Face · Daily Papers · arXiv:2604.27039 · 录于 二〇二六年五月一日