Hugging Face · Daily Papers

LLM 通过 Latent Distilling 进行探索

Large Language Models Explore by Latent Distilling

Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

二〇二六年五月八日 · arXiv:2604.24927 · PDF · Code

摘要

生成多样化回答对大语言模型（LLM）的 test-time scaling 至关重要，但标准 stochastic sampling 大多只产生表层词汇变化，限制了语义层面的探索。本文提出 Exploratory Sampling（ESamp），一种在生成过程中显式鼓励语义多样性的 decoding 方法。ESamp 的动机来自一个广为人知的观察：neural network 往往会在与既往输入相似的输入上给出较低错误的预测，而在新颖输入上产生较高预测误差。

基于这一性质，我们在 test time 训练一个轻量级 Distiller，使其从 LLM 的浅层 representation 预测深层 hidden representation，以建模 LLM 沿深度方向的 representation transition。在 decoding 过程中，Distiller 会持续适应当前生成上下文所诱导的映射。ESamp 将预测误差作为 novelty signal，对以当前 prefix 为条件的候选 token 扩展进行重新加权，从而使 decoding 偏向较少探索过的语义模式。

ESamp 采用异步 training–inference pipeline 实现，最坏情况下开销低于 5%（优化版本为 1.2%）。实验结果表明，ESamp 显著提升了 reasoning model 的 Pass@k 效率，相比强 stochastic 和 heuristic baseline 表现更优或相当。值得注意的是，ESamp 在数学、科学和代码生成 benchmark 上具有稳健的泛化能力，并在创意写作中打破了多样性与连贯性之间的权衡。我们的代码已发布于：https://github.com/LinesHogan/tLLM.