全注意力回归:百步训练内将全注意力转为稀疏
Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
来自 RTP-LLM
摘要
大语言模型中的长上下文推理受限于全注意力的二次复杂度瓶颈。现有高效替代方案通常依赖原生稀疏训练或启发式词元驱逐,在效率、训练成本和准确性之间形成难以取舍的权衡。本研究表明,全注意力大语言模型本质上已具备稀疏性,仅需极少量适配即可转化为高度稀疏模型。我们的方法基于三个观察:(1)仅少数注意力头真正需要完整的长上下文处理;(2)长程检索主要由低维子空间主导,通过16维索引器即可高效检索相关词元;(3)有效词元预算与查询高度相关,使得动态top-p选择比固定top-k稀疏化更适用。基于这些发现,我们提出RTPurbo,该方法仅对检索头保留完整KV缓存,并为稀疏注意力引入轻量级词元索引器。通过利用模型内在稀疏性,RTPurbo仅需数百步训练即可实现稀疏化。在长上下文基准测试和推理任务上的实验表明,RTPurbo在保持近乎无损精度的同时,实现了显著效率提升,包括在1M上下文长度下获得最高9.36倍的预填充加速和约2.01倍的解码加速。这些结果表明,无需昂贵的原生稀疏预训练,即可从标准全注意力训练中获得强稀疏推理能力。
译自 Hugging Face · Daily Papers · arXiv:2605.16928 · 录于 二〇二六年五月二十二日