全注意力回归：百步训练内将全注意力转为稀疏

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Yanke Zhou, Yiduo Li, Hanlin Tang, Maohua Li, Kan Liu, Lan Tao, Lin Qu, Yuan Yao 等 9 位

来自 RTP-LLM

二〇二六年五月二十二日 · arXiv:2605.16928 · PDF

摘要

大语言模型中的长上下文推理受限于全注意力的二次复杂度瓶颈。现有高效替代方案通常依赖原生稀疏训练或启发式词元驱逐，在效率、训练成本和准确性之间形成难以取舍的权衡。本研究表明，全注意力大语言模型本质上已具备稀疏性，仅需极少量适配即可转化为高度稀疏模型。我们的方法基于三个观察：（1）仅少数注意力头真正需要完整的长上下文处理；（2）长程检索主要由低维子空间主导，通过16维索引器即可高效检索相关词元；（3）有效词元预算与查询高度相关，使得动态top-p选择比固定top-k稀疏化更适用。基于这些发现，我们提出RTPurbo，该方法仅对检索头保留完整KV缓存，并为稀疏注意力引入轻量级词元索引器。通过利用模型内在稀疏性，RTPurbo仅需数百步训练即可实现稀疏化。在长上下文基准测试和推理任务上的实验表明，RTPurbo在保持近乎无损精度的同时，实现了显著效率提升，包括在1M上下文长度下获得最高9.36倍的预填充加速和约2.01倍的解码加速。这些结果表明，无需昂贵的原生稀疏预训练，即可从标准全注意力训练中获得强稀疏推理能力。

译自 Hugging Face · Daily Papers · arXiv:2605.16928 · 录于二〇二六年五月二十二日