Hugging Face · Daily Papers

有效训练长上下文视觉语言模型，泛化能力超越128K上下文

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu, Sijin Wu, Ji Luo, Shen Yan, Shuai Peng 等 12 位

来自 ByteDance Seed

二〇二六年五月十四日 · arXiv:2605.13831 · PDF

摘要

长上下文建模正成为现代大型视觉语言模型（LVLM）的核心能力，使其能够在长文档理解、视频分析以及智能体工作流中的多轮工具使用等场景中实现持续的上下文管理。然而，实用的训练策略仍未得到充分探索，尤其是在长上下文数据混合的设计与平衡方面。本文对LVLM的长上下文持续预训练进行了系统研究，将7B模型从32K上下文扩展到128K，并对长文档数据进行了大量消融实验。我们首先发现，长文档VQA（视觉问答）的效果显著优于OCR转录。基于这一观察，我们的消融实验进一步得出三个关键结论：i) 在序列长度分布上，平衡数据优于聚焦目标长度（如128K）的数据，这表明长上下文能力需要跨不同长度和位置的可泛化关键信息检索；ii) 检索仍是主要瓶颈，因此应优先采用检索密集型数据混合，并辅以适量的推理数据以增加任务多样性；iii) 纯长文档VQA在很大程度上保留了短上下文能力，这表明指令格式化的长数据减少了对短数据混合的需求。基于这些发现，我们提出了MMProLong，该模型通过在Qwen2.5-VL-7B上进行长上下文持续预训练获得，仅使用5B token的预算。MMProLong在长文档VQA得分上提升了7.1%，并在超出其128K训练窗口的256K和512K上下文中仍保持强劲性能，无需额外训练。此外，它还能泛化到基于网页的多模态针检索、长上下文视觉-文本压缩以及长视频理解等任务，而无需特定任务的监督。总体而言，本研究为推进长上下文视觉语言模型建立了一套实用的LongPT方案和实证基础。