Hugging Face · Daily Papers
持久视觉记忆:为 LVLMs 的深度生成维持感知
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
摘要
尽管自回归 Large Vision-Language Models(LVLMs)在多模态任务中表现出很强的能力,但它们面临一种“Visual Signal Dilution”现象:文本历史的累积会扩大 attention partition function,导致视觉 attention 随生成序列长度增加而近似反比衰减。为应对这一问题,我们提出 Persistent Visual Memory(PVM),一种轻量级可学习模块,旨在确保持续、按需的视觉感知。
PVM 作为与 LVLMs 中 Feed-Forward Network(FFN)并行的分支集成,建立了一条不受距离影响的检索路径,可直接提供视觉 embeddings 以支持精确的视觉感知,从结构上缓解深层生成过程中固有的信号抑制。基于 Qwen3-VL 模型的大量实验表明,PVM 以可忽略的参数开销带来了明显改进,在 4B 和 8B 两种规模上均实现了稳定的平均准确率提升,尤其适用于需要持续视觉感知的复杂推理任务。此外,深入分析显示,PVM 能够抵抗由长度引起的信号衰减,并加速内部预测收敛。