Hugging Face · Daily Papers

持久视觉记忆：为 LVLMs 的深度生成维持感知

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng 等 9 位

二〇二六年五月五日 · arXiv:2605.00814 · PDF · Code

摘要

尽管自回归 Large Vision-Language Models（LVLMs）在多模态任务中表现出很强的能力，但它们面临一种“Visual Signal Dilution”现象：文本历史的累积会扩大 attention partition function，导致视觉 attention 随生成序列长度增加而近似反比衰减。为应对这一问题，我们提出 Persistent Visual Memory（PVM），一种轻量级可学习模块，旨在确保持续、按需的视觉感知。

PVM 作为与 LVLMs 中 Feed-Forward Network（FFN）并行的分支集成，建立了一条不受距离影响的检索路径，可直接提供视觉 embeddings 以支持精确的视觉感知，从结构上缓解深层生成过程中固有的信号抑制。基于 Qwen3-VL 模型的大量实验表明，PVM 以可忽略的参数开销带来了明显改进，在 4B 和 8B 两种规模上均实现了稳定的平均准确率提升，尤其适用于需要持续视觉感知的复杂推理任务。此外，深入分析显示，PVM 能够抵抗由长度引起的信号衰减，并加速内部预测收敛。