Hugging Face · Daily Papers
用于视觉 Grounded 推理的感知流网络
Perceptual Flow Network for Visually Grounded Reasoning
摘要
尽管 Large-Vision Language Models (LVLMs) 已取得成功,通用优化目标(如标准 MLE)仍无法约束视觉轨迹,导致 language bias 和 hallucination。为缓解这一问题,现有方法引入来自视觉专家的几何先验作为额外监督。然而,我们观察到,此类监督通常并非最优:它偏向几何精度,且对 reasoning 的帮助有限。
为弥合这一差距,我们提出 Perceptual Flow Network (PFlowNet)。该方法摒弃与专家先验的刚性对齐,实现了可解释且更有效的视觉 reasoning。具体而言,PFlowNet 将 perception 与 reasoning 解耦,建立一个 self-conditioned 生成过程。在此基础上,它通过 variational reinforcement learning 将多维奖励与 vicinal geometric shaping 结合,从而在保持视觉可靠性的同时,促进面向 reasoning 的感知行为。
PFlowNet 提供了可证明的性能保证,并取得了有竞争力的实证结果,尤其是在 V* Bench(90.6%)和 MME-RealWorld-lite(67.0%)上刷新了 SOTA 记录。