Hugging Face · Daily Papers

用于视觉 Grounded 推理的感知流网络

Perceptual Flow Network for Visually Grounded Reasoning

Yangfu Li, Yuning Gong, Hongjian Zhan, Teng Li, Yuanhuiyi Lyu, Tianyi Chen, Qi Liu, Ziyuan Huang 等 11 位

二〇二六年五月五日 · arXiv:2605.02730 · PDF

摘要

尽管 Large-Vision Language Models (LVLMs) 已取得成功，通用优化目标（如标准 MLE）仍无法约束视觉轨迹，导致 language bias 和 hallucination。为缓解这一问题，现有方法引入来自视觉专家的几何先验作为额外监督。然而，我们观察到，此类监督通常并非最优：它偏向几何精度，且对 reasoning 的帮助有限。

为弥合这一差距，我们提出 Perceptual Flow Network (PFlowNet)。该方法摒弃与专家先验的刚性对齐，实现了可解释且更有效的视觉 reasoning。具体而言，PFlowNet 将 perception 与 reasoning 解耦，建立一个 self-conditioned 生成过程。在此基础上，它通过 variational reinforcement learning 将多维奖励与 vicinal geometric shaping 结合，从而在保持视觉可靠性的同时，促进面向 reasoning 的感知行为。

PFlowNet 提供了可证明的性能保证，并取得了有竞争力的实证结果，尤其是在 V* Bench（90.6%）和 MME-RealWorld-lite（67.0%）上刷新了 SOTA 记录。