一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

用于视觉 Grounded 推理的感知流网络

Perceptual Flow Network for Visually Grounded Reasoning

Yangfu Li, Yuning Gong, Hongjian Zhan, Teng Li, Yuanhuiyi Lyu, Tianyi Chen, Qi Liu, Ziyuan Huang 等 11 位
二〇二六年五月五日 · arXiv:2605.02730 · PDF

尽管 Large-Vision Language Models (LVLMs) 已取得成功,通用优化目标(如标准 MLE)仍无法约束视觉轨迹,导致 language bias 和 hallucination。为缓解这一问题,现有方法引入来自视觉专家的几何先验作为额外监督。然而,我们观察到,此类监督通常并非最优:它偏向几何精度,且对 reasoning 的帮助有限。

为弥合这一差距,我们提出 Perceptual Flow Network (PFlowNet)。该方法摒弃与专家先验的刚性对齐,实现了可解释且更有效的视觉 reasoning。具体而言,PFlowNet 将 perception 与 reasoning 解耦,建立一个 self-conditioned 生成过程。在此基础上,它通过 variational reinforcement learning 将多维奖励与 vicinal geometric shaping 结合,从而在保持视觉可靠性的同时,促进面向 reasoning 的感知行为。

PFlowNet 提供了可证明的性能保证,并取得了有竞争力的实证结果,尤其是在 V* Bench(90.6%)和 MME-RealWorld-lite(67.0%)上刷新了 SOTA 记录。

译自 Hugging Face · Daily Papers · arXiv:2605.02730 · 录于 二〇二六年五月五日