Hugging Face · Daily Papers

LocateAnything:基于并行框解码的快速高质量视觉语言定位

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen 等 13 位
来自 NVIDIA
二〇二六年五月二十七日 · arXiv:2605.27365 · PDF

视觉-语言模型(VLM)通常将视觉定位和目标检测建模为坐标令牌生成问题,将每个二维框序列化为多个一维令牌,这些令牌被独立地学习和解码。这种逐令牌解码方式与框几何结构的耦合特性不匹配,且由于严格的顺序生成过程,造成了实际推理瓶颈。我们提出LocateAnything,一个基于并行框解码(PBD)的统一生成式定位与检测框架。通过将边界框和点等几何元素作为原子单元在单步中解码,LocateAnything保持了框内几何一致性,并实现了显著的并行性。我们证明,PBD同时提升了解码吞吐量和定位精度。我们进一步开发了可扩展的数据引擎,并构建了LocateAnything-Data,一个包含超过1.38亿训练样本的大规模数据集,大幅增加了高精度定位所需的数据多样性。广泛评估表明,LocateAnything推进了速度-精度前沿,在多个基准上实现了显著更高的解码吞吐量,同时提升了高IoU定位质量。这些结果凸显了并行框解码与大规模训练数据在实现高效、精确的统一视觉定位与检测中的互补优势。

译自 Hugging Face · Daily Papers · arXiv:2605.27365 · 录于 二〇二六年五月二十七日