LocateAnything：基于并行框解码的快速高质量视觉语言定位

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen 等 13 位

来自 NVIDIA

二〇二六年五月二十七日 · arXiv:2605.27365 · PDF

摘要

视觉-语言模型（VLM）通常将视觉定位和目标检测建模为坐标令牌生成问题，将每个二维框序列化为多个一维令牌，这些令牌被独立地学习和解码。这种逐令牌解码方式与框几何结构的耦合特性不匹配，且由于严格的顺序生成过程，造成了实际推理瓶颈。我们提出LocateAnything，一个基于并行框解码（PBD）的统一生成式定位与检测框架。通过将边界框和点等几何元素作为原子单元在单步中解码，LocateAnything保持了框内几何一致性，并实现了显著的并行性。我们证明，PBD同时提升了解码吞吐量和定位精度。我们进一步开发了可扩展的数据引擎，并构建了LocateAnything-Data，一个包含超过1.38亿训练样本的大规模数据集，大幅增加了高精度定位所需的数据多样性。广泛评估表明，LocateAnything推进了速度-精度前沿，在多个基准上实现了显著更高的解码吞吐量，同时提升了高IoU定位质量。这些结果凸显了并行框解码与大规模训练数据在实现高效、精确的统一视觉定位与检测中的互补优势。

译自 Hugging Face · Daily Papers · arXiv:2605.27365 · 录于二〇二六年五月二十七日