Hugging Face · Daily Papers

ESARBench：用于 Agentic UAV 具身搜索与救援的 Benchmark

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

Daoxuan Zhang, Ping Chen, Jianyi Zhou, Shuo Yang

二〇二六年五月六日 · arXiv:2605.01371 · PDF · Code

摘要

Multimodal Large Language Models（MLLMs）的快速发展，使 Unmanned Aerial Vehicle（UAV）在空间推理、语义理解和复杂决策方面具备了出色能力，因此天然适用于 UAV Search and Rescue（SAR）。然而，现有 UAV SAR 研究主要由传统视觉和路径规划方法主导，缺乏面向 embodied agent 的全面、统一 benchmark。为弥补这一空白，我们首先提出了新的 Embodied Search and Rescue（ESAR）任务，要求空中 agent 在复杂环境中自主探索、识别救援线索，并推理受害者位置，从而执行有依据的决策。

此外，我们提出 ESARBench，这是首个用于在高度真实 SAR 场景中评估由 MLLM 驱动的 UAV agent 的综合 benchmark。借助 Unreal Engine 5 和 AirSim，我们构建了四个高保真、大规模开放环境，这些环境直接由真实世界 Geographic Information System（GIS）数据映射而来，以确保照片级真实的地貌。为严格模拟实际救援行动，该 benchmark 纳入了天气条件、一天中的时间以及随机线索放置等动态变量。

进一步地，我们创建了一个包含 600 个任务的数据集，这些任务参照真实世界救援案例建模，并提出了一套稳健的评估指标。我们评估了多种 baseline，范围从传统启发式方法到先进的地面与空中 MLLM-based ObjectNav agent。实验结果凸显了 ESAR 的挑战，揭示了空间记忆、空中适配，以及搜索效率与飞行安全之间权衡方面的关键瓶颈。我们希望 ESARBench 能成为推动 Embodied Search and Rescue 领域研究的有价值资源。源代码和项目页面：https://4amgodvzx.github.io/ESAR.github.io。