ImageNet 有一种深层的满足感
@drjimfan There was something deeply satisfying about ImageNet. It had a well c…
摘要
ImageNet的创造者团队推出了BEHAVIOR,一个基于可复现物理引擎Isaac Sim的机器人基准测试项目。该项目旨在统一机器人领域长期缺乏共识的硬件、任务、评分、仿真与真实环境评估标准。BEHAVIOR历经多年开发,投入多位博士的职业生涯,试图为机器人研究提供一个类似ImageNet之于计算机视觉、MMLU与SWEBench之于NLP的凝聚性衡量框架。
ImageNet 有一种深层次的满足感。它拥有精心策划的训练集、明确界定的测试协议、一场汇聚顶尖研究者的竞赛,以及一个催生了 ResNet 和 ViT 的排行榜,最终彻底改变了整个领域。
随后 NLP 也走上了这条路。无论 OpenAI、Anthropic 和 xAI 之间分歧多大,它们至少在一件事上达成共识:基准测试。MMLU、HLE、SWEBench——你无法取得进展,除非你能衡量它。
机器人领域至今仍缺少这样一个凝聚人心的号召。没有人在任何事上达成一致:硬件、任务、评分、仿真引擎,还是真实世界环境。每个人都是 SOTA,按定义来说,在他们为每篇论文临时定义的基准上。
来自 ImageNet 的创造者——BEHAVIOR 试图在可复现的物理引擎(Isaac Sim)上统一机器人基准测试这一艰巨挑战。这个项目在我从斯坦福视觉实验室毕业之前就启动了,耗费了多年心血和多位博士的职业生涯才建成。我希望 BEHAVIOR 要么成为我们需要的爬山信号,要么成为最终让我们开始讨论如何衡量整个领域真正进步的契机。
译自 X · 研究者一手 · 录于 二〇二六年五月十八日