ImageNet 有一种深层的满足感

@drjimfan There was something deeply satisfying about ImageNet. It had a well c…

二〇二六年五月十八日 · 英文原文

摘要

ImageNet的创造者团队推出了BEHAVIOR，一个基于可复现物理引擎Isaac Sim的机器人基准测试项目。该项目旨在统一机器人领域长期缺乏共识的硬件、任务、评分、仿真与真实环境评估标准。BEHAVIOR历经多年开发，投入多位博士的职业生涯，试图为机器人研究提供一个类似ImageNet之于计算机视觉、MMLU与SWEBench之于NLP的凝聚性衡量框架。

ImageNet 有一种深层次的满足感。它拥有精心策划的训练集、明确界定的测试协议、一场汇聚顶尖研究者的竞赛，以及一个催生了 ResNet 和 ViT 的排行榜，最终彻底改变了整个领域。

随后 NLP 也走上了这条路。无论 OpenAI、Anthropic 和 xAI 之间分歧多大，它们至少在一件事上达成共识：基准测试。MMLU、HLE、SWEBench——你无法取得进展，除非你能衡量它。

机器人领域至今仍缺少这样一个凝聚人心的号召。没有人在任何事上达成一致：硬件、任务、评分、仿真引擎，还是真实世界环境。每个人都是 SOTA，按定义来说，在他们为每篇论文临时定义的基准上。

来自 ImageNet 的创造者——BEHAVIOR 试图在可复现的物理引擎（Isaac Sim）上统一机器人基准测试这一艰巨挑战。这个项目在我从斯坦福视觉实验室毕业之前就启动了，耗费了多年心血和多位博士的职业生涯才建成。我希望 BEHAVIOR 要么成为我们需要的爬山信号，要么成为最终让我们开始讨论如何衡量整个领域真正进步的契机。

译自 X · 研究者一手 · 录于二〇二六年五月十八日