一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

ExoActor:将外部视角视频生成用于可泛化的交互式类人控制

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Yanghao Zhou, Jingyu Ma, Yibo Peng, Zhenguo Sun, Yu Bai, Börje F. Karlsson
二〇二六年五月一日 · arXiv:2604.27711 · PDF

近年来,Humanoid control system 取得了显著进展,但在 robot、周围环境与任务相关物体之间建模流畅且交互密集的行为,仍是一项基础性挑战。其困难在于需要在大规模条件下同时捕捉空间上下文、时间动态、robot 动作与任务意图,而这与传统监督方式并不匹配。我们提出 ExoActor,一种新框架,利用大规模 video generation model 的泛化能力来解决这一问题。ExoActor 的核心思想是将第三人称 video generation 作为建模交互动态的统一接口。给定任务指令和场景上下文,ExoActor 会合成合理的执行过程,其中隐式编码了 robot、环境与物体之间的协同交互。

随后,这类 video 输出会通过一个 pipeline 转换为可执行的 Humanoid 行为:该 pipeline 先估计 human motion,再通过通用 motion controller 执行,从而生成以任务为条件的行为序列。为验证所提出的框架,我们将其实现为端到端系统,并展示其在不额外采集真实世界数据的情况下对新场景的泛化能力。此外,我们在最后讨论当前实现的局限,并概述未来研究中有前景的方向,说明 ExoActor 如何为建模交互密集的 Humanoid 行为提供一种可扩展方法,并可能为 generative model 推进通用 Humanoid intelligence 开辟新的路径。

译自 Hugging Face · Daily Papers · arXiv:2604.27711 · 录于 二〇二六年五月一日