Hugging Face · Daily Papers

ExoActor：将外部视角视频生成用于可泛化的交互式类人控制

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Yanghao Zhou, Jingyu Ma, Yibo Peng, Zhenguo Sun, Yu Bai, Börje F. Karlsson

二〇二六年五月一日 · arXiv:2604.27711 · PDF

摘要

近年来，Humanoid control system 取得了显著进展，但在 robot、周围环境与任务相关物体之间建模流畅且交互密集的行为，仍是一项基础性挑战。其困难在于需要在大规模条件下同时捕捉空间上下文、时间动态、robot 动作与任务意图，而这与传统监督方式并不匹配。我们提出 ExoActor，一种新框架，利用大规模 video generation model 的泛化能力来解决这一问题。ExoActor 的核心思想是将第三人称 video generation 作为建模交互动态的统一接口。给定任务指令和场景上下文，ExoActor 会合成合理的执行过程，其中隐式编码了 robot、环境与物体之间的协同交互。

随后，这类 video 输出会通过一个 pipeline 转换为可执行的 Humanoid 行为：该 pipeline 先估计 human motion，再通过通用 motion controller 执行，从而生成以任务为条件的行为序列。为验证所提出的框架，我们将其实现为端到端系统，并展示其在不额外采集真实世界数据的情况下对新场景的泛化能力。此外，我们在最后讨论当前实现的局限，并概述未来研究中有前景的方向，说明 ExoActor 如何为建模交互密集的 Humanoid 行为提供一种可扩展方法，并可能为 generative model 推进通用 Humanoid intelligence 开辟新的路径。