apple-ml-research

用于高效运动学生成的长期运动嵌入学习

Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

二〇二六年五月八日 · 英文原文

摘要

该研究针对视觉智能中的运动理解与预测，提出直接操作 long-term motion embedding 建模场景 dynamics。该 embedding 从 tracker model 生成的大规模轨迹中学习，可较完整 video synthesis 更高效地生成较长 motion，并支持 text prompt 或 spatial poke 约束。

理解和预测运动是视觉智能的基础组成部分。尽管现代 video model 在理解场景 dynamics 方面表现很强，但通过完整 video synthesis 探索多个可能的未来仍然效率极低。我们通过直接操作一种 long-term motion embedding，以高出数个数量级的效率对场景 dynamics 进行建模；该 embedding 是从 tracker model 获得的大规模轨迹中学习得到的。这使得系统能够高效生成较长且真实的 motion，并满足通过 text prompt 或 spatial poke 指定的目标。为此，我们……

译自 apple-ml-research · 录于二〇二六年五月八日