一声棒喝,本不立文字
偏要著録,已是二义

apple-ml-research

用于高效运动学生成的长期运动嵌入学习

Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

二〇二六年五月八日 · 英文原文

该研究针对视觉智能中的运动理解与预测,提出直接操作 long-term motion embedding 建模场景 dynamics。该 embedding 从 tracker model 生成的大规模轨迹中学习,可较完整 video synthesis 更高效地生成较长 motion,并支持 text prompt 或 spatial poke 约束。

理解和预测运动是视觉智能的基础组成部分。尽管现代 video model 在理解场景 dynamics 方面表现很强,但通过完整 video synthesis 探索多个可能的未来仍然效率极低。我们通过直接操作一种 long-term motion embedding,以高出数个数量级的效率对场景 dynamics 进行建模;该 embedding 是从 tracker model 获得的大规模轨迹中学习得到的。这使得系统能够高效生成较长且真实的 motion,并满足通过 text prompt 或 spatial poke 指定的目标。为此,我们……

译自 apple-ml-research · 录于 二〇二六年五月八日