Hugging Face · Daily Papers

PhyCo：学习用于生成式运动的可控物理先验

PhyCo: Learning Controllable Physical Priors for Generative Motion

Sriram Narayanan, Ziyu Jiang, Srinivasa Narasimhan, Manmohan Chandraker

二〇二六年五月一日 · arXiv:2604.28169 · PDF

摘要

现代视频 diffusion model 擅长外观合成，但在物理一致性方面仍存在困难：物体会发生漂移，碰撞缺乏真实的反弹，材料响应也很少与其底层属性相匹配。我们提出 PhyCo，这是一个为视频生成引入连续、可解释且具有物理依据控制的框架。

我们的方法整合了三个关键组件：(i) 一个包含超过 100K 段照片级真实感仿真视频的大规模数据集，其中 friction、restitution、deformation 和 force 在多样场景中被系统性变化；(ii) 对预训练 diffusion model 进行 physics-supervised fine-tuning，使用以像素对齐物理属性图为条件的 ControlNet；(iii) VLM-guided reward optimization，其中经过 fine-tuning 的 vision-language model 通过有针对性的物理查询评估生成视频，并提供可微反馈。这一组合使生成模型能够通过改变物理属性来产生物理一致且可控的输出，而在推理阶段不需要任何 simulator 或 geometry reconstruction。

在 Physics-IQ benchmark 上，PhyCo 相比强基线显著提升了物理真实感；human studies 也确认其对物理属性的控制更清晰、更忠实。我们的结果表明，构建能够泛化到合成训练环境之外、具备物理一致性和可控性的生成式视频模型，有一条可扩展的路径。