Hugging Face · Daily Papers

MACE-Dance：用于音乐驱动舞蹈视频生成的运动-外观级联专家

MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

Kaixing Yang, Jiashu Zhu, Xulong Tang, Ziqiao Peng, Xiangyue Zhang, Puwei Wang, Jiahong Wu, Xiangxiang Chu 等 10 位

来自 AMAP-ML

二〇二六年五月十一日 · arXiv:2512.18181 · PDF · Code

摘要

随着在线舞蹈视频平台的兴起以及 AI-generated content (AIGC) 的快速发展，music-driven dance generation 已成为一个具有吸引力的研究方向。尽管在 music-driven 3D dance generation、pose-driven image animation 和 audio-driven talking-head synthesis 等相关领域已取得大量进展，现有方法仍无法直接适配这一任务。此外，该领域现有研究有限，仍难以同时实现高质量的视觉外观和真实的人体运动。

为此，我们提出 MACE-Dance，一个采用级联 Mixture-of-Experts (MoE) 的 music-driven dance video generation 框架。其中，Motion Expert 执行 music-to-3D motion generation，同时保证运动学合理性和艺术表现力；Appearance Expert 则进行以 motion 和 reference 为条件的视频合成，在保持视觉身份的同时维持时空一致性。具体而言，Motion Expert 采用具有 BiMamba-Transformer 混合架构的 diffusion model，并使用 Guidance-Free Training (GFT) 策略，在 3D dance generation 上达到 state-of-the-art (SOTA) 性能。Appearance Expert 采用解耦的 kinematic-aesthetic fine-tuning 策略，在 pose-driven image animation 上达到 state-of-the-art (SOTA) 性能。

为更好地 benchmark 该任务，我们构建了一个大规模且多样化的数据集，并设计了 motion-appearance evaluation protocol。基于该 protocol，MACE-Dance 也取得了 state-of-the-art 性能。代码见 https://github.com/AMAP-ML/MACE-Dance.