MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家
MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation
随着在线舞蹈视频平台的兴起以及 AI-generated content (AIGC) 的快速发展,music-driven dance generation 已成为一个具有吸引力的研究方向。尽管在 music-driven 3D dance generation、pose-driven image animation 和 audio-driven talking-head synthesis 等相关领域已取得大量进展,现有方法仍无法直接适配这一任务。此外,该领域现有研究有限,仍难以同时实现高质量的视觉外观和真实的人体运动。
为此,我们提出 MACE-Dance,一个采用级联 Mixture-of-Experts (MoE) 的 music-driven dance video generation 框架。其中,Motion Expert 执行 music-to-3D motion generation,同时保证运动学合理性和艺术表现力;Appearance Expert 则进行以 motion 和 reference 为条件的视频合成,在保持视觉身份的同时维持时空一致性。具体而言,Motion Expert 采用具有 BiMamba-Transformer 混合架构的 diffusion model,并使用 Guidance-Free Training (GFT) 策略,在 3D dance generation 上达到 state-of-the-art (SOTA) 性能。Appearance Expert 采用解耦的 kinematic-aesthetic fine-tuning 策略,在 pose-driven image animation 上达到 state-of-the-art (SOTA) 性能。
为更好地 benchmark 该任务,我们构建了一个大规模且多样化的数据集,并设计了 motion-appearance evaluation protocol。基于该 protocol,MACE-Dance 也取得了 state-of-the-art 性能。代码见 https://github.com/AMAP-ML/MACE-Dance.