Talker-T2AV:基于自回归扩散建模的联合说话音视频生成
Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling
联合 audio-video generation 模型表明,统一生成相比级联方法能带来更强的 cross-modal coherence。然而,现有模型在整个 denoising 过程中通过普遍使用 attention 来耦合模态,将高层语义与低层细节以完全纠缠的方式处理。对于 talking head synthesis,这并非最优:audio 与面部运动在语义上相关,但它们的低层实现(声学信号与视觉纹理)遵循不同的渲染过程。强制在所有层级进行联合建模会造成不必要的纠缠,并降低效率。
我们提出 Talker-T2AV,一种 autoregressive diffusion 框架:高层 cross-modal 建模在共享 backbone 中进行,而低层细化使用 modality-specific decoder。一个共享的 autoregressive language model 在统一的 patch-level token 空间中对 audio 和 video 进行联合推理。两个轻量级 diffusion transformer head 将 hidden states 解码为 frame-level audio 与 video latents。
在 talking portrait benchmark 上的实验表明,Talker-T2AV 在 lip-sync accuracy、video quality 和 audio quality 上优于 dual-branch baseline,并且相比 cascaded pipeline 实现了更强的 cross-modal consistency。