Hugging Face · Daily Papers

Talker-T2AV：基于自回归扩散建模的联合说话音视频生成

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan 等 11 位

二〇二六年五月八日 · arXiv:2604.23586 · PDF

摘要

联合 audio-video generation 模型表明，统一生成相比级联方法能带来更强的 cross-modal coherence。然而，现有模型在整个 denoising 过程中通过普遍使用 attention 来耦合模态，将高层语义与低层细节以完全纠缠的方式处理。对于 talking head synthesis，这并非最优：audio 与面部运动在语义上相关，但它们的低层实现（声学信号与视觉纹理）遵循不同的渲染过程。强制在所有层级进行联合建模会造成不必要的纠缠，并降低效率。

我们提出 Talker-T2AV，一种 autoregressive diffusion 框架：高层 cross-modal 建模在共享 backbone 中进行，而低层细化使用 modality-specific decoder。一个共享的 autoregressive language model 在统一的 patch-level token 空间中对 audio 和 video 进行联合推理。两个轻量级 diffusion transformer head 将 hidden states 解码为 frame-level audio 与 video latents。

在 talking portrait benchmark 上的实验表明，Talker-T2AV 在 lip-sync accuracy、video quality 和 audio quality 上优于 dual-branch baseline，并且相比 cascaded pipeline 实现了更强的 cross-modal consistency。