apple-ml-research

StereoFoley：基于视频的物体感知立体声音频生成

StereoFoley: Object-Aware Stereo Audio Generation from Video

二〇二六年五月八日 · 英文原文

摘要

提出 StereoFoley，一个 video-to-audio 生成框架，可生成语义对齐、时间同步、空间准确的 48 kHz 立体声音频。研究开发 base model，从视频生成立体声，并在语义准确性上与 state-of-the-art V2A 模型相当，同时指出现有方法受限于缺乏专业混音的空间准确数据集。

我们提出 StereoFoley，这是一个 video-to-audio 生成框架，可生成语义对齐、时间同步且空间准确的 48 kHz 立体声音频。尽管近期的生成式 video-to-audio 模型在语义和时间保真度上表现很强，但它们大多仍局限于单声道，或无法实现面向对象的立体声成像，这受限于缺乏经过专业混音、空间准确的 video-to-audio 数据集。首先，我们开发了一个 base model，可从视频生成立体声音频，在语义准确性方面达到与 state-of-the-art V2A 模型相当的性能……

译自 apple-ml-research · 录于二〇二六年五月八日