一声棒喝,本不立文字
偏要著録,已是二义

apple-ml-research

StereoFoley:基于视频的物体感知立体声音频生成

StereoFoley: Object-Aware Stereo Audio Generation from Video

二〇二六年五月八日 · 英文原文

提出 StereoFoley,一个 video-to-audio 生成框架,可生成语义对齐、时间同步、空间准确的 48 kHz 立体声音频。研究开发 base model,从视频生成立体声,并在语义准确性上与 state-of-the-art V2A 模型相当,同时指出现有方法受限于缺乏专业混音的空间准确数据集。

我们提出 StereoFoley,这是一个 video-to-audio 生成框架,可生成语义对齐、时间同步且空间准确的 48 kHz 立体声音频。尽管近期的生成式 video-to-audio 模型在语义和时间保真度上表现很强,但它们大多仍局限于单声道,或无法实现面向对象的立体声成像,这受限于缺乏经过专业混音、空间准确的 video-to-audio 数据集。首先,我们开发了一个 base model,可从视频生成立体声音频,在语义准确性方面达到与 state-of-the-art V2A 模型相当的性能……

译自 apple-ml-research · 录于 二〇二六年五月八日