Hugging Face · Daily Papers

音频交互模型

Audio Interaction Model

Zhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin 等 11 位
来自 National University of Singapore
二〇二六年六月四日 · arXiv:2606.05121 · PDF · Code

音频本质上是一种交互式模态,然而当前的大型音频语言模型(LALM)均为离线模型,而流式音频模型各自仅处理单一任务,例如流式语音识别或语音对话。是时候将它们统一为一个在线LALM:一种通过始终开启的“感知-决策-响应”循环,实时聆听声音、环境与指令,并即时做出反应的模型。我们将这一范式正式定义为音频交互模型,并通过Audio-Interaction加以实现——这是一个统一的流式模型,在保留离线任务执行能力的同时,新增了在线通用音频指令跟随功能,涵盖从对话到完整语音聊天的场景,并能根据流式语义决定何时响应。为此,我们提出SoundFlow框架,该框架端到端地实例化“感知-决策-响应”循环,涵盖数据构建、训练与部署,通过流式原生数据构造、理解感知训练以及异步低延迟推理,实现稳定的实时交互。我们还构建了StreamAudio-2M,一个包含260万条数据的流式语料库,覆盖7项基础能力与28个子任务,并推出Proactive-Sound-Bench用于评估主动音频干预能力。在8个基准测试中,Audio-Interaction在主流音频任务上保持了具有竞争力的性能,同时解锁了离线LALM无法实现的能力,包括实时语音识别、流式音频指令跟随以及主动帮助。

译自 Hugging Face · Daily Papers · arXiv:2606.05121 · 录于 二〇二六年六月四日