音频交互模型

Audio Interaction Model

Zhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin 等 11 位

来自 National University of Singapore

二〇二六年六月四日 · arXiv:2606.05121 · PDF · Code

摘要

音频本质上是一种交互式模态，然而当前的大型音频语言模型（LALM）均为离线模型，而流式音频模型各自仅处理单一任务，例如流式语音识别或语音对话。是时候将它们统一为一个在线LALM：一种通过始终开启的“感知-决策-响应”循环，实时聆听声音、环境与指令，并即时做出反应的模型。我们将这一范式正式定义为音频交互模型，并通过Audio-Interaction加以实现——这是一个统一的流式模型，在保留离线任务执行能力的同时，新增了在线通用音频指令跟随功能，涵盖从对话到完整语音聊天的场景，并能根据流式语义决定何时响应。为此，我们提出SoundFlow框架，该框架端到端地实例化“感知-决策-响应”循环，涵盖数据构建、训练与部署，通过流式原生数据构造、理解感知训练以及异步低延迟推理，实现稳定的实时交互。我们还构建了StreamAudio-2M，一个包含260万条数据的流式语料库，覆盖7项基础能力与28个子任务，并推出Proactive-Sound-Bench用于评估主动音频干预能力。在8个基准测试中，Audio-Interaction在主流音频任务上保持了具有竞争力的性能，同时解锁了离线LALM无法实现的能力，包括实时语音识别、流式音频指令跟随以及主动帮助。

译自 Hugging Face · Daily Papers · arXiv:2606.05121 · 录于二〇二六年六月四日