Hugging Face · Daily Papers

TTS-STT 飞轮：实体密集型合成音频弥合商业和开源系统失效处的 Indic ASR 差距

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Venkata Pushpak Teja Menta

来自 Praxel

二〇二六年五月六日 · arXiv:2605.03073 · PDF · Code

摘要

细分领域的 Indic ASR——数字串、货币金额、地址、品牌名、English/Indic code-mix——在 open-source SOTA 和商业系统中都支持不足。在一个合成的、entity-dense 的 Telugu 测试集上（由合成系统留出），vasista22/whisper-telugu-large-v2（open SOTA）的 Entity-Hit-Rate（EHR）为 0.027，Deepgram Nova-3（商业系统）为 0.16。

我们用一个自包含的 TTS<->STT flywheel 缩小了这一差距：一个 open-source Indic TTS pipeline 以低于 $50 的边际成本合成了约 22,000 条 entity-dense 的 Indic-English code-mix utterances，并在 vasista22 基础上进行 LoRA fine-tune，在留出测试集上达到 EHR 0.473（相对 open SOTA 提升 17 倍，相对商业系统提升 3 倍），同时在 FLEURS-Te 上的 read-prose 回归被限制在 +6.6 pp WER。跨语言结果为：beta-Hi 0.337（相对 vasista22 提升 7 倍），beta-Ta 0.543（相对 vasista22 提升 22 倍，相对 Deepgram 提升 22 倍）；在 Hindi 上，由于 Deepgram 已有较充分的实体覆盖，该 flywheel 不及商业系统。三个 beta models 均未达到预注册的 EHR 目标（Te 为 0.75，Hi/Ta 为 0.65）；我们如实报告。

一个 native-human-recorded sanity check（n=20 Telugu）确认了向真实语音的迁移（beta-Te 在 native speech 上 EHR 0.516，而在 synth 上为 0.473）。EDSA-isolation ablation（仅在 FLEURS-Te 上进行 LoRA）在同一留出集上得到 EHR 0.020，表明约 100% 的增益来自 EDSA corpus。我们还报告了一个 language-conditional 发现：vanilla Whisper-large-v3 存在 Telugu-specific Script Collapse（SFR 0.46-0.71），而 per-language LoRA 可将其纠正（SFR 0.81-0.97）；但在 Hindi 和 Tamil 上，vanilla SFR >= 0.98，因此不建议使用这一方案。代码、holdouts、predictions、EDSA corpus 和 entity dictionaries 均已 open-source 发布。