TTS-STT 飞轮:实体密集型合成音频弥合商业和开源系统失效处的 Indic ASR 差距
The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail
细分领域的 Indic ASR——数字串、货币金额、地址、品牌名、English/Indic code-mix——在 open-source SOTA 和商业系统中都支持不足。在一个合成的、entity-dense 的 Telugu 测试集上(由合成系统留出),vasista22/whisper-telugu-large-v2(open SOTA)的 Entity-Hit-Rate(EHR)为 0.027,Deepgram Nova-3(商业系统)为 0.16。
我们用一个自包含的 TTS<->STT flywheel 缩小了这一差距:一个 open-source Indic TTS pipeline 以低于 $50 的边际成本合成了约 22,000 条 entity-dense 的 Indic-English code-mix utterances,并在 vasista22 基础上进行 LoRA fine-tune,在留出测试集上达到 EHR 0.473(相对 open SOTA 提升 17 倍,相对商业系统提升 3 倍),同时在 FLEURS-Te 上的 read-prose 回归被限制在 +6.6 pp WER。跨语言结果为:beta-Hi 0.337(相对 vasista22 提升 7 倍),beta-Ta 0.543(相对 vasista22 提升 22 倍,相对 Deepgram 提升 22 倍);在 Hindi 上,由于 Deepgram 已有较充分的实体覆盖,该 flywheel 不及商业系统。三个 beta models 均未达到预注册的 EHR 目标(Te 为 0.75,Hi/Ta 为 0.65);我们如实报告。
一个 native-human-recorded sanity check(n=20 Telugu)确认了向真实语音的迁移(beta-Te 在 native speech 上 EHR 0.516,而在 synth 上为 0.473)。EDSA-isolation ablation(仅在 FLEURS-Te 上进行 LoRA)在同一留出集上得到 EHR 0.020,表明约 100% 的增益来自 EDSA corpus。我们还报告了一个 language-conditional 发现:vanilla Whisper-large-v3 存在 Telugu-specific Script Collapse(SFR 0.46-0.71),而 per-language LoRA 可将其纠正(SFR 0.81-0.97);但在 Hindi 和 Tamil 上,vanilla SFR >= 0.98,因此不建议使用这一方案。代码、holdouts、predictions、EDSA corpus 和 entity dictionaries 均已 open-source 发布。