Hugging Face · Daily Papers

Praxy Voice：零商业训练数据成本下，从冻结的非 Indic 基础模型通过 Voice-Prompt Recovery + BUPS 实现商用级 Indic TTS

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Venkata Pushpak Teja Menta

来自 Praxel

二〇二六年四月三十日 · arXiv:2604.25441 · PDF · Code

摘要

商业 TTS 系统能够生成接近母语水平的 Indic 语音，但最好的 open-source 基座（Chatterbox、Indic Parler-TTS、IndicF5）在实测音系维度上仍落后于它们，而采用最广泛的多语言基座（Chatterbox，23 种语言）甚至无法对 Telugu 或 Tamil 进行 tokenise。我们提出的问题是：在不训练新的 acoustic decoder、且不使用任何商业 TTS 训练数据的情况下，需要最小限度的干预，才能让这样一个非 Indic-native 的基座在 Telugu、Tamil 和 Hindi 上达到商业级输出？

我们结合了三部分：（1）BUPS，一个 Brahmic Unified Phoneme Space，可将七种 Indic 文字确定性地 romanise 为 ISO-15919，使 Chatterbox 的 Latin tokeniser 能够处理它们；（2）一个仅作用于 text-token predictor（Chatterbox 的 t3）的 LoRA adapter，使用约 1,220 小时授权 Indic 音频，并以 Hindi-proxy language_id 训练；（3）一种 voice-prompt recovery 方案——8–11 秒的同语言参考片段，加上三项采样覆盖设置（exaggeration 0.7、temperature 0.6、min_p 0.1；“Config B”）——无需训练 acoustic decoder 即可恢复商业级 acoustic 输出。在 Hindi 上，LoRA 会降低准确率，因此我们改用原版 Chatterbox + Config B，形成双分支部署。

在配套 PSP benchmark 上使用 10 句 pilot set 评估时，Praxy Voice 与商业 baseline 持平或略微领先：Telugu 的 retroflex collapse 为 26.7%（Sarvam Bulbul 为 33.3%），Tamil-zha collapse 为 71%（商业三模型为 86%），Hindi 的 LLM-WER 为 0.025（与 Cartesia Sonic-3 持平）。对于句内 code-mix，我们加入第三个分支（IndicF5 + native-script transliteration），将 Hi/Te/Ta 上的 code-mix LLM-WER 从 0.80–0.85 降至 0.14–0.27。我们发布了 R6 LoRA 权重（Apache-2.0）、推理代码与 router（MIT），以及 Gradio demo。