Praxy Voice:零商业训练数据成本下,从冻结的非 Indic 基础模型通过 Voice-Prompt Recovery + BUPS 实现商用级 Indic TTS
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
商业 TTS 系统能够生成接近母语水平的 Indic 语音,但最好的 open-source 基座(Chatterbox、Indic Parler-TTS、IndicF5)在实测音系维度上仍落后于它们,而采用最广泛的多语言基座(Chatterbox,23 种语言)甚至无法对 Telugu 或 Tamil 进行 tokenise。我们提出的问题是:在不训练新的 acoustic decoder、且不使用任何商业 TTS 训练数据的情况下,需要最小限度的干预,才能让这样一个非 Indic-native 的基座在 Telugu、Tamil 和 Hindi 上达到商业级输出?
我们结合了三部分:(1)BUPS,一个 Brahmic Unified Phoneme Space,可将七种 Indic 文字确定性地 romanise 为 ISO-15919,使 Chatterbox 的 Latin tokeniser 能够处理它们;(2)一个仅作用于 text-token predictor(Chatterbox 的 t3)的 LoRA adapter,使用约 1,220 小时授权 Indic 音频,并以 Hindi-proxy language_id 训练;(3)一种 voice-prompt recovery 方案——8–11 秒的同语言参考片段,加上三项采样覆盖设置(exaggeration 0.7、temperature 0.6、min_p 0.1;“Config B”)——无需训练 acoustic decoder 即可恢复商业级 acoustic 输出。在 Hindi 上,LoRA 会降低准确率,因此我们改用原版 Chatterbox + Config B,形成双分支部署。
在配套 PSP benchmark 上使用 10 句 pilot set 评估时,Praxy Voice 与商业 baseline 持平或略微领先:Telugu 的 retroflex collapse 为 26.7%(Sarvam Bulbul 为 33.3%),Tamil-zha collapse 为 71%(商业三模型为 86%),Hindi 的 LLM-WER 为 0.025(与 Cartesia Sonic-3 持平)。对于句内 code-mix,我们加入第三个分支(IndicF5 + native-script transliteration),将 Hi/Te/Ta 上的 code-mix LLM-WER 从 0.80–0.85 降至 0.14–0.27。我们发布了 R6 LoRA 权重(Apache-2.0)、推理代码与 router(MIT),以及 Gradio demo。