Hugging Face · Daily Papers

PSP：面向 Indic 文本转语音的可解释逐维度口音 benchmark

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Venkata Pushpak Teja Menta

来自 Praxel

二〇二六年四月三十日 · arXiv:2604.25476 · PDF · Code

摘要

标准 text-to-speech（TTS）评估会衡量可懂度（WER、CER）和整体自然度（MOS、UTMOS），但不会量化口音。一个合成器可能在这四项上得分都很高，却在目标语言中具有音位区分作用的特征上听起来不像母语者。对于 Indic languages，这些特征包括 retroflex articulation（卷舌发音）、aspiration（送气）、vowel length（元音长短），以及 Tamil retroflex approximant（Tamil 字母 zha）。

我们提出 PSP，即 Phoneme Substitution Profile，这是一个面向 Indic TTS 的、可解释的、按音系维度划分的口音 benchmark。PSP 将口音分解为六个互补维度：retroflex collapse rate（RR）、aspiration fidelity（AF）、vowel-length fidelity（LF）、Tamil-zha fidelity（ZF）、Frechet Audio Distance（FAD）和 prosodic signature divergence（PSD）。前四项通过 forced alignment，加上基于 Wav2Vec2-XLS-R 第 9 层 embedding 的 native-speaker-centroid acoustic probes 进行测量；后两项是语料库层面的分布距离。

在 v1 中，我们在 Hindi、Telugu 和 Tamil 的 pilot sets 上 benchmark 了四个商业和开源系统（ElevenLabs v3、Cartesia Sonic-3、Sarvam Bulbul、Indic Parler-TTS），并将第五个系统（Praxy Voice）纳入所有三种语言的评测，另包含一个 Telugu 上的 R5->R6 case study。主要有三点发现：(i) retroflex collapse 会随音系难度按 Hindi < Telugu < Tamil 单调增加（约 1%、40%、68%）；(ii) PSP 排序与 WER 排序存在差异——商业 WER 领先系统并不总是在 retroflex 或 prosodic fidelity 上领先；(iii) 没有任何单一系统在全部六个维度上达到 Pareto-optimal。

我们发布 native reference centroids（每种语言 500 个 clip）、用于 FAD 的 1000-clip embeddings、用于 PSD 的 500-clip prosodic feature matrices、每种语言 300 条 utterance 的 golden sets、MIT 许可下的 scoring code，以及 CC-BY 许可下的 centroids。正式的 MOS 相关性分析将推迟到 v2；v1 报告五个内部一致性信号，并加入 native-audio sanity check。