一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

PSP:面向 Indic 文本转语音的可解释逐维度口音 benchmark

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Venkata Pushpak Teja Menta
来自 Praxel
二〇二六年四月三十日 · arXiv:2604.25476 · PDF · Code

标准 text-to-speech(TTS)评估会衡量可懂度(WER、CER)和整体自然度(MOS、UTMOS),但不会量化口音。一个合成器可能在这四项上得分都很高,却在目标语言中具有音位区分作用的特征上听起来不像母语者。对于 Indic languages,这些特征包括 retroflex articulation(卷舌发音)、aspiration(送气)、vowel length(元音长短),以及 Tamil retroflex approximant(Tamil 字母 zha)。

我们提出 PSP,即 Phoneme Substitution Profile,这是一个面向 Indic TTS 的、可解释的、按音系维度划分的口音 benchmark。PSP 将口音分解为六个互补维度:retroflex collapse rate(RR)、aspiration fidelity(AF)、vowel-length fidelity(LF)、Tamil-zha fidelity(ZF)、Frechet Audio Distance(FAD)和 prosodic signature divergence(PSD)。前四项通过 forced alignment,加上基于 Wav2Vec2-XLS-R 第 9 层 embedding 的 native-speaker-centroid acoustic probes 进行测量;后两项是语料库层面的分布距离。

在 v1 中,我们在 Hindi、Telugu 和 Tamil 的 pilot sets 上 benchmark 了四个商业和开源系统(ElevenLabs v3、Cartesia Sonic-3、Sarvam Bulbul、Indic Parler-TTS),并将第五个系统(Praxy Voice)纳入所有三种语言的评测,另包含一个 Telugu 上的 R5->R6 case study。主要有三点发现:(i) retroflex collapse 会随音系难度按 Hindi < Telugu < Tamil 单调增加(约 1%、40%、68%);(ii) PSP 排序与 WER 排序存在差异——商业 WER 领先系统并不总是在 retroflex 或 prosodic fidelity 上领先;(iii) 没有任何单一系统在全部六个维度上达到 Pareto-optimal。

我们发布 native reference centroids(每种语言 500 个 clip)、用于 FAD 的 1000-clip embeddings、用于 PSD 的 500-clip prosodic feature matrices、每种语言 300 条 utterance 的 golden sets、MIT 许可下的 scoring code,以及 CC-BY 许可下的 centroids。正式的 MOS 相关性分析将推迟到 v2;v1 报告五个内部一致性信号,并加入 native-audio sanity check。

译自 Hugging Face · Daily Papers · arXiv:2604.25476 · 录于 二〇二六年四月三十日