Hugging Face · Daily Papers

LASE：用于印度语跨文字身份保持的语言对抗式说话人编码

LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

Venkata Pushpak Teja Menta

来自 Praxel

二〇二六年五月四日 · arXiv:2605.00777 · PDF · Code

摘要

用于多语言 voice cloning 的 speaker encoder 应当将同一说话人视为相同，不受音频所用书写系统影响。现成的 encoder 做不到这一点，而且这种失效与口音条件相关。在一个包含 English、Hindi、Telugu 和 Tamil、共 1043 对西方口音语音的语料库上，当同一声音切换书写系统时，WavLM-base-plus-sv 的 absolute cosine similarity 下降 0.082，ECAPA-TDNN 下降 0.105。在一个包含 1369 对印度口音语音的语料库上，这一差距缩小到 0.006（WavLM-SV）和 0.044（ECAPA-TDNN）。这种泄漏在 cross-script TTS 最关键的场景中最为明显：系统将一个未在 Indic 语言上训练的声音投射到 Indic 书写系统中。

我们提出 LASE（Language-Adversarial Speaker Encoder），它是在冻结的 WavLM-base-plus 之上的一个小型 projection head，使用两种 loss 训练：一种是针对 voice identity 的 supervised contrastive loss；另一种是通过 gradient-reversal 对抗 4-language classifier 的 cross-entropy，使 embedding 不携带语言信息，同时保留说话人信息。LASE 使用来自 8 个商业多语言 voice、经质量筛选的 1118 对 cross-script 合成数据训练；在两个语料库上，其 residual gap 均与零一致（Delta = 0.013 Western，Delta = 0.026 Indian；二者的 bootstrap 95% CI 均包含零），并且相较两个 baseline，将 cross-script-vs-floor margin 放大了 2.4-2.7x。ECAPA+GRL 消融实验表明，GRL objective 能改进任一 backbone，但 WavLM 的选择也有贡献。在合成 multi-speaker diarisation 中，LASE 在 cross-script speaker recall 上与 ECAPA-TDNN 持平（0.788 vs 0.789），而所需训练数据约少 100x。我们发布 r1 checkpoint、两个语料库以及 bootstrap recipe。