LASE:用于印度语跨文字身份保持的语言对抗式说话人编码
LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation
用于多语言 voice cloning 的 speaker encoder 应当将同一说话人视为相同,不受音频所用书写系统影响。现成的 encoder 做不到这一点,而且这种失效与口音条件相关。在一个包含 English、Hindi、Telugu 和 Tamil、共 1043 对西方口音语音的语料库上,当同一声音切换书写系统时,WavLM-base-plus-sv 的 absolute cosine similarity 下降 0.082,ECAPA-TDNN 下降 0.105。在一个包含 1369 对印度口音语音的语料库上,这一差距缩小到 0.006(WavLM-SV)和 0.044(ECAPA-TDNN)。这种泄漏在 cross-script TTS 最关键的场景中最为明显:系统将一个未在 Indic 语言上训练的声音投射到 Indic 书写系统中。
我们提出 LASE(Language-Adversarial Speaker Encoder),它是在冻结的 WavLM-base-plus 之上的一个小型 projection head,使用两种 loss 训练:一种是针对 voice identity 的 supervised contrastive loss;另一种是通过 gradient-reversal 对抗 4-language classifier 的 cross-entropy,使 embedding 不携带语言信息,同时保留说话人信息。LASE 使用来自 8 个商业多语言 voice、经质量筛选的 1118 对 cross-script 合成数据训练;在两个语料库上,其 residual gap 均与零一致(Delta = 0.013 Western,Delta = 0.026 Indian;二者的 bootstrap 95% CI 均包含零),并且相较两个 baseline,将 cross-script-vs-floor margin 放大了 2.4-2.7x。ECAPA+GRL 消融实验表明,GRL objective 能改进任一 backbone,但 WavLM 的选择也有贡献。在合成 multi-speaker diarisation 中,LASE 在 cross-script speaker recall 上与 ECAPA-TDNN 持平(0.788 vs 0.789),而所需训练数据约少 100x。我们发布 r1 checkpoint、两个语料库以及 bootstrap recipe。