Hugging Face · Daily Papers

重复优于多样性：用于样本高效德语语言建模的高信号数据过滤

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Ansar Aynetdinov, Patrick Haller, Alan Akbik

来自 Boldt

二〇二六年五月五日 · arXiv:2604.28075 · PDF

摘要

近期研究表明，将大规模英文 web corpora 过滤为高质量子集，可以显著提升训练效率。然而，对于德语、法语或日语等高资源非英语语言，激进过滤会带来一个策略性两难：实践者应优先考虑多样性，在大量轻度过滤的 web 数据上训练一次，还是优先考虑质量，严格筛选出高质量核心数据，并在多个 epoch 中反复使用？

我们以德语为对象研究这一取舍：对 500M web documents 构建分层质量过滤器，并比较在过滤子集上进行 multi-epoch training 与在多样化 corpus 上进行 single-pass training 的效果。我们在多个 model scales 和 token budgets 下的实验表明，重复使用高质量数据始终优于在规模更大、过滤更少的数据集上进行 single-pass training。值得注意的是，即使经过 7 个 epoch，这一性能差距仍然存在。

我们的发现表明，对于非英语 LLM，借助质量过滤实现语义集中，比单纯最大化 unique data volume 更适合作为高效语言建模的路径。我们向研究社区发布德语语言模型 Boldt，以及清洗后的 evaluation benchmarks。实验结果显示，尽管训练 token 数比同类模型少 10-360 倍，它们仍取得了 state-of-the-art 结果。