Hugging Face · Daily Papers
重复优于多样性:用于样本高效德语语言建模的高信号数据过滤
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
来自 Boldt
摘要
近期研究表明,将大规模英文 web corpora 过滤为高质量子集,可以显著提升训练效率。然而,对于德语、法语或日语等高资源非英语语言,激进过滤会带来一个策略性两难:实践者应优先考虑多样性,在大量轻度过滤的 web 数据上训练一次,还是优先考虑质量,严格筛选出高质量核心数据,并在多个 epoch 中反复使用?
我们以德语为对象研究这一取舍:对 500M web documents 构建分层质量过滤器,并比较在过滤子集上进行 multi-epoch training 与在多样化 corpus 上进行 single-pass training 的效果。我们在多个 model scales 和 token budgets 下的实验表明,重复使用高质量数据始终优于在规模更大、过滤更少的数据集上进行 single-pass training。值得注意的是,即使经过 7 个 epoch,这一性能差距仍然存在。
我们的发现表明,对于非英语 LLM,借助质量过滤实现语义集中,比单纯最大化 unique data volume 更适合作为高效语言建模的路径。我们向研究社区发布德语语言模型 Boldt,以及清洗后的 evaluation benchmarks。实验结果显示,尽管训练 token 数比同类模型少 10-360 倍,它们仍取得了 state-of-the-art 结果。