Hugging Face · Daily Papers

面向表格基础模型的先验对齐数据清洗

Prior-Aligned Data Cleaning for Tabular Foundation Models

Laure Berti-Equille

二〇二六年五月五日 · arXiv:2604.25154 · PDF · Code

摘要

Tabular Foundation Models（TFMs）通过在合成数据生成过程上进行 meta-learning，在小规模表格数据集上实现了 SOTA 的 zero-shot 准确率，因此对于无法负担大规模标注语料的实践者很有吸引力。然而，它们的 in-context learning 机制假设输入大致干净：现实数据中的缺失值、outlier 和重复项会造成 prior mismatch，从而同时降低准确率和置信度校准。纠正这种 mismatch 需要在清洗算子之间进行序列决策，而这些算子之间的交互是任何静态预处理规则都无法预判的——这天然适合 reinforcement learning（RL）。

我们提出 L2C2，这是首个将表格数据清洗表述为 prior alignment 的 deep RL 框架：一个学习得到的 policy 对算子进行排序，以最小化脏输入与 TFM 合成 prior 之间的分布差距。在 10 个 OpenML benchmark 数据集上的 6 项实验表明：1）7 种 reward 设计中有 3 种会退化为平凡的清洗策略——原则性的 reward engineering 在科学上并非易事；2）我们提出的新型 TFMAwareReward reward 在 4/10 个数据集上选择了结构上不同的 pipeline，并在这些出现分歧的案例中取得了更高的 TabPFN 准确率（平均 0.851 vs. 0.843；Wilcoxon p=0.063，n=4），且从未表现更差；3）参数化清洗 action 在 9/10 个数据集上提升了找到的最佳 pipeline reward（Wilcoxon p=0.004）；4）在单一源数据集上预训练的 policy，在所有三个 held-out 数据集的 2,000-step fine-tuning checkpoint 上都超过了从头训练（完整 fine-tuning 后最高 +28.8%），证明了 prior-alignment 知识具备跨数据集迁移能力。