面向表格基础模型的先验对齐数据清洗
Prior-Aligned Data Cleaning for Tabular Foundation Models
Tabular Foundation Models(TFMs)通过在合成数据生成过程上进行 meta-learning,在小规模表格数据集上实现了 SOTA 的 zero-shot 准确率,因此对于无法负担大规模标注语料的实践者很有吸引力。然而,它们的 in-context learning 机制假设输入大致干净:现实数据中的缺失值、outlier 和重复项会造成 prior mismatch,从而同时降低准确率和置信度校准。纠正这种 mismatch 需要在清洗算子之间进行序列决策,而这些算子之间的交互是任何静态预处理规则都无法预判的——这天然适合 reinforcement learning(RL)。
我们提出 L2C2,这是首个将表格数据清洗表述为 prior alignment 的 deep RL 框架:一个学习得到的 policy 对算子进行排序,以最小化脏输入与 TFM 合成 prior 之间的分布差距。在 10 个 OpenML benchmark 数据集上的 6 项实验表明:1)7 种 reward 设计中有 3 种会退化为平凡的清洗策略——原则性的 reward engineering 在科学上并非易事;2)我们提出的新型 TFMAwareReward reward 在 4/10 个数据集上选择了结构上不同的 pipeline,并在这些出现分歧的案例中取得了更高的 TabPFN 准确率(平均 0.851 vs. 0.843;Wilcoxon p=0.063,n=4),且从未表现更差;3)参数化清洗 action 在 9/10 个数据集上提升了找到的最佳 pipeline reward(Wilcoxon p=0.004);4)在单一源数据集上预训练的 policy,在所有三个 held-out 数据集的 2,000-step fine-tuning checkpoint 上都超过了从头训练(完整 fine-tuning 后最高 +28.8%),证明了 prior-alignment 知识具备跨数据集迁移能力。
这些发现表明,prior alignment 是在真实世界表格数据上部署 TFM 时一种有原则的数据准备策略。