面向 LLM 的大规模交互识别
Identifying Interactions at Scale for LLMs
文章介绍 SPEX 与 ProxySPEX,用 ablation、sparse recovery、coding theory 识别 LLM 等模型中的 feature、data、component interactions。ProxySPEX利用 hierarchy 约少 10x ablations,并在情感分析、GPT-4o mini 电车难题、CIFAR-10 ResNet、MMLU attention head pruning 中验证,代码集成于 SHAP-IQ。
--> 理解复杂 machine learning 系统,尤其是 Large Language Models (LLMs) 的行为,是现代人工智能中的一项关键挑战。Interpretability 研究旨在让模型构建者和受影响的人更清楚地看到决策过程,这是迈向更安全、更可信 AI 的一步。为了获得全面理解,我们可以从不同视角分析这些系统:feature attribution,它隔离出驱动预测的特定输入特征(Lundberg & Lee, 2017;Ribeiro et al., 2022);data attribution,它将模型行为与有影响力的训练样本联系起来(Koh & Liang, 2017;Ilyas et al., 2022);以及 mechanistic interpretability,它剖析内部组件的功能(Conmy et al., 2023;Sharkey et al., 2025)。在这些视角中,同一个根本障碍始终存在:规模化带来的复杂性。模型行为很少是孤立组件的结果;相反,它源自复杂的依赖关系和模式。为了达到 state-of-the-art 性能,模型会综合复杂的特征关系,从多样化的训练样本中找到共享模式,并通过高度互联的内部组件处理信息。因此,有依据或经过现实校验的 interpretability 方法也必须能够捕捉这些有影响力的 interactions。随着特征、训练数据点和模型组件数量增加,潜在 interactions 的数量会呈指数级增长,使穷举分析在计算上不可行。在这篇博客文章中,我们介绍 SPEX 和 ProxySPEX 背后的基本思想,这两种算法能够在规模化场景下识别这些关键 interactions。Attribution through Ablation 我们方法的核心是 ablation(消融)概念,即通过观察移除某个组件后发生了什么变化来衡量影响。Feature Attribution:我们 mask 或移除输入 prompt 的特定片段,并测量预测中由此产生的变化。Data Attribution:我们在训练集的不同子集上训练模型,评估在缺少特定训练数据时,模型对某个测试点的输出如何变化。Model Component Attribution(Mechanistic Interpretability):我们通过移除特定内部组件的影响来干预模型的 forward pass,从而确定哪些内部结构对模型预测负责。在每种情况下,目标都是相同的:通过系统性扰动系统来隔离决策的驱动因素,希望发现有影响力的 interactions。由于每次 ablation 都会带来显著成本,无论是昂贵的 inference 调用还是重新训练,我们的目标都是用尽可能少的 ablations 计算 attributions。--> 通过 masking 输入的不同部分,我们测量原始输出与 ablated 输出之间的差异。SPEX and ProxySPEX Framework 为了用可处理数量的 ablations 发现有影响力的 interactions,我们开发了 SPEX(Spectral Explainer)。该框架借鉴 signal processing 和 coding theory,将 interaction discovery 推进到比以往方法高出数个数量级的规模。SPEX 通过利用一个关键结构性观察来绕开这一难题:虽然总 interactions 数量大到难以处理,但真正有影响力的 interactions 数量其实很少。我们通过两个观察来形式化这一点:sparsity(真正驱动输出的 interactions 相对较少)和 low-degreeness(有影响力的 interactions 通常只涉及一小部分特征)。这些性质使我们能够将困难的搜索问题重新表述为可求解的 sparse recovery 问题。借助 signal processing 和 coding theory 中的强大工具,SPEX 使用经过策略选择的 ablations 将许多候选 interactions 组合在一起。随后,通过高效的 decoding 算法,我们将这些组合信号解开,隔离出负责模型行为的具体 interactions。--> 在后续算法 ProxySPEX 中,我们识别出了复杂 machine learning 模型中常见的另一种结构性质:hierarchy。这意味着当一个高阶 interaction 很重要时,它的低阶子集也很可能重要。这一额外的结构性观察带来了计算成本上的显著改进:它用大约少 10x 的 ablations 达到了与 SPEX 相当的性能。总体而言,这些框架支持高效的 interaction discovery,为 feature、data 和 model component attribution 解锁了新的应用。Feature Attribution Feature attribution 技术会根据输入特征对模型输出的影响,为其分配重要性分数。例如,如果使用 LLM 进行医学诊断,这种方法可以准确识别哪些症状促使模型得出结论。虽然为单个特征归因很有价值,但复杂模型的真正能力在于捕捉特征之间复杂关系的能力。下图展示了这些有影响力的 interactions 的示例:从双重否定改变情感(左)到 RAG 任务中必须综合多篇文档(右)。--> 下图展示了 SPEX 在情感分析任务上的 feature attribution 性能。我们使用 faithfulness 评估性能:它衡量恢复出的 attributions 能多准确地预测模型在未见测试 ablations 上的输出。我们发现,在短输入上,SPEX 达到了现有 interaction 技术(Faith-Shap、Faith-Banzhaf)的高 faithfulness;更特别的是,当 context 扩展到数千个特征时,它仍能保持这一性能。相比之下,marginal 方法(LIME、Banzhaf)虽然也能在这一规模运行,但由于无法捕捉驱动模型输出的复杂 interactions,其 faithfulness 显著更低。--> SPEX 也被应用于一个修改版电车难题,其中问题的道德模糊性被移除,使 “True” 成为明确的正确答案。给定如下修改后,GPT-4o mini 只有 8% 的情况下回答正确。当我们应用标准 feature attribution(SHAP)时,它将单个 trolley 一词的出现识别为驱动错误响应的主要因素。然而,将 trolley 替换为 tram 或 streetcar 等同义词,对模型预测几乎没有影响。SPEX 揭示了更丰富的情况,识别出两个 trolley 实例之间的主导性高阶 synergy,以及 pulling 和 lever 这两个词;这一发现符合人类对该困境核心组成部分的直觉。当这四个词被替换为同义词后,模型的失败率降至接近零。--> Data Attribution Data attribution 识别哪些训练数据点对模型在新测试点上的预测最负责任。识别这些数据点之间有影响力的 interactions,是解释意外模型行为的关键。Redundant interactions,例如语义重复,往往会强化特定(并且可能错误的)概念;而 synergistic interactions 对定义任何单个样本都无法单独形成的决策边界至关重要。为了展示这一点,我们将 ProxySPEX 应用于在 CIFAR-10 上训练的 ResNet 模型,为多种困难测试点识别两类 interaction 中最显著的样本,如下图所示。--> 如图所示,synergistic interactions(左)通常涉及语义上不同的类别共同定义决策边界。例如,从人类感知角度理解这种 synergy,automobile(左下)与所给训练图像共享视觉特征,包括 sports car 的低矮底盘、黄色 truck 的方正形状,以及红色 delivery vehicle 的水平条纹。另一方面,redundant interactions(右)往往捕捉强化特定概念的视觉重复。例如,horse 预测(中右)受到一组轮廓相似的 dog 图像的强烈影响。这种细粒度分析允许开发新的数据选择技术,在保留必要 synergies 的同时安全地移除 redundancies。Attention Head Attribution(Mechanistic Interpretability)Model component attribution 的目标是识别模型内部哪些部分,例如特定 layers 或 attention heads,对某种特定行为最负责任。在这里,ProxySPEX 同样能够揭示架构不同部分之间负责该行为的 interactions。理解这些结构依赖关系对于架构干预非常重要,例如面向特定任务的 attention head pruning。在 MMLU 数据集(highschool‐us‐history)上,我们展示了由 ProxySPEX 指导的 pruning 策略不仅优于竞争方法,实际上还能提升模型在目标任务上的性能。--> 在这一任务上,我们还分析了模型深度方向上的 interaction 结构。我们观察到,早期 layers 主要处于线性机制中,其中 heads 对目标任务的贡献大体相互独立。在较后 layers 中,attention heads 之间 interactions 的作用变得更加明显,并且大部分贡献来自同一 layer 中 heads 之间的 interactions。--> What’s Next? SPEX 框架代表了 interpretability 的重要进展,将 interaction discovery 从数十个组件扩展到数千个组件。我们展示了该框架在整个模型生命周期中的通用性:探索长 context 输入上的 feature attribution,识别训练数据点之间的 synergies 和 redundancies,以及发现内部模型组件之间的 interactions。展望未来,围绕统一这些不同视角仍有许多有趣的研究问题,以便更整体地理解 machine learning 系统。系统性地评估 interaction discovery 方法与基因组学、材料科学等领域现有科学知识之间的一致性,也非常有价值,这既可以为模型发现提供现实依据,也可以生成新的、可测试的假设。我们邀请研究社区加入这一努力:SPEX 和 ProxySPEX 的代码都已完整集成,并可在流行的 SHAP-IQ repository 中获取(link)。https://github.com/mmschlk/shapiq(SHAP-IQ Github)https://openreview.net/forum?id=KI8qan2EA7(ProxySPEX NeurIPS 2025)https://openreview.net/forum?id=pRlKbAwczl(SPEX ICML 2025)https://openreview.net/forum?id=glGeXu1zG4(Learning to Understand NeurIPS 2024)