berkeley-bair

面向 LLM 的大规模交互识别

Identifying Interactions at Scale for LLMs

二〇二六年五月八日 · 英文原文

摘要

文章介绍 SPEX 与 ProxySPEX，用 ablation、sparse recovery、coding theory 识别 LLM 等模型中的 feature、data、component interactions。ProxySPEX利用 hierarchy 约少 10x ablations，并在情感分析、GPT-4o mini 电车难题、CIFAR-10 ResNet、MMLU attention head pruning 中验证，代码集成于 SHAP-IQ。

--> 理解复杂 machine learning 系统，尤其是 Large Language Models (LLMs) 的行为，是现代人工智能中的一项关键挑战。Interpretability 研究旨在让模型构建者和受影响的人更清楚地看到决策过程，这是迈向更安全、更可信 AI 的一步。为了获得全面理解，我们可以从不同视角分析这些系统：feature attribution，它隔离出驱动预测的特定输入特征（Lundberg & Lee, 2017；Ribeiro et al., 2022）；data attribution，它将模型行为与有影响力的训练样本联系起来（Koh & Liang, 2017；Ilyas et al., 2022）；以及 mechanistic interpretability，它剖析内部组件的功能（Conmy et al., 2023；Sharkey et al., 2025）。在这些视角中，同一个根本障碍始终存在：规模化带来的复杂性。模型行为很少是孤立组件的结果；相反，它源自复杂的依赖关系和模式。为了达到 state-of-the-art 性能，模型会综合复杂的特征关系，从多样化的训练样本中找到共享模式，并通过高度互联的内部组件处理信息。因此，有依据或经过现实校验的 interpretability 方法也必须能够捕捉这些有影响力的 interactions。随着特征、训练数据点和模型组件数量增加，潜在 interactions 的数量会呈指数级增长，使穷举分析在计算上不可行。在这篇博客文章中，我们介绍 SPEX 和 ProxySPEX 背后的基本思想，这两种算法能够在规模化场景下识别这些关键 interactions。Attribution through Ablation 我们方法的核心是 ablation（消融）概念，即通过观察移除某个组件后发生了什么变化来衡量影响。Feature Attribution：我们 mask 或移除输入 prompt 的特定片段，并测量预测中由此产生的变化。Data Attribution：我们在训练集的不同子集上训练模型，评估在缺少特定训练数据时，模型对某个测试点的输出如何变化。Model Component Attribution（Mechanistic Interpretability）：我们通过移除特定内部组件的影响来干预模型的 forward pass，从而确定哪些内部结构对模型预测负责。在每种情况下，目标都是相同的：通过系统性扰动系统来隔离决策的驱动因素，希望发现有影响力的 interactions。由于每次 ablation 都会带来显著成本，无论是昂贵的 inference 调用还是重新训练，我们的目标都是用尽可能少的 ablations 计算 attributions。--> 通过 masking 输入的不同部分，我们测量原始输出与 ablated 输出之间的差异。SPEX and ProxySPEX Framework 为了用可处理数量的 ablations 发现有影响力的 interactions，我们开发了 SPEX（Spectral Explainer）。该框架借鉴 signal processing 和 coding theory，将 interaction discovery 推进到比以往方法高出数个数量级的规模。SPEX 通过利用一个关键结构性观察来绕开这一难题：虽然总 interactions 数量大到难以处理，但真正有影响力的 interactions 数量其实很少。我们通过两个观察来形式化这一点：sparsity（真正驱动输出的 interactions 相对较少）和 low-degreeness（有影响力的 interactions 通常只涉及一小部分特征）。这些性质使我们能够将困难的搜索问题重新表述为可求解的 sparse recovery 问题。借助 signal processing 和 coding theory 中的强大工具，SPEX 使用经过策略选择的 ablations 将许多候选 interactions 组合在一起。随后，通过高效的 decoding 算法，我们将这些组合信号解开，隔离出负责模型行为的具体 interactions。--> 在后续算法 ProxySPEX 中，我们识别出了复杂 machine learning 模型中常见的另一种结构性质：hierarchy。这意味着当一个高阶 interaction 很重要时，它的低阶子集也很可能重要。这一额外的结构性观察带来了计算成本上的显著改进：它用大约少 10x 的 ablations 达到了与 SPEX 相当的性能。总体而言，这些框架支持高效的 interaction discovery，为 feature、data 和 model component attribution 解锁了新的应用。Feature Attribution Feature attribution 技术会根据输入特征对模型输出的影响，为其分配重要性分数。例如，如果使用 LLM 进行医学诊断，这种方法可以准确识别哪些症状促使模型得出结论。虽然为单个特征归因很有价值，但复杂模型的真正能力在于捕捉特征之间复杂关系的能力。下图展示了这些有影响力的 interactions 的示例：从双重否定改变情感（左）到 RAG 任务中必须综合多篇文档（右）。--> 下图展示了 SPEX 在情感分析任务上的 feature attribution 性能。我们使用 faithfulness 评估性能：它衡量恢复出的 attributions 能多准确地预测模型在未见测试 ablations 上的输出。我们发现，在短输入上，SPEX 达到了现有 interaction 技术（Faith-Shap、Faith-Banzhaf）的高 faithfulness；更特别的是，当 context 扩展到数千个特征时，它仍能保持这一性能。相比之下，marginal 方法（LIME、Banzhaf）虽然也能在这一规模运行，但由于无法捕捉驱动模型输出的复杂 interactions，其 faithfulness 显著更低。--> SPEX 也被应用于一个修改版电车难题，其中问题的道德模糊性被移除，使 “True” 成为明确的正确答案。给定如下修改后，GPT-4o mini 只有 8% 的情况下回答正确。当我们应用标准 feature attribution（SHAP）时，它将单个 trolley 一词的出现识别为驱动错误响应的主要因素。然而，将 trolley 替换为 tram 或 streetcar 等同义词，对模型预测几乎没有影响。SPEX 揭示了更丰富的情况，识别出两个 trolley 实例之间的主导性高阶 synergy，以及 pulling 和 lever 这两个词；这一发现符合人类对该困境核心组成部分的直觉。当这四个词被替换为同义词后，模型的失败率降至接近零。--> Data Attribution Data attribution 识别哪些训练数据点对模型在新测试点上的预测最负责任。识别这些数据点之间有影响力的 interactions，是解释意外模型行为的关键。Redundant interactions，例如语义重复，往往会强化特定（并且可能错误的）概念；而 synergistic interactions 对定义任何单个样本都无法单独形成的决策边界至关重要。为了展示这一点，我们将 ProxySPEX 应用于在 CIFAR-10 上训练的 ResNet 模型，为多种困难测试点识别两类 interaction 中最显著的样本，如下图所示。--> 如图所示，synergistic interactions（左）通常涉及语义上不同的类别共同定义决策边界。例如，从人类感知角度理解这种 synergy，automobile（左下）与所给训练图像共享视觉特征，包括 sports car 的低矮底盘、黄色 truck 的方正形状，以及红色 delivery vehicle 的水平条纹。另一方面，redundant interactions（右）往往捕捉强化特定概念的视觉重复。例如，horse 预测（中右）受到一组轮廓相似的 dog 图像的强烈影响。这种细粒度分析允许开发新的数据选择技术，在保留必要 synergies 的同时安全地移除 redundancies。Attention Head Attribution（Mechanistic Interpretability）Model component attribution 的目标是识别模型内部哪些部分，例如特定 layers 或 attention heads，对某种特定行为最负责任。在这里，ProxySPEX 同样能够揭示架构不同部分之间负责该行为的 interactions。理解这些结构依赖关系对于架构干预非常重要，例如面向特定任务的 attention head pruning。在 MMLU 数据集（highschool‐us‐history）上，我们展示了由 ProxySPEX 指导的 pruning 策略不仅优于竞争方法，实际上还能提升模型在目标任务上的性能。--> 在这一任务上，我们还分析了模型深度方向上的 interaction 结构。我们观察到，早期 layers 主要处于线性机制中，其中 heads 对目标任务的贡献大体相互独立。在较后 layers 中，attention heads 之间 interactions 的作用变得更加明显，并且大部分贡献来自同一 layer 中 heads 之间的 interactions。--> What’s Next? SPEX 框架代表了 interpretability 的重要进展，将 interaction discovery 从数十个组件扩展到数千个组件。我们展示了该框架在整个模型生命周期中的通用性：探索长 context 输入上的 feature attribution，识别训练数据点之间的 synergies 和 redundancies，以及发现内部模型组件之间的 interactions。展望未来，围绕统一这些不同视角仍有许多有趣的研究问题，以便更整体地理解 machine learning 系统。系统性地评估 interaction discovery 方法与基因组学、材料科学等领域现有科学知识之间的一致性，也非常有价值，这既可以为模型发现提供现实依据，也可以生成新的、可测试的假设。我们邀请研究社区加入这一努力：SPEX 和 ProxySPEX 的代码都已完整集成，并可在流行的 SHAP-IQ repository 中获取（link）。https://github.com/mmschlk/shapiq（SHAP-IQ Github）https://openreview.net/forum?id=KI8qan2EA7（ProxySPEX NeurIPS 2025）https://openreview.net/forum?id=pRlKbAwczl（SPEX ICML 2025）https://openreview.net/forum?id=glGeXu1zG4（Learning to Understand NeurIPS 2024）

译自 berkeley-bair · 录于二〇二六年五月八日