UK AI Security Institute

使用Inspect Scout进行转录分析的工作流

A pipeline for transcript analysis using Inspect Scout

二〇二六年五月十三日 · 英文原文

摘要

英国AI安全研究所（AISI）与Meridian Labs合作开发了开源转录分析工具Inspect Scout，并发布论文提出七步分析流程。该工具构建于评估平台Inspect之上，通过扫描器（scanners）分析AI系统在多轮对话或工具使用中的输出，可并行处理数千条转录。预置扫描器包括拒绝检测、评估感知检测和命令错误检测。七步流程涵盖定义分析目的、组织转录、手动检查、完善研究问题、设计扫描器、验证结果及使用数据。

使用 Inspect Scout 进行转录分析的工作流程 | AISI 工作

请启用此网站的 JavaScript。

使用 Inspect Scout 进行转录分析的工作流程

我们概述了使用开源转录分析工具 Inspect Scout 的逐步工作流程。

—

2026 年 2 月 25 日

AI 系统在使用工具或在多轮对话中响应查询时，可以生成大量输出。这些输出包含重要信息，但理解它们可能具有挑战性。

转录分析（也称为日志分析）在我们理解 AI 系统的能力、行为及其运行环境方面发挥着重要作用。例如，转录不仅可以帮助我们理解 agent 在评估中失败或成功的频率，还能揭示原因——通过暴露可能并不反映其真实能力的失败模式，如 bug 或拒绝。它还可以提供对模型安全相关属性的洞察，例如它是否误报进展或遗漏重要信息。

为了帮助 AI 安全与安保社区的其他成员审查他们自己的转录，我们与 Meridian Labs 密切合作，构建了 Inspect Scout，一个开源的转录分析工具。我们的新论文详细介绍了使用 Inspect Scout 进行严格转录分析的七个简单步骤。

在这篇博客中，我们解释了 Inspect Scout 的工作原理，并简要概述了我们建议的转录分析工作流程。

什么是 Inspect Scout？

Inspect Scout 是一个用于进行系统性、定量转录分析的工具。它构建在我们流行的评估平台 Inspect 之上，并且可以扩展以并行分析数千个转录。

它允许你使用扫描器（scanners）来分析转录，扫描器是接受转录中特定输入并将其转换为可读结果的函数。Scout 支持创建你自己的自定义扫描器，同时也提供几个预配置的扫描器。以下是 Inspect Scout 中当前可用的一些扫描器示例：

拒绝扫描器 检测模型因遵守其安全规范而拒绝完成任务的情况，而非因为它们无法完成。
评估感知扫描器 搜索模型意识到自己正在被评估的证据，这可能导致模型以破坏评估的方式行事，例如通过放水（sandbagging）。
命令错误扫描器 检测模型尝试调用不可用工具的情况。这可能会促使你在评估环境中提供被标记的工具，以激发模型的全部能力。

转录分析的工作流程

我们的论文提出了一个七步转录分析流程，该流程汇集了来自 AI 研究生态系统的常见最佳实践。

下面我们概述每个步骤。

阶段 1：定义分析目的

与任何数据分析一样，第一步是确定你试图回答的广泛问题。这可以是一个主要问题（"这个 AI agent 能解决特定的编码挑战吗？"）或一个次要问题（"我能信任这个评估的结果吗？"）。

阶段 2：组织你的转录

你计划分析的数据应整理到结构化的数据库中。在此阶段，你可能还想过滤或预处理数据，例如删除个人数据或填补任何缺失值。

阶段 3：检查你的转录

手动检查至少几个数据样本以了解转录的结构和内容，并熟悉它们的格式，这一点很重要。在选择要阅读的样本时，你可以根据多个因素进行过滤，例如转录的长度或 agent 是否通过或失败任务。

LLM 也可以用于部分自动化此过程——无论是在转录级别（通过向 LLM 查询特定任务期间发生的情况），还是在数据库级别（通过搜索从阅读单个转录中不明显的统计模式或相关性）。

阶段 4：完善你的研究问题

在此，你将完善阶段一定义的研究问题。研究问题需要识别可以在转录中定位的具体信号。这些信号将在下一阶段作为扫描器进行操作化。例如：

阶段 5：设计你的扫描器

一旦你知道要检测什么信号，下一步就是设计一个执行此功能的扫描器。这首先需要决定在哪个级别进行分析——例如，你可以隔离特定的内容类型来关注，如用户消息、推理轨迹或工具调用。

阶段 6：验证你的扫描器

在首次运行扫描器后，你需要选择一部分结果与 ground truth 进行验证，以确保扫描器按预期工作。

有时，这将是客观的（"agent 是否生成了有效的代码？"），因此可以由单个人类标注者轻松检查。或者它可能是主观的（"这个输出是否有害？"），在这种情况下，你可能需要多个标注者来考虑分歧或偏见。

阶段 7：使用你的结果

总的来说，你从转录分析中收集的数据可能对两个目的有用：

标记即时问题：在某些情况下，无需进行统计分析即可直接对发现结果采取行动。例如，识别出许多拒绝可能会促使进一步的 elicitation 尝试，或者工具访问问题可能会促使你调整评估环境。
进一步研究：运行扫描器的过程将非结构化的转录转换为结构化数据。你现在可以将这些数据用于下游分析，以得出关于模型行为和能力的结论，或预测未来行为。

在我们的论文中，我们为上述每个步骤提供了详细的实施指南。这是朝着创建精简的转录分析框架迈出的第一步，但仍存在未解决的问题！在论文的最后部分，我们列出了其中一些问题。我们希望激励 AI 安全与安保社区的其他成员更系统地研究这些问题。

要开始使用 Inspect Scout，你也可以阅读我们的完整文档。

‍