Hugging Face · 官方博客

EVA-Bench Data 2.0:3个领域,121个工具,213个场景

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

二〇二六年六月四日 · 英文原文

ServiceNow-AI 团队将 EVA-Bench 从单一企业领域扩展至航空客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,覆盖 121 个工具上的 213 个评估场景,规模约为原始版本的 4 倍。每个场景针对 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证了可解性。数据集使用基于图的合成数据 pipeline SyGra 联合生成用户目标、初始数据库和预期最终状态,并经过多轮人工审查。所有数据集在 MIT 许可下开源,可通过 Hugging Face datasets 库加载。

](https://huggingface.co/tarabogavelli)

Image 2: Gabrielle Gauthier Melancon 的头像

Image 3: Katrina Stankiewicz 的头像

Image 4: Nifemi Bamgbose 的头像

Image 5: Fanny Riols 的头像

Image 6: Hoang Nguyen 的头像

Image 7: Raghav Mehndiratta 的头像

Image 8: Lindsay Brin 的头像

Image 9: Joseph Marinier 的头像

Image 10: Hari Subramani 的头像

Image 11: Anil Madamala 的头像

Image 12: 2026-06-03 下午4.59.53 的截图

引言

语音 agent 的失败往往高度依赖于特定领域。一个能在航班改签交易中完美处理字母数字确认码的系统,在处理 HR 系统中的复杂策略时可能会出错。不同的领域考验 agent 适应不同词汇、工作流复杂度和用户期望的能力。因此,在此次发布中,EVA-Bench 从一个企业领域扩展到三个:航空客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)。它们共同覆盖了 121 个工具上的 213 个评估场景,场景覆盖范围相比我们最初的发布增加了大约 4 倍。 每个场景都针对三个前沿模型(OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6)验证了可解性,确保该 benchmark 既具有挑战性又公平。所有三个数据集都是开源的,可供下载:

from datasets import load_dataset

# 航空客户服务管理 (CSM) — 50 个场景
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")
# 企业 IT 服务管理 (ITSM) — 80 个场景
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")
# 医疗 HR 服务交付 (HRSD) — 83 个场景
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")

EVA-Bench 面向多个受众构建。如果你正在评估一个语音 agent,你可以让它运行在跨越 35 多个不同工作流的一组多样化、真实的企业场景上。如果你正在构建自己的评估数据集,这篇文章详细描述了我们的端到端生成和验证过程,足以作为实用参考。我们详细介绍了每个领域是如何设计和生成的,并深入探讨了两个新增的领域。我们还预览了即将推出的多语言扩展,它将 benchmark 的范围扩展到仅限英语的企业部署之外。

Image 13Image 14Image 15Image 16Image 17

数据设计原则

五个原则指导了所有三个领域的 EVA-Bench 数据集设计。

语音优先范围。 并非每个企业工作流都适合纳入语音 benchmark。我们首先确定了每个领域中实际通过电话处理的任务,然后从该子集中选择了最常见的流程。这使场景立足于真实的通话模式。

真实性。 工具 schema 模仿了生产平台会使用的 API 类型。场景策略源自实际的企业约束。对于医疗 HRSD 领域,这意味着将场景植根于实际的美国医疗政策和行政系统,包括 NPI 号码、FMLA 和保险覆盖范围,以便 benchmark 反映从业者在现实生活中遇到的领域。

多样性。 简单地重复相同任务来扩展数据集提供的评估信号有限。为避免这种情况,我们为每个领域定义了特定的工作流,并在三种场景类型中进行采样:单意图通话、单次对话中最多包含四个意图的多意图通话,以及对抗性通话(呼叫者试图绕过故障排除步骤、错误分类紧急程度或访问其无权查看的记录)。在单意图和多意图场景中,我们还包含了用户目标无法满足的情况,因为真实的通话量并非都是顺利路径,而且根据我们的经验,模型在处理无法满足的目标时往往比处理成功交互时更困难。

身份验证。 先前的工作(EVA-Benchτ-Voice)已将身份验证确定为语音 agent 最一致的失败点之一。EVA-Bench 中的每个领域都包含身份验证流程,并且具体机制根据任务进行调整。例如,基于 OTP 的权限提升仅在生产系统实际需要时才出现,而不是统一应用于所有场景。

可复现性。 如果没有可复现的场景,就很难知道分数差异反映的是真实的能力差距,还是场景执行方式的人为产物。我们设计数据集时,确保每个场景只有一条正确的解决路径。用户目标构建确保模拟器始终拥有保持一致行为所需的信息和指令,并且场景生成会显式检查并消除任何多个有效动作序列可能产生相同结果的情况。

场景生成

联合生成。 场景使用 SyGra(一个基于图的合成数据生成 pipeline)生成,以 GPT-5.4 为 backbone。每个场景需要三个联合一致的组件,这些组件一起生成,以防止组件独立生成时出现的不一致:

用户目标。 可复现性要求用户模拟器在每次运行场景时行为方式相同。模糊的意图陈述无法实现这一点:模拟器会在不同运行中做出不同的判断,产生不一致的评估信号。为消除这一点,用户目标被构建为一个决策树,覆盖模拟器可能遇到的每种情况。用户目标精确指定了用户应该请求的内容,以及一个协商序列,精确指定何时坚持、何时询问替代方案、何时接受。常见的边缘情况,例如是否接受候补航班或备选机场,都通过显式指令处理,而不是留给模拟器去解释。解决条件要求有已完成动作的证据,例如确认号或案例 ID,而不是口头承诺,因此模拟器会一直通话直到动作实际被确认。结果是用户表现得像一个一致、真实的呼叫者,而不是即兴发挥。

初始场景数据库。 agent 的工具将在场景期间查询和修改的后端状态。与用户目标联合生成,以确保用户目标中引用的每个实体(例如预订 ID、账户详情和身份验证凭据)在数据库中都存在且一致。

预期最终数据库状态(ground truth)。 我们通过在 agent 指令、用户目标和初始场景数据库上运行生成 LLM 来推导预期结果,生成完整的动作轨迹。当 LLM 执行写工具调用时,数据库会增量更新,由此产生的终端状态成为验证器在评估期间检查的 ground truth。

联合生成至关重要,因为这三个组件是深度相互依赖的。独立生成会引入静默不一致,例如用户目标中引用的案例 ID 在场景数据库中不存在,这将完全破坏评估信号。为强制一致性,我们在每次生成尝试后运行一个多阶段验证循环,并将任何失败反馈给生成步骤,该步骤会重试直到所有检查通过。验证分三步进行。

进一步验证

在 SyGra 生成之后,所有场景都经过多轮人工审查。审查者验证了:(1) 策略在领域内的场景之间应用一致;(2) 用户目标足够具体,只允许一条正确的解决路径;(3) 预期最终状态与用户目标和初始数据库内部一致;(4) 对抗性场景被正确指定,具有清晰可识别的策略违规。模糊或不一致的记录被纠正或丢弃。

作为最后一步,我们在每个场景的纯文本版本上运行了三个前沿模型:OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6,绕过音频 pipeline 并直接提供对话转录。对于任何模型在任务完成度上得分为零的每个场景,我们手动调查失败是反映真实的模型错误还是数据集问题:模糊的策略、未充分指定的用户目标、工具执行器中的错误,或者初始数据库状态与预期数据库状态之间的不一致。识别出数据集问题的记录被纠正或移除。所有选定的样本至少能被一个前沿模型解决。

数据集深度解析

我们在不同的企业领域创建了三个数据集,每个数据集都针对语音 agent 的不同难度轴进行选择。所有三个都需要通过语音准确转录结构化命名实体(例如确认码和员工标识符),但它们在主要挑战和工具数量上有所不同。

下面,我们深入探讨两个新数据集:企业 ITSM 和医疗 HRSD。

Image 18: 2026-06-03 下午4.19.42 的截图

Image 19: 2026-06-03 下午4.25.43 的截图

多语言支持

仅限英语的评估对于了解语音 agent 在另一种语言中的实际表现提供的洞察有限。语音识别准确率、转录保真度和对话流畅度都可能以特定于语言的方式下降,这意味着在英语中表现优异的语音 agent 在部署到其他语言环境时可能完全失败。为了让从业者真正了解多语言部署,我们正在增加对更多语言的支持,不仅调整对话语言,还调整评估 pipeline 以适应每种目标语言和文化:

英语场景 法语场景
话语: "Hi, I'm locked out and need help getting back into my account." 话语: "Bonjour, mon compte est bloqué et j’ai besoin d’aide pour y accéder à nouveau."
地点: [ "downtown", "engineering center" ] 地点: [ "centre-ville", "centre d’ingénierie" ]
姓名: {"first_name": "Marcus", "last_name": "Chen"} 姓名: {"first_name": "Éric", "last_name": "Nicolas"}
邮箱: "marcus.chen@example.com" 邮箱: "eric.nicolas@example.com"
电话: +1-512-555-0148 电话: +33 6 19 41 27 70

这使得用户模拟器能够以所选语言提供真实的体验。除了数据集之外,我们还在更新我们的指标和评判器,以构建跨语言的可信评估。

获取数据

EVA-Bench 在 MIT 许可下完全开源。数据集评估框架排行榜均公开可用。在 HuggingFace 数据集页面下载数据集并探索单个记录。使用 Hugging Face datasets 库直接加载其中任何一个:

from datasets import load_dataset

# 航空客户服务管理 (CSM) — 50 个场景
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")
# 企业 IT 服务管理 (ITSM) — 80 个场景
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")
# 医疗 HR 服务交付 (HRSD) — 83 个场景
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")

每条记录包含一个结构化的用户目标、初始场景数据库和 ground truth 预期最终数据库状态——运行完整的 bot-to-bot 评估所需的一切。有关设置说明、代码和贡献指南,请参阅 GitHub 仓库

引用

@misc{bogavelli2026evabenchnewendtoendframework,
      title={EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents}, 
      author={Tara Bogavelli and Gabrielle Gauthier Melançon and Katrina Stankiewicz and Oluwanifemi Bamgbose and Fanny Riols and Hoang H. Nguyen and Raghav Mehndiratta and Lindsay Devon Brin and Joseph Marinier and Hari Subramani and Anil Madamala and Sridhar Krishna Nemala and Srinivas Sunkara},
      year={2026},
      eprint={2605.13841},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2605.13841}, 
}

@misc{ray2026tauvoicebenchmarkingfullduplexvoice,
      title={$\tau$-Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains}, 
      author={Soham Ray and Keshav Dhandhania and Victor Barres and Karthik Narasimhan},
      year={2026},
      eprint={2603.13686},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2603.13686}, 
}

@misc{pradhan2025sygraunifiedgraphbasedframework,
      title={SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data}, 
      author={Bidyapati Pradhan and Surajit Dasgupta and Amit Kumar Saha and Omkar Anustoop and Sriram Puttagunta and Vipul Mittal and Gopal Sarda},
      year={2025},
      eprint={2508.15432},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.15432}, 
}
译自 Hugging Face · 官方博客 · 录于 二〇二六年六月四日