cognition

如何自动化故障分类并10倍提升测试生成：我们在HIL/SIL工作流中部署AI的经验

How to Automate Failure Triages and 10x Test Generation: What We've Learned Deploying AI Across HIL/SIL Workflows

二〇二六年五月十二日 · 英文原文

摘要

过去一年，Devin已在多家OEM的HIL/SIL工作流中部署。通过与RV Tech和Mercedes等客户合作，AI缩短了开发-验证-发布周期，提升了测试质量与覆盖率。自动故障分类每月节省数千工程小时。关键实践包括：构建端到端分类流水线（每月约4000工单节省2000-4000工程小时）、并行agent在15分钟内分类52个工单、分离测试规划与实现（测试开发从半周缩短至1天，80%测试通过）、模块化Playbook使测试生成量提升10倍（从每天1-2个增至10-15个）。Devin还用于将瓶颈HIL测试迁移至SIL，并实现从AI辅助到计划性自动化再到自我改进Playbook的组织成熟度演进。

过去一年，我们已在多家 OEM 的 HIL/SIL 工作流中部署了 Devin。尽管企业用软件在环（SIL）补充硬件在环（HIL）测试已有十多年，但实际采用程度差异很大。能有效将 AI 部署到 HIL/SIL 工作流中的案例更是少之又少。问题依然存在——需求和工单量持续增长，而工程能力却跟不上。

通过与 RV Tech 和 Mercedes 等客户合作，我们发现 AI 可以缩短开发 -> 验证 -> 发布的周期，提升测试质量并增加测试覆盖率。我们还看到，团队通过自动化的故障分类，每月节省了数千工程小时。在前沿领域，我们也开始看到 AI 在将瓶颈 HIL 测试迁移到 SIL、减少后期 HIL 故障方面的潜力。

我们学到的东西

构建自动化分类流水线

通常，团队每天早晨面对数千个难以理解和定位根因的测试失败及用户问题。由于数量庞大，实践中许多故障直到变成更大问题才会被分类处理。

构建端到端流水线，按计划分析故障

结果：一个团队让 Devin 在代码完成后每天触发一次流水线，该流水线启动一个 GitLab 程序，将测试刷写到 HIL 台架上。Devin 在早上获取输出，然后在工程师醒来前进行分类并发送报告。结果，该团队每月在约 4,000 个工单上节省了 2,000–4,000 工程小时，相当于每年节省 170 万–350 万美元。

使用并行 agent 同时分类多个工单

结果：在 RV Tech，当车辆问题出现在 Slack 中时，Devin 被自动触发拉取日志、运行诊断，并提供结构化的分类报告供团队审查。在另一个部署中，数十个并行 agent 在不到 15 分钟内分类了 52 个工单。 由于 Devin 运行在云端，工程师可以在多个 agent 并行分类工单（每个工单一个 agent）的同时处理其他工作。

如何加速测试生成与需求映射工作流

对于汽车团队来说，测试生成能力受限于对框架和需求的熟悉程度，以及台架可用性和 HIL 周期时间。这导致测试开发和覆盖率出现大量积压。

将测试规划（将需求映射到缺口）与测试实现（生成代码）分离，以获得更高质量的结果

结果：对于一家美国大型汽车公司，我们发现将专门的规划 agent 与实现 agent 分离，提高了质量和速度。他们的项目测试开发从半周缩短到 1 天，约 80% 的生成测试通过。

为每个框架和每个子系统创建可复用、模块化的 Playbook

结果：一名工程师先制定出初始 Playbook，团队其他成员即可立即从该编码知识中生成测试。在多个案例中，Devin 识别出两个需求之间的冲突逻辑，并标记给人工审查员确认。对于 RV Tech，实施这些最佳实践使测试生成量提升了 10 倍，从手动每天 1–2 个增加到 AI 辅助下每天 10–15 个。

当测试覆盖率和质量随 Playbook 而非人员数量扩展时，工程师可以专注于更高价值的工作。

将瓶颈 HIL 测试迁移到 SIL

HIL 测试编写和运行都很慢——每次运行通常需要 1–8 小时，受限于台架可用性，且需考虑复杂需求。与我们交流的一个团队，由于人员能力限制，每个项目需要 700–1,000 个 HIL 测试，却只编写了 150 个 SIL 测试。硬件测试至关重要且始终需要，但将 HIL 测试转换为等效 SIL 测试以加快迭代和更早发现问题的方法正日益成熟。

使用 Devin 从瓶颈 HIL 测试编写 SIL 测试

结果：Devin 可以帮助将现有 HIL 测试转换为等效的 SIL 测试。通过先在软件中运行单元测试和功能测试，团队可以捕获错误和边缘情况，防止它们变成代价高昂的 HIL 故障。

我们看到的：组织 AI 成熟度之旅

阶段 1：AI 辅助

示例：工程团队使用 Devin 审查 HIL 故障调查的错误日志。Devin 迭代根因假设，并拉取数据验证或否定每个假设。根因分析被记录并交付给工程团队审查。

变化： 调查速度更快，Devin 系统性地审查证据并记录根因分析供工程师审查。

阶段 2：计划性自动化

过去数天无人审查的故障，现在在下一次 sprint 开始前就被分类处理。

示例： 一个团队安排 Devin 每晚运行，自动触发 HIL 测试，输出反馈回 Devin。然后 Devin 将故障日志与诊断协议关联，并在工程师早上到达前将根因分析发布到 Slack。

示例： 另一个团队让 Devin 持续轮询新的崩溃报告，然后与已知问题去重。Devin 审查代码库，起草根因分析，并创建一个 Jira 问题，通常附带修复 PR。

变化： 使用时间驱动和事件驱动的 Devin agent 主动响应问题。

阶段 3：跨组织共享的自我改进 Playbook

示例： Devin 轮询日志以发现问题。收到问题后，并行 Devin agent 开始诊断每个问题并创建修复 PR。随着 Devin 看到问题，它在运行之间改进自己的 Playbook，以提高速度和准确性。

变化： 团队设置 agent 递归改进 V 模型各部分的 Playbook，并推广到整个公司。

仍无法实现的目标

AI 将如何改变 HIL/SIL 工作流，我们才刚刚起步。仍有许多限制。Devin 擅长将具体的工程需求转化为功能测试脚本。但将诸如“制动扭矩限制”之类的宽泛法规语言映射到正确的代码段仍然困难。合规标准是为人类而非机器编写的，弥合这一差距仍是挑战。我们还发现，让 AI 理解专有 HIL 软件相当困难，这就是为什么我们使用专门的 Forward Deployed Engineering 团队来帮助为特定客户的技术栈设置集成。尽管如此，行业仍在快速转向软件定义的机器，这些机器会随着时间的推移不断改进。

“这将帮助我们在执行中更具可预测性，交付更高质量的软件，并大幅提升我们工程团队的速度。” — Wassym Bensaid，RV Tech 联合 CEO 兼 CTO。

如果你正在探索用于 HIL/SIL 的 AI，并想了解其他团队如何使用 Devin，请联系我们。

译自 cognition · 录于二〇二六年五月十二日