Hugging Face · 官方博客

超越LLM:企业AI规模化落地为何依赖Agent逻辑

Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic

二〇二六年六月一日 · 英文原文

IBM 提出 agentic logic(智能体逻辑)概念,通过知识图谱、程序分析库等软件原语在 agent 层引导 LLM 缩小上下文空间,以提升企业工作流中 AI agent 的性能与成本效益。在 IBM 产品中,该逻辑应用于四个领域:遗留代码(Cobol/PL/1)理解(token 消耗降低约 30 倍)、测试生成(覆盖率提升 20%-45%,token 消耗低 15 倍)、事件根因分析(性能比 GPT-5.1 ReAct agent 高 4.0 倍)及合规现代化(成功率从个位数提升至 +80%)。案例研究显示,在医疗保健场景中准确率提升 15%-26%,在 IBM 全球房地产中资产分析时间减少 97%,token 使用量平均降低 77%。

](https://huggingface.co/nfuller)

纵观历史,指南一直为人类提供着帮助。史前文明就懂得利用太阳和月亮在陆地和远洋上导航。随着时间的推移,各种旅程催生了地图的绘制,以便更好地规划路线,并缩短前往重复目的地的旅行时间。几个世纪后,指南针的出现使航海者能够更精确地探索未知目的地。而今天,GPS导航应用指引着我们的每一次出行。在当今的agentic AI世界中,AI agent(智能体)无疑具有实现AI规模化应用、变革我们所知行业的潜力。然而,要实现这一潜力,还需要一个智能的指南——agentic logic(智能体逻辑),它通过提升agent质量、成本效益以及最终的用户信任来驱动。

企业工作流与用例

众多研究都指出了AI试点项目的高失败率,而另一些研究则强调,AI需要运行在企业工作流的核心才能实现规模化应用。[1] [2] 为了更好地理解这一现象及其相关论断,我们需要对企业工作流进行一些分析。这些工作流的特点是:

A. 动态且长期运行 B. 拥有大量的API、数据库和服务 C. 常常受到业务策略和/或法规的约束

考虑到上述特点,要让一个agent有效运作,自然需要扩展的模型上下文,最先进的前沿LLM(大语言模型)当然具备这种能力,但代价是什么?是幻觉增加、token消耗增多吗?此外,能否为LLM配备一个智能的“GPS”指南,使其能够在工作流核心执行agentic AI,从而驱动更理想的结果?我们通过为IBM产品设计和构建配备相关agent逻辑的agent来验证这些假设,并充分考虑了上述特点。这些产品涉及领域专家面临的一些最具挑战性的任务,这些专家负责关键任务工作负载的企业软件交付生命周期的各个阶段,包括:

  1. 理解用遗留代码(Cobol / PL/1)编写的应用程序
  2. 加速开发人员的测试生成
  3. 主动响应事件并实现左移的应用韧性
  4. 自动化关键环境的合规现代化

在详细审视每个领域之前,我们先定义一下agent逻辑的特征。Agent逻辑是软件原语,例如知识图谱、算法、程序分析库,它们在agent层(在agent框架内)运作,能够有意图地引导LLM朝着企业工作流的方向前进,从而缩小上下文空间。这样做,往往能以更具成本效益的方式驱动更优的性能结果。现在,让我们看看agent逻辑是如何在上述四个领域中实现这些结果的。

  1. 理解用遗留代码(Cobol / PL/1)编写的应用程序 - 程序分析。 [3]

IBM watsonx Code Assistant for Z(WCA4Z)用于通过AI和自动化加速大型机应用程序开发和现代化,它配备了一个用于应用程序理解的App Insights agent——这是在IBM大型机上运行关键任务工作负载的企业客户的主要关注领域之一。该agent利用跨应用程序的深度静态分析,并将预索引的表示存储在一个数据库模式中,该模式跨越数百个具有复杂语义的相互关联的表,使agent能够检索精确、结构化的现有信息;从而提高了答案的准确性,减少了token使用量,并最大限度地减少了与语言模型(本例中为Mistral Medium 250B)的来回交互。当这种方法应用于多个关键任务遗留系统(多达100万行代码和1000个程序)时,其应用程序理解性能略优,而token消耗比仅使用基础前沿LLM的方法低约30倍。

  1. 使用Aster加速开发人员的测试生成 - 程序分析。 [4], [5]

Aster是一个基于IBM专有程序分析和数据预处理/后处理的库,用于基于agent生成单元测试、集成测试、API测试和基于变更的测试;对多个开发者社区的分析表明,与各种开源工具或开发者编写的测试相比,它获得了更高的开发者评分。基于后者以及在与类似开源工具(集成测试)和零样本LLM及编码agent(单元测试)的比较中,在开源应用程序上测试得出的更优的行覆盖率、分支覆盖率和方法覆盖率基准,我们已经在75多个Java IBM CIO应用程序(多达560多个类和67K多行代码)上,使用Devstral 24B模型以预生产模式运行Aster。迄今为止的稳态结果表明,行覆盖率、分支覆盖率和方法覆盖率提高了20% - 45%,并且在这些应用程序的子集上,与最先进的编码agent相比,性能更优,同时token消耗量低数个数量级(高达15倍)。这些结果的原因在于,程序分析输出(用于提示和“聚焦”LLM)与用于增强覆盖率和修复运行时及编译错误的子agent相结合,能够以显著降低的成本实现更优的性能结果。

  1. 主动响应事件并实现左移的应用韧性 - 知识图谱、程序分析库和调查(可观测性)驱动的编排。 [6],[7]

虽然如1和2中所述,与应用相关的用例的LLM上下文被“限制”在应用程序源代码中,但对于已部署基础设施上应用程序的运行时管理,底层的IT全栈就会发挥作用。这里我们定义了一个知识图谱(KG),包含实体(微服务、数据库/中间件服务、MELT等)以及来自领域专家的嵌入式(“部落”)知识。利用这样的图谱,并将LLM限制在局部有界推理以处理非确定性结果,我们采用了一种可观测性驱动的方法,来缩小跨越IT栈和底层应用程序源代码(如果相关)的上下文空间,用于事件根因分析(及其他用例)。通过这种方法,利用等效的Instana数据模型,我们看到专有的Instana“I3”(智能事件调查[8])agent在使用ITBench[9]衡量时,性能比使用GPT-5.1的ReAct agent高出高达4.0倍。使用Gemini 3 Flash时,ReAct agent的性能提升到仅比I3 agent低17%,同时消耗的token多1.6倍。我们已将这种方法扩展到源代码,通过agent进行代码分析(利用程序依赖图)和错误修复(利用推理扩展),同样在ITBench上进行了测试,结果表明,用于源代码分析和错误修复的agent(Gemini 2.5 Flash)在查找有责任的微服务(3.0倍)和错误修复(1.6倍)方面均优于最先进的编码agent,同时分别少消耗3.7倍和5.9倍的token。这个多agent系统在IBM Think大会上作为新发布的IBM Concert Platform for shift-left IT Operations的一部分被宣布,并且也在IBM CIO内部进行试点。[10]

  1. 自动化关键环境的IT合规现代化 - 算法与自适应规划和编排。 [11]

企业面临着日益复杂和碎片化的合规要求,迫使团队花费大量时间手动创建控制措施、评估和修复计划。没有集中化的知识,修复方案也是手动编写,这引入了错误和安全漏洞的风险。由于合规工作复杂且涉及多个步骤,它需要跨专业agent的协调、策略驱动的自动化,而不是手动工作或简单的AI提示。我们的多agent系统通过算法将复杂任务分解为协调的步骤,利用自适应规划、动态分解和工作流排序,并持续反馈以迭代地识别修复方案和扩展评估,从而自动化合规流程。与使用固定规划策略的先前agent(Claude 4 Sonnet)相比,其性能提升了1.3 – 2.0倍,这也是使用ITBench衡量的。这种方法将合规转变为一种持续引导、自我纠正的过程,并显著改善了结果,尤其是在复杂场景中,将成功率从个位数提高到高达+80%(Claude 4 Sonnet)。这个多agent系统和16K+数字化控制映射作为IBM Sovereign Core的一部分在IBM Think大会上发布,并与监控、漂移检测集成,提供自动化证据生成,确保审计证据安全地保留在客户控制范围内。[12]

上述例子说明了agent逻辑在减少LLM上下文、引导LLM以高性能和高成本效益的方式遍历工作流核心方面的影响。此外,我们还将类似的方法应用于两个案例研究:一个是在医疗保健领域使用可配置通用agent和运行时(CUGA),另一个是IBM全球房地产的物理资产基于状态的维护。

领域案例研究 案例研究1:可配置通用agent(CUGA)医疗保健基准 - 算法策略执行。[13]

以下健康保险客户服务示例简洁地说明了为什么在受监管环境中,agentic系统优于仅使用LLM的对话模型。CUGA(可配置通用agent)的策略系统实现了用于agent治理的策略即代码,该策略在运行时独立于模型提示且无需微调即可执行。我们的实验表明,agent的策略系统弥补了任务正确性方面的巨大差距,在所有模型系列(Claude Opus – 4.5、GPT OSS 120B和GPT – 4.1)中强制执行结构化工作流、安全意图处理、可靠工具使用和受控输出格式,准确率提升幅度在15%到26%之间。权限通过最小权限披露、明确的合规规则和人工升级路径来执行。智能行动被提出,而权限则由策略和监督机制行使。推理是自主的;决策权受到约束。CUGA也是IBM Think Sovereign Core发布中的一个关键组件。

案例研究2:IBM全球房地产的物理资产基于状态的维护 - 有向无环图。[14],[15]

企业维护系统收集了大量资产数据,但无法有效整合它们,需要专家手动拼凑碎片化的信号,并在没有统一、基于证据的洞察的情况下做出决策。我们最近推出的Maximo Condition Insights [16] agent分析跨数千个资产和地点(传感器、工单、故障模式和事件分析)的大规模资产数据,使用结构化证据和验证循环来可靠地识别问题、确定行动优先级,并支持基于一致、可追溯洞察的决策。我们已在IBM全球房地产(GRE)内部试点该agent(使用GPT OSS 120B),将资产分析时间从15-20分钟减少到15-30秒(提升了97%),并将资产审查覆盖率从约1%提高到约30%,覆盖了120多个地点和6K个物理资产。使用AssetOpsBench,Condition Insights agent将无依据的声明减少了57%,将冗长性降低了35%,将规则合规性提高了30%,保持了近乎零的矛盾,并将token使用量平均降低了77%,同时略微提高了诊断特异性。该agent配备了一个有向无环图,提供结构化的工程和运营上下文,以减少朴素提示下的无依据推理,而约束感知提示则显著改善了规则遵循,减少了冗长性,并降低了总体token消耗,同时没有引入不稳定性。

总结与参考文献: 几个世纪以来,我们一直受益于指南,它们简化并改善了我们的生活。随着技术的发展,我们使用的指南也在不断进化,使我们能够做得更多,并进一步缩小我们的地球村。随着agentic AI时代的到来,当我们寻求通过规模经济等方式进一步改善社会时,我们应该延续这一趋势,充分利用agent逻辑来简化模型上下文,并智能地遍历核心的企业工作流;只有这样,以最优运营成本实现规模化应用才真正可行。

[1] The GenAI Divide: STATE OF AI IN BUSINESS 2025, MIT study, https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf

[2] From AI projects to profits: How agentic AI can sustain financial returns, IBM IBV report, https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits

[3] Understand, IBM Watson Code assistant for Z, Feb 27, 2026, https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand

[4] R. Pan, R. Krishna, R. Pavuluri, et.al, ASTER: Natural and multi-language unit test generation with LLMs - IBM Research, Apr 30, 2025, https://research.ibm.com/blog/aster-llm-unit-testing

[5] R. Pan, R. Pavuluri, R. Huang, et al., SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents, Nov 17, 2025, https://arxiv.org/abs/2511.13305

[6] S. Jha, R. Arora, Bhavya, et al, Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation, Jan 25, 2026, https://arxiv.org/abs/2601.17915

[7] S. Cui, R. Krishna, S. Jha, et al, Agentic Structured Graph Traversal for Root Cause Analysis of Code-related Incidents in Cloud Applications, Dec 26, 2025, https://arxiv.org/html/2512.22113v1

[8] IBM Instana and Intelligent Incident Investigation agent Use agentic AI to resolve incidents faster with IBM Instana Intelligent Incident Investigation

[9] S. Jha, R. Arora, Y. Watanabe, et al, ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks, Feb 7, 2025, https://arxiv.org/abs/2502.05352

[10] IBM Concert platform https://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations

[11] Y. Watanabe, T. Yanagawa, H. Kitahara, A. Sailer, IT Compliance Automation with GenAI CISO Assessment Agent , DZone Tutorial, Dec. 12, 2025 https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai

[12] IBM Sovereign Core https://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core

[13] S. Shlomov, A. Oved, S. Marreed, et al, From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production, Dec 9, 2025, https://arxiv.org/pdf/2510.23856

[14] D. Patel, S. Lin, J. Rayfield, et al, AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance, Jun 4, 2025, https://arxiv.org/abs/2506.03828

[15] Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, et al.Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data https://arxiv.org/abs/2603.08171

[16] IBM Maximo and Condition Insights agent https://www.ibm.com/new/announcements/maximo-condition-insight

译自 Hugging Face · 官方博客 · 录于 二〇二六年六月一日