NVIDIA Nemotron 3 Ultra 加速长时运行智能体的高效推理

NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents

二〇二六年六月四日 · 英文原文

摘要

多 agent 工作流中 token 数量快速增长，源于 agent 在规划、工具调用、子 agent 调用及信息接收后，需将历史记录、输出和推理步骤传回模型。单轮对话式聊天机器人正向能推理、保持上下文、使用工具并高效运行多轮以完成复杂工作流的长期运行 agent 演变。

单轮对话式聊天机器人正在演变为能够推理、保持上下文、使用工具并高效运行多轮以完成复杂工作流的长期运行 agent。然而，这些多 agent 工作流会导致 token 数量快速增长。Agent 进行规划、调用工具、调用子 agent、接收信息，然后将历史记录、输出和推理步骤传回模型……来源

译自 NVIDIA · Developer 博客 · 录于二〇二六年六月四日