NVIDIA Nemotron 3 Ultra 加速长时运行智能体的高效推理
NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents
摘要
多 agent 工作流中 token 数量快速增长,源于 agent 在规划、工具调用、子 agent 调用及信息接收后,需将历史记录、输出和推理步骤传回模型。单轮对话式聊天机器人正向能推理、保持上下文、使用工具并高效运行多轮以完成复杂工作流的长期运行 agent 演变。
单轮对话式聊天机器人正在演变为能够推理、保持上下文、使用工具并高效运行多轮以完成复杂工作流的长期运行 agent。然而,这些多 agent 工作流会导致 token 数量快速增长。Agent 进行规划、调用工具、调用子 agent、接收信息,然后将历史记录、输出和推理步骤传回模型……来源
译自 NVIDIA · Developer 博客 · 录于 二〇二六年六月四日