NVIDIA · Developer 博客

DynoSim:模拟帕累托前沿

DynoSim: Simulating the Pareto Frontier

二〇二六年五月二十九日 · 英文原文

现代 LLM 服务面临多层级决策相互影响的调优难题,包括模型后端、tensor-parallel 形状、prefill/decode 拆分、worker 数量、调度器设置、路由策略、KV cache 行为、自动扩缩容阈值及拓扑结构。局部优化可能将瓶颈转移至其他层级,尤其对更大模型影响显著。

现代 LLM 服务很难调优,因为每次部署都是一系列相互影响的决策堆叠:模型后端、tensor-parallel(张量并行)形状、prefill/decode(预填充/解码)拆分、worker(工作节点)数量、调度器设置、路由策略、KV cache(键值缓存)行为、自动扩缩容阈值以及拓扑结构。这些决策在多个层级之间相互影响,局部的优化可能会将瓶颈转移到其他地方。对于更大的模型……来源

译自 NVIDIA · Developer 博客 · 录于 二〇二六年五月二十九日