DynoSim：模拟帕累托前沿

DynoSim: Simulating the Pareto Frontier

二〇二六年五月二十九日 · 英文原文

摘要

现代 LLM 服务面临多层级决策相互影响的调优难题，包括模型后端、tensor-parallel 形状、prefill/decode 拆分、worker 数量、调度器设置、路由策略、KV cache 行为、自动扩缩容阈值及拓扑结构。局部优化可能将瓶颈转移至其他层级，尤其对更大模型影响显著。

现代 LLM 服务很难调优，因为每次部署都是一系列相互影响的决策堆叠：模型后端、tensor-parallel（张量并行）形状、prefill/decode（预填充/解码）拆分、worker（工作节点）数量、调度器设置、路由策略、KV cache（键值缓存）行为、自动扩缩容阈值以及拓扑结构。这些决策在多个层级之间相互影响，局部的优化可能会将瓶颈转移到其他地方。对于更大的模型……来源

译自 NVIDIA · Developer 博客 · 录于二〇二六年五月二十九日