NVIDIA Dynamo 快照：Kubernetes 上推理工作负载的快速启动

NVIDIA Dynamo Snapshot: Fast Startup for Inference Workloads on Kubernetes

二〇二六年五月二十七日 · 英文原文

摘要

在生产推理部署中，Kubernetes 上冷启动推理工作负载需数分钟，期间 GPU 已分配但空闲，不生成 token 或处理请求。该延迟在流量高峰时增加违反服务等级协议（SLA）的风险，影响弹性伸缩效率。

冷启动问题
在生产推理部署中，需求随时间波动，要求推理副本能够弹性伸缩。然而，在 Kubernetes 上冷启动推理工作负载可能需要几分钟时间。在此期间，GPU 已被分配但处于空闲状态，既不生成 token 也不处理任何请求。这种延迟在流量高峰期间增加了违反服务等级协议（SLA）的风险……
来源

译自 NVIDIA · Developer 博客 · 录于二〇二六年五月二十七日