NVIDIA · Developer 博客

NVIDIA Dynamo 快照:Kubernetes 上推理工作负载的快速启动

NVIDIA Dynamo Snapshot: Fast Startup for Inference Workloads on Kubernetes

二〇二六年五月二十七日 · 英文原文

在生产推理部署中,Kubernetes 上冷启动推理工作负载需数分钟,期间 GPU 已分配但空闲,不生成 token 或处理请求。该延迟在流量高峰时增加违反服务等级协议(SLA)的风险,影响弹性伸缩效率。

冷启动问题
在生产推理部署中,需求随时间波动,要求推理副本能够弹性伸缩。然而,在 Kubernetes 上冷启动推理工作负载可能需要几分钟时间。在此期间,GPU 已被分配但处于空闲状态,既不生成 token 也不处理任何请求。这种延迟在流量高峰期间增加了违反服务等级协议(SLA)的风险……
来源

译自 NVIDIA · Developer 博客 · 录于 二〇二六年五月二十七日