在NVIDIA GB200 NVL72上通过Slurm拓扑感知作业调度解锁百亿亿次性能
Unlock Exascale Performance on NVIDIA GB200 NVL72 with Slurm Topology-Aware Job Scheduling
摘要
NVIDIA GB200 NVL72 在单机架内提供百亿亿次计算能力,支持实时万亿参数模型推理。为在共享集群中发挥该性能,调度器需理解系统拓扑与资源约束,以优化工作负载放置。该方案旨在提升现代加速基础设施的利用率,应对大规模AI模型部署中的调度挑战。
随着AI模型在规模和复杂性上的不断增长,要充分发挥现代加速基础设施的性能,工作负载的放置方式与硬件本身同样重要。NVIDIA GB200 NVL72 在单个机架内提供了百亿亿次计算能力,解锁了实时万亿参数模型。然而,要在共享集群中实现这一性能,需要调度器能够理解系统……来源
译自 NVIDIA · Developer 博客 · 录于 二〇二六年五月二十一日