在NVIDIA GB200 NVL72上通过Slurm拓扑感知作业调度解锁百亿亿次性能

Unlock Exascale Performance on NVIDIA GB200 NVL72 with Slurm Topology-Aware Job Scheduling

二〇二六年五月二十一日 · 英文原文

摘要

NVIDIA GB200 NVL72 在单机架内提供百亿亿次计算能力，支持实时万亿参数模型推理。为在共享集群中发挥该性能，调度器需理解系统拓扑与资源约束，以优化工作负载放置。该方案旨在提升现代加速基础设施的利用率，应对大规模AI模型部署中的调度挑战。

随着AI模型在规模和复杂性上的不断增长，要充分发挥现代加速基础设施的性能，工作负载的放置方式与硬件本身同样重要。NVIDIA GB200 NVL72 在单个机架内提供了百亿亿次计算能力，解锁了实时万亿参数模型。然而，要在共享集群中实现这一性能，需要调度器能够理解系统……来源

译自 NVIDIA · Developer 博客 · 录于二〇二六年五月二十一日