together-ai

无冲突的容量：面向 AI-native 团队的多租户 GPU 集群设计指南

Capacity without conflict: A guide to multi-tenant GPU cluster design for AI-native teams

二〇二六年五月三日 · 英文原文

摘要

文章介绍 AI-native 公司多租户 GPU 集群架构：通过共享 GPU 池、租户隔离和自助调度提升利用率。方案包含 control plane、InfiniBand/Ethernet、Kubernetes/Slurm、配额预订、按需 burst、健康检查和节点修复，并以 Together AI 实现为例。

摘要

多租户 GPU 集群让 AI-native 公司可以在团队之间共享计算容量，同时不牺牲隔离性或控制权。合适的架构会在基础设施层池化 GPU，同时为每个团队提供专用节点、存储和自助调度，在避免空闲容量浪费的同时，也避免真正共享基础设施带来的组织协调问题。本指南介绍核心设计原则、常见故障模式，以及 Together AI 等平台如何在实践中实现多租户。

为什么多租户 GPU 集群设计是 AI-native 公司的核心基础设施问题

AI-native 公司的扩张速度往往超过其基础设施策略的跟进能力。每个新团队都会启动新的模型实验、训练任务，并对共享计算提出新的需求。结果对 AI 平台工程师来说很熟悉：组织对 GPU 的需求持续叠加，但 GPU 依然稀缺且昂贵。

直觉做法通常是隔离：给每个团队自己的集群和资源。但这种方式在经济上无法扩展。专用集群会在夜间、周末以及训练任务提前完成时闲置。你最终会为无人使用的容量付费，而其他团队却在排队等待他们无法访问的资源。

更好的架构是共享，但共享方式要让团队感觉集群就像自己的。这就是 AI-native 规模下多租户的核心设计挑战：获得池化的经济性，但不引入池化的混乱。

什么是多租户 GPU 集群？

多租户 GPU 集群是一种共享计算环境，多个团队在同一底层硬件上运行，同时保持合理的隔离，包括数据访问边界、凭证、存储卷和计费可见性。

不同于传统共享集群，多租户集群提供隔离保证。在设计良好的多租户集群中，一个团队的训练任务不会影响另一个团队。硬配额、预留窗口和调度防护机制会防止资源过度使用演变为跨团队问题——当模型、inference 和研究等团队都在竞争同一批 GPU 时，这一点至关重要。

多租户的核心要求是什么？

要让多租户有效运行，团队需要同时满足三个要求：

**池化容量：**一个跨团队共享、统一协商的 GPU 池可以消除空闲容量浪费。只有当 GPU utilization 在训练任务、fine-tuning 任务和 inference 等 workload 之间聚合，而不是按团队隔离时，单位经济性才成立。
**租户隔离：**每个团队都需要专用节点、存储、独立凭证，以及面向租户的直接计费可见性。当每个租户都感觉自己在操作自己的集群，并且有清晰边界确保相邻 workload 无法越界时，共享基础设施的效果最好。
**自助访问：**团队需要能够直接预订容量、查看实时可用性，并在几分钟而不是几天内启动环境。

应该如何构建基础设施层？

AI-native 基础设施最清晰的模式是两层：底层是共享基础设施，上层是按租户划分的基础设施。

在共享层，一个集中式 control plane 位于高性能共享存储和通用网络 fabric 之上，通常使用 InfiniBand 承载东西向集群内部流量（这对大规模 distributed training 至关重要），使用 Ethernet 承载南北向流量。GPU 和 CPU 计算节点由中心化方式管理，Together AI 的 IaaS control plane 是这一模式的有力参考实现。

在这个共享基础之上，每个团队获得一个完全隔离的虚拟环境：专用 GPU 节点、专用存储 PVC，以及他们选择的 orchestration layer——Kubernetes、Slurm，或根据 workload 类型选择其他配置。运行 foundation model training、fine-tuning 或 inference workload 的团队各自在自己的集群中操作，对相邻租户零可见。

Together AI 的多租户集群是这一模式的具体实现，展示了面向 AI-native 团队的 bare-metal 性能与云式灵活性在实践中是什么样子，并基于实际使用量按租户直接计费。

如何防止一个团队消耗全部 GPU 容量？

这正是基于配额的分配在任何 AI-native 环境中变得必要的地方。管理员为每个团队设置防护边界，按 GPU 数量、总支出或预留窗口长度设置上限，并在 scheduler 层强制执行，而不只是作为软性政策。

scheduler 还应支持提前预订，并内置冲突预防。团队为特定窗口预留集群（例如为期一个月的 pre-training 任务，或两周的 fine-tuning sprint），系统会防止重复预订。实时容量可用性应在 UI 中展示，让团队在提交前准确看到可用资源。容量感知调度意味着可预测的规划：运行中不会出现意外，也不会发生跨团队干扰。

对于需要超出配额进行 burst 的团队，合理设计应支持自动溢出到按需公共费率。Together AI 可以在不需要管理员审批的情况下处理这一点，因此生产速度不会被基础设施官僚流程拖慢。

多租户平台应为 AI 团队提供哪些配置灵活性？

共享基础设施中的一个常见故障模式是带有强主张的默认配置。强制使用特定 orchestration layer、driver 版本或存储配置的平台会制造隐藏取舍——AI-native 团队最终会让自己的 workflow 适应平台，而不是平台适应 workflow，这正好本末倒置。

正确模式是在预订时提供 á la carte 配置：orchestration layer、CUDA driver 版本、shared memory 大小和存储卷，全部由团队根据自己的 workload 要求指定。没有默认强制项，也没有被迫的取舍。一个在 Slurm 上运行 Llama fine-tuning 的团队，不应被迫使用与在 Kubernetes 上提供 inference endpoint 的团队相同的配置。

配置完成后，集群应支持自动创建和销毁，提供开箱即用的 Grafana observability，并支持即时 SSH 访问。

多租户环境中的 GPU 健康检查和节点修复应如何工作？

共享集群中的硬件故障可能产生连锁影响。它们不仅会影响一个训练任务，还可能波及共享同一物理层的多个团队。健壮的健康检查和修复生命周期是必需的。

最佳实践是在每个节点交付给租户集群之前执行自动验收测试。测试应包括 DCGM diagnostics、GPU burn tests、单节点和多节点 NCCL tests，以及覆盖 CPU-GPU latency 和 bandwidth 维度的 NVBandwidth 测量。

团队还应能够在集群生命周期的任何时间，直接从 UI 触发按需健康检查，而不只是配置集群时。当检测到问题时，响应应分层处理：软件问题触发快速重新配置，硬件故障则导致集群迁移。在整个修复生命周期中，租户应拥有完整可见性——不需要猜测训练变慢是模型问题还是节点问题。

多租户 GPU 基础设施适合你的团队吗？

当你有多个 AI 团队并发运行异构 workload——foundation model training、fine-tuning、inference 和 research——时，多租户集群能带来最大价值。对 AI-native 组织而言，从成本账来看，池化明显更有优势。

关键问题不是是否共享基础设施，而是你的 AI 平台能多好地执行隔离。当这一流程顺畅运行时，你可以获得 data center 级单位经济性，同时避免 public cloud 的性能妥协，并获得 AI-native 团队所期待的自助速度。

立即开始构建多租户 GPU 基础设施

Together 的多租户集群专为需要共享 GPU 基础设施、但不想承受共享烦恼的 AI-native 组织构建。池化你的容量，隔离你的团队，并以模型所要求的速度推进。

FAQs

多租户集群中的团队能看到彼此的模型、数据或训练任务吗？

不能，在正确架构的环境中不会。每个租户都使用专用 GPU 节点、专用存储卷和独立凭证运行。

当团队需要的容量超过其配额允许范围时会发生什么？

设计良好的平台支持在团队超出其池化分配时自动 burst 到按需费率，无需管理员手动审批。AI-native 的速度不应在规划容量的边缘被基础设施官僚流程限制。

面向 AI workload 的多租户平台应支持哪些 orchestration framework？

至少应支持：用于 inference 和 serving 的 Kubernetes，以及用于 distributed training 的 Slurm on Kubernetes。AI-native 团队通常需要两者同时运行，因此平台需要支持混合配置

DeepSeek R1

具有原生音频和逼真物理效果的高质量电影级视频生成。

DeepSeek R1

音频名称

音频描述

0:00

具有原生音频和逼真物理效果的高质量电影级视频生成。

DeepSeek R1

具有原生音频和逼真物理效果的高质量电影级视频生成。

性能与规模

正文占位内容 lorem ipsum dolor sit amet

要点占位内容 lorem ipsum
要点占位内容 lorem ipsum
要点占位内容 lorem ipsum

基础设施

最适合

更快的处理速度（更低的整体 query latency）和更低的运营成本
执行定义清晰、直接的任务
Function calling、JSON mode 或其他结构良好的任务

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

Build

包含权益：

✔ 最高 $15K 免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

融资：低于 $5M

Build

包含权益：

✔ 最高 $15K 免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

融资：低于 $5M

Build

包含权益：

✔ 最高 $15K 免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

融资：低于 $5M

逐步思考，并且只将最终答案放在和标签内。按照以下规则组织你的推理：**推理时，只能用阿拉伯语回答，不允许使用其他语言。**问题如下：

‍Natalia 在 4 月向她的 48 位朋友卖了发夹，然后她在 5 月卖出的发夹数量是 4 月的一半。Natalia 在 4 月和 5 月一共卖了多少个发夹？

标题

正文占位内容 lorem ipsum dolor sit amet

标题

正文占位内容 lorem ipsum dolor sit amet

标题

正文占位内容 lorem ipsum dolor sit amet

DeepSeek R1

具有原生音频和逼真物理效果的高质量电影级视频生成。

DeepSeek R1

音频名称

音频描述

0:00

具有原生音频和逼真物理效果的高质量电影级视频生成。

DeepSeek R1

具有原生音频和逼真物理效果的高质量电影级视频生成。

性能与规模

正文占位内容 lorem ipsum dolor sit amet

要点占位内容 lorem ipsum
要点占位内容 lorem ipsum
要点占位内容 lorem ipsum

基础设施

最适合

更快的处理速度（更低的整体 query latency）和更低的运营成本
执行定义清晰、直接的任务
Function calling、JSON mode 或其他结构良好的任务

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Build

包含权益：

✔ 最高 $15K 免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

融资：低于 $5M

Build

包含权益：

✔ 最高 $15K 免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

融资：低于 $5M

Build

包含权益：

✔ 最高 $15K 免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

融资：低于 $5M

逐步思考，并且只将最终答案放在和标签内。按照以下规则组织你的推理：**推理时，只能用阿拉伯语回答，不允许使用其他语言。**问题如下：

‍Natalia 在 4 月向她的 48 位朋友卖了发夹，然后她在 5 月卖出的发夹数量是 4 月的一半。Natalia 在 4 月和 5 月一共卖了多少个发夹？

标题

正文占位内容 lorem ipsum dolor sit amet

标题

正文占位内容 lorem ipsum dolor sit amet

标题

正文占位内容 lorem ipsum dolor sit amet

译自 together-ai · 录于二〇二六年五月三日