together-ai

支撑大规模高效推理的基础研究

Foundational research powering efficient inference at scale

二〇二六年五月四日 · 英文原文

摘要

Together AI 介绍生产级 inference 的成本与系统挑战，称其占 AI 系统生命周期成本 80-90%。其 stack 包括 FlashAttention-4、ATLAS、Aurora、NVFP4 quantization、scheduling 和 batching，并在 NVIDIA Blackwell 硬件上支持 Cursor 等工作负载。

随着 AI 从研究走向生产，AI-native 团队面临的挑战也从构建模型转向运行模型——高效、可靠，并且具备规模化能力。

多年来，AI 的焦点一直在训练上：这是一个构建模型的过程，规模庞大且高度依赖 GPU。但对今天大多数部署 AI 的团队来说，持续的 inference（推理）成本才是真正影响单位经济性的因素。有估算认为，inference 占一个生产级 AI 系统全生命周期总成本的 80-90%，原因很简单：它会在每一次用户查询、agent 步骤和 API 调用中持续运行。训练是一项有边界的投入，而 inference 会随着你上线的每一个新用户和新用例而扩张。

在 NVIDIA GTC 2026 上，NVIDIA CEO Jensen Huang 直白地概括了这种转变：“人们为信息付费，但人们更多是为工作付费。Agentic systems 能把工作完成。”从把 AI 当作新奇事物，到把 AI 当作生产工具，这一转变正在重塑基础设施优先级。

对 Together AI 来说，这并不新鲜。inference 的重要性正是我们长期构建的方向。我们的 CTO Ce Zhang 在 GTC 上深入讨论了这些动态，并分享了在行业内运行一些要求最高的生产级 inference 工作负载时积累的经验。

为什么 inference 是另一种难题

Inference 不只是“运行模型”。在生产环境中，它是一个需要同时在多个相互竞争维度上优化的问题：

Latency 决定了能构建什么。 对于代码助手、实时支持或对话式 agents 等应用，低于 500ms 的响应时间不是锦上添花——它决定了产品体验更像软件，还是像等待。Agentic workflows 会放大这一点：如果 5 次模型调用每次 200ms，用户看到结果前就已经累积了整整 1 秒的 latency。这个阈值很重要，错过它会产生产品层面的后果。
Throughput 决定你的单位经济性。 AI-native 公司面临的成本结构与传统 SaaS 根本不同。传统软件公司通常以 80-90% 毛利率为目标，而 AI 公司常见毛利率为 50-60%，其中仅 inference 就约占 scaling-stage 公司收入的 23%。更快的 inference 意味着每个 GPU-hour 能服务更多请求。这笔账会直接反映到利润率上。
模型格局持续变化。 针对今天模型优化的 inference stack，明天可能就需要大幅重做。新的架构、quantization 方法和硬件不断出现；要保持在前沿，就需要对整个 stack 持续投入，而不是一次性优化。
Concurrency 不容犯错。 同时服务数千名用户，意味着要同时处理差异巨大的 context length、latency 要求和成本结构，并且不能出现体验退化。这既是 scheduling 和 orchestration 的挑战，也是 compute 的挑战。

这也是为什么其重要性往往高于大多数团队最初的预期。

Together 如何处理 inference

Together 的 inference 方法不是单一优化，而是由研究、系统工程和硬件专业能力组成的复合 stack，设计目标是随着前沿发展而持续改进：

进入生产的研究。 Together Research 团队贡献了一些被广泛采用的 inference efficiency 进展：FlashAttention，目前已发展到 FlashAttention-4（在 NVIDIA Blackwell 上比 cuDNN 最高快 1.3x）、ThunderKittens，以及 ATLAS——我们的 adaptive speculative decoding 系统，可实现最高 4x 更快的 LLM inference。这些研究通常会在发表后数周内进入客户生产环境。
Adaptive speculative decoding。 标准 speculative decoding 使用较小的 draft model 提出 tokens，再由较大的模型并行验证，在代码补全或结构化输出等可预测工作负载上可带来 1.5-3x 的加速。我们的 ATLAS 和 Aurora 系统更进一步：Aurora 是一个开源的、基于 RL 的框架，可以从实时 inference traces 中学习，并随着流量模式变化而自适应。即使与训练良好的静态 speculators 相比，它也能实现有意义的加速，而且不会中断 serving。
Full-stack 硬件优化。 在最新的 NVIDIA Blackwell 硬件（GB200 NVL72、HGX B200）上运行，意味着要在 72-GPU meshes 上构建自定义并行策略，实现 NVFP4 quantization，并构建从 weights 到 production 的流水线，使模型发布能在数天内上线。当 Cursor 需要为数百万活跃开发者提供生产级 latency 时，Together AI 构建了完整的 full-stack 基础设施来实现这一目标，在不可预测的高 concurrency 流量下满足严格的 latency SLA。
智能 scheduling 和 batching。 高 throughput inference 需要做出实时的智能决策：哪些请求应放在一起 batch，如何根据 context length 和 latency 要求进行路由，以及何时用 throughput 换取响应速度。Together 的 inference engine 会动态处理这些问题，在不牺牲 AI-native apps 和产品所依赖体验的前提下，从每个 GPU-hour 中提取最大效率。

做对这件事的经济意义

Stanford 2025 AI Index 记录了一个显著趋势：在 2022 年末到 2024 年末之间，达到 GPT-3.5 级别性能的 inference 成本下降了超过 280 倍。但总 inference 支出仍在上升；随着成本下降，团队会将 AI 部署到更多用例、用户和 agent 步骤中。更低的每 token 成本并没有减轻基础设施挑战，而是扩大了它的覆盖面。随着行业逐渐将更低 token 成本视为 AI infrastructure TCO 的真实指标，Together AI 通过优化完整硬件和软件 stack，持续为客户带来更好的盈利能力。

对 AI-native 公司而言，这使 inference optimization 成为一种复利优势。让 inference 效率提升 2x，就能在同样硬件上服务更多客户，同时打开过去在经济上不可行的用例。效率提升带来的每一点收益，不仅会直接流向利润率，也会影响你长期能够构建什么。

这正是 Together AI 引以为豪的地方：它不只是一个快速 inference 平台，而是一个基础设施层，帮助 AI-native 团队增长，同时避免成本增长快于收入。

在 AI Native Cloud 上运行生产规模 inference

Together AI 是 AI Native Cloud，提供覆盖 Serverless & Dedicated Inference、Accelerated Compute 和 Model Shaping 的 full-stack AI 平台，帮助你从每个 GPU-hour 中获得更多价值，同时不牺牲用户期望的速度和生产级可靠性。

Inference 不是边缘问题。对今天构建 AI-native apps 的团队来说，它会影响利润率、产品路线图和竞争能力。好消息是：在 AI Native Cloud 上解决这一问题的工具从未像现在这样完善。

准备好在 Together AI 上构建下一步了吗？立即开始。

想更深入了解？我们的生产 inference best practices 指南详细介绍了 speculative decoding、optimized kernels、quantization 和 hardware acceleration。

FAQ

什么是规模化 AI inference？

AI inference 是运行已训练模型来生成响应的过程——每当用户发送消息、触发 agent 或发起 API 调用时都会发生。规模化意味着要服务成千上万甚至数百万个并发请求，而每个请求都有不同的 context length、latency 要求和成本结构。基础设施挑战不只是 compute，而是要高效、持续地 orchestration 这一切，同时不降低任何单个用户的速度或可靠性。

为什么 AI inference 比训练更昂贵？

训练是一项密集但有边界的投入——它发生一次，或在模型更新时周期性发生。相比之下，inference 会持续运行：每一次用户交互、每一个 agent 步骤、每一次 API 调用都会产生成本。行业估算认为，inference 占一个生产级 AI 系统全生命周期总成本的 80-90%。随着使用量增长，账单也会增长。对 AI-native 公司来说，inference 实际上就是销售成本——它会直接随收入扩张。

什么是 speculative decoding？

Speculative decoding 是一种 inference acceleration 技术：一个更小、更快的“draft”模型一次提出多个 tokens，然后由更大的目标模型并行验证。匹配的 tokens 会被接受；其余 tokens 会被丢弃并重新生成。当 draft model 与目标模型高度对齐时，这种方法可以在不改变输出的情况下带来 1.5–3x 的加速。它尤其适用于代码补全或结构化数据生成等可预测工作负载。Together AI 的 ATLAS 系统通过 adaptive speculative decoding 进一步扩展了这一方法，可以从实时流量中学习并调整。

什么是 adaptive speculative decoding？

标准 speculative decoding 依赖静态 draft model——也就是离线训练并在部署时固定的模型。问题在于，真实世界的流量模式会不断变化，随着领域变化，静态 draft model 的准确率会下降。Adaptive speculative decoding 通过持续从实时 inference traces 中学习，并在不中断 serving 的情况下更新 draft model 来解决这一问题。Together AI 的 Aurora 框架是一个开源的、基于 RL 的实现，即使从零开始，也能比训练良好的静态 speculators 实现有意义的加速。

在 AI 语境中，“inference research”是什么意思？

Inference research 是一个研究领域，重点是在生产环境中让 AI 模型运行得更快、更便宜、更高效，同时不牺牲输出质量。它包括算法层面的工作（如 speculative decoding 和 attention optimization）、系统层面的工作（如 kernel engineering 和 request scheduling），以及硬件层面的工作（如 quantization 和 GPU utilization）。它不同于 model research，后者关注提升模型知道什么或能做什么。随着 inference 成本成为 AI 部署中的主要支出，inference research 已成为 applied AI 中杠杆最高的领域之一。

Inference optimization 如何影响 AI 产品经济性？

Inference optimization 会直接改善单位经济性：更快的 inference 意味着每个 GPU-hour 能服务更多请求，从而降低每次请求的成本。在规模化场景下，即使是适度的效率提升也会显著复利增长——throughput 提升 2x，实际上会让相同工作负载的基础设施成本减半。这对产品团队很重要，因为它决定了哪些用例在经济上可行、随着规模增长利润率能多快改善，以及产品能否在市场成熟后维持有竞争力的定价。

图像 1

DeepSeek R1

图像 2

支持原生音频和逼真物理效果的高品质电影级视频生成。

DeepSeek R1

音频名称

音频描述

0:00

支持原生音频和逼真物理效果的高品质电影级视频生成。

图像 3

DeepSeek R1

图像 4

支持原生音频和逼真物理效果的高品质电影级视频生成。

Performance & Scale

正文文案放在这里 lorem ipsum dolor sit amet

要点放在这里 lorem ipsum
要点放在这里 lorem ipsum
要点放在这里 lorem ipsum

Infrastructure

适合

更快的处理速度（更低的整体查询 latency）和更低的运营成本
执行定义清晰、直接的任务
Function calling、JSON mode 或其他结构良好的任务

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

Build

包含的权益：

✔ 最高 $15K 的免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

Funding:低于 $5M

Build

包含的权益：

✔ 最高 $15K 的免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

Funding:低于 $5M

Build

包含的权益：

✔ 最高 $15K 的免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

Funding:低于 $5M

请逐步思考，并只将最终答案放在和标签内。按以下规则设置你的推理格式：**推理时只用阿拉伯语回答，不允许使用其他语言。**问题如下：

‍Natalia 在 4 月向 48 位朋友出售了夹子，然后她在 5 月卖出的夹子数量是 4 月的一半。Natalia 在 4 月和 5 月一共卖出了多少个夹子？

标题

正文文案放在这里 lorem ipsum dolor sit amet

标题

正文文案放在这里 lorem ipsum dolor sit amet

标题

正文文案放在这里 lorem ipsum dolor sit amet

图像 5

DeepSeek R1

图像 6

支持原生音频和逼真物理效果的高品质电影级视频生成。

DeepSeek R1

音频名称

音频描述

0:00

支持原生音频和逼真物理效果的高品质电影级视频生成。

图像 7

DeepSeek R1

图像 8

支持原生音频和逼真物理效果的高品质电影级视频生成。

Performance & Scale

正文文案放在这里 lorem ipsum dolor sit amet

要点放在这里 lorem ipsum
要点放在这里 lorem ipsum
要点放在这里 lorem ipsum

Infrastructure

适合

更快的处理速度（更低的整体查询 latency）和更低的运营成本
执行定义清晰、直接的任务
Function calling、JSON mode 或其他结构良好的任务

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Build

包含的权益：

✔ 最高 $15K 的免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

Funding:低于 $5M

Build

包含的权益：

✔ 最高 $15K 的免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

Funding:低于 $5M

Build

包含的权益：

✔ 最高 $15K 的免费平台额度*
✔ 3 小时免费 forward-deployed engineering 时间。

Funding:低于 $5M

请逐步思考，并只将最终答案放在和标签内。按以下规则设置你的推理格式：**推理时只用阿拉伯语回答，不允许使用其他语言。**问题如下：

‍Natalia 在 4 月向 48 位朋友出售了夹子，然后她在 5 月卖出的夹子数量是 4 月的一半。Natalia 在 4 月和 5 月一共卖出了多少个夹子？

标题

正文文案放在这里 lorem ipsum dolor sit amet

标题

正文文案放在这里 lorem ipsum dolor sit amet

标题

正文文案放在这里 lorem ipsum dolor sit amet

译自 together-ai · 录于二〇二六年五月四日