vLLM · 官方博客

vLLM 实现快速高效 LLM 推理:DeepLearning.AI 新课程

Fast & Efficient LLM Inference with vLLM: A New Course with DeepLearning.AI

二〇二六年六月四日 · 英文原文

vLLM 与 Red Hat、DeepLearning.AI 合作推出实践课程“Fast & Efficient LLM Inference with vLLM”,由 Andrew Ng 参与。课程约 1.5 小时,含 9 节视频和 3 个动手实验,覆盖 LLM 推理优化、部署与基准测试全流程。内容分三阶段:使用 LLM Compressor 量化 Qwen 模型、通过 vLLM 部署并观察 continuous batching 与 prefix caching、利用 GuideLLM 模拟流量并配合 lm-eval 评估模型质量。

Image 1 我们很高兴与 Red Hat 和 Andrew NgDeepLearning.AI 共同宣布推出一门实践课程,该课程将讲解 LLM 基础知识,并完整介绍使用 vLLM 及其工具生态进行 优化、部署和基准测试 的 AI 部署生命周期。课程名为 Fast & Efficient LLM Inference with vLLM,现已上线!

"高效地部署开源 LLM,使其能够服务大量用户,同时保持低延迟和合理成本,是一项挑战。本课程将向你展示如何做到这一点。" — Andrew Ng

课程是如何形成的

今年早些时候,我们与 DeepLearning.AI 团队取得了联系,计划开设一门专注于 LLM 推理优化的课程。由于 vLLM 生态已发展壮大,不仅包含推理引擎本身,还包括模型压缩工具(LLM Compressor)和部署基准测试工具(GuideLLM),我们看到了一个机会,可以展示在大规模部署模型时,这些组件如何协同工作。

与 Andrew Ng 及其在山景城的团队合作,我们围绕许多部署所遵循的工作流程来设计课程内容:压缩模型以适应你的硬件,使用 vLLM 高效地提供服务,然后进行基准测试以了解你在速度-成本-准确率权衡中的位置。在代码示例开始之前,课程还包含了大量关于推理和内存的基础概念,这确实能帮助学习者理解为什么 continuous batching、PagedAttention 和 prefix caching 等优化技术会有所帮助。

Image 2 课程在进入动手实验之前,涵盖了硬件需求、内存层次结构和优化技术。

我们投入了什么

大量的精力投入在了可视化上。我们希望学习者真正理解推理背后发生了什么,以及 KV Cache 和 GPU 内存层次结构。

我们分解了推理时的 Transformer 架构,例如 token 如何流经模型,每一层执行什么计算,以及瓶颈实际在哪里。我们还可视化了 KV cache:它在 GPU 内存中的样子,它如何随着每个生成的 token 而增长,以及为什么服务多个并发用户会产生巨大的内存压力。

Image 3 课程中可视化 KV cache 在自回归生成过程中如何增长。

对于量化,我们构建了可视化解释,说明当你从模型默认发布的 FP16 权重转向 INT8 或 INT4 时会发生什么,包括其好处和权衡。

Image 4 分解仅权重量化与权重-激活量化,以及 GPU 内存层次结构。

课程内容

课程主要分为三个阶段,每个阶段在 JupyterLab 环境中都有一个动手实验,学习者可以在其中使用实际模型和正在运行的 vLLM 服务器:

压缩

你使用一个全精度的 Qwen 模型,并通过 LLM Compressor 对其进行量化。你比较量化前后的模型大小,然后测量 perplexity 以量化准确率的权衡。这个实验能让你很好地感受量化技术,以及如何在部署 LLM 时减少 GPU 内存需求。

Image 5 在课程实验中使用 LLM Compressor 量化 Qwen 模型。

服务

你学习如何使用 vLLM 部署模型,并通过 OpenAI 兼容的 API 与之交互。你通过 vLLM 的指标观察 continuous batching 等特性,看到随着并发请求的到来,内存利用率如何变化,以及当请求共享系统提示时,prefix caching 如何避免冗余计算。

Image 6 实时观察 vLLM 在并发请求到达服务器时的服务指标。

基准测试

你使用 GuideLLM 模拟真实的流量模式,测量负载下的延迟和吞吐量。然后你使用 lm-eval 评估模型质量,以确认压缩后的模型仍然满足你的准确率要求。最后,你在一个真实模型上运行了完整的负载/准确率分析,并充分理解了权衡,从而能够做出明智的部署决策。

Image 7 在课程实验中使用 GuideLLM 在模拟流量下对 vLLM 部署进行基准测试。

课程详情

该课程在 DeepLearning.AI 上免费提供。如果你一直在本地或大规模运行模型,并想了解表面之下发生了什么,或者你听说过 vLLM 并想动手实践,那么这门课程会很有用。你将获得部署开源模型的经验,我们希望这是一个有用的资源。

致谢

这门课程是团队合作的成果。来自 Red Hat 的:Saša Zelenović、Michael Goin 和 Sawyer Bowerman 为课程设计、技术内容和实验开发做出了贡献。来自 DeepLearning.AI 的:Hawraa Salami 帮助制定了课程大纲和制作。感谢 Andrew Ng 的合作,并在 DeepLearning.AI 的课程目录中为开源推理工具留出了空间。希望你喜欢这门课程!

译自 vLLM · 官方博客 · 录于 二〇二六年六月四日