使用 vLLM、推测器与 LLM Compressor 加速 Laguna XS.2 推理

Accelerating Laguna XS.2 Inference with vLLM, Speculators, and LLM Compressor

二〇二六年五月二十九日 · 英文原文

摘要

Poolside 发布 Laguna XS.2，一个 33B-A3B MoE 开放权重模型，专为 agentic 编码和长周期软件任务设计。Red Hat AI 与 Poolside 合作，提供 vLLM 集成、基于 DFlash 算法的 speculator 检查点（5 层 0.6B draft 模型，单次前向传播预测 8 个 token，推理速度提升 2-3 倍），以及使用 LLM Compressor 构建的 FP8、NVFP4、INT4/INT8 量化检查点，均针对实际 agentic 应用优化了速度和效率。

随着组织越来越多地采用 AI 驱动的开发工具，对兼具准确性和运行效率的高性能 agentic 模型的需求变得至关重要。Laguna XS.2 是 Poolside 在 Laguna 系列中推出的首个开放权重模型：一个专为 agentic 编码和长周期软件任务构建的 33B-A3B MoE 模型。作为 Laguna XS.2 发布的一部分，Red Hat AI 与 Poolside 在服务和推理优化方面展开合作，包括一流的 vLLM 集成、一个 DFlash speculator 检查点，以及使用 LLM Compressor 构建的量化检查点。此次发布代表了生产级 AI 部署的一个重要里程碑，Laguna XS.2 的量化与 speculator 检查点针对实际 agentic 应用中的速度和效率进行了优化。

通过 vLLM 集成实现无缝推理

与 Poolside 合作，Laguna XS.2 在发布时便作为一流公民直接集成到 vLLM 中，从而能够通过标准 vLLM API 立即部署。

使用 DFlash 推测解码优化性能

为了进一步加速推理，Red Hat 团队使用 Speculators 库为 Laguna XS.2 训练了一个 DFlash speculator。

DFlash 算法是当前推测解码领域的最先进技术。该模型使用一个仅有 5 层、0.6B 的 draft 模型，并接收来自目标 Laguna XS.2 模型的隐藏状态输入，通过单次前向传播预测一个 token 块。随后，这些 token 由 Laguna XS.2 模型通过单次传播进行验证。这一验证步骤保证了与单独使用大模型相同的生成质量；如果 token 被接受，那么每个 token 的生成速度将远快于使用 Laguna XS.2 自回归地逐个生成 token。关键在于训练 DFlash 准确预测 Laguna XS.2 可能接受的 token。

该模型在来自 Ultrachat 200k SFT 和 Magpie-Align 的 50 万个样本上进行了训练。从每个数据集中采样 prompt，并使用 Laguna XS.2（启用思考模式）重新生成响应。随后，模型使用余弦调度器训练了 6 个 epoch，最大学习率为 6e-4，序列长度为 8192，每个序列随机采样 3072 个块位置。

结果是一个 5 层的 draft 模型，能够通过单次前向传播预测 8 个 token。当与 Laguna XS.2 一起验证时，它能够以 2-3 倍的速度提供 token，并且可证明生成质量没有损失。

DFlash 算法代表了推测解码的下一代技术，超越了 Eagle-3 范式，提供更快的并行起草，显著减少了 token 间延迟。要亲自测试 speculator，请查看 vLLM 配方。

使用 LLM Compressor 的量化检查点

Poolside 团队还使用 LLM Compressor 库发布了量化的 Laguna XS.2 检查点。这些检查点包括 FP8、NVFP4、INT4/INT8 变体，采用 compressed-tensors 格式，以便在 vLLM 中实现高效部署，同时保持模型质量。

LLM Compressor 提供了一个灵活的框架，用于对 LLM 应用各种量化技术。借助这些检查点，开发者可以选择最适合其硬件、延迟和内存需求的 Laguna XS.2 变体。

后续步骤

在 Hugging Face Hub 上探索 Laguna XS.2 模型
使用 LLM Compressor 和 Speculators 优化您自己的模型

译自 vLLM · 官方博客 · 录于二〇二六年五月二十九日