vllm v0.19.1

二〇二六年六月六日 · 英文原文

摘要

v0.19.0补丁版本，主要升级Transformers至v5.5.3并修复Gemma4多项问题：修复流式工具调用中JSON无效、HTML重复、布尔值/数值拆分损坏及null转换错误；修复LoRA适配器加载与token重复问题；新增量化MoE与Eagle3支持；调整request为推理解析器；修复kimi_k25中media_placeholder_token_id解析。

这是 v0.19.0 之上的一个补丁版本，包含 Transformers v5.5.3 升级和 Gemma4 的 bug 修复：

更新至 transformers v5 (#30566)
[Bugfix] 修复 Gemma 4 流式工具调用中因去除部分分隔符导致的无效 JSON 问题 (#38992)
[Bugfix][前端] 修复 Gemma4 流式工具调用后 HTML 重复的问题 (#38909)
[Bugfix] 修复 Gemma4 流式工具调用中布尔值/数值拆分导致的损坏问题 (#39114)
[Tool] adjust_request 改为推理解析器，并修复 Gemma4 相关问题 (#39027)
[Gemma4] 支持量化 MoE (#39045)
新增 Gemma4 Eagle3 支持 (#39450)
[Gemma4][Bugfix]：使 Gemma4ForCasualLM 能正确加载 LoRA 适配器 (#38844)
[Bugfix] 修复 Gemma4 工具解析器将裸 null 转换为字符串 "null" 的问题 (#39679)
[Model] 通过为 PT 模型动态注入 BOS 来修复 Gemma 4 的 token 重复问题 (#39842)
fix(kimi_k25)：从 tokenizer 中解析 media_placeholder_token_id (#39344)

译自 GitHub · 版本发布 · 录于二〇二六年六月六日