vllm v0.19.1
vllm v0.19.1
摘要
v0.19.0补丁版本,主要升级Transformers至v5.5.3并修复Gemma4多项问题:修复流式工具调用中JSON无效、HTML重复、布尔值/数值拆分损坏及null转换错误;修复LoRA适配器加载与token重复问题;新增量化MoE与Eagle3支持;调整request为推理解析器;修复kimi_k25中media_placeholder_token_id解析。
这是 v0.19.0 之上的一个补丁版本,包含 Transformers v5.5.3 升级和 Gemma4 的 bug 修复:
- 更新至 transformers v5 (#30566)
- [Bugfix] 修复 Gemma 4 流式工具调用中因去除部分分隔符导致的无效 JSON 问题 (#38992)
- [Bugfix][前端] 修复 Gemma4 流式工具调用后 HTML 重复的问题 (#38909)
- [Bugfix] 修复 Gemma4 流式工具调用中布尔值/数值拆分导致的损坏问题 (#39114)
- [Tool] adjust_request 改为推理解析器,并修复 Gemma4 相关问题 (#39027)
- [Gemma4] 支持量化 MoE (#39045)
- 新增 Gemma4 Eagle3 支持 (#39450)
- [Gemma4][Bugfix]:使 Gemma4ForCasualLM 能正确加载 LoRA 适配器 (#38844)
- [Bugfix] 修复 Gemma4 工具解析器将裸 null 转换为字符串 "null" 的问题 (#39679)
- [Model] 通过为 PT 模型动态注入 BOS 来修复 Gemma 4 的 token 重复问题 (#39842)
- fix(kimi_k25):从 tokenizer 中解析 media_placeholder_token_id (#39344)
译自 GitHub · 版本发布 · 录于 二〇二六年六月六日