Hugging Face · Daily Papers

GLM-5V-Turbo：迈向多模态 agent 的原生基础模型

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

V Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue 等 78 位

二〇二六年四月三十日 · arXiv:2604.26752 · PDF

摘要

我们提出 GLM-5V-Turbo，这是迈向面向多模态 agent 的原生 foundation model 的一步。随着 foundation model 越来越多地部署在真实环境中，agentic 能力不仅取决于语言推理，还取决于对图像、视频、网页、文档、GUI 等异构上下文进行感知、理解和行动的能力。GLM-5V-Turbo 围绕这一目标构建：多模态感知被整合为推理、规划、tool use 和执行的核心组成部分，而不是作为 language model 的辅助接口。

本报告总结了 GLM-5V-Turbo 在模型设计、多模态训练、reinforcement learning、工具链扩展以及与 agent 框架集成方面的主要改进。这些进展使其在多模态 coding、视觉 tool use 和基于框架的 agentic 任务中表现较强，同时保持了有竞争力的纯文本 coding 能力。更重要的是，我们的开发过程为构建多模态 agent 提供了实践洞见，强调了多模态感知、分层优化和可靠端到端验证的核心作用。