Hugging Face · Daily Papers
GLM-5V-Turbo:迈向多模态 agent 的原生基础模型
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents
摘要
我们提出 GLM-5V-Turbo,这是迈向面向多模态 agent 的原生 foundation model 的一步。随着 foundation model 越来越多地部署在真实环境中,agentic 能力不仅取决于语言推理,还取决于对图像、视频、网页、文档、GUI 等异构上下文进行感知、理解和行动的能力。GLM-5V-Turbo 围绕这一目标构建:多模态感知被整合为推理、规划、tool use 和执行的核心组成部分,而不是作为 language model 的辅助接口。
本报告总结了 GLM-5V-Turbo 在模型设计、多模态训练、reinforcement learning、工具链扩展以及与 agent 框架集成方面的主要改进。这些进展使其在多模态 coding、视觉 tool use 和基于框架的 agentic 任务中表现较强,同时保持了有竞争力的纯文本 coding 能力。更重要的是,我们的开发过程为构建多模态 agent 提供了实践洞见,强调了多模态感知、分层优化和可靠端到端验证的核心作用。