Holo3.1：快速本地化计算机使用Agent

Holo3.1: Fast & Local Computer Use Agents

二〇二六年六月二日 · 英文原文

摘要

Holo3.1 系列计算机使用模型发布，基于 Qwen 系列，提升在网页、桌面、移动环境及 agent 框架中的鲁棒性。在 AndroidWorld 上，35B-A3B 模型从 67% 提升至 79.3%，4B 和 9B 变体从 58% 提升至 72%。新增函数调用协议原生支持，在 Holotab 框架内相比 Holo3 提升超 25%。首次发布量化 checkpoint（FP8、Q4 GGUF、NVFP4），在 DGX Spark 上 NVFP4 吞吐量是 FP8 的 1.41 倍，端到端加速约 2 倍。提供 0.8B、4B、9B 和 35B-A3B 四种尺寸。

](https://huggingface.co/maxime-hcompany)

去年三月，我们发布了 Holo3，这是当时最先进的计算机使用模型。该模型迅速被采用。开发者、企业和合作伙伴开始在各类工作流中部署 Holo3，涵盖浏览器自动化、商业软件、内部工具以及桌面应用。随着采用规模的增长，我们意识到仅凭性能已不足以满足需求。

用户希望能在桌面和移动环境中运行相同的计算机使用能力，并能与不同的 agent 框架无缝集成。他们需要部署的灵活性，从云端推理到终端设备上的完全本地执行。

因此，我们发布了 Holo3.1 系列。Holo3.1 在生产环境中最重要的三个维度上提升了鲁棒性：环境（网页、桌面、移动）、agent 框架以及部署目标。我们首次发布了针对本地推理优化的量化 checkpoint，包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是我们迈向通用计算机使用 agent 愿景的重要一步：这些系统能够跨环境运行，集成到任何 agent 栈中，并在工作流所在之处执行。

跨 GUI 环境和 Agent 框架的计算机使用

基于 Qwen 系列，Holo3.1 旨在提升计算机使用 agent 实际部署环境中的鲁棒性，同时保持最先进的性能。

随着团队将 Holo3 从评估阶段推向生产环境，我们反复观察到同一个挑战：在某一场景下的强劲性能并不一定能迁移到其他场景。移动设备、替代的 agent 框架以及不同的执行框架都会引入各自的分布偏移。

移动自动化

Holo3.1 将 Holo3 的能力扩展到浏览器和桌面控制之外，在移动环境中取得了显著提升。在 AndroidWorld 上，我们的 35B-A3B 模型从 67% 提升至 79.3%，而较小的 4B 和 9B 变体则从 58% 提升至 72%。

跨框架性能

为了更好地支持团队在第三方 agent 栈中部署 Holo，Holo3.1 在 Holo3 已有的结构化 JSON 输出基础上，新增了对函数调用协议的原生支持。

在 OSWorld 以及我们涵盖电商、商业软件和协作工作流的内部 benchmark 套件中，函数调用和原生执行现在实现了近乎一致的性能。当在 Holotab 产品框架内评估时，Holo3.1 相比 Holo3 也实现了超过 25% 的提升。

更小尺寸以平衡成本与性能

为了进一步支持本地和设备端推理，我们还发布了新的模型尺寸，包括小模型（0.8B、4B 和 9B），用于经济高效的私有部署，以及用于最先进性能的更大 35B-A3B 模型。

Holo3.1 与 Qwen 3.5 系列的性能与成本对比。整体性能先对四个 H Corporate benchmark 取平均（每个系列权重相等），再取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的均值。

快速本地推理

这是我们首次发布量化权重。我们从 35B-A3B checkpoint 开始，提供 FP8、Q4 GGUF 和 NVFP4 格式。

对于 NVFP4，我们使用了 NVIDIA 的 Model Optimizer，采用 W4A16 配置。这些 checkpoint 能够实现计算机使用 agent 的快速本地推理，且模型性能几乎没有下降。FP8 和 NVFP4 在 OSWorld 上取得了相同的分数，仅比全精度 BF16 checkpoint 低约两个点。

加速效果显著：在 DGX Spark 上，NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍，是 BF16 的 1.74 倍。

迈向消费级硬件上的本地 Agent

我们还发布了 Q4 GGUF checkpoint，旨在消费级硬件上本地部署计算机使用 agent。

agent 本身在 Windows 或 Mac 机器上本地运行，而模型可以在同一台机器上运行（我们提供了 Apple Silicon 的参考数据），也可以在同一网络中的 DGX Spark 上运行。两种情况下，执行过程完全私有且本地化，没有任何数据离开用户网络。

在 Spark 上，我们与 NVIDIA 合作开发的 agent 框架优化，结合上述 NVFP4 量化，相比 FP8 基线实现了约 2 倍的端到端加速，将平均步骤时间从 6.8 秒缩短至 3.3 秒。

跨平台和精度的 agent 请求速率。在 DGX Spark 上，使用 NVFP4 的 vLLM 在默认和快速模式下均达到最高请求速率，其次是 Q4 GGUF 和 FP8。这些改进及更多优化将出现在即将发布的桌面 agent 框架中。

可用性

Holo3.1 系列提供四种尺寸：

模型	部署目标
Holo3.1-0.8B	超轻量本地 agent
Holo3.1-4B	经济高效部署
Holo3.1-9B	平衡性能与延迟
Holo3.1-35B-A3B	最先进性能

我们还发布了针对本地和边缘部署优化的 FP8、NVFP4 和 Q4 GGUF checkpoint。

开始使用

技术博客
Holo 模型 API
Hugging Face 合集

我们期待看到开发者用 Holo3.1 构建的应用。

译自 Hugging Face · 官方博客 · 录于二〇二六年六月二日