Hugging Face · 官方博客

Holo3.1:快速本地化计算机使用Agent

Holo3.1: Fast & Local Computer Use Agents

二〇二六年六月二日 · 英文原文

Holo3.1 系列计算机使用模型发布,基于 Qwen 系列,提升在网页、桌面、移动环境及 agent 框架中的鲁棒性。在 AndroidWorld 上,35B-A3B 模型从 67% 提升至 79.3%,4B 和 9B 变体从 58% 提升至 72%。新增函数调用协议原生支持,在 Holotab 框架内相比 Holo3 提升超 25%。首次发布量化 checkpoint(FP8、Q4 GGUF、NVFP4),在 DGX Spark 上 NVFP4 吞吐量是 FP8 的 1.41 倍,端到端加速约 2 倍。提供 0.8B、4B、9B 和 35B-A3B 四种尺寸。

](https://huggingface.co/maxime-hcompany)

去年三月,我们发布了 Holo3,这是当时最先进的计算机使用模型。该模型迅速被采用。开发者、企业和合作伙伴开始在各类工作流中部署 Holo3,涵盖浏览器自动化、商业软件、内部工具以及桌面应用。随着采用规模的增长,我们意识到仅凭性能已不足以满足需求。

用户希望能在桌面和移动环境中运行相同的计算机使用能力,并能与不同的 agent 框架无缝集成。他们需要部署的灵活性,从云端推理到终端设备上的完全本地执行。

因此,我们发布了 Holo3.1 系列。Holo3.1 在生产环境中最重要的三个维度上提升了鲁棒性:环境(网页、桌面、移动)、agent 框架以及部署目标。我们首次发布了针对本地推理优化的量化 checkpoint,包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是我们迈向通用计算机使用 agent 愿景的重要一步:这些系统能够跨环境运行,集成到任何 agent 栈中,并在工作流所在之处执行。


跨 GUI 环境和 Agent 框架的计算机使用

基于 Qwen 系列,Holo3.1 旨在提升计算机使用 agent 实际部署环境中的鲁棒性,同时保持最先进的性能。

随着团队将 Holo3 从评估阶段推向生产环境,我们反复观察到同一个挑战:在某一场景下的强劲性能并不一定能迁移到其他场景。移动设备、替代的 agent 框架以及不同的执行框架都会引入各自的分布偏移。

Image 2: Capture d’écran 2026-06-01 à 16.30.52

移动自动化

Holo3.1 将 Holo3 的能力扩展到浏览器和桌面控制之外,在移动环境中取得了显著提升。在 AndroidWorld 上,我们的 35B-A3B 模型从 67% 提升至 79.3%,而较小的 4B 和 9B 变体则从 58% 提升至 72%。

跨框架性能

为了更好地支持团队在第三方 agent 栈中部署 Holo,Holo3.1 在 Holo3 已有的结构化 JSON 输出基础上,新增了对函数调用协议的原生支持。

在 OSWorld 以及我们涵盖电商、商业软件和协作工作流的内部 benchmark 套件中,函数调用和原生执行现在实现了近乎一致的性能。当在 Holotab 产品框架内评估时,Holo3.1 相比 Holo3 也实现了超过 25% 的提升。

更小尺寸以平衡成本与性能

为了进一步支持本地和设备端推理,我们还发布了新的模型尺寸,包括小模型(0.8B、4B 和 9B),用于经济高效的私有部署,以及用于最先进性能的更大 35B-A3B 模型。

Image 3: Capture d’écran 2026-06-01 à 16.21.18

Image 4: overall_pareto_light_notitle

Holo3.1 与 Qwen 3.5 系列的性能与成本对比。整体性能先对四个 H Corporate benchmark 取平均(每个系列权重相等),再取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的均值。


快速本地推理

这是我们首次发布量化权重。我们从 35B-A3B checkpoint 开始,提供 FP8、Q4 GGUF 和 NVFP4 格式。

对于 NVFP4,我们使用了 NVIDIA 的 Model Optimizer,采用 W4A16 配置。这些 checkpoint 能够实现计算机使用 agent 的快速本地推理,且模型性能几乎没有下降。FP8 和 NVFP4 在 OSWorld 上取得了相同的分数,仅比全精度 BF16 checkpoint 低约两个点。

加速效果显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。Image 5: quality_throughput_pareto_light (1)

迈向消费级硬件上的本地 Agent

我们还发布了 Q4 GGUF checkpoint,旨在消费级硬件上本地部署计算机使用 agent。

agent 本身在 Windows 或 Mac 机器上本地运行,而模型可以在同一台机器上运行(我们提供了 Apple Silicon 的参考数据),也可以在同一网络中的 DGX Spark 上运行。两种情况下,执行过程完全私有且本地化,没有任何数据离开用户网络。

在 Spark 上,我们与 NVIDIA 合作开发的 agent 框架优化,结合上述 NVFP4 量化,相比 FP8 基线实现了约 2 倍的端到端加速,将平均步骤时间从 6.8 秒缩短至 3.3 秒。

Image 6: agent_request_rate_light

跨平台和精度的 agent 请求速率。在 DGX Spark 上,使用 NVFP4 的 vLLM 在默认和快速模式下均达到最高请求速率,其次是 Q4 GGUF 和 FP8。这些改进及更多优化将出现在即将发布的桌面 agent 框架中。


可用性

Holo3.1 系列提供四种尺寸:

模型 部署目标
Holo3.1-0.8B 超轻量本地 agent
Holo3.1-4B 经济高效部署
Holo3.1-9B 平衡性能与延迟
Holo3.1-35B-A3B 最先进性能

我们还发布了针对本地和边缘部署优化的 FP8、NVFP4 和 Q4 GGUF checkpoint。


开始使用

我们期待看到开发者用 Holo3.1 构建的应用。

译自 Hugging Face · 官方博客 · 录于 二〇二六年六月二日