Holo3.1:快速本地化计算机使用Agent
Holo3.1: Fast & Local Computer Use Agents
Holo3.1 系列计算机使用模型发布,基于 Qwen 系列,提升在网页、桌面、移动环境及 agent 框架中的鲁棒性。在 AndroidWorld 上,35B-A3B 模型从 67% 提升至 79.3%,4B 和 9B 变体从 58% 提升至 72%。新增函数调用协议原生支持,在 Holotab 框架内相比 Holo3 提升超 25%。首次发布量化 checkpoint(FP8、Q4 GGUF、NVFP4),在 DGX Spark 上 NVFP4 吞吐量是 FP8 的 1.41 倍,端到端加速约 2 倍。提供 0.8B、4B、9B 和 35B-A3B 四种尺寸。
](https://huggingface.co/maxime-hcompany)
去年三月,我们发布了 Holo3,这是当时最先进的计算机使用模型。该模型迅速被采用。开发者、企业和合作伙伴开始在各类工作流中部署 Holo3,涵盖浏览器自动化、商业软件、内部工具以及桌面应用。随着采用规模的增长,我们意识到仅凭性能已不足以满足需求。
用户希望能在桌面和移动环境中运行相同的计算机使用能力,并能与不同的 agent 框架无缝集成。他们需要部署的灵活性,从云端推理到终端设备上的完全本地执行。
因此,我们发布了 Holo3.1 系列。Holo3.1 在生产环境中最重要的三个维度上提升了鲁棒性:环境(网页、桌面、移动)、agent 框架以及部署目标。我们首次发布了针对本地推理优化的量化 checkpoint,包括 FP8、Q4 GGUF 和 NVFP4。
Holo3.1 是我们迈向通用计算机使用 agent 愿景的重要一步:这些系统能够跨环境运行,集成到任何 agent 栈中,并在工作流所在之处执行。
跨 GUI 环境和 Agent 框架的计算机使用
基于 Qwen 系列,Holo3.1 旨在提升计算机使用 agent 实际部署环境中的鲁棒性,同时保持最先进的性能。
随着团队将 Holo3 从评估阶段推向生产环境,我们反复观察到同一个挑战:在某一场景下的强劲性能并不一定能迁移到其他场景。移动设备、替代的 agent 框架以及不同的执行框架都会引入各自的分布偏移。
移动自动化
Holo3.1 将 Holo3 的能力扩展到浏览器和桌面控制之外,在移动环境中取得了显著提升。在 AndroidWorld 上,我们的 35B-A3B 模型从 67% 提升至 79.3%,而较小的 4B 和 9B 变体则从 58% 提升至 72%。
跨框架性能
为了更好地支持团队在第三方 agent 栈中部署 Holo,Holo3.1 在 Holo3 已有的结构化 JSON 输出基础上,新增了对函数调用协议的原生支持。
在 OSWorld 以及我们涵盖电商、商业软件和协作工作流的内部 benchmark 套件中,函数调用和原生执行现在实现了近乎一致的性能。当在 Holotab 产品框架内评估时,Holo3.1 相比 Holo3 也实现了超过 25% 的提升。
更小尺寸以平衡成本与性能
为了进一步支持本地和设备端推理,我们还发布了新的模型尺寸,包括小模型(0.8B、4B 和 9B),用于经济高效的私有部署,以及用于最先进性能的更大 35B-A3B 模型。
Holo3.1 与 Qwen 3.5 系列的性能与成本对比。整体性能先对四个 H Corporate benchmark 取平均(每个系列权重相等),再取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的均值。
快速本地推理
这是我们首次发布量化权重。我们从 35B-A3B checkpoint 开始,提供 FP8、Q4 GGUF 和 NVFP4 格式。
对于 NVFP4,我们使用了 NVIDIA 的 Model Optimizer,采用 W4A16 配置。这些 checkpoint 能够实现计算机使用 agent 的快速本地推理,且模型性能几乎没有下降。FP8 和 NVFP4 在 OSWorld 上取得了相同的分数,仅比全精度 BF16 checkpoint 低约两个点。
加速效果显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。
迈向消费级硬件上的本地 Agent
我们还发布了 Q4 GGUF checkpoint,旨在消费级硬件上本地部署计算机使用 agent。
agent 本身在 Windows 或 Mac 机器上本地运行,而模型可以在同一台机器上运行(我们提供了 Apple Silicon 的参考数据),也可以在同一网络中的 DGX Spark 上运行。两种情况下,执行过程完全私有且本地化,没有任何数据离开用户网络。
在 Spark 上,我们与 NVIDIA 合作开发的 agent 框架优化,结合上述 NVFP4 量化,相比 FP8 基线实现了约 2 倍的端到端加速,将平均步骤时间从 6.8 秒缩短至 3.3 秒。
跨平台和精度的 agent 请求速率。在 DGX Spark 上,使用 NVFP4 的 vLLM 在默认和快速模式下均达到最高请求速率,其次是 Q4 GGUF 和 FP8。这些改进及更多优化将出现在即将发布的桌面 agent 框架中。
可用性
Holo3.1 系列提供四种尺寸:
| 模型 | 部署目标 |
|---|---|
| Holo3.1-0.8B | 超轻量本地 agent |
| Holo3.1-4B | 经济高效部署 |
| Holo3.1-9B | 平衡性能与延迟 |
| Holo3.1-35B-A3B | 最先进性能 |
我们还发布了针对本地和边缘部署优化的 FP8、NVFP4 和 Q4 GGUF checkpoint。
开始使用
- 技术博客
- Holo 模型 API
- Hugging Face 合集
我们期待看到开发者用 Holo3.1 构建的应用。



