Hugging Face · 官方博客

OlmoEarth v1.1:更高效的模型系列

OlmoEarth v1.1: A more efficient family of models

二〇二六年五月十九日 · 英文原文

Allen AI 发布 OlmoEarth v1.1,通过将 Sentinel-2 影像中不同分辨率的 token 合并为单一 token,使 token 序列长度减少至原来的三分之一,从而将模型计算成本降低高达 3 倍。该系列在保持 v1 性能的同时,提供 Base、Tiny、Nano 三种规模,权重与训练代码已开源至 Hugging Face 和 GitHub。

](https://huggingface.co/Ai2Comms)

🧠 模型:https://huggingface.co/collections/allenai/olmoearth | 📄 技术报告:https://allenai.org/papers/olmoearth_v1_1 | 💻 代码:https://github.com/allenai/olmoearth_pretrain

Image 2: OlmoEarth v11 blog and social copy - Google Docs-image-1

我们于 2025 年 11 月发布了 OlmoEarth (v1)。自那以来,合作伙伴已将其广泛应用于各类任务,从追踪红树林变化、分类森林丧失的驱动因素,到在数天内生成国家尺度的作物类型地图,并将部署规模扩展至国家、大陆乃至全球范围。每一次发布都让我们更接近使命:将最先进的 AI 带给致力于保护人类和地球的组织与社区。

OlmoEarth 处理卫星影像以在数万至数十万平方公里的范围内进行预测时,效率决定了可能性。在运行 OlmoEarth 的完整生命周期中——数据导出、预处理、推理和后处理——计算成本是迄今为止最高的开销。一个更高效的模型意味着我们可以在 OlmoEarth 平台上支持更多合作伙伴,也意味着任何自行运行 OlmoEarth 的人都能以更低成本、更快速度利用这项技术。

正因如此,我们构建了 OlmoEarth v1.1:一个新的模型系列,在保持 OlmoEarth v1 在混合研究基准和与合作伙伴共同构建的任务上性能的同时,将计算成本降低高达 3 倍

通过缩短序列长度提升效率

OlmoEarth 模型基于 transformer(变换器)架构,这是当前机器学习的主流架构之一。为了处理遥感数据,我们首先将其转换为模型可以摄入的 token 序列。

控制 transformer 模型效率的两个重要杠杆是:模型大小(这也是我们发布模型系列的原因,用户可根据计算预算选择合适大小)和 token 序列长度。计算成本随 token 序列长度呈二次方增长,因此即使小幅缩减也能显著降低运行模型的成本。

Image 3: bench-capture-2026-05-18T14-40-39

MACs(乘加操作)用于估算模型一次前向传播所需的计算量;MACs 越低通常意味着推理越便宜、越快。y 轴反转,因为平均排名越低越好。标签显示模型系列和大小。所有绘制的点均使用粘贴的 MAC/排名值。

设计 token

这引出了 transformer 遥感模型的一个重要问题:一个 token 应该代表什么?

以我们常处理的 Sentinel-2 影像为例。一个 Sentinel-2 输入是一个具有高度和宽度(H, W 分别代表纬度和经度像素)、时间维度 T 以及 12 个 Sentinel-2 通道的 tensor(张量)[H, W, T, D=12]。

Image 4: OlmoEarth v11 blog copy - Google Docs-image-3

目前,我们将数据分割成 基于分辨率的 patch。具体来说,我们会选取某个空间 patch 大小 p,然后将整个 Sentinel-2 图像分割成 p x p 的 patch:

Image 5: OlmoEarth v11 blog and social copy - Google Docs-image-4

对于每个 patch,我们为每个时间步和每个分辨率创建一个 token。因此,一个具有 2 个时间步的 Sentinel-2 输入,每个 patch 会产生 6 个 token(2 个时间步 x 3 个分辨率:10m、20m 和 60m)。

总计,一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 H/p x W/p x T x 3 个 token。

在处理 Sentinel-2 数据时,为每个分辨率使用独立的 token 是一种常见技术——GalileoSatMAE 都采用了这种方法,且 SatMAE 表明这样做效果显著更好。然而,这并非通用做法:CROMA 是一个仅对所有波段使用单一 token 的模型,无论分辨率如何。由于 token 数量呈乘性增长,将分辨率合并到单个 token 中可产生 三倍更少的 token,并在预训练、微调和推理中带来实质性的节省。

以这种简单方式合并 token 会导致显著的性能下降,包括在 m-eurosat kNN(遥感模型的一个常见基准任务)上下降 10 个百分点。我们假设,将 Sentinel-2 波段分离到不同 token 中,使得 OlmoEarth 更容易建模重要的跨波段关系。

要在不影响性能的情况下合并 token,我们需要修改预训练方案。我们在论文中详细描述了这些改动。

面向开发者

结果是一个用更少资源做更多事的模型系列。在每种规模下,OlmoEarth v1.1 的运行成本都比 OlmoEarth v1 低至多三倍,使得每个运行 OlmoEarth 的团队都能更经济地频繁刷新行星尺度的地图。如果你正在使用原始 OlmoEarth 系列的模型,请尝试 OlmoEarth v1.1。它在仅需三分之一计算量的情况下提供与 OlmoEarth v1 相近的性能,尽管我们观察到了一些退化(详情请参阅我们的技术报告)。如果它适用于你的任务,你应该会在微调和推理期间看到显著的加速。

面向研究者

预训练的遥感模型具有许多自由度,这使得它们难以研究。当性能发生变化时,是架构、数据集还是预训练算法导致的?

我们在与 OlmoEarth v1 相同的数据集上训练 OlmoEarth v1.1,因此两者之间的任何差异都隔离了方法变更的影响。我们希望这能增进对遥感模型预训练中科学原理的理解。

快速上手

查看 OlmoEarth v1.1 的权重训练代码,包括 Base、Tiny 和 Nano 模型的权重。

译自 Hugging Face · 官方博客 · 录于 二〇二六年五月十九日