OlmoEarth v1.1：更高效的模型系列

OlmoEarth v1.1: A more efficient family of models

二〇二六年五月十九日 · 英文原文

摘要

Allen AI 发布 OlmoEarth v1.1，通过将 Sentinel-2 影像中不同分辨率的 token 合并为单一 token，使 token 序列长度减少至原来的三分之一，从而将模型计算成本降低高达 3 倍。该系列在保持 v1 性能的同时，提供 Base、Tiny、Nano 三种规模，权重与训练代码已开源至 Hugging Face 和 GitHub。

](https://huggingface.co/Ai2Comms)

🧠 模型：https://huggingface.co/collections/allenai/olmoearth | 📄 技术报告：https://allenai.org/papers/olmoearth_v1_1 | 💻 代码：https://github.com/allenai/olmoearth_pretrain

我们于 2025 年 11 月发布了 OlmoEarth (v1)。自那以来，合作伙伴已将其广泛应用于各类任务，从追踪红树林变化、分类森林丧失的驱动因素，到在数天内生成国家尺度的作物类型地图，并将部署规模扩展至国家、大陆乃至全球范围。每一次发布都让我们更接近使命：将最先进的 AI 带给致力于保护人类和地球的组织与社区。

当 OlmoEarth 处理卫星影像以在数万至数十万平方公里的范围内进行预测时，效率决定了可能性。在运行 OlmoEarth 的完整生命周期中——数据导出、预处理、推理和后处理——计算成本是迄今为止最高的开销。一个更高效的模型意味着我们可以在 OlmoEarth 平台上支持更多合作伙伴，也意味着任何自行运行 OlmoEarth 的人都能以更低成本、更快速度利用这项技术。

正因如此，我们构建了 OlmoEarth v1.1：一个新的模型系列，在保持 OlmoEarth v1 在混合研究基准和与合作伙伴共同构建的任务上性能的同时，将计算成本降低高达 3 倍。

通过缩短序列长度提升效率

OlmoEarth 模型基于 transformer（变换器）架构，这是当前机器学习的主流架构之一。为了处理遥感数据，我们首先将其转换为模型可以摄入的 token 序列。

控制 transformer 模型效率的两个重要杠杆是：模型大小（这也是我们发布模型系列的原因，用户可根据计算预算选择合适大小）和 token 序列长度。计算成本随 token 序列长度呈二次方增长，因此即使小幅缩减也能显著降低运行模型的成本。

MACs（乘加操作）用于估算模型一次前向传播所需的计算量；MACs 越低通常意味着推理越便宜、越快。y 轴反转，因为平均排名越低越好。标签显示模型系列和大小。所有绘制的点均使用粘贴的 MAC/排名值。

设计 token

这引出了 transformer 遥感模型的一个重要问题：一个 token 应该代表什么？

以我们常处理的 Sentinel-2 影像为例。一个 Sentinel-2 输入是一个具有高度和宽度（H, W 分别代表纬度和经度像素）、时间维度 T 以及 12 个 Sentinel-2 通道的 tensor（张量）[H, W, T, D=12]。

目前，我们将数据分割成 基于分辨率的 patch。具体来说，我们会选取某个空间 patch 大小 p，然后将整个 Sentinel-2 图像分割成 p x p 的 patch：

对于每个 patch，我们为每个时间步和每个分辨率创建一个 token。因此，一个具有 2 个时间步的 Sentinel-2 输入，每个 patch 会产生 6 个 token（2 个时间步 x 3 个分辨率：10m、20m 和 60m）。

总计，一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 H/p x W/p x T x 3 个 token。

在处理 Sentinel-2 数据时，为每个分辨率使用独立的 token 是一种常见技术——Galileo 和 SatMAE 都采用了这种方法，且 SatMAE 表明这样做效果显著更好。然而，这并非通用做法：CROMA 是一个仅对所有波段使用单一 token 的模型，无论分辨率如何。由于 token 数量呈乘性增长，将分辨率合并到单个 token 中可产生 三倍更少的 token，并在预训练、微调和推理中带来实质性的节省。

以这种简单方式合并 token 会导致显著的性能下降，包括在 m-eurosat kNN（遥感模型的一个常见基准任务）上下降 10 个百分点。我们假设，将 Sentinel-2 波段分离到不同 token 中，使得 OlmoEarth 更容易建模重要的跨波段关系。

要在不影响性能的情况下合并 token，我们需要修改预训练方案。我们在论文中详细描述了这些改动。

面向开发者

结果是一个用更少资源做更多事的模型系列。在每种规模下，OlmoEarth v1.1 的运行成本都比 OlmoEarth v1 低至多三倍，使得每个运行 OlmoEarth 的团队都能更经济地频繁刷新行星尺度的地图。如果你正在使用原始 OlmoEarth 系列的模型，请尝试 OlmoEarth v1.1。它在仅需三分之一计算量的情况下提供与 OlmoEarth v1 相近的性能，尽管我们观察到了一些退化（详情请参阅我们的技术报告）。如果它适用于你的任务，你应该会在微调和推理期间看到显著的加速。

面向研究者

预训练的遥感模型具有许多自由度，这使得它们难以研究。当性能发生变化时，是架构、数据集还是预训练算法导致的？

我们在与 OlmoEarth v1 相同的数据集上训练 OlmoEarth v1.1，因此两者之间的任何差异都隔离了方法变更的影响。我们希望这能增进对遥感模型预训练中科学原理的理解。

快速上手

查看 OlmoEarth v1.1 的权重和训练代码，包括 Base、Tiny 和 Nano 模型的权重。

译自 Hugging Face · 官方博客 · 录于二〇二六年五月十九日