Allen AI · 官方

AIMIP 发布：AI 天气与气候模型比对项目 | Ai2

Introducing AIMIP: The AI weather and climate model intercomparison project | Ai2

二〇二六年五月十三日 · 英文原文

摘要

Ai2 联合 NVIDIA、Google Research 等团队发起 AIMIP（AI 模型比对项目），旨在建立 AI 气候与天气模型的开放评估标准。第一阶段发布了基于 ERA5 数据的基准实验和预报数据集，要求模型预测 1979-2024 年全球大气状态。八个提交模型在模拟平均历史气候上优于传统物理模型，近地表气温误差减少 2 倍，但在预测长期变暖趋势和样本外情景（如海洋瞬间升温）时表现分歧。数据集通过德国气候计算中心（DKRZ）托管。

介绍 AIMIP：AI 天气与气候模型比对项目 | Ai2

开放模型

开放模型

*   [Olmo](https://allenai.org/olmo)
*   [Tülu 3](https://allenai.org/tulu)
*   [Molmo](https://allenai.org/molmo)
*   [Playground](https://playground.allenai.org/)

*   [语言模型](https://allenai.org/language-models)
*   [多模态模型](https://allenai.org/multimodal-models)
*   [评估框架](https://allenai.org/evaluation-frameworks)
*   [开放数据](https://allenai.org/open-data)

Image 1Image 2

应用

Image 4Image 5

AI 助力科学

*   [Asta](https://allenai.org/asta)
*   [AstaBench](https://allenai.org/asta/bench)
*   [Asta 研究](https://asta.allen.ai/)

*   [Asta 排行榜](https://allenai.org/asta/leaderboard)
*   [Semantic Scholar](https://www.semanticscholar.org/)
*   [所有项目](https://allenai.org/ai-for-science)

AI 守护地球

*   [OlmoEarth](https://allenai.org/olmoearth)
*   [EarthRanger](https://allenai.org/earthranger)
*   [Skylight](https://allenai.org/skylight)
*   [气候建模](https://allenai.org/climate-modeling)

*   [所有项目](https://allenai.org/ai-for-the-environment)

AI 赋能机器人

*   [具身 AI](https://allenai.org/embodied-ai)

研究

研究

*   [最新动态](https://allenai.org/research)
*   [论文](https://allenai.org/papers)
*   [研究原则](https://allenai.org/research-principles)

新闻
研究所

研究所

*   [关于我们](https://allenai.org/about)
*   [职业机会](https://allenai.org/careers)
*   [媒体中心](https://allenai.org/media-center)

导航菜单

介绍 AIMIP：AI 天气与气候模型比对项目

2026年5月13日

Brian Henn - Ai2

预印本数据代码

新一代 AI 模型能够以远超传统系统的效率模拟地球气候的某些方面，但该领域仍需要严谨、共享的方法来检验这些模型是否准确可靠。

为填补这一空白，我们牵头了一项名为 AIMIP（AI 模型比对项目） 的社区工作，旨在支持对气候预测 AI 模型的科学理解与开放评估。AIMIP 汇集了包括 NVIDIA、Google Research 等在内的多个建模团队，围绕一个共同的基准实验和数据集展开工作——从而更容易在通用输出和评估标准上比较不同系统，并帮助建立对这些模型评估方式的信心。

作为 AIMIP 第一阶段的一部分，我们发布了一个 AI 天气与气候模型预报数据集，用于上述基准实验，同时发布了一份报告和评估结果，显示 AI 模型在关键气候指标上具有竞争力，但在某些领域仍存在困难。

利用天气与气候预报的革命

AI 气候模型相对较新，但它们建立在过去几年利用 AI 预测短期天气模式的快速发展基础之上。依靠覆盖整个大气层的历史天气观测大数据集（称为 ERA5）作为训练数据，AI 驱动的预报现在在 1-10 天未来预报的关键技能指标上经常击败传统天气模型，这一点在 AI 天气模型排行榜 WeatherBench 上已得到证明。而且它们以极快的速度完成预测，使用的计算能力远少于传统模型。

反过来，AI 驱动气候模型的发展利用了 AI 天气预报的进步——但它面临一系列独特的挑战。直到最近，几乎没有 AI 模型能够像传统气候模型那样在长时间尺度上模拟气候。与 WeatherBench 不同，用于评估 AI 气候模型的基准和指标并不那么明确。

要理解这些挑战为何存在，首先需要了解气候模型的功能及其通常的测试方式。

Image 7Image 8

气候模型与 MIP

基于物理的气候模型经过过去几十年的发展，旨在模拟地球气候在特定情景下几十年或几个世纪的变化。它们通过使用物理定律在短时间尺度上反复预测全球天气，并在模拟周期中逐步推进来实现这一目标。由此产生的天气平均值和极端值构成了气候——例如，某个地点的平均温度和降水量，以及它经历热浪或热带风暴等极端事件的可能性。

气候模型还必须考虑海洋和海冰（以及地球系统的其他部分）随时间变化的影响，因为在长时间尺度上，这些因素会显著影响天气。它们还必须评估一系列可能的危害和情景，例如温室气体排放的增加。

因此，气候建模的计算需求巨大。历史上，只有能够访问大型高性能计算系统（例如在国家实验室）的科学家才能执行模拟，全球开发的模型数量有限。这种稀缺性正是共享评估框架在气候科学中变得如此重要的原因之一。

为了评估气候模型，科学界使用一种称为模型比对项目（MIP）的工具。MIP 是一个标准化实验，气候模型必须执行该实验并提供通用输出用于评估。例如，正在进行的耦合模型比对项目（CMIP）一直是社区推动开发温室气体效应准确模型预报背后的驱动力。

AI 气候建模提供了与 AI 天气预报相同的承诺：与基于物理的气候模型相比，预报速度革命性提升，效率极高（计算量减少多达三个数量级），从而为更广泛的用户群体解锁科学发现的可能性。但直到最近两年左右，来自多个团队、使用各种 AI 架构的 AI 模型才证明它们能够对几十年和几个世纪做出稳定、高保真的预测。而它们正确响应不同气候情景的能力在很大程度上仍然未知。

现有的比对框架是为传统气候模型构建的，无法匹配当今 AI 气候模型的能力或解决围绕它们的问题。因此，AIMIP 的时机已经成熟，它源于与 AI 和传统气候建模团队的社区对话。

AIMIP 第一阶段：规范与提交

AIMIP 第一阶段是该项目的首个共享基准实验，旨在比较 AI 气候模型在共同设置下的表现，同时将范围控制在足够窄的范围内以促进广泛参与。它规定模型必须预测 1979-2024 年全球大气状态，输出频率为月度和日度。模型必须仅使用 1979-2014 年的 ERA5 历史观测数据进行训练，将最后十年作为测试数据，但 AI 架构的选择由参与建模团队自行决定。

海洋和海冰状态由历史观测值指定，因为在 AI 气候建模的早期阶段，目标是专注于大气行为。然而，在未来的 AIMIP 阶段，AI 可能通过“耦合”气候模型（例如，像我们的 SamudrACE 模型）模拟海洋、海冰和其他地球系统组件，AIMIP 需要相应发展以正确捕捉这一点。

在 AIMIP 第一阶段，模型必须输出大气七个层次上的温度、湿度和风，以及地表温度、降水量和其他关键天气变量。它们还必须使其输出与典型的 CMIP 格式规范兼容，以便于与传统气候模型和评估工具进行比对。

Ai2 气候建模团队和五个外部组织——ArchesWeather 团队、NVIDIA、华盛顿大学、马里兰大学和 Google Research——向 AIMIP 第一阶段提交了八个模型模拟。

历史气候的忠实再现，但预测其变化面临挑战

利用该数据集，我们可以评估 AI 气候模型在模拟历史气候及其过去几十年变化方面的表现。我们发现，无论架构选择如何，AI 模型在模拟平均历史气候模式方面表现非常出色——通常在此任务上优于传统的基于物理的气候模型。最准确的 AI 气候模型可以将近地表气温等场的时间平均误差减少 2 倍。

Image 10Image 11

1979-2014 年全球平均近地表温度误差幅度与 ERA5 的柱状图。所有柱状图均为 AI 模型，右侧为传统气候模型 GFDL-CM4。

一个更具挑战性的测试是模型是否捕捉到了历史记录中可见的长期变暖趋势，尤其是在训练期之外，进入保留的 ERA5 数据最后十年。在这方面，情况更为复杂。一些模型很好地跟踪了变暖趋势，而另一些则显著低估了它。虽然泛化到未来条件对于气候变化预测至关重要，但对于其他用例，例如在 AI 模型训练期间的信息学或气候风险因素采样，可能不那么关键。

Image 13Image 14

1979-2024 年地球近地表气温折线图：观测值（ERA5，黑色）、AI 模型和传统气候模型（GFDL-CM4，橄榄绿）。2015 年之后的阴影区域从训练中保留。

此外，我们评估了提交模型模拟对厄尔尼诺海洋条件的大气响应、逐日大气变率以及一个真正的样本外“冲击”——全球海洋表面瞬间升温 2 或 4 摄氏度——的能力。后者在物理上并非可能的情景，但有助于理解 AI 模型如何泛化到未见条件。也许并不意外，模型在这种样本外情况下的预测显著分歧，有些产生了物理上似乎不合理的结果。

未来方向：开放数据集与社区评估

AIMIP 第一阶段数据集正在通过德国气候计算中心（DKRZ）托管，并计划发布到地球系统网格联盟（ESGF），以便气候科学界广泛访问。科学家们已经在使用该数据集对 AI 气候模型进行进一步评估，我们的工作为持续研究提供了切入点。

AIMIP 第一阶段的结果表明，AI 气候模型的核心挑战之一是稳健地响应一系列气候情景。换句话说，如果这些模型要被科学界广泛采用，泛化能力将至关重要。特别是，研究人员需要能够信任 AI 气候模型在未见温室气体排放情景下的行为。传统气候模型输出可能为其中一些情况提供训练数据，但可能还需要额外的 AI 特定方法。

如果 AIMIP 第一阶段被证明对社区有价值，并且 AI 气候建模继续以当前速度发展，那么未来的 AIMIP 阶段将会跟进。这些阶段可能会扩展到更复杂的耦合建模，包括海洋和海冰；更广泛的情景集，例如温室气体排放路径；以及更广泛的输出要求和评估。

我们感谢帮助实现 AIMIP 的建模团队和合作伙伴。我们希望初始数据集及其分析能为该领域提供一个有用的基础，用于评估 AI 气候模型、比较不同方法，并确定哪些方面需要更多进展。

订阅以每月接收 Ai2 最新动态。

名字

姓氏

邮箱

联系我们

对我们的工作有疑问，或需要我们的技术支持？

联系我们

资源

社区

法律

译自 Allen AI · 官方 · 录于二〇二六年五月十三日