Microsoft Research · 学术

GridSFM：一种新型小型电网基础模型

GridSFM: A new, small foundation model for the electric grid

二〇二六年五月十四日 · 英文原文

摘要

微软发布GridSFM，一种用于输电网交流最优潮流（AC-OPF）的小型基础模型，可在毫秒级内近似求解500至80,000个节点电网的AC-OPF。该模型在150多个电网拓扑和约50万个场景上训练，在54个电网测试中实现中位成本差距2.23%，作为热启动种子比冷启动快1.66倍。GridSFM-Open层级（最多4,000个节点）以研究用途发布，支持contingency筛选、可行性评估和电网规划。

微软发布了一款轻量级基础模型，可在毫秒级内预测交流最优潮流，从而提升电网分析效率并节省成本。

概览
微软推出 GridSFM，一款小型基础模型，能在毫秒级内近似求解交流最优潮流（AC optimal power flow），解锁直接影响每年高达 200 亿美元阻塞损失和 3.4 TWh 可再生能源弃电的决策。除了估算发电机调度和成本，GridSFM 还能生成完整的交流系统状态，使运营商能够直接洞察阻塞、稳定性和整体系统健康状况。它为社区构建高级电网模拟器和规划工具提供了基础，无需从头重建数据或模型。

微软推出 GridSFM，一款用于解决输电网交流最优潮流（AC-OPF）问题的小型基础模型。这继我们此前发布的、为 GridSFM 提供动力的美国开放输电拓扑数据集之后。电网正面临日益增长的需求、整合可再生能源的必要性、交通电气化以及极端天气事件带来的压力。在所有挑战中，核心问题相同：在每个新条件下，保持电网运行的最优运行点是什么？回答这个问题需要求解 AC-OPF，这是一个复杂的非凸优化问题，它计算满足需求的最便宜发电机调度（每台发电机发多少电），同时遵守潮流物理、电压限制、热约束和稳定性要求，并支撑包括可靠性、实时调度、市场出清和 contingency 分析在内的核心电力系统运行。这些决策直接决定了每年高达 200 亿美元的阻塞成本（在新标签页中打开）和数太瓦时的可再生能源弃电（在新标签页中打开）（因阻塞损失的可再生能源），使得经济效率和电网可靠性对如何找到这些运行点高度敏感。然而，AC-OPF 计算成本高昂：公用事业规模的电网求解可能需要数小时，迫使人们在求解少量精心挑选的场景或依赖忽略关键物理的近似之间做出权衡，后者可能错误估计潮流和约束，导致在压力条件下调度次优和可靠性下降。

Azure AI Foundry Labs
通过这些来自微软研究院的实验性技术，一窥 AI 未来可能的发展方向。
Azure AI Foundry（在新标签页中打开）

为解决这一限制，我们推出了 GridSFM，一个单一的神经网络，能在毫秒级内近似求解 500 到 80,000 个节点的电网的 AC-OPF。它接收标准的 AC-OPF 输入（电网拓扑、发电机和负载规格、输电线路约束），并生成一个运行点和一个可行性判定（系统是否满足所有物理和运行约束）。通过消除计算瓶颈，GridSFM 使得实时评估数量级更多的场景成为可能，从而实现更明智的决策，并将电网运行从被动响应转变为主动优化。

在此次初始发布中，我们提供两个层级：

GridSFM-Open：适用于研究级电网，最多 4,000 个节点。
GridSFM-Premier：适用于生产级系统，最多 80,000 个节点。

该模型构建为块结构离散神经算子（图 1），将每个电网表示为有向图，其中节点（电网中的连接点）和发电机作为顶点，输电线路和交流线路作为边。它使用求解器监督（参考解由 AC-OPF 求解器 IPOPT in PowerModels.jl（在新标签页中打开）生成）和基于物理的约束（惩罚违反基尔霍夫电压和电流定律等基本物理定律以及热限制等运行约束的行为）进行训练。这使得模型能够从可行和不可行区域中学习。

大多数基于学习的 AC-OPF 替代模型在狭窄分布上为每个电网训练一个模型（在新标签页中打开）。GridSFM 采取相反的方法：在此次发布中，一个单一模型在 150 多个基础电网拓扑（网络结构）和大约 50 万个场景（涵盖变化的负载曲线、多元件 outage、线路额定值降额、电压边界收紧和不同的发电机成本系数）上进行训练，因此模型被迫进行泛化而非记忆。

在 GridSFM-Open 的 54 个电网混合测试场景中，我们的模型实现了与求解器真实标签相比的中位成本差距为 2.23%（平均 3.41%；作为传统数值求解器的热启动种子，GridSFM 种子热启动在相同测试场景上的几何平均比冷启动快 1.66 倍，比行业标准的 DC-OPF 热启动快 1.59 倍（每个电网的详细分析和完整白皮书将后续发布）。几何平均，也称为乘法平均，此处使用是因为它对异常值更鲁棒。我们的模型还展示了仅需少量微调场景即可适应新电网的能力。

图 1. GridSFM 架构。 节点、发电机和支路特征被嵌入到共享的潜在空间中，然后通过直接在电网拓扑上运行的一堆 attention 块进行细化。输出头将潜在状态解码为 (i) 完整的 AC-OPF 运行点：节点电压和相角、发电机调度、支路潮流，以及 (ii) 每个场景的可行性分数。

它能实现什么

电网运行和规划中的一个常见模式是，必须在以下两者之间做出选择：使用完整的 AC-OPF 精确求解一小部分精心挑选的场景，或者通过一个丢弃部分物理的更快近似方法运行数千个场景。例如，一个常用的工具是 DC-OPF 近似，这是一个线性化版本，假设电压幅值平坦且相角差很小，并忽略无功功率和损耗。DC 近似可以在几秒钟内求解完整 AC 需要几分钟到几小时的问题，这就是为什么今天大多数 contingency 筛选、市场出清前期和规划扫描都运行在 DC 近似上。代价是真实的：DC 近似完全忽略电压和无功约束，其调度成本在压力场景下可能偏离 AC 最优值超过 10%（在我们的测试基准中，最坏情况电网偏离超过 20%）。

GridSFM 被设计为在快速近似槽位中替代 DC 近似，与大多数现有的 AC-OPF 神经替代模型不同（后者需要为每个新拓扑重新训练），GridSFM 在其支持的尺寸范围内跨电网泛化，无需针对每个拓扑重新训练，因此它可以像 DC 近似一样通用地嵌入。特别是与 DC-OPF 相比，GridSFM 具有三个具体优势：

在独立调度成本上具有与 DC 近似相同的精度等级。 GridSFM 和 DC 落在相同的每个场景成本差距分布内（§2 / 图 6），具有互补的失败模式：DC 在其无损耗/无无功线性化在结构上错误的电网上失败；GridSFM 在其训练分布之外的电网上失败。这两个限制沿正交轴闭合。DC 的上限由线性化固定，而 GridSFM 的尾部随着更多训练数据而闭合。
比完整 AC 求解器快 1,000 倍，在推理步骤上比 DC 近似快约 100 倍，足以在单个商用 GPU 上几分钟内扫描数千个 contingency（例如，线路或发电机 outage）。
一个真实的交流运行点，而非线性近似。 GridSFM 生成电压和无功功率，因此相同的预测可以作为交流热启动传递给传统的数值求解器，开启了 DC 近似无法实现的工作流程。

1. 可行性筛选：压力分数分流

当一个场景没有调度能同时满足所有约束时，该场景不可行：请求的负载无法在电压边界、热限制或发电机容量内得到满足。在运行中，不可行是最重要的失败信号：请求的运行条件根本无法满足，响应是干预（甩负荷、重新调度、放宽热限制）。这也是筛选成本最高的一类场景，因为求解器只有在迭代到不收敛后才知道场景不可行：每个不可行案例都需要一次完整的求解器运行，通常比可行案例耗时更长。因此，扫描数千个 contingency 或压力案例以识别不可行案例，是任何规划工作流程中最糟糕的预算之一。

GridSFM 通过一个与调度头联合训练的每个场景压力分数来解决这个问题。我们在每个电网上对三类场景评估该分数：real-feas 是 AC-OPF 求解器成功收敛的场景（即真正可行的运行点），real-infeas 是求解器未能收敛的场景（真正不可行的运行点），synth-infeas 是我们故意扰动以违反特定约束（电压挤压、热瓶颈、相角收紧或直流热阻塞）的可行基点。在 54 个电网测试场景中，压力分数的每个电网二元准确率在各类别间大致均匀：real-feas（绿色）平均 94.5%，real-infeas（红色）平均 96.1%，synth-infeas（橙色）平均 90.4%。大多数电网聚集在平均值附近几个百分点内；低于 80% 的异常值与下面成本差距分析中出现的困难电网相同。

图 2. GridSFM 在 54 个电网测试场景中每个电网的可行性预测准确率，按类别细分（real-feas、real-infeas、synth-infeas）。 填充的 KDE + 每个电网的点，带有平均值（–）和中位数（:）浅虚线。三个分布高度重叠，模型的质量在各类别间大致均匀，只有一小部分结构困难的电网尾部表现不佳。

深入案例研究。 让我们放大一个具有代表性的电网，Texas2k 夏季峰值电网（在新标签页中打开），以展示学习到的表示如何分离可行性以及预测的 ROC。

表示。 图 3 可视化了模型对每个 Texas2k 场景的学习表示。我们将每个图的表示（128 维）投影到两个轴（LD1, LD2）上，这两个轴被选择为最大化场景类别之间的分离：real-feasible、real-infeasible 和 synthetic-infeasible。将 128 维压缩到 2 维不可避免地会丢失信息，因此这种视图夸大了明显的重叠：在此处看起来混合的类别，在模型使用的完整 128 维空间中可能仍然可以清晰分离。阴影云显示每个类别的图集中的位置，每个云中心的十字标记类别质心，即该类所有图的平均位置。相距较远的质心意味着模型将这些类别视为清晰可辨。两个阴影云重叠的地方，模型正在为具有不同标签的图生成相似的嵌入。

图 3. Texas2k 场景上电网嵌入的线性判别投影。 真实可行（绿色）、真实不可行（红色）和合成不可行（橙色），投影到两个轴（LD1, LD2）上，这两个轴被选择为最大化类别间分离。十字标记类别质心；阴影云显示每个类别的集中区域。云之间的重叠意味着模型为这些类别中的图生成相似的嵌入；在完整的 128 维空间中，模型可能仍然沿着未显示的维度分离它们。

操作和 ROC。 分数本身是连续的，并且按排名校准。图 4 显示了其在测试混合集上的 ROC：AUC = 0.986。在自然操作点，相同的分数作为二元分类器进行阈值化，产生 95.5% 的准确率。在该阈值下，对三种干净地将约束推向极限的扰动模式的检测率为 99-100%。

图 4. GridSFM 压力分数在 Texas2k 夏季峰值测试混合集（真实可行 + 求解器标记的不可行 + 将约束推向极限的合成扰动模式）上可行性的 ROC 曲线。 曲线下面积 = 0.986，在自然操作点二元准确率为 95.5%。分数按排名校准；二元截止点在哪里是操作员的选择。

分流截止点。 为了将场景路由到操作桶中，图 5 显示了每个群体的压力分数分布。操作员选择与其工作流程匹配的截止点：非常确信的可行场景通过以进行指示性调度；非常确信的压力场景被标记以供工程审查；边界中间带被发送到求解器进行验证。截止点设定了求解器预算和筛选漏检率之间的平衡。

图 5. 模型在相同 Texas2k 测试场景上的可行性 logit 分布，按群体划分：真实可行（绿色）、真实不可行（红色）和合成不可行（橙色）。 虚线垂直线是 logit=0 的决策边界。右侧的样本被预测为可行。在此操作阈值下，真实可行通过率为 99.5%，真实不可行被正确标记率为 90.4%，合成扰动被捕获率为 88-100%。

2. GridSFM 作为快速近似

GridSFM 的预测可以以两种方式使用，而无需从头生成精确的 AC-OPF 解：作为独立的调度和成本估计，或作为精确数值求解器的初始猜测（热启动）。我们将两者与相同的两个参考点进行比较：完整 AC-OPF（真实最优值）和 DC 近似（已建立的快速基线）。以下所有数字来自相同的 54 个电网测试场景 GridSFM-Open，求解器求解时间在单核 CPU 固定下按场景测量。

独立成本估计
当不需要精确求解器往返时，GridSFM 预测的调度可以直接计价。在我们的测试集中，GridSFM-Open 和 DC 近似落在相同的精度等级内：均值相当（DC 2.80%，GridSFM 3.41%），中位数相当（DC 1.81% vs GridSFM 2.23%），并且每个场景的分布跨越两个数量级的成本差距（图 6）。它们具有互补的失败模式，而不是一个主导另一个。

图 6. 与 AC-OPF 真实值相比的每个场景成本差距分布：DC 近似（蓝色）和 GridSFM（绿色）在 54 个电网 GridSFM-Open 基准测试上。 填充的 KDE + 下方的每个场景点；浅虚线标记平均值（–）和中位数（:）。DC：均值 2.8%，中位数 1.81%。两个分布形状相同：在 2-3% 差距范围内有一个单峰，大部分场景低于 5%，一小部分异常值尾部延伸到 >25% 范围。异常值尾部来自不同来源：DC 在其无无功线性化在结构上错误的电网上失败（case1803_snem 和少数网状输电网）；GridSFM 的异常值集中在少数我们开源的电网中，这些电网的 AC-OPF 参考本身需要额外的约束松弛才能变得可行（在新标签页中打开），因此这些电网上的真实目标噪声更大，差距部分反映了参考侧的不稳定性。这两个限制沿正交轴闭合：DC 的上限由线性化固定，不会随着更多数据或计算而改善；GridSFM 的尾部随着更干净的参考标签和这些电网家族上更多的训练数据而闭合。

因此，GridSFM 的差异化价值不在于独立的成本数字，而在于 GridSFM 生成一个完整的交流运行点，包括电压和无功功率。这使得操作员能够直接评估电网状态。这一点很重要，因为系统的可行性和安全性通常由电压和无功功率限制决定，但 DC-OPF 中两者都不被考虑。同时，运行点也支持热启动工作流程，我们接下来将描述这一点。

热启动交接
AC-OPF 求解器通过迭代细化运行点的初始猜测直到满足最优性条件来工作，它所需的细化迭代次数直接取决于初始猜测与真实最优值的接近程度：一个差的起点可能需要数千次迭代，而一个接近最优的起点只需要几次。冷启动（也称为平坦启动）将每个节点的电压幅值设置为 1.0 每单位，相角设置为零，因此求解器需要完成全部工作。热启动用更接近的估计替换该通用值，以使求解器收敛更快。DC 近似热启动首先求解线性化的 DC-OPF 版本，并用该解为 AC 求解器提供种子。而 GridSFM 热启动则通过模型运行一次前向传播，并用其预测的电压相角和有功调度为求解器提供种子。

任何热启动所能帮助的绝对上限，我们称之为 GT（真实值）上限：我们以高精度运行一次完整的 AC-OPF 求解以找到真实最优值，然后用该精确解作为热启动种子重新运行求解器。这是求解时间的实际限制，因此也是加速的上限。

图 7. 相对于 AC-OPF 冷启动的热启动加速，在 54 个电网测试集上（对数刻度 x 轴）。 GridSFM（绿色，明确位于冷启动参考右侧）实现了 1.66 倍的几何平均加速，并且在 54 个电网中的 41 个上优于冷启动；DC 近似（蓝色）实现了 1.04 倍的几何平均加速，并在 54 个电网中的 34 个上改善了性能；GT 上限（金色，几何平均 2.72 倍）是热启动提升空间的上限。每种方法的比率在相同的 Julia 进程内计算，以消除跨运行计时噪声。

我们的分析显示，GridSFM 热启动比冷启动快 1.66 倍，比 DC 近似热启动快 1.59 倍（54 个电网测试场景的几何平均），并且在 54 个电网中的 41 个上比两个基线都快。在网状输电网（Texas2k 夏季峰值、case2742_goc）上，每个电网的最大加速比超过冷启动的 7 倍。相比之下，DC 近似热启动在这个更广泛的电网组合中平均效果平平（几何平均 1.04 倍 vs 冷启动），DC 在某些电网上节省了 AC 迭代，但在其他电网上花费了重建电压/无功的迭代。图 7 中 GridSFM 分布与 GT 上限分布（几何平均 2.72 倍）之间的差距可以通过改进 GridSFM 的残余无功功率和电压预测误差来缩小，这两者都是下一个版本的目标。

泛化
我们通过在 GridSFM-Open 从未见过的电网上运行它来测试它是否像一个真正的基础模型：来自 OPFData（在新标签页中打开）的 6,470 节点 case6470_rte，比训练中的任何电网大约 1.4 倍。在零样本设置中，性能按预期下降。成本误差从样本内的 3.35% 增加到新电网上的约 14%。电压预测仅捕获了约 27% 的真实变化，并且看起来几乎是平坦的。可行性分类器将每个场景标记为不可行。即便如此，模型仍然保留了跨场景成本的正确排序。

通过轻量微调，性能迅速恢复。在 1,000 个场景上经过 10 个 epoch 后，成本误差降至 1.12%，电压变化达到真实信号的 91%，可行性检测变得近乎完美。在微调期间完全保留的 N-1 contingency 拆分在所有指标上与完整拓扑结果相差在 0.2 个百分点以内，表明适应能力跨 contingency 转移。

该模型甚至在数据非常有限的情况下也能适应。仅用 10 个场景，成本误差为 1.76%，可行性检测超过 90%，在成本和有功调度上已经取得了强劲的结果。电压幅值恢复较慢，需要接近 1,000 个场景（见表 1）。此测试表明，GridSFM-Open 在预训练期间已经捕获了 AC-OPF 物理。适应新电网主要是校准问题，而不是重新学习。因此，发布的检查点可以作为用户在其自己的拓扑和任务上进行微调的实际起点。

微调场景数	成本误差	可行性检测
0 (0-shot)	14%	0 (Collapsed)
10	1.76%	92%
100	0.88%	97%
1000	1.12%	99%

表 1：GridSFM-Open 在 case6470_rte 上的少样本微调（保留测试拆分，每行 10 个 epoch）：即使约 10 个场景也能提供有用的成本和可行性预测。

展望未来

下一个版本的活跃方向：

泛化。 在训练组合之外的电网和运行条件下实现更紧密的准确性。当前的分布外分析在白皮书中。
持续改进所有预测通道的准确性，缩小图 7 中 GridSFM 分布与金色 GT 上限之间的残余差距。
多快照扩展。 机组组合（跨时间的离散开/关发电机决策）、天气条件场景生成、动态稳定性替代模型。

我们此前发布了 GridSFM_US_Powergrid_dataset（在新标签页中打开）。此次发布增加了第一个支持多种电网拓扑的开放 AC-OPF 模型，完成了用于机器学习驱动的电网模拟和规划的开放拓扑数据、开放代码和开放权重的堆栈。我们将其视为社区构建更丰富的模拟器、规划工作流程和决策支持工具的起点，而无需从头重建数据或模型。我们预计最能从中获益的应用是那些单次求解成本历来迫使人们进行挑选的应用：contingency 筛选、输电扩展规划、需求选址分析以及极端天气下的韧性研究。

GridSFM-Open 层级中的所有内容今天均以研究用途发布：

GitHub
Hugging Face
白皮书
项目页面

关于 GridSFM-Premier 的说明。 更大的生产级层级不属于此次开放发布的一部分。如果您有兴趣评估它、与我们合作或以其他方式获取访问权限，请通过 gridFM@microsoft.com（在新标签页中打开）联系我们。

文章《GridSFM: A new, small foundation model for the electric grid》最初出现在微软研究院。

译自 Microsoft Research · 学术 · 录于二〇二六年五月十四日