microsoft-research

大规模构建真实输电网数据集：基于开放数据集的流程

Building realistic electric transmission grid dataset at scale: a pipeline from open dataset

二〇二六年五月九日 · 英文原文

摘要

Microsoft Research 基于 OpenStreetMap、U.S. EIA、U.S. Census 等公开数据构建输电层级电网模型数据集，覆盖美国 48 州和六个多州互联区域，规模至 Eastern Interconnection 21,697 个 bus，支持 AC-OPF，并用于输电走廊、HTS 链路和 500 MW datacenter 选址分析。

概览我们完全基于公开可用数据，构建具有地理基础且电气一致的电网模型，并发布了一个覆盖美国 48 个州和多州互联区域的数据集。这些模型支持 AC optimal power flow（交流最优潮流，AC‑OPF）分析，使研究人员无需受限数据即可基于物理规律研究拥塞、容量和需求选址。我们展示了若干应用，包括输电扩容潜力、定向线路升级，以及大型 datacenter 负载的布局。Microsoft Research 很高兴发布一个开放数据集，其中包含从公开可用数据推导出的美国电网近似输电拓扑。研究输电层级电网行为的能力，对于现代电力系统研究至关重要。对拥塞、输电扩容、需求增长和系统韧性的分析，都依赖具备真实拓扑、电气参数和地理基础的网络模型。在世界大多数地区，包括美国，真实的输电层级电网数据被归类为关键基础设施信息，并受到严格的访问控制。这些限制有充分理由，但由此造成的真实电网模型缺失，正日益加剧电力系统面临的挑战。关于新负载应部署在何处，以及如何配置额外输电资产来支撑这些负载的决策，往往被冗长且不透明的流程所限制，可能需要数年时间。对于开发新工具和算法的研究人员，访问数据通常需要漫长的审批周期、严格的禁止再分发协议，或高昂的商业许可。因此，许多人只能在包含几十个 bus（母线）的小型“toy”网络，和并不对应真实基础设施的 synthetic 模型之间做选择。缺少真实且可共享的模型，对 data-driven 和 AI-based 方法尤其形成限制，因为这些方法需要大量物理上可信的电网数据，用于训练和评估电网分析与规划方法。在这一背景下，一个自然的问题出现了：我们能否仅使用开放数据，有意义地理解美国电网如何响应现代压力，并促进面向系统的可操作解决方案的开发？在这项工作中，我们提出了一条从开放数据出发的 pipeline，用于构建大规模、输电层级的电网模型，在不依赖专有或受限数据集的情况下，对现有网络进行现实近似。我们提供了一个由该流程生成的开放数据集，包含覆盖美国 48 个州的输电层级模型，以及互联区域尺度的网络；规模从最小仅 11 个 bus 的小型系统，到连接 21,697 个 bus 的完整 Eastern Interconnection 电网不等。该 pipeline 已在美国本土范围内得到验证；在该区域，开放的地理、能源和人口数据较为充分。该方法也被设计为可泛化到拥有类似公共数据源的其他地区。仅使用公开可访问的数据集，该 pipeline 即可生成在州、多州和互联区域尺度上具有地理基础且电气一致的输电模型。这些模型保留了从开放数据推断出的输电走廊、变电站和发电机的地理结构，同时在详细运行参数不可获得时，通过透明的可行性报告明确处理不确定性。重要的是，这些并不是 toy 网络或抽象 benchmark。生成的模型支持在广泛尺度上进行 alternating current optimal power flow（AC-OPF）分析，使研究人员能够基于物理规律研究一系列问题，例如：输电容量在何处受到物理限制；新增需求可以在何处被吸收；以及基础设施变化如何通过真实网络布局传播——这一切都仅依赖开放数据。在本文中，我们从高层次描述该方法，并重点介绍它能够支持的系统层级问题。pipeline 如何工作该 pipeline 将公开可用的地理和能源数据转化为输电层级电网模型，这些模型具有地理基础，并可用于潮流分析。起点是 OpenStreetMap（在新标签页中打开），其中编码了输电走廊、变电站和电厂的物理布局。随后，这一地理骨架会结合描述发电容量、燃料结构、需求和运行边界的开放数据集（包括 U.S. EIA 能源统计和 U.S. Census 数据）进行增强，使模型不止于拓扑，还能够表示电力如何被生产和消费。关键测试是可解性。在电力系统分析中，求解 optimal power flow（OPF）问题，是检验网络描述是否电气一致且具有实际相关性的一种实用方法。OPF 用于确定如何调度发电以满足需求，同时遵守输电线路容量、电压限制和发电机能力等物理约束。许多推断或 synthetic 网络无法通过这一测试：拓扑看起来可能大致正确，但其他重要工程参数并不成立。关键在于，该方法超越了小型 benchmark 或“toy”网络。特别是，我们在整个 Eastern Interconnection 上求解 AC-OPF，该区域覆盖 36 个州和 20,000 多个 bus，且完全从公共数据源推导而来。这表明由开放数据生成的模型能够在大陆尺度产生收敛的 AC-OPF 解。需要说明的是，这些模型并不是运行电网的精确复制品，也不用于市场预测，或供电力平衡机构进行实时运行决策。电气参数基于标准工程参考资料估计，parallel circuits（并联回路）以近似方式处理，而不是穷尽枚举；需求则使用来自开放数据的公共 proxy 进行分配。目标是仅使用开放数据，生成在结构和电气上较为真实的模型，并在从单个州到大型多区域系统的尺度上保留地理结构。完整的方法细节、验证结果和局限性见配套研究论文。为什么这对当今能源挑战重要获得可解且具有地理基础的电网模型，可以解锁一系列随着能源系统演进而日益紧迫的问题；推动因素包括大规模 datacenter、AI workload、可再生能源发电以及极端天气事件。我们通过基于该 pipeline 生成的模型上的具体分析，说明这些能力。新的输电设施在物理上可以布设在哪里？在询问电网需要多少新增容量之前，规划者必须先问：哪里实际上还能加更多导线。输电走廊所能承载的 circuit 数量存在物理上限：每个 circuit 需要三根导线，而大多数塔架结构可容纳一到三个 circuit（三到九根导线）。超过这一范围后，增加容量通常需要取得全新的 right-of-way（通行权）——这不仅成本高、法律复杂，在城市地区也往往政治上不可行。由于我们的模型保留了来自 OpenStreetMap 的真实输电走廊地理结构，我们可以统计每条路径上的并联 circuit 数量，并可视化电网在何处已经达到物理饱和。图 1. 在美国本土范围内（上图），模型识别出 31,488 条不同的输电走廊。绝大多数（27,506 条）只承载单个 circuit（绿色），因此更容易增设并联线路。大约 4,000 条橙色到红色的走廊已经承载两个或更多并联 circuit，最密集的情况是在单一路径上布设十个 circuit（30 根导线）。放大到 California（下图）后，这一模式更容易辨认。Sacramento 以北的红色走廊，以及 Bay Area 和 LA basin 周边的橙色集群，显示了电网已经在物理上高度密集的区域；而穿过 Mojave 并延伸至 Nevada 的长距离绿色放射线路仍有增长空间。识别电网在何处受到物理限制——无论发电或需求如何——并不是一个优化问题，而是一个空间可行性问题；具有地理基础的模型特别适合回答这类问题。如果在最需要的地方增加容量，会发生什么？在高密度城市地区，新增传统输电线路通常并不现实。密集的建筑、道路和复杂地下基础设施共同限制了为高压线路建立 right-of-way 的空间。为支持城市电网扩张，有时会探索替代性 power‑transmission 方案。例如，high-temperature superconducting（HTS）电缆系统在给定横截面积下可提供高一个数量级的 ampacity（载流量），能够以较低电压传输大量电力，并简化许可要求。美国城市中已经示范过短距离 point-to-point superconducting 电力链路：Columbus, Ohio、Albany, New York、Long Island, New York（已退役）以及 Chicago（运行中）。为探索此类连接可能带来的效果，我们在 Massachusetts 电网中建模了两条假设 HTS 链路，每条都连接 Boston 西北方向的一座变电站与更靠近城市的负荷中心。随后，我们重新求解 AC-OPF，并将结果与未修改的 baseline 进行比较。图 2. 在 baseline（上图）中，一条输电线路超过其 thermal rating（≥100%，深红色），另外两条线路运行负载超过 90%。加入两条 HTS 链路后（下图，虚线），网络中所有线路的负载都降至 90% 以下。energy price 从 $22.7/MWh 降至 $13.1/MWh，下降 42%，因为此前受限于拥塞走廊后方的发电现在可以送出。这正是公开价格数据无法提供的洞察。批发电价反映是否存在拥塞，但不能反映系统距离拥塞有多近，也不能说明新增资产后潮流如何变化。一条运行在 thermal limit 95% 的线路和一条运行在 50% 的线路，在市场数据中看起来没有区别——直到其中一条达到容量上限。基于物理的模型直接揭示这一裕度，使得在建设前评估干预措施成为可能。新增需求应放在哪里？电力需求的快速增长带来一个现有市场信号难以回答的问题：网络上的哪些位置可以吸收新增用电，而不触发拥塞？批发电价反映边际发电成本、输电网中的当前拥塞模式和 transmission losses（通常较小），但并不捕捉系统距离其极限有多近。因此，仅基于价格进行选址，会遗漏决定新增需求能否在无需基础设施升级的情况下得到服务的物理裕度。为说明这一点，我们将同一个假设的 500 MW datacenter 分别放置在 Maryland 电网中的两个位置，并分别重新求解 AC-OPF（这些位置是任意选择的，并不反映 Microsoft 的 datacenter 组合或扩张计划）。从市场角度看，这两个站点都是合理备选项，具有相似的人口密度、可比的电价，并且接近主要负荷中心：Site A（Baltimore 区域）：Baltimore 都市区的一座变电站，靠近现有发电综合设施和密集输电基础设施 Site B（Washington, DC 郊区）：Montgomery County 的一座变电站，服务 Washington–Baltimore 走廊内一个同样密集的郊区区域尽管两者相似，物理结果却不同。将 datacenter 增加到 Site A 会使附近一条输电线路进入 thermal overload，而将同样负荷放在 Site B，则可由现有网络吸收，且不违反线路限制。两个站点相距不到 50 miles，但其中一个需要输电加固，另一个不需要。图 3. 将 datacenter 放在 Baltimore 附近（上图）会使一条输电线路进入过载（≥100%），并将 energy price 从 $24.6/MWh（baseline）提高到 $28.6/MWh（+16.1%）。同样负荷放在 DC 郊区附近（下图）时，所有线路负载都保持在 95% 以下，价格升至 $26.4/MWh（+7.4%）。Baltimore 站点的价格高出 $2.1/MWh——对 500 MW 负荷而言，这相当于约每小时 $9,100，或每年约 $80 million。这一区别在价格数据中很大程度上不可见，却直接来自更直接的 first-principle 输电层级潮流分析。它凸显了为什么在承压电网中，需求选址决策需要具有地理基础、基于物理规律的模型。展望未来这项工作表明，即使无法访问受限基础设施数据，也可以在现实尺度上研究输电层级电网行为。通过将模型建立在真实地理之上，并显式表达不确定性，由开放数据生成的电网可支持那些使用小型 benchmark 或纯 synthetic 网络难以或无法完成的分析。虽然本文示例聚焦美国，但该方法可泛化到拥有类似开放数据的其他地区。更广义地说，我们将这一能力视为一个 enabling layer：一种改进拥塞、可行性和系统压力研究的方法——无论用于规划研究、scenario analysis，还是需要真实电网结构的 data-driven 方法。我们正在发布一个开放的电网模型数据集，覆盖美国 48 个州和六个多州互联区域，规模从包含数十个 bus 的小型系统到大陆尺度网络不等。所有模型均可在 AC-OPF 下求解，并在必要时应用受控 relaxation，以处理开放数据输入中的不确定性。这些模型在 peak 和 off-peak 需求条件下均已求解，从而支持跨一系列运行场景的一致分析。本文是两篇系列文章中的第一篇。在第二篇中，我们将介绍 GridSFM，这是一个基于 learning 的 AC-OPF surrogate，使用这些电网模型训练而成。我们将展示它如何在毫秒级预测完整 AC operating point，如何对可行性进行分类以支持规划尺度的快速筛选，以及如何作为 warm-start seed 加速下游 numerical solvers。GitHub Hugging Face 在新标签页中打开本文《大规模构建真实电力输电网数据集：从开放数据集出发的 pipeline》最初发布于 Microsoft Research。

译自 microsoft-research · 录于二〇二六年五月九日