为GPT-Rosalind引入新能力

Introducing new capabilities to GPT-Rosalind

二〇二六年六月三日 · 英文原文

摘要

OpenAI 为生命科学研究推出GPT‑Rosalind系列模型更新，结合GPT‑5.5的agentic编码与工具使用能力，提升在药物化学、基因组学等领域的性能。新模型在LifeSciBench、MedChemBench、GeneBench和LabWorkBench上表现领先，token效率提升5.3%至31%。同时发布Life Sciences Research与NGS Analysis插件，支持可重复科学工作流。GPT‑Rosalind现通过可信访问部署结构向全球符合条件的组织提供研究预览，诺和诺德为首批合作机构。

我们正在为专为生命科学研究打造的 GPT‑Rosalind 系列推出新的模型更新，该系列面向企业级应用。它结合了 GPT‑5.5 的 agentic 编码和工具使用能力，以及在药物化学和基因组学等核心药物发现领域更强的模型智能，同时提升了在更广泛的生命科学分析、设计和实验工作流中的性能。

生命科学的进步依赖于跨尺度、跨模态的数据与证据整合：分子、基因、通路和生命系统。在我们的评估中，更新后的 GPT‑Rosalind 在生物学专家提出的研究任务、复杂的药物化学查询、定量生物学以及湿实验室故障排查方面均展现出广泛的性能提升。

GPT‑Rosalind 现已通过我们的可信访问部署结构，面向全球符合条件的组织提供研究预览。

提升科学价值任务的性能

为了衡量并持续改进 GPT‑Rosalind 的实际影响力，我们设计了 LifeSciBench，这是一个由外部专家评判的基准测试，聚焦于生命科学研究的基础方面。与现有仅评估模型性能单一组件或孤立生物学领域的基准不同，LifeSciBench 通过从生命科学研究核心的六个工作流领域（证据处理、分析、设计与优化、科学推理、验证与操作、转化与沟通）中提取任务，对具有科学价值的工作进行端到端评估。我们使用该基准来确保模型进步与生命科学研究的实际需求和现实保持一致。

LifeSciBench 总体得分

按科学工作流划分的 LifeSciBench 得分

GPT‑Rosalind 在由行业和学术专家确定的具有科学价值的任务上领先。

从论文、图表、表格和实验记录中提取、核对和审计科学证据。

候选响应

核心结论： 就目前呈现的数据包而言，其证据强度不足以支持将微肌营养不良蛋白表达作为合理可能预测临床获益的替代终点来加速批准。一位持怀疑态度的 FDA 审评员可能会认为生物标志物、功能、持久性、安全性和普适性证据均存在实质性不足。

数据包项目	关键失败模式	需要满足的条件
Western blot 定量	MANEX1A 抗体结合的是内源性全长肌营养不良蛋白和微肌营养不良蛋白转基因共有的 N 端表位，因此该检测无法清晰区分转基因产物与残留/回复突变肌营养不良蛋白。使用健康全长肌营养不良蛋白标准品来定量 138 kDa 的微肌营养不良蛋白也是无效的。	使用重组微肌营养不良蛋白标准品，以及能够区分转基因产物与内源性肌营养不良蛋白的正交方法，例如靶向质谱法或转基因特异性/表位特异性检测。
免疫荧光	C 端多克隆抗体并不适用，因为 138 kDa 的构建体缺少 C 端结构域。许多 DMD 患者存在回复突变纤维，且回复突变肌营养不良蛋白可能保留 C 端表位。回复突变纤维可能随年龄增长而克隆性扩增，从而偏倚 IF 信号，尤其是在年龄较大的男孩中。	使用针对转基因产物中存在但回复突变肌营养不良蛋白中缺失的表位的抗体重复 IF 实验。分别定量转基因阳性纤维和回复突变纤维。
替代终点有效性	该数据包将蛋白量与临床功能混为一谈。“健康对照蛋白质量的 38%”并不意味着 38% 的正常肌营养不良蛋白功能，因为微肌营养不良蛋白在结构上是截短的。	在将微肌营养不良蛋白质量百分比、肌膜定位、下游功能恢复和临床获益之间的关系进行经验性验证之前，不应将其视为替代终点。
活检设计	治疗前后的对侧股外侧肌活检引入了左右侧和肌肉内空间变异性。疾病进展和纤维脂肪替代也可能改变总蛋白归一化后的信号。	使用一致的解剖标志标准化活检部位，归一化至肌肉特异性蛋白，并同时测量纤维脂肪组成。
NSAA 比较/统计	外部自然史队列并非随机同期对照。试验资格、支持性护理、参与效应、基线 NSAA、类固醇方案、年龄和外显子类别均可能使比较产生偏倚。非配对 t 检验是不够的。此外，+1.4 的 NSAA 变化处于该年龄组的重测变异性范围内。	进行随机同期安慰剂对照研究，或至少使用调整基线 NSAA、年龄、类固醇方案、外显子类别及其他混杂因素的校正分析。
年龄窗口混杂	4-7 岁的男孩处于一个发育窗口期，在此阶段，未经治疗的可步行 DMD 患者可能在功能衰退占主导之前获得运动功能。48 周的 NSAA 变化混合了发育增益、疾病进展和可能的治疗效果。	使用随机同期对照并按年龄分层，以区分发育轨迹和治疗效果。
既往临床先例	开放标签的微肌营养不良蛋白功能信号未能可靠预测确证性获益；已发表的先例包括微肌营养不良蛋白基因治疗的确证性试验未能重现开放标签的 NSAA 改善。	不要依赖开放标签的 NSAA 变化作为决定性支持证据。需要对照的功能性证据。
构建体的结构限制	138 kDa 的构建体删除了含有 nNOS 结合位点的血影蛋白重复序列 R16/17。nNOS 招募的缺失会损害运动过程中的功能性交感神经解体和缺血保护，从而在表达水平之外造成功能挽救的机制性上限。	增加机制研究，以证明该特定构建体是否能恢复相关的肌营养不良蛋白相关复合体功能、nNOS 定位、运动生理学和肌肉保护。
AAV 持久性	12 周时的载体基因组并不能证明持久表达。AAV9 基因组主要是非整合的游离体，可能随时间推移而减少。载体基因组的持久性不等同于持续的蛋白表达。	测量超过 12 周的纵向转基因蛋白表达和功能性生物标志物持久性。
免疫/安全性特征	12 名患者中有 8 名出现转氨酶升高，这与对 AAV 转导细胞的免疫反应一致，但机制尚未明确。考虑到 AAV9 的心脏趋向性，一例心肌炎病例令人担忧。	提供更深入的免疫监测、肝脏/心脏安全性表征，并加强心脏随访。
患者选择/普适性	排除抗 AAV9 中和抗体阳性患者限制了普适性。排除外显子 44 缺失限制了该 DMD 亚组的适用性。n=12 的样本量太小，无法表征更广泛 DMD 人群的安全性和有效性。	在可能的情况下放宽入选标准，或在利用该结果支持广泛批准之前，预先指定按抗体状态、基因型/外显子类别、年龄和基线功能进行分层分析。

监管结论： 该数据包可能显示出生物学活性，但尚未证明所测量的微肌营养不良蛋白表达是一个可靠且合理可能预测临床获益的替代终点。主要差距在于检测特异性、无效的定量标准、可能的回复突变纤维混杂、缺乏随机对照、与年龄相关的 NSAA 混杂、不确定的持久性以及未解决的安全性和普适性问题。

为弥补差距，该计划需要采用受控的、年龄分层的临床设计，并使用转基因特异性表达检测、正交蛋白定量、组织组成对照、纵向持久性数据、针对截短构建体的机制性功能检测，以及更强的安全性监测（尤其是肝脏和心脏）。

评分标准与等级

标准	分数
识别微肌营养不良蛋白定量中的检测/测量问题，包括 MANEX1A 表位共享、无效的全长肌营养不良蛋白标准品，以及需要重组或正交的转基因特异性测量。	+24
解释为何微肌营养不良蛋白表达水平本身不能自动成为功能性临床获益的有效替代终点。	+22
指出削弱表达量和 NSAA 解释的活检部位、组织组成和年龄窗口混杂因素。	+19
批评 NSAA 比较/统计方法，尤其是依赖外部自然史对照。	+12
涉及 AAV 持久性、免疫反应、转氨酶升高、心肌炎以及需要更长期的表达/安全性随访。	+15
指出患者选择/普适性差距，包括抗 AAV9 排除、外显子 44 排除和小样本量。	+8

更强的科学推理能力

GPT‑Rosalind 在药物化学领域取得了行业领先的性能，该领域专注于将分子转化为有用的药物。我们设计了 MedChemBench 来反映现实的药物化学工作流，评估多模态化学结构理解；构效关系（SAR）；药物效力、毒性以及吸收、分布、代谢、排泄（ADME）预测；多参数先导化合物优化决策；以及逆合成分析。GPT‑Rosalind 在 MedChemBench 上的表现优于 GPT‑5.5，得分分别为 27.5% 和 25.1%，同时使用的 token 数减少了 7.2%。

GPT‑Rosalind 在药物化学领域展现出更好的多模态合成和机制推理能力。

在 GeneBench（我们对基因组学和定量生物学中长周期、端到端分析的 agentic 评估）上，GPT‑Rosalind 使用的 token 数比 GPT‑5.5 少 31%，同时实现了更高的准确率（21.6% 对 20.4%）。GeneBench 评估 agent 在长周期定量任务上的表现：基于真实的科学数据，agent 能否规划有效的分析、质量控制、建模和修正，以得出与决策相关的答案？所涵盖的问题涉及多个领域，包括功能基因组学、空间转录组学、蛋白质组学、表观基因组学和应用遗传学。

GPT‑Rosalind 使用的 token 数比 GPT‑5.5 少 31%，同时提高了准确率。

我们引入了一项新的评估来测试 GPT‑Rosalind 帮助科学家进行实际实验室工作的能力。LabWorkBench 测试模型将扰动与科学家使用的真实湿实验室方案中的实验结果联系起来的能力，目的涵盖故障排查到优化。LabWorkBench 使用的数据是专有的，因此未被污染。GPT‑Rosalind 的得分为 63.2%，而 GPT‑5.5 为 55.8%，同时使用的 token 数减少了 5.3%。

在真实的湿实验室方案辅助方面，GPT‑Rosalind 相比 GPT‑5.5 有显著提升，同时提高了 token 效率。

从推理到执行工作流

我们构建了 Life Sciences Research⁠（在新窗口中打开）和 Life Sciences NGS Analysis⁠（在新窗口中打开）插件，为 GPT‑Rosalind 增强的智能提供了可重复科学工作流的实用执行层。这些插件共同将来源证据检索、生物学解释和生物信息学执行整合到同一个工作空间中，帮助研究人员在连接外部证据与内部组学分析的同时，保留工件和溯源信息。所有用户现在都可以通过 Codex 访问这两个插件。符合条件的 GPT‑Rosalind 企业用户还可以使用 GPT‑Rosalind 来驱动这些插件。

为了更好地利用 Codex 作为科学家的动态工作台，我们为生物学原生文件类型添加了交互式查看器。初始的序列、比对和结构查看器旨在让科学家在 GPT‑Rosalind 跨工作流进行推理时，能够紧贴证据，并利用活动查看器的上下文直接回答后续问题。

上面的演示展示了这些功能在 GPT‑Rosalind 的编排下如何实际运作。我们跟随一位科学家研究液体肿瘤活检，以识别可能指导治疗的突变和其他分子变化。Life Sciences NGS Analysis 插件将对已处理 ctDNA 记录的审查转化为一个交互式笔记本，揭示反复出现的改变、低频呼叫和样本轨迹，将调查重点聚焦于 KRAS G12C。随后，Life Sciences Research 插件添加了有来源的靶点、抑制剂和耐药性背景信息，而原生的序列、比对和结构查看器则允许科学家直接检查突变残基 12、其在 RAS 家族中的保守性以及抑制剂结合口袋。工作流最后将这些证据转化为具体的后续选项，每一步和每个工件都可供专家审查。

图片 1：电脑屏幕显示一个工作空间，指示使用 NGS Analysis 插件探索 ctDNA 突变数据。屏幕包含几个条形图，标记为“主要详细组织学”和“按突变 cfDNA 样本划分的主要改变基因”，显示癌症类型和基因改变的数据。文本描述了数据集、关键发现和分析参数。

Life Sciences NGS Analysis 插件

scRNA-seq QC 与注释

图片 2：分屏生物信息学工作流截图。左侧面板显示 AI 助手总结已完成的单细胞 RNA 测序（scRNA-seq）质量控制分析，包括生成的文件、QC 指标、UMAP 可视化和细胞类型注释。右侧面板显示一份“scRNA QC Review”报告，包含总计数、检测基因数和线粒体百分比的直方图，以及显示 QC 通过/失败计数和过滤后细胞群的条形图。界面显示在蓝绿渐变背景上。

将 10x 风格的矩阵包转换为经过 QC 过滤的单细胞工件、注释和 UMAP，您可以在 Codex 中检查和修改。Life Sciences NGS Analysis 插件将请求路由到 scrna-seq-qc，从数据中选择 QC 阈值，保留过滤和注释的溯源信息，并提示诸如缺少双细胞检测依赖等阻塞问题。

批量 RNA-seq FASTQ QC

图片 3：RNA-seq 工作流的分屏视图：左侧 AI 助手总结已完成的批量 RNA-seq 质量控制结果，右侧显示交互式 MultiQC 报告，包含测序统计数据和 Salmon 指标。

将批量 RNA-seq 样本表、FASTQ 包和参考文件转换为经过 QC 审查的计数包，您可以在 Codex 中检查和重用。Life Sciences NGS Analysis 插件路由请求、验证输入，并返回一个可审计的运行包，包含 MultiQC、Salmon 矩阵、溯源信息和明确的注意事项。

扩大对可信组织的访问

我们正在扩大 GPT‑Rosalind 系列对全球符合条件的组织的访问。GPT‑Rosalind 将通过我们的可信访问部署结构，以研究预览形式提供给那些进行合法科学研究、具有明确公共利益、拥有强大治理和安全监督、并采用企业级安全控制访问的组织。

作为此次全球扩展的一部分，我们很高兴能够支持诺和诺德（Novo Nordisk）的使命，即通过利用 GPT‑Rosalind 扩展其医学研究规模，更快地为患者带来创新治疗方案。诺和诺德正在利用前沿 AI 能力帮助研究人员分析复杂数据集、发现有用模式并更快地测试假设。GPT‑Rosalind 更强的生物学理解能力将帮助团队连接文献、基因组学、转录组学、序列、结构和实验结果中的证据，从而更轻松地从数据转向更清晰的研究决策。

“生命科学研究是复杂、数据丰富且跨学科的。要为研究人员提供有意义的价值，先进的 AI 模型必须植根于可信的科学数据，连接到经过验证的工具，并集成到研究人员日常使用的真实工作流中。我们对与 OpenAI 的合作以及探索 GPT‑Rosalind 如何支持更严谨、更实用的药物发现方法的机会感到满意。”

Mishal Patel，诺和诺德研发部 AI 与数字创新集团副总裁

我们现在还为没有企业账户的合格组织提供 OpenAI 托管的工作空间。

未来展望

更新后的 GPT‑Rosalind 是我们更广泛承诺的下一步，即构建能够帮助加速科学发现的 AI 系统，同时确保先进的生物学能力在适当的保障措施下部署。我们将继续改进模型的生物学推理能力，扩展对工具密集型及长周期研究工作流的支持，并与全球各地的合格组织合作评估实际影响力。

这也意味着将生命科学 AI 应用于高影响力的公益工作，从药物发现和转化医学到公共卫生、防范和生物防御。通过 Rosalind Biodefense 和我们的可信访问部署模式，我们旨在将前沿生物学能力交到致力于改善人类健康和增强社会韧性的研究人员、机构和防御者手中。

我们将继续构建 GPT‑Rosalind，使其成为贯穿科学研究全生命周期的更有能力的合作伙伴，帮助科学家更快地从正确的问题走向更清晰的证据、更好的实验，并最终为患者带来新的治疗方法。

译自 OpenAI · 官方博客 · 录于二〇二六年六月三日