🔬ESMFold2:苦味教训正降临蛋白质领域 - Alex Rives, BioHub
🔬ESMFold2: The Bitter Lesson is Coming for Proteins - Alex Rives, BioHub
ESMC(Evolutionary Scale Modeling Cambrian)团队发布了第四代蛋白质语言模型,包含3亿、6亿和60亿参数三个版本,以MIT许可证完全开源。该模型在68亿条非冗余蛋白质序列上训练,为其中11亿条解析了预测结构,并利用稀疏自编码器从表征空间中提取出层次化特征,对应生化属性、结构基序和功能主题。基于该模型,团队构建了下一代ESMFold结构预测模型,并实现了抗体(scFvs)和蛋白质结合物的设计。
所以ESMC也在探索可编程生物学,但我要说它的方式非常不同。它从一种世界建模的角度切入,核心理念是:你有一个预测模型,然后在这个世界模型中进行搜索,找到满足你设计标准的蛋白质分子。我们已经能够利用这一点来设计许多蛋白质结合物。而最令人兴奋的是,我们甚至用它来设计抗体,也就是scFvs(单链可变区片段)。
你好,欢迎收听Latent Space AI for Science播客。我是MiraOmics的CTO,RJ Haneke。
对,我是Brandon。今天很高兴邀请到Biohub的科学负责人Alex Reeves。你能快速介绍一下自己吗?
当然,谢谢邀请。很高兴来到这里。我是Biohub的科学负责人,是一名计算机科学家,研究方向是AI在生物学中的应用,我的很多工作都集中在生物学的语言模型上。
等这期播客发布时,你应该已经推出了几个新的、令人兴奋且有趣的模型。回顾这些模型,我不禁觉得,你现在可能是蛋白质生物学领域最信奉"苦涩教训"的人。你能解释一下这对生物学意味着什么,以及你为什么如此坚定并热衷于这条路线吗?
我接受这个说法。我相信缩放定律。我从2018年夏天就开始研究这个了。当时我在MetaPhare的团队训练了第一个用于蛋白质生物学的Transformer语言模型。我一直认为,当你训练一个模型去预测进化创造的下一个token时,生物信息会涌现出来。我们的团队多年来一直在探索这个想法,我们确实看到了缩放曲线——随着每一代模型规模提升一个数量级,新的能力就会涌现。
是的。你提到能力涌现和跨代缩放。你从事这个研究,按你说的,大概有8年了。但这条路并非一开始就顺畅,对吧?当时只有一些迹象表明缩放可能有效。我们接下来会谈到一些新结果,我认为你确实清晰地证明了这一假设,而且是以一种前所未有的方式。但你对这条路的坚定承诺,让我觉得如果是我,可能不会那么确信它会以同样的方式奏效。毕竟,蛋白质语言和自然语言不是一回事。它们有相似之处,但如果你以一个正常语言Transformer的温度去采样,你会得到一堆胡言乱语;而如果你以无限温度采样一个蛋白质语言模型,你会得到一个有效的蛋白质,尽管可能没什么意思。尽管这是出于不同原因的不同领域,我不确定自己会先验地认为自然语言模型的见解能直接迁移过来。那么,你认为蛋白质有什么特别或独特之处,使得这种方法同样有效?
这是个非常有趣的问题。我认为这也是当前AI领域一个更广泛的深层问题。AI现在是一门非常实证的科学,我们没有理论总能指导这些事,但我们有非常强的实证证据支持缩放。我受到启发的点是:如果你想想进化,再看看我们拥有的蛋白质数据——我们有包含数十亿条蛋白质序列的数据库。这些序列中蕴含着模式,这一点早就为人所知。这可以追溯到几十年前,在我们用语言模型研究之前,人们就知道蛋白质家族序列中存在模式,这是因为进化在约束下运作。你可以想象一条蛋白质序列折叠成三维空间结构,序列中有两个残基或氨基酸在折叠结构中可能相互接触。进化不能自由地独立选择它们;如果在一个位置做了选择,就必须在另一个位置做出兼容的选择。所以,从基因测序一开始,当人们能够观察不同相关生物体中同一蛋白质时,就能看到这些反映基本生物学的模式。ESM背后的想法是:如果我们把这个原则应用到所有进化中,应用到所有生命产生的蛋白质的巨大多样性上,然后让一个语言模型去预测进化会在所有这些生物背景下选择哪些氨基酸来构成蛋白质,会怎么样?你可以想象,整个图景中蕴含着关于蛋白质基础生物学的海量信息。这就是激发这个想法的核心:当模型需要预测下一个token时——实际上我们用掩码语言建模来训练这些模型,所以它们预测的是序列中被掩码的token——它必须学习那些约束进化选择哪些token的底层规则。
是的。那我们来回顾一下历史。你刚刚发布了Evolutionary Scale Modeling Cambrian,对吧?这是系列模型中的第四或第五个?可能更早的模型还不叫ESM,但ESM这个名字是从一开始就用的。
对,ESM这个名字从一开始就有了。我们有过不同分支的模型。
是的。
这个模型可以说是第四代模型。实际上,我们是在一年多前训练的它,现在到了 BioHub,我们首次以 MIT 许可证完全开源这个模型。对此我们非常兴奋。但这里真正的新突破是,我们构建了一个蛋白质生物学的世界模型。它的基础是 ESMC,但利用 ESMC 的表征,我们又构建了一个结构预测模型,也就是下一代 ESMFold 模型。此外,我们还运用了机械可解释性和稀疏编码技术,深入探索语言模型的表征空间,提取出模型实际用于表示蛋白质生物学的底层特征。综合所有这些,我们能够对蛋白质结构做出预测,对构成蛋白质的底层特征进行预测,从而建立跨进化关系的联系。我们还能反转这个模型来设计蛋白质。我们利用这些手段,构建了一个全面的蛋白质生物学图景。我们整合了全球最大的蛋白质序列数据库,总计包含 68 亿条非冗余蛋白质。其中,我们为 11 亿条蛋白质解析了预测结构,并为所有这些蛋白质计算了特征,从而能够在整个进化和蛋白质生物学范围内建立联系。
68 亿条中,你解析了 12 亿的结构?
11 亿。
11 亿。
对。
那其他的呢?
我们实际上是将那个数据库按 70% 的序列相似度进行了聚类。所以从某种意义上说,我们为所有蛋白质都解析了结构:对于每个聚类,我们有一个聚类中心,并预测其结构。然后可以预期,其他蛋白质会有类似的模板结构。
明白了。
会有微小变化,但折叠方式相同。所以大约有 12 亿个聚类覆盖了这 68 亿条蛋白质。
好的,有意思。既然我们在讨论规模,你怎么知道这个数字是合适的?比如,你怎么知道聚焦于这 11 亿条,并且这个分辨率对这个模型来说是合适的?
我们选择它们是为了真正覆盖整个空间。关于这个数据库,我可以说的是,它确实是迄今为止最全面的蛋白质结构和功能图景。它为我们对蛋白质结构多样性的认知增加了数亿个结构。同时,它还创建了一个特征空间,让我们能够找到蛋白质在进化中的联系。你可以看到进化中涌现出非常有趣的主题,例如,将基因编辑系统联系起来——它们在序列上相距甚远,但共享某些底层功能模式和结构同源性,模型能够将这些联系起来并找到那些连接。
现在我们谈到机械可解释性部分。如果我没理解错,你们使用了稀疏自编码器和其他技术来理解:当我用蛋白质激活网络时,看到的输出模式是什么,它们之间如何关联?我的理解是,你们有一些序列在序列层面不相关或仅部分相关,但在行为上相似,因此激活了相似的网络。这是你刚才说的总结吗?
是的。基本上,我们在 ESMC 模型家族的所有不同层上训练了稀疏自编码器。这个家族实际上有三个模型:一个 3 亿参数模型、一个 6 亿参数模型和一个 60 亿参数模型。然后我们对那个 60 亿参数模型(目前最先进的蛋白质语言模型)的特征空间进行了非常深入的分析。我们发现,非常有趣的是,出现了一种特征的层次结构。真正令人惊叹的是,它几乎对应了生物学中经过数十年、一个世纪的实验发展出的简化图景。但酷的是,这一切是在没有任何先验知识的情况下涌现的,完全由语言模型学习而来。SAE 的有趣之处在于,它们只是揭示了表征空间的内在结构。这个模型是在蛋白质序列上训练的,仅仅是为了预测进化会选择哪些氨基酸。然后,不知何故,这导致了这种高度有序的特征空间的涌现,它具有层次结构:从基本的生化属性和蛋白质的基本结构构件,到非常大的功能主题,再到与人类对蛋白质功能的理解相关的抽象概念。
你有没有一个假设或感觉,为什么——如果序列本身之间存在关系,即使它们以不同方式被移位、切割和重组,我也可以想象这能行得通,因为蛋白质本身也是层次化的。也许层次结构会移动,但序列相同。但功能单元,我猜它们有相关的结构。这里的假设是什么?
这个问题确实很有意思,对吧?我想我可以试着推测一下,但我觉得我们还没有完全理解这一点。让我举个具体的例子。你知道,亲核肘(nucleophilic elbow)是一种核心的功能基序,人们一直认为它可能在进化过程中独立出现,在不同蛋白质家族的不同时期。但它有一个非常清晰的结构基序,你可以在晶体结构中看到。我们基本上发现,模型对这个亲核肘有一个单一的特征,并且它在这些进化上非常多样化的家族中被激活——这些家族的结构拓扑完全不同,蛋白质可能完全是独立进化的。但模型就是用这一个特征来表示它。那么它为什么要这么做呢?我觉得这是个很有趣的问题。一个可能的答案是压缩的概念——模型需要发展出一些潜在的隐变量来帮助解决序列预测任务,因为亲核肘的有趣之处在于,任何一个氨基酸的选择都与其他所有氨基酸的选择完全纠缠在一起。所以,预测蛋白质中氨基酸应该放在哪里是一个非常复杂的任务。但要真正做好这件事,模型必须开始拥有这些代表生物学的隐变量,让它能够观察一个蛋白质并判断:在不同上下文中,哪些氨基酸应该出现在那里?这就是我的直觉。我会把它类比于语言建模。我深受一篇论文的影响,是 Zelig Harris 在 1954 年写的《分布结构》(Distributional Structure)。这篇论文也影响了许多语言建模领域的人。它聚焦于语言,并明确阐述了这样一个观点:一个词出现的上下文集合是由这个词的意义决定的。Zelig Harris 设想的是,当你观察词在不同上下文集合中的统计模式时,你就能推导出语言的意义。你会得到一种统计结构,它反映了语言背后的意义。至少对我来说,这是解释为什么在互联网文本上训练的语言模型能学到关于意义的东西——它能学到更深层、更根本的东西——的最有说服力的理由之一。所以,我认为在生物学中也可以这样思考:一个氨基酸能够出现的上下文,实际上是由蛋白质的结构、功能、生物学角色等非常复杂的现象决定的——包括蛋白质内在的生物学特性,以及它与其他所有蛋白质的关系、功能和进化。但这些正是决定上下文集合的因素。因此,你可以想象,氨基酸使用中的那些统计模式直接反映了这些潜在的隐变量。所以模型会学到关于这些隐变量的东西。
我完全认同这一点。我觉得这听起来很合理。实际上,我确实相信这个方向,但我有很多种思考方式,让我觉得它可能行不通。其中之一是数据可用性,对吧?我们通常有什么类型的数据?我们通常得到什么类型的序列数据?我认为 ESMC 相比之前的模型有一些新的数据来源,这可能会有帮助。但很多时候,我们可用的序列类型对医学、人类生物学或疾病生物学的某些特定需求有很强的偏向性。所以,如果你只是拿一个简单的数据集,不一定能得到有趣的缩放规律。我很好奇 ESMC 的突破具体是什么。也许我们可以回顾一下,谈谈 ESMC 之前的一些 ESM 前辈模型,它们的优势,以及 ESMC 克服的一些局限性,还有其中的发展过程。
是的。我承认,我深受"苦涩教训"的影响,我是缩放定律的信徒。我确实认为,增加数据和参数,并进行压缩,就会带来更强大的模型。但你也说得完全正确,数据的底层结构和分布确实非常关键。有些数据集在学习这些通用原理方面会比其他的更有价值。但我想说,这与很多关于数据收集的生物学直觉是相悖的。因为通常你在考虑需要什么数据时,是为了回答一个非常具体的科学假设,你需要一个控制得很好的实验,需要多个重复。这是一种非常聚焦的方式。所以,我认为思维方式的转变在于:如果你想学习蛋白质的通用表示,你真正想要的是让氨基酸在尽可能多的进化上下文中出现。这就是你想要的,也是我对数据的理解。我认为 ESM-2(上一代模型)和 ESM-C(新一代模型)之间的变化在于——它们规模大致相同,计算量相同,参数规模也相同。是的,ESM-2 用了很多计算资源,但 ESM-C 用了更多。不过关键不仅仅是计算量,数据才是真正重要的。当我们训练 ESM-2 时,我们观察到两件事。第一,随着参数和计算量的增加,我们看到了改进。我们有一个十亿参数规模的模型,还有一个百亿参数规模的模型,更大的模型比小的更好。但如果你画一个参数规模与能力的对数图——能力指的是表示保真度,即模型捕捉蛋白质结构的能力——你会发现 ESM-2 的收益在递减。ESM-2 是在 UniRef 上训练的,而 ESM-C 则加入了宏基因组数据。我们在训练数据中增加了数十亿条序列。
你能解释一下 UniRef 和宏基因组是什么意思吗?
是的。UniRef可以说是序列生物学领域的黄金标准数据集。它从各种不同的测序资源中获取序列,然后进行聚类,以消除你提到的冗余问题。这样就形成了蛋白质生物学的一个权威覆盖。与经典基因测序并行发展的是宏基因组测序的概念——人们前往各种不同的生物群落和环境,从世界各地收集样本,对自然界存在的多样性进行测序。比如来自热液喷口的蛋白质,来自南极附近寒冷环境的蛋白质,或者深海、土壤、人类肠道等不同环境中的蛋白质。
这是一种非常不同的数据收集方式。你不是在试图理解某个特定生物体的特定基因组或特定蛋白质,而是收集一大堆样本,混在一起,提取出序列。你完全不知道这些序列来自什么生物体,甚至不一定知道某个序列是不是蛋白质,但你可以根据某些上下文进行推测。然后你说,好吧,我们把它们放在一起,这些很可能是我们找到的蛋白质序列。我们不把它们归到某个生物体,也不赋予它们更大的上下文背景。我们只是说,这大概是个蛋白质,用它来训练模型。
没错。而且你甚至得不到完整的基因组,只能得到一些片段,这些片段往往是不完整的,甚至包含部分蛋白质。所以数据噪声很大。
我还有一个比较技术性的小问题:如果我没理解错的话,你们实际上并不是用设备直接测序蛋白质,而是测序那些会制造蛋白质的DNA。也就是说,你们找到DNA,然后寻找指示蛋白质序列起始和结束的标记。是这样吗?
对,完全正确。基本上就是测序基因序列,然后从这些序列中翻译出蛋白质。
所以你们是在挖掘下水道——不是说你,是说这个领域。可能已经有成千上万种——
纽约市地铁。
对。
各种地方都有。
是的。那么我自然想到的问题是:你们构建了这个模型,并且认为已经去重了,得到了一个具有良好代表性且冗余度低的数据集。那么还有多少蛋白质有待发现?如果我们有数量级更多的资源,你认为是否还有数量级更多的蛋白质等待发现?
我认为是的。我不完全确定,但蛋白质数量非常庞大,我觉得我们对地球生物多样性的测量还只是触及了皮毛。有一些核心蛋白质在所有生命形式中都是保守的,这点我们大概已经知道了。但当你进入这些不同的环境时,进化会不断创造出新的基因和新的蛋白质。
据我理解,其中很大一部分是病毒、细菌和其他微生物。这些微生物之间存在着长期的相互对抗,导致它们以有助于在极端或特定环境中生存的方式重组DNA。正是这种机制造成了蛋白质的惊人多样性。
没错。40亿年来,生命在地球上所有不同的生态位中并行进行着实验,我们看到的正是所有这些实验的结果。
所以从组合效应来看——这就是为什么你相信,虽然从宏观角度看多样性可能没那么丰富,但在微观尺度上,由于这种惊人的组合效应,多样性会极其庞大。
我认为那里的多样性确实非常巨大。回到刚才的话题——抱歉,不,这很好。我觉得我们也可以讨论数据和构建细胞模型,从分子层面上升到更高的生物复杂性层面,但先完成对ESMC的描述吧。最大的变化就是加入了这些宏基因组序列。然后我们发现,规模效应不再递减。也就是说,ESM2受限于数据而非算力。对于ESMC,我们可以绘制出一条非常漂亮的缩放定律曲线:训练小规模模型,观察它们在给定计算预算下能达到的最佳表征保真度,然后画出一条外推线,这条线能很好地预测更大规模模型在表征保真度上的表现。这种缩放关系非常优美。当然,我们对SMC也做了一些改进,使其训练效率更高。但我觉得,数据才是真正驱动这一切的关键因素。
所以它本质上仍然是一个标准的普通Transformer,加上一些小技巧。到了这个阶段,每个人都会有一些小技巧。对,就是一个好的语言模型,加上大量数据。
这与AlphaFold形成了鲜明对比,对吧?AlphaFold在模型中内置了大量归纳偏置,以便能够预测蛋白质结构。
没错。这里的思路是,我们能否直接学习正确的结构?不提供任何先验知识,让机器学习自己去发现结构是什么。
那么你在ESM3中也尝试过先验知识,对吧?或者说不是先验知识,而是利用更多直觉或人工设计。你认为ESM3是一次弯路吗?你是不是最终发现,把C做大一点就突然奏效了,然后意识到其实不再需要先验知识了?这是关键洞察吗?还是说你觉得先验知识仍有空间?
我认为两者都需要。它们各有各的用武之地。ESM3的目标是让生物学变得可编程。我们在思考,编程语言是什么?如何让生物学家能够通过提示词来设计结构、设计功能等等。所以我们认为它需要正确的轨道。但我要说,ESM3与ESM的哲学非常一致,因为我们所做的就是为大量进化多样的蛋白质预测结构,并将其作为训练数据。模型现在只是从序列模式、结构模式和功能模式中学习。但我想,同样的综合方法——模型在序列上学习——你可以想象,引入更多维度的信息会构建出更好的表征空间。
如果你是一名程序员,或者你在构建语言模型和编码智能体,你会先从全量预训练开始,然后通过某种后训练(很可能是强化学习)来完成编程部分。你有没有考虑过对ESMC进行后训练,让它也具备类似的可编程能力?你觉得能否在不引入所有归纳偏置(比如结构图谱之类的东西,本质上只是某种有趣的蒸馏)的情况下获得可编程性?不过我想,这在某种意义上可能已经是另一种模型的后训练了。是的,是的。
我觉得这是个非常有趣的问题,即这些模型在多大程度上可以相互转换?我认为这一点还没有被完全理解,但这是一个非常有前景的方向,值得思考如何去做,以及什么才是正确的方法。ESMC也在探索可编程生物学,但方式截然不同。它从一种世界模型的角度出发,基本思路是:你有一个预测模型,然后在这个世界模型中进行搜索,找到满足你设计标准的蛋白质分子。我们已经利用这一点设计了许多蛋白质结合物。但最令人兴奋的是,我们实际上已经用它来设计抗体和单链抗体(SCFVs),而且在少量试验中看到了非常令人鼓舞的成功率。
是的。你能解释一下这些SCFV是什么吗?
SCFV基本上是一种单链抗体。它是一种治疗性分子形式,通常抗体有重链和轻链,一对重链和轻链与另一对重链和轻链结合来识别靶点。治疗中使用的这类分子形式有多种变体。SCFV的有趣之处在于它只有一条重链和一条轻链,因此能够形成非常复杂的结合界面,两个不同的亚基可以协同作用来结合靶点。这是一种重要的治疗形式。大约四分之一的新药是抗体,所以这确实是医学中关键的形式之一。我们能够看到的是,通过搜索ESMC,你可以找到亲和力达到治疗功能和活性所需水平的抗体。
蛋白质设计领域在过去五年里爆发式增长。每个人都在做蛋白质设计,很多人都对此充满热情。我对这个领域的高层理解是,像微型结合物这样的东西已经相当可行了,人们已经常规地、成功地做到了。但到了纳米抗体和SCFV这个级别,设计起来就稍微困难一些。而抗体往往仍然难以触及。一个常见的原因是,如果你采用AlphaFold范式,你就没有多序列比对(MSA),对吧?抗体的进化压力在很多方面与其他蛋白质相反——它们追求多样性,而不是沿着一条非常受限的路径进化。所以我很好奇,你们尝试过更大的结构吗?在这方面有成功吗?还是说,出于某种原因,这仍然很难做到?
实际上,你可以把SCFV重新格式化为抗体。所以我认为这是最快的方法。我们还没有尝试过完整的IgG。我看不出有什么理由行不通。实际上,我们还没有做的一件事是——我们现在发布这个模型,是因为我们觉得它已经达到了一个显著超越过去可能性的水平。我们想把它公之于众。但我认为还有很多进步空间。我们有很多合作项目,正在探索其他应用。关键在于,这是一个通用模型。对我来说,最令人兴奋的是它是一个用于蛋白质序列、结构和功能的通用模型。你可以搜索它,而治疗性设计基本上就从这种搜索中涌现出来。
对我来说,你提到你没有使用多序列比对(MSA),而这是AlphaFold成功的关键洞察之一。你不需要它就能让模型表现得和AlphaFold 3一样好,这非常令人兴奋。因为这意味着你的假设——尽可能覆盖可能的蛋白质空间,然后观察涌现行为——是正确的。如果我们能够通过这种方式复现多序列比对的效果,那么还有哪些我们没有数据、但也能以涌现方式做到的事情呢?
实际上,我要说我们在抗体上的表现要好得多。我认为这是非常酷的一点。这也是我们的一个假设:抗体可能不会像预测分子结构拓扑那样从进化信息中受益。所以你现在可以看到,表示空间中包含了一些关于抗体的非常有趣的东西。
我想谈谈你提到的另一个非常有趣的点,就是虚拟细胞以及它如何与这项工作交互。我特别想知道,你在机制可解释性方面发现了其他东西吗?有没有一些不仅仅是验证生物学、而是出乎意料的模式?你找到过类似的东西吗?
这很复杂。因为我们现在必须实际去验证其中一些东西,对吧?我认为我们看到了一些有趣的关联。比如,我们可以观察到,那些在进化上关系较远的基因编辑系统在这个空间中聚集在一起,其方式与我们对这些基因编辑系统起源的了解一致,也反映了这些知识。这确实令人兴奋。但问题是,这张图谱中有许多蛋白质以不同的方式被组合在一起,而我们目前根本不知道它们是什么,也不知道它们的功能。一种假设是,这些可能是新型的基因编辑系统。我认为在这张图谱中,会有一些非常有趣的科学发现基础。如果你想想人们是如何寻找新的基因编辑系统的,他们通常是在大型基因序列数据库中进行挖掘,寻找与之相关的不同序列模式或结构模式。实际上,ESM Atlas 的第一个版本就被张锋的团队用来发现了一个新的基因编辑系统。所以我认为,生物学中还有很多我们不了解的东西等待被发现,而能够将蛋白质之间的点连接起来,让我们从已知的知识出发,对未知做出推断,这正是我感到兴奋的地方。而且,大自然可能已经为许多应用发明了蛋白质。想想耐热聚合酶,它使 PCR 成为可能,而这种酶来自生活在热温泉中的细菌。也许气候变化的解决方案就藏在蛋白质生物学的某个角落。可能存在着构建完全绿色化学基础设施所需的各种基础模块,也可能有新的药物和疗法。但问题在于,如何找到它们?所以我认为,能够连接这些点,确实是开启蛋白质生物学发现空间的一种方式。
我很好奇,ESMC 的进步之一是多聚体(multimer)的改进。也就是蛋白质-蛋白质相互作用,比如预测两个蛋白质相互作用方式的结构预测能力。我认为你们现在声称比任何人都做得好,对吗?我理解错了吗?
是的,我的意思是,对于开放模型,我们达到了最先进的水平。
好的。有一件事,我知道有些人会觉得对虚拟细胞非常有用,那就是对人类转录组中每一对蛋白质进行完整映射。你有没有考虑过,作为虚拟细胞的起点,比如创建这样一个映射?
我认为类似的东西会非常有价值。而且速度很快。ESMFold2 的另一个特点是它是一个非常快速的模型,因为它不需要多序列比对。所以你可以直接从序列进行推理,只需几秒钟就能得到原子分辨率的预测。是的,我认为这在 BioHub 是一个非常有前景的应用。我们还在考虑的另一件事是,我们能否通过实验实际解析这一点?因此,我们正在构建的一项技术是冷冻电子断层扫描(cryo-electron tomography),我们正在构建能够大幅提高在原子水平观察细胞时对比度的系统。所以我希望在未来某个时候能看到一个通过实验结构解析的相互作用组。我认为这需要克服一些相当大的技术障碍,并开发相应的技术,但这是有可能实现的。我们可以先用计算方法来获得它的近似版本,我认为这将会非常强大。但我认为结构预测的未来很大程度上会转向结构测定,真正把我们用于蛋白质建模的工具与实验数据结合起来,这样我们就能开始构建一幅由经验生物学和可观测现象所支撑的图景。
那么,如果我没理解错的话,愿景是这样的:你有一个实验室在环(lab-in-the-loop)的系统,有一个智能体(agent)与你的 C7 或其他模型对话,然后它预测你感兴趣的属性。它测序基因组,或者说创建基因组,从基因组中生成蛋白质,然后用某种版本的显微镜观察它。你刚才说的显微镜叫什么来着?
冷冻电子断层扫描。
好的。然后你进行实验或观察,并以此作为实验室在环的反馈:哦,它这样折叠,所以我想检查的下一个目标其实是另一个不同的蛋白质,并使用主动学习系统。这是你在这里阐述的愿景吗?
嗯,我认为它们将成为生物学下一个时代的几个基本原则。我觉得,现在确实是一个非常有趣的时期,因为我们正处在一个新科学范式的开端,真的只是刚刚开始。那么,这个范式的核心是什么?我认为有几个原则。第一是大规模数据生成,这将是至关重要的。第二个原则是计算性的、可预测的生物学数字表征。我们可以讨论一下,比如ESM可以被视为第一代,AlphaFold也是这类方法的第一代。这样我们就能开始思考,随着我们能够以这种方式建模越来越复杂的生物学,这会是怎样的景象。然后还有反馈原则,以及我们现在拥有的可扩展智能,它可以应用于生物学问题的每一个单元。如果所有这些结合在一起,会意味着什么?我认为我们将拥有越来越强大和准确的分子、基因组、细胞,最终是生理学的数字表征。这就是我们想要达到的目标。我们需要沿着复杂性阶梯向上攀登,跨越生物复杂性的各个层级,这需要突破数据屏障。我认为,要达到那种预测保真度,目前还不存在的数据需要被生成出来。然后我们将拥有推理能力。这意味着我们可以并行地、数字化地推理成千上万、数百万、甚至数亿个科学假设,使用能够实际预测实验结果的预测性预言机。因此,我们提问的规模和问题的类型将因此发生根本性改变。反馈将是关键。模型需要——这有一个扩展维度,即构建数据以获得那些准确的表征;还有一个反馈维度,模型可以从生物学中学习,进行数字化推理,将其缩减为少量实验假设,检查每个实验的结果,更新它们的理解,并以此方式构建知识。所以我认为这就是未来的样子。我们需要构建每一个组成部分。BioHub真正想做的,是将实验和技术层结合起来,让这些AI模型能够与生物学互动并进行实验。我认为这就像阿姆达尔定律。我们看到,在能够通过计算获得反馈的领域,比如封闭领域,取得了惊人的进步。但当然,实验生物学是完全开放的。因此,那里的反馈原则将非常不同。但会有类似RLVR的东西,通过实验,我们可以让模型真正构建知识、从知识中学习,并能够开发出越来越准确的表征。
你是BioHub的科学负责人。对于那些不知道的人来说,Latent Space的科学板块基本上是在大约6个月前,马克·扎克伯格和普莉希拉·陈做客本播客之后,或者说作为回应而推出的。非常高兴你能来,这有种回到起点的感觉。马克为BioHub想要实现的目标描绘了一个相当宏大的愿景。我认为你刚刚非常自然地延续了这一点。我记得你当时刚加入,好像才两周。
我是在10月底加入的,11月初正式启动。是的,没错。
嗯,我很好奇的一点是,在你看来,BioHub现在处于什么阶段?你想实现什么?对于没有看过马克和普莉希拉那期节目的听众来说,你的总体目标是什么?我们当然推荐他们去看,链接在描述里。而且,即使你才来了短短6个月,有没有学到什么?愿景有没有演变?你认为它会走向何方?ESMC如何融入其中?你最近宣布的虚拟生物学计划又如何融入?我觉得你还在做其他几件事,我们还没触及到。
是的,我每天都在学习新东西。但我的想法是,我们正在为这个新范式建立一个科学机构。要做到这一点,这个机构将由前沿实验生物学驱动,由前沿测量和观测技术驱动,并由前沿人工智能驱动。
而且这一切都是开源的,对吧?
这是一个慈善项目。我们的目标是加速科学进步,使命是治愈或预防疾病。为此,我们相信当前对生物学的理解存在根本性缺口,必须加速科学来跨越这个鸿沟。因此,我们致力于理解生物学的每一个层面——从最基础的层次,比如细胞中蛋白质的原子结构,一直到生理学和疾病中的细胞系统。我们思考如何创建能够捕捉这种复杂性、并让我们理解这种复杂性的模型。我认为,如果思考疾病治愈是什么样子,它不会是一颗药丸,也不是传统意义上的药物。它必须是一个能够建模和理解疾病潜在生理机制的系统,并且要针对每一个人类个体、每一个不同的基因组进行差异化处理。它还必须能够将分子尺度的事件与疾病在生理层面的表现联系起来。所以,这是一个极其复杂、极其困难的问题。对我们来说,我们正试图逐层攻克这些复杂性,构建科学家可以用来回答这些根本性问题的基础工具。因此,我们正在创建原子级成像技术,开发光片显微镜来观察发育生物体中所有细胞如何移动和演化。我们正在创建炎症的时空解析图谱,进行细胞编程和免疫细胞重编程,以便设计完全可编程的疗法。同时,我们在每个层面创建数字表征,从而加速科学、模拟发生的过程,让生物物质、蛋白质、细胞和基因组变得可编程。我认为所有这些都必须整合在一起。如果能够聚焦目标,将生物学和计算层紧密集成地构建,那将是我们取得最快进展的方式。过去十年,我们一直是开放科学的主要倡导者之一。我们是一个既资助研究又亲自建设的组织。在资助方面,我们始终支持开放科学;在建设方面,我们也一直践行开放科学。这一点会继续下去,这是根本性的。我们不是药物开发公司,不试图生成疗法。我们试图构建推动科学进步的技术。
所以我认为Mark有过这样的概念:如果你提供合适的工具,整个科学界都能利用它们。显然,你坚信蛋白质语言建模是一种工具。那么,在提升我们应对人类疾病能力的普遍进步中,下一个最重要的工具是什么?
是的。我认为我们必须应对的下一个复杂性层面是细胞的复杂性。我的意思是,这将极其困难。有数十亿种蛋白质。
很高兴你说是极其困难。如果你过来说这很容易,那我们就会——
嗯,我认为这是一个值得挑战的问题。但确实,它需要今天还不存在的技术,需要新的建模方法,可能还需要尚未出现的架构、想法和机器学习方法。所以,我认为有深刻而根本的问题需要解决。但同样,要一步一步来。我们从分子层面开始,我们知道那确实是基础,然后可以将其与可观测的现象和细胞生物学联系起来。
我很好奇,因为这个问题困扰我很久了:我们有虚拟细胞模型,有分子尺度模型,我也看到过一些试图将它们联系起来的论文。但你们在做什么?听起来这已经成为你们的首要关注点。
让我们用蛋白质生物学来做个类比。我认为我们的蛋白质数字表征之所以强大且有用,是因为它们具有泛化能力。它们能够对训练数据中完全不同的蛋白质做出预测,能够泛化,从而设计出全新的折叠方式、新的结合界面、新的结构。所以,这涉及到我们所说的泛化性或通用性。简而言之,它们能预测尚未进行的实验的结果,即它们没有训练过的实验。因此,数字表征要有价值,就必须能用来回答新问题。我认为这是关键。我们目前还没有达到细胞层面的这种能力。我认为当前一代被称为虚拟细胞的模型,只是对底层数据的良好表征。但它们预测在未观察到的情境中进行新干预时会发生什么的能力非常有限。而要回答细胞生物学中的根本科学问题,我们需要一个能做到这一点的模型。所以,我们的思考就从这一点开始:要达到那个目标需要什么?
回到蛋白质-蛋白质相互作用,人类相互作用组——如果你有那个,只是预测静态结构。静态结构在某种程度上不足以理解很多生物学。对大多数人来说,动力学可能是更有用的工具。你可以从静态开始,它能给你一些洞见,但很少是完整的答案。所以,你有一个能够预测许多不同蛋白质的模型。我们可能已经解析了PDB中的大部分,有些还没有。既然动力学相互作用更重要,你如何弥合这个差距?因为在我看来,这似乎是从微观模型走向更接近虚拟细胞的关键步骤之一。你实际上必须能够建模局部相互作用——局部的蛋白质、RNA、DNA、脂质或细胞中漂浮的其他物质。这是你们试图弥合的目标吗?或者我理解错了?你们有没有其他设想的方式来连接这两者?
我的意思是,总有一天或许能造出一台计算机,从第一性原理模拟细胞,但我们离那一步还很远,对吧?我认为这远远超出了当前计算技术的能力范围。就连模拟单个蛋白质分子折叠的物理过程,我们基本上也只能做到快速折叠的少数几个蛋白质。仅此而已。是的。所以生物学存在这种双重互补的视角。一种视角是第一性原理的还原论,即所有生物学现象都可以用更基础的物理、化学、生化术语来解释。我认为历史上有一条很长的研究路线,一直试图以这种方式理解和模拟生物现象。而且,历史上该领域曾相信,蛋白质折叠问题或蛋白质结构预测问题的解决方案会来自这种第一性原理模拟。结果它却出人意料地通过模式识别或这种机器学习方法得以解决。所以我认为,历史上通过信息论、通过信息来理解生物学是富有成效的。你可以把细胞看作一台计算机、一个信息处理机器,用信息术语来思考。有一些非常基本的原则,将基因组中编码的信息与转录的基因、最终产生的细胞表型联系起来。因此,如果我们能在底层程序层面建模和理解细胞,那我认为就给出了正确的抽象层次。我说的正确抽象是什么意思?我的意思是,今天可能实现的抽象,因为我们正处于大规模信息论的时代。克劳德·香农曾提出理想的下一个字符预测器的概念。他写过一篇非常精彩的论文,试图计算英语语言的熵,想象一下,给定无限上下文,下一个字符的熵是多少。在当时,这几乎是无法想象的——需要极大的想象力才能构想出那个理想预测器。但今天,我们越来越接近能够构建它,而且我们可以对文本做到这一点。那么,生物学的理想预测器会是什么?这就是ESM的理念。它会学习所有生物现象的底层结构。所以,如果你从细胞的角度来思考,如果我们能收集足够多的细胞生物学输出,揭示其底层程序、模式和结构,那么我们就能创建细胞的信息论描述。我认为这足以理解疾病。
这让我想起目前信号通路研究中的很多工作,对吧?比如,蛋白质在一系列不同的蛋白质-蛋白质相互作用中,最终以某种方式导致细胞表型变化。你如何将其转化为可以规模化处理的东西?或者也许是别的什么,但比如,你如何——
是的,回到那个苦涩的教训。
对,我们回到苦涩的教训。我们需要数据。我认为,为什么蛋白质生物学能取得这些进展?这是因为几十年的积累。对于蛋白质结构,是半个世纪的实验工作,通过实验测定蛋白质结构,以及整个科学界在测序基因组和宏基因组上的努力。这创造了一个数据集,你可以在上面进行规模化训练,真正学到这些更深层的原理。
实际上,这两个数据集在很多方面截然不同。比如PDB,是一大堆非常费力构建的蛋白质结构,其中许多是一个博士论文的成果,后来可能又有类似的,一个博士论文能产出十个左右。我估计创建PDB花了130亿美元,一个非常大的数字。人们创建PDB的原因,是因为每个单独的蛋白质本身就有用。人们并不是为了解决蛋白质结构问题而创建它。他们看到的是,哦,这个蛋白质我们认为与某种疾病通路有关,我们来理解它,以便靶向它等等。当然,这里有些例外,但总体而言,很多基因组数据,尤其是人类、病毒或细菌的,也是出于非常具体的原因而测序的,对吧?事后发现这些数据很有用固然很好,但我想知道,从现在开始,尤其是考虑到虚拟生物学计划,BioHubs的虚拟生物学计划大概有5亿美元。我相信未来BioHub还会有更多大型计划。你有机会非常具体、有目的地收集数据,专门为了解决机器学习问题,而不是依赖那些为其他目的而整理创建的数据集。那么,面对这个新机会,你会怎么做不同的事情?你如何看待数据收集?当你基本上可以从第一性原理做任何事时,如何广泛地推动科学进步?稍微解释一下背景。
几周前我们宣布了虚拟生物学计划。简单来说,我们将在内部投入4亿美元用于数据生成和技术开发,以扩大数据生成规模,提升同时测量的模态数量。我们还宣布将投入1亿美元,推动Biohub外部的数据生成工作。当然,我们认为这只是实际所需的一小部分。但希望这笔初始投入能为那些真正在思考这个问题、致力于构建所需数据核心领域的团队提供启动资金,从而成为催化剂,吸引其他团队加入并做出贡献。这就是我们真正期望看到的。关键在于,这是一项广泛合作的事业,不只有我们在做。我可以谈谈我认为需要生成哪些数据,或者哪些数据可以生成,但我们也希望以协作的方式与科学界共同推进。因此,部分工作也是听取科学家们的需求。从我的角度看,有几个关键原则。首先是速度。蛋白质数据的构建花了数十年,我们等不了那么久。我们需要在几年内找到方法。看看通用AI的发展速度,生物学中的根本限制将来自实验科学和数据。我们必须尽快缩小这一差距。所以关键之一是审视当前哪些技术可以规模化,以描绘细胞的信息架构。除了速度,还有泛化能力。回到我之前说的,我们希望模型能成为生物学的“预言机”,预测你尚未进行的实验。如何做到?我们需要在多种不同背景下进行多种干预。这类似于在互联网上训练语言模型,或在所有进化多样性上训练蛋白质语言模型。对于细胞生物学,这又是什么样?我们必须规模化干预生物学,比如扰动转录组学、Perturb-seq测量,结合转录成像和细胞信息层次的其他层面。许多团队,包括我们自己的团队,以及科学界的其他团队,都在研究这类问题,我认为它们已经准备好规模化。第二是空间生物学。这非常重要,能帮助我们真正理解细胞在环境中的状态。孤立地理解细胞并不是我们需要的目标。细胞是身体中极其复杂系统的一部分。要理解疾病,我们必须了解细胞如何相互作用、形成系统与回路。空间生物学正在快速发展,是一个适合规模化的领域。Biohub在过去十年中实际上在这些领域做出了开创性的资金承诺。我们资助了人类细胞图谱等项目,构建了Tabula Sapiens这样的大型细胞图谱,以及Cell by Gene这样的单细胞转录组学数据库。我们希望在现有基础上继续推进。目前最大规模的努力可能已涉及约十亿个细胞,但我们需要再提升几个数量级。这既需要规模化现有技术,也需要开发下一代技术。我们也在资助和支持这方面的努力。我们更希望关注跨模态研究:能否同时观察表型、转录层、蛋白质组,并将其与基因组和表观遗传状态联系起来?我们希望能看到所有这些。因此,要推动技术更快发展,以揭示更多连接和生物学信息,并以更可扩展的方式实现。
有趣的是,我听到的大多数想法,其实都是人们已经在思考的生物学规模化问题。下一个能实现数据收集的技术是什么?这又回到了生物学的“苦涩教训”主题:不仅计算和参数有规模定律,数据收集本身也有规模定律。从某种意义上说,下一个重大机遇在哪里?你提到要开发新技术,作为计划的一部分。
是的。我认为我说的核心就是规模化现有技术:扩大可观察的干预数量,增加可测量的参数维度。真正实现更多多维测量,并降低成本。更好的基因测序,更好的细胞封装方法,同时测量转录组和其他层次。
这里存在一个有趣的帕累托前沿:在固定预算下,多少时间用于改进实验方法,多少用于实际规模化?你如何权衡?
两者都必须做。因为以现有技术,通过相对合理的投入,我们肯定能将数据量提升10到100倍。但要再提升10倍或更多,就需要更多的技术开发。另一个非常重要的原则是反馈。我认为这将是关键。你可以将其视为技术开发的一个层面,需要实现。目前有很多好的进展,自动化和灵活机器人技术将加速这一进程。
还有实验设计。我们通常会问嘉宾:你会移除哪个瓶颈来解锁进展?但刚才我们已经讨论了很多。
是的,我想我已经回答了这个问题。
对。但我想换个角度问:也许在你的领域之外,比如语言建模或供应链,有没有一个不那么明显、不是你直接在做,但可能对生物学或Biohub工作产生影响的瓶颈?
这个问题很难回答,因为瓶颈实在太多了。我经常想到的一个瓶颈是算力,但这显然是个很明显的瓶颈。从很多方面来看,它目前是整个AI领域的瓶颈。尤其是因为我们正在训练这些大规模模型,我们始终关注算力。我认为我们既受限于数据,也受限于算力。对于一个在生物学领域工作的团队来说,我们拥有非常出色的计算资源。但我觉得,就像目前所有从事AI的团队一样,真正的限制就是算力的大小。
所以如果你能把算力提升100倍,你认为ESMC会——嗯,会好很多吗?
那肯定会好很多。我们还需要扩展数据规模,所以这两件事必须同步进行。
你们基本上已经用尽了目前可用的资源吗?
我不这么认为。不,不,我不这么认为。
好吧,那有大型数据集可用吗?或者你可以——嗯,相对而言,我是说在参数方面。
我们把ESM-C训练到了60亿参数。
哦,但我是说在可用数据方面。比如,你们已经用尽了大部分公开可用的数据吗?
不,不,还没有。而且我们刚刚构建的Atlas实际上包含的序列和结构比ESMC训练所用的还要多。
所以肯定还有一点提升空间。
那么——这是一个数量级的跃升,还是翻倍?具体是怎么样的?
嗯,我认为ESMC是在大约数十亿条序列上训练的。所以肯定还有大约1000亿条序列的规模。
这很大。其中很多序列在很大程度上是冗余的。
1000亿?对。对。好吧。要得到那10亿条,你们是从60亿、68亿条中筛选出来的,对吧?那么在这1000亿条中,如果你类似地聚类并找出独特的序列,你觉得会剩下多少?
你觉得会落在什么范围?这些序列实际上并不冗余,对吧?这完全取决于你对冗余的定义,因为我认为从小型遗传变异中可以学到大量信息,对吧?因为这些变异在非常精细的层面上揭示了蛋白质结构和功能的基本决定因素。所以我认为,当我们思考蛋白质空间时,在广泛的蛋白质家族中拥有大量多样化的序列,对于涌现这种结构预测能力至关重要,因为我认为大规模的多样性才能训练模型理解并发展出对结构的表征。但实际上,我认为要发展出对功能的表征,这些非常微小的变异才是关键。所以我确实认为可能还有很多——模型还没有在那种对序列中这些微小但关键模式的深度理解层面上进行训练。一个单点突变就足以破坏蛋白质的功能。
所以你可以设想,实际上把全部68亿条序列都拿来,重新训练所有内容。
对,对,你可以训练比那更多的数据。甚至,那已经是聚类后的结果了。
那么,问题可能是,你们会在什么时候遇到收益递减的规律?听起来你们有计划做ESM4或ESMD之类的。我们一直在发展。对,对。我只是好奇,在某个时候,这真的是你们可能用尽的东西吗?人们经常谈论用尽预训练数据。
在某个时候,对,对,在某个时候。
但这并不是你在未来几年内能真正想象做到的事情。或者即使你没有用尽它,对于你试图预测的应用来说,你也会遇到很多收益递减的情况,也许你的资源更适合花在其他地方。
这基本上是一个实证问题,对吧?对,这确实是一个实证问题。所以我们就是不知道。我的意思是,在SM2的时候,我们不确定,因为存在一些收益递减。而在SMC的时候,现在没有了,对吧?所以你会看看这个,从缩放定律中推断,而且有足够的数据来训练下一个模型。
那么,我们通常会问的另一个问题是,有什么行动号召吗?或者你希望人们去做什么?如果听众想参与进来、被雇佣、去构建东西,你会请他们做什么?
嗯,我们刚刚宣布,或者说,在这个播客发布的时候,我们将宣布ESMC和这个蛋白质生物学的世界模型。它将是开源的,采用MIT许可证,我们希望人们使用它。我们希望这能成为一个解锁科学的工具。我们很期待合作。我们有一个团队在负责这方面,我们想听听大家的意见,了解我们可以构建什么来帮助加速他们的科学研究。
对,我们可能会在这个频道上举办某种演示或论文俱乐部。所以请保持关注。
对,敬请期待。我们会邀请你和你的团队,谁有空谁就来。一旦这篇论文进入最终预印本阶段,我们会在Weight in Space论文俱乐部花一个小时来重点讨论它。
对,谢谢你和我们聊天。
太棒了。很高兴见到你们。