本文是对Biohub首席科学家Alex Rives的深度访谈,介绍其团队训练出当前最强开源蛋白质基础模型ESMC,展现AI蛋白质研究的新突破与未来愿景。 ## 1. 核心背景:坚持scaling路线催生最强蛋白质语言模型 Alex Rives2018年就在Meta AI的前身开发了蛋白质领域首个Transformer语言模型,坚信遵循自然语言的分布假设,模型学习氨基酸上下文会让蛋白质的生物学信息涌现。如今其团队推出的ESM Cambrian(ESMC)是当前最强开源蛋白质基础模型,以MIT协议开放,训练数据涵盖68亿条蛋白质序列,配备全球最大的蛋白质结构预测图谱。 ## 2. 数据突破:宏基因组序列打破scaling收益递减 和参数量相近的ESM2相比,ESMC性能提升核心来自数据升级:ESM2用UniRef数据集训练,参数和计算量提升后出现收益递减;ESMC加入了来自各类生态环境、数量极大多样性极高的嘈杂宏基因组序列,彻底消除了收益递减,验证了scaling曲线可精准外推,证明此前模型是数据受限而非算力受限。该数据思路和传统生物学聚焦控制实验的收集逻辑完全相反,是学习蛋白质通用表征的正确数据观。 ## 3. 图谱构建与可解释性:自发对齐生物学认知,还暗藏新发现 ESMC构建68亿非冗余蛋白质序列图谱,经70%相似度聚类后为1.1亿个聚类中心预测结构,是有史以来覆盖最全面的蛋白质结构功能图谱。团队给60亿参数旗舰模型的各层训练稀疏自编码器后,发现模型自发学到了和人类认知高度一致的层级特征空间,从基础生化属性到抽象功能主题都能对应,比如用单一特征代表跨独立进化家族的亲核肘功能基序。该图谱还发现了现有生物学无法解释的聚类,推测可能是新型基因编辑系统,此前的ESM版本已经借此发现过全新基因编辑系统。 ## 4. 抗体设计突破:无需多序列比对,效果超越AlphaFold类开源方法 抗体进化目标是多样性,多序列比对(MSA)的进化信息对其帮助有限甚至会产生误导。ESMC凭借覆盖全蛋白质空间学到的本质特征,搜索得到的scFv单链抗体亲和力可达到治疗要求,少量试验就能获得很高成功率,效果优于所有现有开源模型。 ## 5. 多聚体预测与虚拟细胞愿景 ESMC的多聚体(蛋白质相互作用)预测达到当前开源模型最高水平,这是走向虚拟细胞的关键一步。当前所谓虚拟细胞仅能拟合训练数据,对新干预新上下文预测能力极差,Alex的目标是打造能预测未开展实验结果、可泛化的虚拟细胞模型,当前该目标的核心障碍一是缺乏足够的大规模细胞干预测量数据,二是暂无能匹配细胞复杂度的模型架构。 ## 6. 5亿美元虚拟生物学计划布局 Biohub投入5亿美元推进该计划:4亿美元用于内部数据生产和技术开发,1亿美元用于催化外部科研合作,核心数据策略遵循速度和泛化两个原则,计划在数年内扩大扰动生物学和空间生物学的研究规模。未来AI与实验的协同会分为三层:大规模数据生产→构建全生物学层级的数字表征→基于预测筛选少量假设送实验验证,再反向更新模型。 ## 7. 现状与未来:空间仍大,核心瓶颈是算力 目前可用的蛋白质序列总量约有1000亿条,数据足以支撑下一代模型训练,scaling的收益递减尚未出现。无论是宏观进化多样性还是微观单突变变异,都蕴含大量未被学习的有效信息,模型仍有很大提升空间。当前该领域最突出的瓶颈仍是算力,数据生产也需要同步推进。
蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型
2026-06-06 12:22

蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

本文来自微信公众号: 每日天使 ,作者:每日天使


                      编者按


                      蛋白质科学正在经历一场"ChatGPT时刻"。就像语言模型靠scaling在NLP上实现质变,蛋白质语言模型也正走上同一条路。Alex Rives是这条路最早的信徒之一,他从2018年便开始做这件事,而今终于有了最有力的实验证据。


                      这期播客对话极其深入,涉及数据策略、机制可解释性、抗体设计、虚拟细胞愿景,以及"生物版bitter lesson"的哲学思考。如果你关注AI+生命科学,这期内容值得细读。


                      导语


                      2024年诺贝尔化学奖颁给了AlphaFold团队,标志着AI解蛋白质结构折叠问题获得历史性认可。但故事并未就此结束。一个更宏大的图景正在浮现:如果说AlphaFold是用深度学习攻克了蛋白质结构预测,那AI能否进一步理解蛋白质的"意义",乃至设计出全新的治疗分子?


                      Alex Rives是Biohub科学负责人,也是ESM蛋白质语言模型系列的核心创造者。他8年前便开始在这条路上独行,如今ESM Cambrian(ESMC)正式开源,以MIT协议面向全球科研人员开放。这是迄今最强的开源蛋白质基础模型,训练数据涵盖68亿条蛋白质序列,并配备全球最大的蛋白质结构预测图谱。


                      这期Latent Space播客AI for Science系列,由Muromix CTO RJ Haneki与Brandon共同主持,与Alex进行了一次深度技术对话,涵盖ESM系列演进史、scaling law在蛋白质中的验证、机制可解释性的意外发现、抗体设计的突破、以及Biohub虚拟生物学5亿美元大计。以下为完整编译。


                      访谈正文


                      一、起点:为什么相信蛋白质语言模型会scaling?


                      主持人(Brandon):你可以给我们介绍一下,什么是蛋白质科学的"bitter lesson",你为什么如此坚定地走这条路?


                      Alex:我相信scaling law。2018年夏天,我的团队在Meta AI的前身Metaphair,训练了蛋白质生物学领域第一个Transformer语言模型。从那时起,我就一直相信——当你让模型预测进化过程中产生的下一个token时,生物信息会涌现出来。我们确实看到了这条scaling曲线:每一代模型参数量提升一个数量级,都会出现新的能力涌现。


                      主持人(RJ):但蛋白质语言和自然语言不一样啊。从正态语言模型采样会得到乱码,但从蛋白质语言模型以无限温度采样,哪怕结果不有趣,也是合法蛋白质。你为什么认为自然语言的洞察可以迁移过来?


                      Alex:这是整个AI领域的深层问题。我们没有理论来指导,只有极强的经验证据。我受到了Zelig Harris 1954年那篇《分布结构》论文的影响——他提出,词的上下文集合由词的含义决定。统计模式会镜像反映出语言的底层含义。对蛋白质来说同理:氨基酸能出现的上下文,由蛋白质的结构、功能、生物学角色决定。所以模型必然会学到那些隐变量。


                      二、数据革命:宏基因组序列如何打破收益递减


                      主持人(RJ):ESM2和ESMC参数量差不多,但ESMC更强。核心区别是什么?


                      Alex:关键是数据。ESM2在UniRef数据集上训练时,我们发现随着参数和计算量增加,收益递减。ESMC加入了宏基因组序列——人们从各种生态系统:热液喷口、南极附近的冰冷环境、深海、土壤、人类肠道等环境中采样,直接测序,不管来自哪个物种,只要是蛋白质序列就用。加入这些数据后,收益递减消失了。我们有了一条漂亮的scaling曲线:在小模型上训练、外推,能精准预测大模型的性能。这说明ESM2是数据受限,而非算力受限。


                      主持人(Brandon):宏基因组数据是怎么来的?


                      Alex:具体来说,人们不是在研究特定基因组或蛋白质,而是把样本混在一起,直接测序,拿出序列。你不知道这些序列来自哪个生物,甚至不确定每一个序列是不是蛋白质,只能根据上下文猜测。数据非常嘈杂,基因组常常是不完整的片段。但数量极大,多样性极高——而这正是关键。


                      主持人(Brandon):这个思路跟生物学家传统的数据收集方式截然相反?


                      Alex:完全相反。传统生物学数据收集是非常聚焦的:针对一个具体科学假设、控制实验条件、多重复。而我们需要的是:让氨基酸在尽可能多的进化上下文中被观察到。这跟要控制实验的思路背道而驰,但这才是学习蛋白质通用表征的正确数据观。


                      三、68亿序列图谱与机制可解释性


                      主持人(RJ):ESMC的68亿序列图谱是怎么构建的?


                      Alex:我们整合了世界上最大的蛋白质序列数据库,得到68亿条非冗余蛋白质,然后在70%序列相似度下聚类,为每个聚类中心预测结构,共覆盖11亿个预测结构。这是有史以来对蛋白质结构和功能最全面的图谱,新增数以亿计的蛋白质结构知识,并创建了跨进化的特征空间,让我们能找到跨越进化长河的蛋白质联系。


                      主持人(RJ):机制可解释性部分呢?你发现了什么有趣的东西?


                      Alex:我们在ESMC模型家族的所有层上训练了稀疏自编码器(SAE)。这个模型家族有三个:3亿参数、6亿参数、60亿参数。我们对60亿参数旗舰模型做了深度分析。发现了一个层级特征空间,从最基本的生化属性、蛋白质结构积木,到大型功能主题、抽象概念——这些都跟人类建立的生物学认知体系高度一致。而且这是模型自发学到的,没有任何先验知识输入。


                      主持人(RJ):举个具体例子?


                      Alex:亲核肘(nucleophilic elbow)是蛋白质家族中的一个核心功能基序,可能在进化中独立出现过多次,结构基序非常清晰。我们发现,模型用一个单一特征来代表这个亲核肘,并且这个特征在进化上高度不同、拓扑结构完全不同的蛋白质家族中都被激活——这些家族可能完全独立进化。为什么模型会这样做?我认为是压缩:为了预测氨基酸,模型需要发展出某种隐变量来帮助解决这个任务,而亲核肘就是这样一个隐变量。


                      主持人(RJ):还有没有超出生物学已知范畴的发现?


                      Alex:有一些有趣的连接——比如进化上距离很远的基因编辑系统,在这个特征空间里会聚在一起,方式与我们对它们起源的认知相符。更有趣的是,图谱里有一些蛋白质以我们无法解释的方式聚在一起——我们还不知道它们是什么、有什么功能。一个假设是:这些可能是新型基因编辑系统。早期版本的ESM图谱已经被用来发现了一种新的基因编辑系统,这让我们非常兴奋。


                      四、突破点:无需MSA,抗体设计超越AlphaFold


                      主持人(Brandon):蛋白质设计领域近五年爆发了,mini binder基本可以做了,但抗体设计一直很难,全长IgG更是难以实现。你们有什么进展?


                      Alex:我们用ESMC搜索,能够找到亲和力已经达到治疗功能和活性所需水平的抗体——具体是scFv单链抗体,它由一条重链和一条轻链组成,能形成非常复杂的结合界面。大约四分之一的新药是抗体,所以这是一个极其重要的治疗模态。我们用少量试验就能看到相当令人激动的成功率。


                      主持人(Brandon):为什么ESMC在抗体上比AlphaFold类方法更有优势?


                      Alex:抗体在进化上与其他蛋白质不同。其他蛋白质的进化是沿着约束路径优化,而抗体进化的目标是多样性——它需要快速演变来对抗各种靶标。所以多序列比对(MSA)包含的进化信息,对抗体设计来说帮助不大,甚至会产生误导。ESMC学到的表征空间里包含了某种关于抗体的本质特征,让搜索直接奏效。我们做得比任何开源模型都好。


                      主持人(RJ):这说明你的thesis——覆盖尽可能多的蛋白质空间,让涌现行为出现——确实成立了?


                      Alex:对,正是。这些是涌现行为——我们在没有MSA的情况下复现了多序列比对能做的事,而且对于没有训练数据的抗体,表现更好。


                      五、蛋白质-蛋白质相互作用与"虚拟细胞"愿景


                      主持人(RJ):ESMC在多聚体(蛋白质相互作用)预测上号称达到了开源模型最高水平?


                      Alex:对,对于开源模型来说是最先进的。这很重要,因为蛋白质很少单独工作——信号通路里是一连串蛋白质-蛋白质相互作用驱动表型变化。理解这些才是走向虚拟细胞的关键一步。


                      主持人(RJ):你提到了"虚拟细胞",这是什么愿景?


                      Alex:让我用蛋白质类比。ESM的数字表征之所以有价值,是因为它们能泛化——能对不在训练数据里的蛋白质做出预测,能设计全新的折叠结构、结合界面。这种"预测未做过的实验结果"的能力,才是让数字表征有价值的东西。但细胞,我们还没做到这一点。现在被叫作'虚拟细胞'的模型,是训练数据的好表征,但对于新干预、新上下文,预测能力非常有限。这就是我们要解决的问题。


                      主持人(Brandon):从分子模型到细胞模型,最难跨越的是什么?


                      Alex:首先是数据。蛋白质生物学的进展之所以成为可能,是因为有半个世纪的实验数据——数据库里有数十亿序列。但对细胞,我们需要前所未有的测量和干预数据。其次是模型架构和机器学习思路,目前可能还不存在能处理这种复杂度的方法。我们需要像训练蛋白质模型那样,让模型看到细胞在尽可能多的干预和上下文中的反应。这就是'规模化干预生物学'的意义。


                      六、Biohub虚拟生物学计划:5亿美元数据战略


                      主持人(Brandon):你们宣布了虚拟生物学计划,投入5亿美元。能详细说说这笔钱如何使用,以及数据策略的具体思路?


                      Alex:我们宣布内部投入4亿美元用于数据生产和技术开发,另投入1亿美元催化外部科学合作——给那些正在思考这个问题的团队提供启动资金。我们希望这笔钱能像催化剂一样,带动更多群体加入。这必须是一个宽基础的努力,不只是我们一家。


                      主持人(Brandon):数据策略的核心原则是什么?


                      Alex:两个核心:速度和泛化。速度方面——蛋白质数据用了几十年积累,我们等不了那么久,需要在几年内解决。泛化方面——我们需要模型成为预测神谕,能预测未做过的实验。这要求我们在大量不同干预、不同上下文中观察细胞,就像用互联网数据训练语言模型,或者跨越所有进化多样性训练蛋白质语言模型一样。具体来说,我们要扩大扰动生物学(perturbation biology)和空间生物学的规模。


                      主持人(RJ):未来10年,实验数据和AI模型如何协同?


                      Alex:我认为会有三个层次:一是大规模数据生产;二是生物学的计算预测数字表征——ESM是分子层面的第一代,可以想象未来覆盖更复杂的生物学;三是带反馈的推理。我们能并行探索数千万、数亿个科学假设,用预测模型作为神谕,再把少量假设发回实验室验证,从结果中更新认知。某种像RLVR一样,但反馈来自真实实验,而非评分函数。


                      七、scaling边界在哪里?训练数据还没用完


                      主持人(Brandon):ESMC训练了约10亿序列,但你说现在的图谱已经有比这更多的序列了?


                      Alex:是的,我们刚建的图谱有比ESMC训练集更多的序列。而且我估计目前可用的总量约有1000亿条序列。


                      主持人(Brandon):那是不是意味着收益递减还没到来?


                      Alex:这是个经验性问题,真的说不准。ESM2有收益递减,ESMC消除了,scaling曲线可以外推。根据现在的曲线,数据量足以训练下一代模型。但什么时候会遇到真正的瓶颈,只有实验才能告诉我们。


                      主持人(RJ):那1000亿条序列里,真的有那么多非冗余信息吗?


                      Alex:取决于你怎么定义冗余。小的遗传变异是非常有价值的信息——一个单一突变就能破坏蛋白质功能。我认为,宏观上,大量多样性是学习结构预测能力的关键;而微观上,这些微小但关键的序列变化,对于学习功能表征同样重要。模型在这个细粒度的理解上还有很大的学习空间。


                      八、什么是最大瓶颈?还是算力


                      主持人(Brandon):你觉得最大的非显而易见瓶颈是什么?


                      Alex:算力——这可能显而易见,但真的是。如果算力100倍,ESMC肯定会好很多,而且数据也需要同步扩大。当然,数据生产也是瓶颈,两个需要并行推进。对于一个做生物的团队,我们已经有非常充足的算力资源,但像所有AI团队一样,算力永远不够用。


                      九、对社区的呼吁:拿ESMC来做科学


                      主持人(Brandon):你对听众有什么行动呼吁?


                      Alex:我们刚刚正式宣布ESMC和这个蛋白质生物学世界模型。它将以MIT协议完全开源。我们希望大家使用它,把它变成推动科学的工具。我们很乐意合作,听大家分享它能如何加速你们的研究。


                      主持人(Brandon):关于Biohub的大图景,你怎么总结你们在做什么?


                      Alex:我们正在为这个新的科学范式建立一个研究机构。这个机构将由前沿实验生物学、前沿测量与观测技术,以及前沿人工智能共同驱动。我们不是药物开发公司,不是要产出疗法——我们是要构建推动科学向前的技术。我们的使命是治愈或预防疾病,为此我们需要弥合认知上的基础性缺口,需要理解从最基础的蛋白质原子一直到系统疾病生理学的整个复杂性层级。


                      视频链接:https://www.youtube.com/watch?v=XdevS0GSuiQ

                      AI创投日报频道: 前沿科技
                      本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
                      如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
                      正在改变与想要改变世界的人,都在 虎嗅APP
                      赞赏
                      关闭赞赏 开启赞赏

                      支持一下   修改

                      确定