本文是对国家蛋白质科学研究(上海)设施主任吴家睿的访谈,厘清了AI浪潮下蛋白质结构研究的新方向,指出该领域是全新开始而非走到尽头。 ## 1. 蛋白质的核心生命地位与结构研究的应用价值 蛋白质是生命活动的主要执行者,人体内的酶(多数为蛋白质)可在常温常压下高效催化生化反应,素有"核酸搭台,蛋白质唱戏"的说法。 蛋白质功能由三维结构决定,解析关键蛋白结构是抗病毒药物研发的核心基础:2024年饶子和团队依托上海设施破解了困扰学界半个世纪的乙肝病毒表面抗原三维结构;新冠疫情期间,该设施助力解析新冠关键蛋白结构,支撑了国内首款常规获批口服抗新冠药物先诺欣的研发。 ## 2. AI带来变革后,蛋白质结构研究开启动态新方向 AlphaFold解决了从氨基酸序列预测蛋白质静态结构的难题,但其依赖静态数据库,预测结果偏静态,不少结果与实验测定结果不符。 国家蛋白质科学研究(上海)设施将从两方面推进动态研究:一是升级设备开展动态结构实验,联合研发团队基于自主研发的MaPU芯片超级计算机获取动态数据,计划训练动态预测工具DynamicFold,形成"实验-AI-检验"的动态研究闭环。二是联合无细胞蛋白质合成团队,打造"AI设计-规模化合成"的第二个闭环,可单日并行合成多达5000种蛋白质,匹配AI的设计产能。 ## 3. 构建中国自主蛋白质结构数据资源的核心意义 此前全球蛋白质结构核心数据长期由美欧日主导的PDB掌控,2022年我国PDB China成为PDB第四个具备完整审校、存储、分发功能的成员,未来预计收录超106万条结构数据,其中近3万条为人类相关蛋白质结构数据,是支撑我国生命科学发展的关键战略资源。 我国下一步需要收集保存未公开的原始实验数据,可借助区块链、隐私计算技术解决数据共享权益问题,为训练新一代AI提供数据基础。 ## 4. 蛋白质结构研究的未来锚点:接纳生命的不确定性 过往生命科学研究多秉持决定论理念,认为生命活动可完全预测控制,越来越多研究证明,生命活动本身充满不确定性,受大量偶然随机因素影响。 该领域未来核心挑战是将对不确定性的认知融入研究,调整传统确定性研究方法适配生命活动的特质。
蛋白质结构研究,是结束还是开始?:吴家睿谈蛋白质结构研究的转折与未来
2026-05-18 20:51

蛋白质结构研究,是结束还是开始?:吴家睿谈蛋白质结构研究的转折与未来

本文来自微信公众号: 世界科学 ,作者:世界科学等,原文标题:《蛋白质结构研究,是结束还是开始?——吴家睿谈蛋白质结构研究的转折与未来 | 锚点》


蛋白质是生命最重要的物质,直接关系到每个人的生老病死。恩格斯有句名言:生命是蛋白体的存在方式。


历史上有不少学者因研究蛋白质而荣膺诺贝尔奖,最近的例子就是收获2024年诺贝尔化学奖的三位科学家,即大卫·贝克(David Baker)、德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M.Jumper)。三人在蛋白质三维结构设计与预测方面做出了变革性的贡献。以AlphaFold为代表的人工智能(AI)预测工具被认为解决了困扰生物学界五十年的难题:如何仅根据氨基酸序列就精确预测蛋白质的复杂三维结构?


伴随这场变革而来的疑问是:蛋白质结构研究是否已走到尽头?传统上,确定蛋白质的三维结构是个离不开艰辛实验的漫长过程,AlphaFold却将它变为电脑上的快速计算,因此不难理解为什么许多人会怀疑蛋白质结构研究的未来。


位于上海张江的国家蛋白质科学研究(上海)设施是我国开展蛋白质结构与功能研究的重要平台,依托中国科学院上海高等研究院建设,也是全球生命科学领域首个综合性的大科学装置。吴家睿研究员现担任该机构的主任。他在本期《锚点》栏目中畅谈了蛋白质结构研究的尽头、转折与存在“不确定性”的未来。


Q:科学界有种说法叫作“核酸搭台,蛋白质唱戏”,用来比喻核酸承载着遗传密码,负责确定氨基酸序列,而蛋白质负责完成大部分的生命活动。


A:


没错。不妨做个对比:工业过程涉及大量催化反应,这些反应所需的催化剂往往在高温、高压条件下才可高效发挥作用;而我们人体内的环境是稳定且独特的,主要包括37摄氏度左右的常温和一个大气压的常压——许多工业催化剂在这样的条件下催化效率极低,生命体内的酶(多数为蛋白质)却可于常温常压下催化多种多样的生化反应。


生化反应需要酶的催化才能在生物体内高效、有序地进行,而持续、有序的生化反应是生命活动的基础。比如此时正在对话的你我,就需要为说话这一运动动用诸多化学物质,涉及大量信号分子……这些生化反应与我们体内的蛋白质密切相关。


人类基因组拥有约30亿个碱基对,但其中只有很小一部分直接用于制造蛋白质,其他序列大都从事“服务型”“控制类”工作,参与决定以怎样的方式制造蛋白质、如何才能多造点蛋白质以及何时能制造出何种蛋白质,进而在基因表达调控中发挥重要作用。


这就是“基因搭台,蛋白质唱戏”。


Q:从某种意义上说,蛋白质才是主角。


A:


可以这么认为。蛋白质是全世界科学家需要高度关注的核心角色。


Q:您任职于国家蛋白质科学研究(上海)设施。我在你们的官网上看到一项很吸引人的成果——2024年9月,饶子和院士等人在《科学》(Science)杂志发表的研究揭示了乙肝病毒表面抗原的三维结构,堪称破解了困扰学界半个世纪的谜题。这到底是什么级别的成果呢?能否再介绍一些其他代表性成果?


A:


人体如果感染肝炎,后期可能发展为肝癌。肝炎病毒难题是人类必须攻克的。


我们知道,蛋白质的功能由其三维结构决定。因此,成功解析乙肝病毒表面抗原的三维结构意味着我们能以此洞察乙肝病毒识别、结合宿主肝细胞表面受体的分子原理,具有重要意义。


不同类型的肝炎病毒,其表面蛋白不一样,这就有点像新冠病毒。新冠病毒表面有向外伸展、犹如天线的刺突蛋白。它们是病毒入侵宿主的关键,负责识别宿主细胞表面的受体蛋白ACE2,而之所以能识别、结合,是因为刺突蛋白与受体蛋白ACE2形状匹配、彼此吻合。


从这个角度来看,了解刺突蛋白的三维结构非常重要。新冠病毒出现后,有科学家团队迅速利用我们这里的设施解析出刺突蛋白的结构。接着,我们就能探讨该用怎样的药物来阻断刺突蛋白结合ACE2的过程。因为,许多小分子药物的作用靶标都是蛋白质。蛋白质有空间形状,化学小分子也有形状,二者若是可以匹配结合,小分子就能影响(抑制或增强)蛋白质的功能。


当然,除了刺突蛋白,新冠病毒还有其他关键蛋白质,比如对复制病毒而言非常重要的水解酶。饶老师及其团队借助我们的设施解读了新冠病毒水解酶的结构。此外,他们还与中国科学院上海药物研究所的蒋华良院士(已故)合作,研制出用于治疗新冠病毒感染的新药——先诺欣。2024年,先诺欣成为国内首款获得常规批准的口服抗新冠病毒药物。可以说,蛋白质结构研究在药物研发领域也是意义重大。


然而,刺突蛋白之所以很快就被解析出来,是因为它相对简单。乙肝病毒的表面抗原蛋白则有着非常复杂的结构。


Q:为什么说它复杂?是因为这种蛋白质体积比较大吗?


A:


乙肝病毒表面抗原蛋白不仅体积大,而且并非单体蛋白,它是由多条肽链协同折叠、组装而成的更大的复合物。这类复合物的形成过程和精确形态一直是难解之谜。许多科学家很早就开始寻找答案,试图破解该谜题,其中就包括饶老师。所以,后来才有了“半个世纪的谜题”这一说法。


当然,这可不是说饶老师研究乙肝病毒表面抗原蛋白的结构研究了五十年!(轻声笑)我的意思是,从最早发现乙肝病毒表面抗原,到2024年他发表那项成果,中间隔了大约五十年。


Q:关于蛋白质结构研究,您和您所在的国家蛋白质科学研究(上海)设施近期有什么计划?


A:


从20世纪50年代到今天,蛋白质结构研究都以“静态的”为主。换言之,我们现在所能看到的蛋白质结构都是静态的,而静态则意味着还不够真实。《细胞》(Cell)杂志2024年曾刊载一篇文章,题为“结构是美丽的,但可能不是真实的”(Structure is beauty,but not always truth),说的就是静态结构研究的问题。


事实上,研究蛋白质动态结构才是当前该领域最具挑战性的课题。如果说结构是生命科学的皇冠,那么动态结构就是皇冠上的明珠。现在大家都渴望触及甚至摘下那颗明珠。


用于预测蛋白质三维结构的AI工具AlphaFold虽然无比强大,但其预测结果也是偏静态的,因为其利用的蛋白质结构数据库所存储的数据皆为静态。


Q:输入静态结构数据,输出静态预测结果。


A:


所以,对国家蛋白质科学研究(上海)设施来说,一方面,我们要着力提升设备性能,积极开展动态研究;另一方面,我们要建立动态数据库,从而训练出动态预测工具。我其实已经给这个新工具起好名字了,叫DynamicFold——动态折叠!(对话双方哈哈大笑)


我们会与从事AI研究的团队合作,研发动态的AI技术。举例来说,我们目前正在跟一家研发超级计算机、专门做分子动力学研究的公司合作。这种计算机拥有一种非常先进的芯片——既非CPU也非GPU——我们称之为MaPU。这里的Ma是mathematics(数学)的缩写。


MaPU芯片是我国独立自主研发的成果。搭载MaPU芯片的计算机能基于对现有数据的分析开展模拟,产出大量的动态数据。这些动态数据既能通过已有设备进行验证,也能成为未来动态数据库的重要基础。


基于上述种种,我们有理由期待超越AlphaFold的新工具的出现。着眼于静态数据的AlphaFold虽然能预测两亿多个蛋白质结构,但学界已经证明,它输出的很多预测结果不同于实验者用仪器设备测定的结果。


Q:此话怎讲?我听说AlphaFold预测得很准啊!相比之下,您与合作者们正在推进的动态研究工作具备哪些优势呢?


A:


实际上,AlphaFold的准确仅限于某些方面。


无论研究静态结构还是动态结构,AI预测的结果终究需要经过实验检验。当然,通过实验设备获取的新数据也可服务于AI的发展。国家蛋白质科学研究(上海)设施不仅给得出数据,还有实验设备,因此同时具备预测、检验的能力。这意味着我们的工作不仅能聚焦动态研究本身,也可以整合不同领域的技术,促成未来蛋白质动态研究的闭环,开拓科研新范式。


除了围绕这个闭环,我们也将打造从结构研究到设计再到生产的第二个闭环。


大卫·贝克等人研发的AI工具能设计出海量蛋白质种类。《科学》(Science)杂志上的一篇文章表明,他们曾尝试设计由不超过4个氨基酸连接而成的环肽;AI平台虽然生成了一千多万种全新的环肽候选分子,但其中真正用于实验验证的也就十几种。研究人员没有能力把AI设计的所有候选者都合成出来检验。


人体内的蛋白质合成都发生于细胞中。这一合成过程非常复杂。如今合成生物学领域涌现了一种新技术,名为“无细胞蛋白质合成”。另一家与我们合作的企业在这方面取得了重要进展。他们开发出一套方法:对酵母细胞内参与蛋白质合成的核心元件与关键酶系进行工程化改造,再将酵母扩大培养,进而获得来自酵母细胞的工程化细胞提取物(含有核糖体、多种酶及一些其他物质)。


这种提取物即可作为蛋白质合成“工厂”。该工厂可放入试管,也可置于生物反应器内,用以规模化生产蛋白质。开始生产前,你需要向工厂提供设计指令,即DNA序列,以及用作原料的氨基酸与能量物质。系统启动后,核糖体与酶会根据指令,将氨基酸连接成蛋白质。该工厂正常运转一整天,能够并行合成多达5000种蛋白质,如此高的“产能”基本可以跟上AI的设计速度了。


在我看来,这种工厂代表未来蛋白质研究设施可实现的第二个闭环。


Q:也就是说,AI不仅可以产生数据,也能帮助我们做合成。


A:


对!


Q:我们为本次访谈拟定了一个标题:“蛋白质结构研究,是结束还是开始?”对很多并未深入了解此行业的人来说,这个问题的答案似乎是“结束”,因为当他们看到AlphaFold预测蛋白质结构的能力那么强,人们基于冷冻电镜技术观察到的三维结构精细度又那么高,大概会认为这个领域要走到尽头了。但从您刚刚的介绍来看,蛋白质结构研究其实已经增加了新的维度。


A:


没错,是有了新的探索维度。我们认为这个领域迎来了全新的开始,我们正在走出万里长征的第一步。


Q:国际蛋白质结构数据库(PDB)堪称当前全球最权威、最完整的蛋白质三维结构数据库。我国则有PDB China,即中国蛋白质结构数据库,也是由咱们设施参与构建,且已成为PDB的成员。您认为PDB China对我国的蛋白质结构研究有何意义?它是否有助于避免我国陷入核心技术被“卡脖子”的困境?


A:


PDB不只是一个收集蛋白质结构数据的平台,它也负责关于数据的审校工作。一位科学家想要在公开发表的论文中介绍某个蛋白质的空间结构,就必须先将数据递交PDB,由其审校。


一直以来,美国、欧洲和日本都是PDB的核心成员,共同主导了PDB的发展。当然,我国学者经过不懈努力,也发展出了接轨PDB的审校技术。由此,中国才得以成为继美国、欧洲和日本之后PDB的第四个成员。


针对核心技术被“卡脖子”的问题,我认为风险依然存在,毕竟PDB China在2022年才加入PDB,起步较晚,可能在某些环节受制于人。但是,我国的生命科学数据(尤其是蛋白质结构数据)规模较为庞大,这是一个重要优势,使得我们能够通过积极参与数据审校工作,加强与全球蛋白质结构数据库的合作。PDB的一个重要策略就是数据共享。


PDB China虽已跻身国际数据舞台,但这还不够。更重要的是,我们得建立自己的生物学数据库。回顾过去十年,就蛋白质结构数据而言,我们服务的中国科学家产出的数据是非常多的,但根据国际大科学设施的惯例,来我们这里的研究人员(更准确地说是项目负责人)做完项目后,通常可以带走数据。


Q:啊,我们自己没有保存吗?


A:


对。鉴于此,我曾明确提出关于大科学设施开放共享的问题,一个是仪器设备的开放共享,另一个是大科学设施产生的数据的开放共享。当下已是AI时代,数据的重要性毋庸赘言。拥有属于自己的数据库,是我们走向未来的关键一步。


另外,我想强调的是,大家看到的PDB数据,实际上只是原始数据的冰山一角。为发表论文,研究人员会将一小部分可分析、可阅读的最终数据提交至PDB,但还有很多原始数据并未公开。收集那些“沉寂”的原始数据并用于训练AI,可能是意义更为重大的任务——我们完全有可能基于此训练出全新的AI。从这个层面上来说,我们需要保存更多的原始科研数据。


2024年的诺贝尔化学奖,让AlphaFold被热议。它的训练就依赖于大量的蛋白质结构数据库。


长时间以来,我国发展结构生物学产出的全部结构数据均保存在由美国、欧洲和日本运营的PDB。2022年,中国蛋白质结构数据库被PDB接受为成员,成为世界上第四个具备完整审校、存储和分发功能的蛋白质结构数据库。


2022年10月,中国蛋白质结构数据库向全球发布由其审校注释的首个蛋白质三维结构,未来预计将收录超106万条结构数据,其中近3万条为人类相关蛋白质结构数据。这些数据对药物辅助设计及人工智能参与蛋白质结构解析来说具有重要意义,也成为支撑中国生命科学及应用的关键战略数据资源。


Q:这可是一项大工程!那些原始数据并非标准化的,首先要将其转换至通用的格式,而这一步就相当困难。另一方面,数据所有权和使用权的界定也是一个问题。


A:


不仅是生物学数据,如今各行各业、各式各样的数据都面临如何共享的难题。怎样利用好数据,同时又不损害数据贡献者等多方的权益呢?目前看来,不妨借助一些最新的技术,比如区块链技术或联邦计算之类的隐私计算技术,以实现数据的“可用不可见”“可用不出门”。


如今政府部门越发重视大科学设施对国民经济的支撑作用。我们也希望大科学设施不仅能支撑我国的科学研究,也能助力发展新质生产力。


Q:您认为蛋白质结构研究领域下一个亟待攻克的核心问题,或者说锚点,是什么?


A:


我认为是“不确定性”。


过去的科学给大家灌输的多是一种决定论理念——我们会希望对自己认知的事物有某种绝对控制,觉得事物发展的轨迹理应可预测、不改变。但是实际上,越来越多的生命科学研究证明:生命活动充满不确定性,总会被各种偶然、随机的因素影响。


我们需要,也正在重新认识生命活动。此前我曾指出:生命的不确定性与研究人员的决定性思维之间的差距,是科学实践最大的挑战之一。摆在面前的问题是:对于不确定性的认知理解,能否融入具体研究工作?该怎样融入?传统的确定性方法又该如何适应存在不确定性的生命活动?

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定