西湖大学郭天南团队联合多机构在Nature发文提出“虚拟酵母”计划,拟用AI打造首个全链条模拟真核细胞的智能系统,为合成生物学提供可推广蓝图。 ## 1. 提出“虚拟酵母”计划:AI驱动的全链条真核细胞模拟系统 该计划旨在打造可预测、可实验验证的全球首个虚拟真核细胞,是能模拟酵母从基因表达到代谢产物全链条行为的AI系统,而非简单细胞动画。 虚拟酵母以酿酒酵母为模型,分解为8个功能模块由专属AI工具实现,通过大语言模型协调层统一调度,整合三大数据支柱形成闭环学习流程,可自主设计实验,用于优化合成通路、加速靶点发现。 ## 2. 选择酿酒酵母作为模型的核心理由 酿酒酵母是真核生物研究的“黄金模式生物”:它结构完整,是真核生物的“小个子”,直径仅3-10微米,包含所有真核细胞特有细胞器;遗传工具储备完善,覆盖所有非必需基因的敲除文库等,已摸清八九成基因-性状关系;且核心细胞过程与人类高度保守,模型做通后方法可平移到更复杂真核细胞研究。 ## 3. 创新模块化架构+三重约束保障预测可靠性 区别于传统建模将所有反应塞入巨型方程导致计算量爆炸的思路,虚拟酵母按功能拆分为8个对应核心生命活动的独立AI模块,由大语言模型作为“总指挥”调度,按需调用或组合模块输出预测结果。 为避免模型乱生成,系统设置三重约束:知识图谱把关因果关系、物理化学规则约束反应逻辑、真实实验结果作为强化学习反馈持续优化模型精度。 ## 4. 三大核心数据支柱筑牢模型基础 第一支柱是经过实验验证的先验生物学知识,包括SGD基因注释、近100万对遗传互作图谱等,整理为结构化知识图谱供模型学习。 第二支柱是亚细胞空间架构数据,依托空间组学、冷冻电镜等新技术获取分子定位、细胞器精细结构数据,让模型建立细胞反应的“空间感”。 第三支柱是动态状态数据,团队已完成969株酵母在多种扰动条件下超1.5万份时间分辨蛋白组、5000多份代谢组检测,采用主动学习形成“预测-验证-反哺”闭环。 ## 5. 分阶段落地,提供虚拟细胞通用研究框架 目前代谢模块已落地,结合AI与传统基因组尺度代谢模型,预测高产菌株基因编辑方案的准确率高于传统机器学习。 项目计划未来5-10年分三阶段推进:先打磨代谢模块建立基准,再整合2-3个细胞器模块,最终完成8模块整合得到全细胞AI智能体。 该框架核心价值是提供可推广的虚拟细胞构建思路,未来可平移构建人类细胞虚拟模型,用于疾病机制解析、药物筛选,是打开数字生物学大门的关键尝试。
Nature:西湖大学郭天南团队提出“虚拟酵母”计划,用AI打造首个虚拟真核细胞
2026-07-03 14:41

Nature:西湖大学郭天南团队提出“虚拟酵母”计划,用AI打造首个虚拟真核细胞

本文来自微信公众号: 生物世界 ,编辑:王多鱼,作者:生物世界


如果你是一名合成生物学家,想设计一株能高效生产青蒿素的酵母,传统流程可能是这样:在实验室里一轮轮敲除基因、调整培养条件,再测代谢产物的产量——这个过程往往要花上几个月甚至几年。但如果有一个“数字酵母”,能在电脑里先模拟出所有基因编辑方案的代谢结果,把最优解直接推给你,研发效率会提升多少?


2026年7月1日,西湖大学郭天南教授联合来自北京大学、上海人工智能实验室、复旦大学、斯坦福大学、苏黎世联邦理工学院、多伦多大学等机构的数十个研究团队,在Nature期刊发表了题为:Towards the construction of a virtual yeast的前瞻性评述文章,提出了“虚拟酵母”(Virtual Yeast)计划,旨在使用AI打造全球首个可预测、可实验验证的虚拟真核细胞,这不是简单的细胞动画,而是一个能模拟酵母从基因表达到代谢产物全链条行为的AI系统。


作为一种由AI驱动的智能体,虚拟酵母通过整合多模态生物数据、机制推理和主动实验,以酿酒酵母作为遗传可操作且数据丰富的模型系统,来模拟真核细胞的行为。该团队将细胞复杂性分解为八个以功能为中心的模块,涵盖遗传、代谢和结构系统,每个模块均以特定领域的AI工具实现,并通过基于大语言模型的协调层进行统一调度。该系统建立在三大数据支柱之上——机制知识、亚细胞结构和动态状态,将表示学习与生成建模集成于一个闭环学习流程中,能够自主设计并执行实验。


虚拟酵母既是一个概念平台,也是一个操作平台,可用于优化生物合成通路,支持在多种细胞过程中生成和优先排序假设,并加速靶点发现。通过将生物真实性与自主AI推理相结合,虚拟酵母为构建虚拟真核细胞和推动合成生物学发展建立了一个可推广的蓝图。



为什么选择酵母?


提到模式生物,很多人会想到大肠杆菌,但其作为原核细胞,与更复杂的真核生物相差太大。而酿酒酵母(Saccharomyces cerevisiae)才是真核生物的“黄金模型”。


酵母,是真核生物里的“小个子”,直径只有3-10微米,却拥有完整的真核细胞结构:细胞核、线粒体、内质网、高尔基体这些真核细胞特有的“器官”一个不少;它的遗传工具箱极其丰富:覆盖所有非必需基因的敲除文库、全基因组GFP标签库、百万级规模的遗传互作图谱,几乎把“基因怎么影响性状”的关系摸透了八九成;更关键的是,酵母和人类的核心细胞过程高度保守——细胞周期调控、DNA修复、囊泡运输这些基础逻辑,和人体细胞是同根的。


换句话说,把酵母的数字模型做通了,这套方法就能平移到更复杂的真核细胞研究里,甚至为癌症机制解析、药物筛选打下基础。


虚拟酵母不是“数字标本”,是八个功能模块组成的AI智能体


传统细胞建模的思路,往往是把所有分子反应塞进一个巨大的数学方程里,不仅计算量爆炸,还很难适配不同的研究需求。这次的虚拟酵母项目换了个思路:按细胞功能拆成八个独立的AI模块,再使用大语言模型(LLM)当“总指挥”协调它们工作。


这八个模块刚好对应酵母的核心生命活动——


  • 膜系统模块:管内膜系统结构、物质运输和脂质合成;


  • 遗传中枢模块:负责染色质结构、基因组稳定性、转录调控和细胞周期推进;


  • 线粒体能量模块:主导氧化磷酸化、氧化还原平衡和衰老相关代谢;


  • 胞质代谢模块:覆盖中心碳代谢、氨基酸合成、营养感知和储能;


  • 生物合成网络模块:负责蛋白质合成、折叠、翻译后修饰和降解;


  • 细胞骨架模块:整合微丝、微管、细胞壁重塑,支撑细胞形态发生和物质运输;


  • 应激处理模块:管理应激颗粒、P-小体、氧化应激解毒,应对环境变化;


  • 降解机器模块:执行蛋白酶体和液泡降解,回收细胞组分。


每个模块都是专门的AI工具:比如代谢模块会用变分自编码器学习蛋白组和代谢组的关系,用扩散模型预测不同扰动下的代谢流变化;遗传模块会微调Evo3这类基因组基础模型,专门识别酵母特有的调控语法。而大语言模型就像“项目经理”,接到用户的问题(比如“敲除某个基因后酵母能不能在高温下存活?”),会自动判断该调用哪个模块,甚至组合多个模块的计算结果,给出综合预测。


虚拟酵母AI智能体的概念路线图


为了保证预测不“胡编乱造”,系统还加了三重约束:一是知识图谱把关,所有推理都要符合已知的基因、通路、细胞器之间的因果关系;二是物理规则约束,比如代谢反应必须符合化学计量平衡,动力学符合已知酶学规律;三是强化学习反馈,用真实实验结果当“奖励信号”,让模型越算越准。


虚拟酵母代理各功能模块的架构框架


三个数据支柱撑起虚拟酵母的“地基”


要让AI真的懂细胞,光有算法不够,还得有高质量的数据。文章中明确提出构建虚拟酵母需要三个核心数据支柱:


第一是先验生物学知识。几十年来积累的酵母数据库就是最好的养料:酵母基因组数据库SGD的基因注释、YMDB的代谢物信息、YeastNet的蛋白互作网络、涵盖近100万对遗传互作的全局互作图谱……这些经过实验验证的知识会被整理成结构化知识图谱,给AI当“教科书”。


第二是亚细胞空间架构数据。过去我们测组学,往往得到的是整个细胞的平均结果,不知道分子到底在哪个细胞器里干活。现在有了空间组学、膨胀显微镜、冷冻电镜断层扫描这些技术,我们能知道mRNA在细胞核里的定位、蛋白在应激颗粒里的分布、线粒体嵴的精细结构。这些数据能给AI建立“空间感”——毕竟很多细胞反应,位置错了,功能就错了。


第三是动态状态数据。细胞不是静态的,敲除一个基因、加一种药物、升一度温度,它的状态都会随时间变化。团队已经启动了第一阶段的数据采集:用969个天然酵母菌株,在碳氮源变化、温度波动、化学胁迫等不同条件下,做了超过1.5万份时间分辨率的蛋白组检测,配套5000多份代谢组数据和生长曲线。更重要的是,他们用了“主动学习”策略:AI先根据现有数据预测哪些扰动条件最“信息量最大”,再指导实验优先做这些,形成“模型预测→实验验证→数据反哺模型”的闭环。


闭环主动学习推动虚拟酵母模型的迭代优化


从代谢模块开始,虚拟酵母已经在落地


文章中专门举了代谢模块的案例,展示这个框架的实际能力。传统的基因组尺度代谢模型(GEM)虽然能预测生长表型,但很难精准算出细胞内代谢物的浓度变化。而虚拟酵母的代谢模块把AI和GEM结合起来:用Evo2编码基因组特征,用Uni-Mol编码小分子特征,用深度学习模型学习蛋白丰度和代谢物浓度的关系,再用GEM的反应规则做约束,既能预测代谢流的变化,也能定量估算代谢物水平。


目前这个模块已经在优化代谢物生产的场景里展现潜力:比如预测敲除哪些基因能提高某种工业用氨基酸的产量,比传统机器学习模型的准确率更高。按照规划,未来5-10年,这个项目会逐步完成:第一阶段先打磨好代谢模块,建立基准测试集;第二阶段整合2-3个细胞器的功能模块;第三阶段实现八个模块的完全整合,形成真正的全细胞AI智能体。


不止是酵母:虚拟细胞的通用蓝图


当然,研究团队也坦言:虚拟酵母不会是完美的“数字孪生”,不需要也不可能把细胞里的每一个分子都精确模拟。它的核心价值,是提供一套可落地的框架:从功能出发拆分模块、用多模态数据训练、靠实验闭环迭代、兼顾预测能力和可解释性。


更重要的是,这套思路不只适用于酵母。未来还可以用类似的方法构建人类细胞的虚拟模型,用来模拟疾病发生过程、筛选药物靶点、设计个性化治疗方案。从酵母到人类,从基础研究到生物制造,这个小小的虚拟酵母,可能正是打开“数字生物学”大门的第一把钥匙。


原文链接:


https://www.nature.com/articles/s41586-026-10574-9

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP