本文来自微信公众号: 生物世界 ,编辑:王多鱼,作者:生物世界,原文标题:《生物学的编程语言来了——Proto,让科学家像写代码一样设计生命》
多年来,生物学研究一直依赖于通过试错或筛选成千上万的候选物来组装天然组分,直到找到有效方案。尽管用于蛋白质设计、RNA工程和基因调控的强大的AI模型有望加速这一过程,但这些模型仍各自封闭在计算领域中,许多实验生物学家难以触及。
而现在,生物学大模型Evo和Evo2的开发者、斯坦福大学/Arc研究所的Brian Hie推出了一种用于生成式生物学的高级编程语言——Proto,这是一个整合多种AI工具的框架,旨在实现复杂且多模态的生物学设计。

该研究推出了一种面向生成式生物学的高级编程语言——Proto,其能够跨多模态和尺度(涵盖DNA、RNA、蛋白质、配体及其相互作用)编码生成式设计任务。Proto可直接将预测模型整合到生成式工作流中,研究团队利用这一点在人类细胞系中设计并实验验证了可变剪接的内含子。Proto原生支持多目标优化,能够设计出在合成蛋白-DNA设计中实验成功率领先的启动子-阻遏物对。结合AI智能体,Proto还可通过自然语言指令实现复杂通路与调控逻辑的定义。
此外,研究团队开源发布了Proto,包括其软件基础设施和用户界面,以促进生成式生物学编程的广泛使用。
为什么我们需要一门生物学编程语言?
传统的生物工程设计,有点像“考古”:研究人员从自然界已有的天然生物组件中挑选、组合,然后通过“构建-测试-学习”循环,不断迭代探索,验证效果,整个过程既耗时又昂贵,而且很大程度上依赖经验和运气。
近年来,生成式AI模型的出现大大改善了这种情况。但问题是,现有的方法非常“碎片化”——有的模型擅长设计蛋白质,有的模型擅长设计DNA,有的只能做预测分析。想把它们组合起来解决复杂问题?那简直是一场噩梦。
正是这种困境,催生了——Proto。
Proto是什么?
Proto的核心思想其实很简单:它把复杂的生物设计任务抽象成四个基本“原语”(Primitive)——
1、序列(Sequence):这是最基础的单元,代表一段DNA、RNA或蛋白质字符串。就像编程中的变量。
2、约束(Constraint):这是一个评分函数,用来判断某段序列是否“好”。比如,它可以是一个简单的统计指标(例如GC含量),也可以是AlphaFold这样的神经网络预测器,分数越低越好。
3、生成器(Generator):负责提出候选序列。可以是大型语言模型(例如Evo2)、扩散模型,甚至只是随机采样器。
4、优化器(Optimizer):通过迭代循环,不断改进生成的序列,使其满足约束条件,就像一个智能的“筛选+改进”引擎。
这四种组件可以像乐高积木一样自由组合,构建出从简单到极其复杂的设计程序。

Proto概述
理论之美:能量模型视角
Proto背后有一个优雅的数学框架。研究团队将整个设计过程建模为一个基于能量的模型:𝜋(𝑥)∝𝑝(𝑥)exp(−𝑓(𝑥)/𝑇),即目标分布正比于生成器先验×exp(-约束得分/温度)。

这个公式的意思是:我们既要保持生物序列的“合理性”(由生成器保证),又要追求功能的“优越性”(由约束保证)。温度参数则控制着两者之间的平衡。
更妙的是,多个约束可以简单地相加,形成“专家乘积”——这意味着你可以同时优化多个目标,比如既要蛋白质结构稳定,又要它能与特定DNA结合,还要它在特定细胞中表达。
实验验证:不只是纸上谈兵
Proto不仅仅是一个理论框架。研究团队用大量实验证明了它的实用性。
案例一:设计细胞特异性剪接的内含子
基因的表达不仅取决于转录,还取决于RNA的剪接方式。研究团队利用Proto设计了能在不同人类细胞系中实现差异化剪接的内含子序列。他们只测试了65个候选序列,就有32%表现出显著的目标方向差异剪接。相比之下,此前一项类似研究的成功率不到7%,而且测试了超过10万条序列。
其中一个名为PI-KS1的设计,在SH-SY5Y神经细胞中只有36%被剪接,而在K562白血病细胞中却有71%被剪接——实现了精准的细胞类型特异性调控。
案例二:协同设计启动子-阻遏蛋白对
更令人印象深刻的是,Proto还能跨模态协同设计——即同时设计DNA元件和与之相互作用的蛋白质。研究团队设计了全新的σ70启动子(称为ProtoPromoter),其中86个候选中有71个的活性超过了已知的强启动子PLtetO1。他们还针对这些启动子设计了对应的阻遏蛋白(称为ProtoRepressor),成功率达到46%。最强的设计之一——ProtoRepressor 44_9,对其目标启动子展现出2倍的抑制效果,而对非目标启动子几乎没有影响,展现了出色的特异性。
案例三:AI智能体驱动的复杂系统设计
Proto还集成了通用AI智能体。研究人员只需用自然语言描述需求,AI智能体就能自动编写Proto程序。
他们用这种方法完成了三个极具挑战性的任务:
蛋白质组规模的复合体多样化:设计了249个人类蛋白质复合体,涵盖797个基因,所有设计的结构预测都与天然结构高度一致(中位RMSD仅1.9埃);
完整信号通路的重设计:重新设计了β2-肾上腺素信号通路,涉及8种蛋白质、多种小分子配体和DNA元件;
癌症靶向治疗载体设计:设计了靶向非小细胞肺癌的多层调控系统,包括肿瘤特异性细胞进入、转录、剪接和翻译后调控。
工程挑战与开源贡献
Proto的开发并非易事。当前的生物学AI模型生态“各自为政”,每个工具都有自己的软件依赖、硬件要求和数据格式。Proto团队为此付出了巨大的工程努力,建立了一套标准化的基础设施,目前已支持超过120种工具。
目前,研究团队已将Proto完全开源,包括Python API、图形用户界面和云端执行环境。任何人都可以通过https://proto.evodesign.org/访问和使用。
Proto代表了生物设计领域的一次范式转变。正如高级编程语言Verilog和C语言推动了大规模集成电路和计算机程序的发展,Proto有望成为生物系统设计的“通用语言”。
当然,目前最大的瓶颈仍然是实验验证——再好的计算设计也需要在实验室中检验其实际功能。但随着测序技术、基因合成和细胞工程的进步,这个差距正在迅速缩小。
正如研究团队在论文中所写——随着生物学序列生成式模型、序列到功能预测模型以及基于大语言模型推理的AI智能体的不断改进,Proto所能设计的生物学功能在范围、规模和可靠性方面都将得到提升。随着Proto这类生成式生物编程技术的持续成熟,可以设想,未来的生物学设计将不再受限于天然可用的元件列表,而是受限于人类的创造力。
论文链接:
https://www.biorxiv.org/content/10.64898/2026.06.22.733870v1
