是时候用深度学习寻找肺炎病毒宿主了
2020-01-30 15:00

是时候用深度学习寻找肺炎病毒宿主了

本文转自微信公众号“机器之能”


武汉新型冠状病毒肺炎的疫情仍在不断扩散。截至2020年1月30日7时,确诊病例达到7201例,确诊病例数已经超过2003年非典。随着确诊人数的增多,需要尽快确定可能感染武汉2019年新型冠状病毒(2019-nCoV)的潜在宿主与中间宿主,切断病毒传播链。


而近期一篇研究论文指出,基于深度学习的病毒宿主预测方法,检测出蝙蝠和水貂可能是新型冠状病毒的两个潜在宿主,其中水貂可能为中间宿主。


这种方式区别于其他传统检测方法,可视为AI技术在病毒检测中的重大突破。


近期一篇研究论文指出,基于深度学习的病毒宿主预测方法,检测出蝙蝠和水貂可能是新型冠状病毒的两个潜在宿主,其中水貂可能为中间宿主。这种方式区别于其他传统检测方法,可视为AI技术在病毒检测中的重大突破。


北京大学工学院教授朱怀球团队一篇题为《深度学习算法预测新型冠状病毒的宿主和感染性》的研究发于1月25日表于bioRxiv预印版平台。


该研究提出一种基于深度学习的病毒宿主预测方法,用于检测以DNA序列为输入的病毒能感染哪种宿主,并将其应用于武汉2019年新型冠状病毒(2019-nCoV)。


为了构建病毒宿主预测VHP模型,朱怀球团队使用了双路卷积神经网络(BiPathCNN),其中每个病毒序列分别由其碱基和密码子的一个热矩阵表示。


所谓双路卷积神经网络(BiPathCNN),即针对相同构造的卷积神经网络输入同样的数据集也会提取到不同特征的情况,为利用该差异挖掘图像的深层特征,提出一种双路卷积神经网络模型的图像分类算法。


考虑到输入序列长度的差异,该研究分别建立了两个BiPathCNN(BiPathCNN-A和BiPathCNN-B),分别用于预测100bp到400bp和400bp到800bp的病毒序列宿主。


北京大学工学院副院长朱怀球教授


朱怀球团队将病毒的宿主分为五类,包括植物、细菌、无脊椎动物、脊椎动物和人类


在病毒序列的实际应用中,通过输入病毒核苷酸序列,VHP将输出每种宿主类型,分别反映每种宿主类型内的感染性。


研究推测,与感染其他脊椎动物的冠状病毒相比,蝙蝠冠状病毒与新型冠状病毒具有更相似的感染模式。此外,通过比较所有宿主在脊椎动物上的病毒传染模式,发现水貂病毒的传染性模式更接近新型冠状病毒


研究表明,新型冠状病毒的6个基因组都极有可能感染人类。预测结果提示,新型冠状病毒具有与严重急性呼吸综合征冠状病毒(SARS-CoV)、蝙蝠SARS样冠状病毒(Bat SARS-like CoV)和中东呼吸综合征冠状病毒(MERS-CoV)一样强大的病毒感染力。


对此,基于AI技术的深度学习推测病毒宿的方法其实近年来已经有所应用,可以减少病毒检测过程中的重复工作,或可视为AI在对抗疫情的重要突破。 


2018年11月,英国格拉斯哥大学研究团队发布了一项最新人工智能研究报告:科学家借助全新的机器学习算法,可以从基因层面预测埃博拉和寨卡等病毒的天然宿主,从而采取措施预防这些病毒传播到人类身上。


当然,人类对疾病的认知程度相当有限,由于病毒与疾病种类的复杂程度,现阶段还很难用人工智能完全替代。但大部分情况下,AI在处理复杂数据过程中占据优势,得出的结论无法得到完全保证,最后的诊断与判定最终仍需要人来确认。


以下为北京大学工学院教授朱怀球团队发表论文的主要内容 


报告名称:深度学习算法预测新型冠状病毒的宿主和感染性


报告版本:报告于1月25日发表至医学研究论文预印本发布平台 medRxiv


研究发现:


研究推测,与感染其他脊椎动物的冠状病毒相比,蝙蝠冠状病毒与新型冠状病毒具有更相似的感染模式。此外,通过比较所有宿主在脊椎动物上的病毒传染模式,发现水貂病毒的传染性模式更接近新型冠状病毒。


研究表明,新型冠状病毒的6个基因组都极有可能感染人类。预测结果提示,新型冠状病毒具有与严重急性呼吸综合征冠状病毒(SARS-CoV)、蝙蝠SARS样冠状病毒(Bat SARS-like CoV)和中东呼吸综合征冠状病毒(MERS-CoV)一样强大的病毒感染力。


研究方法: 


研究使用基于深度学习算法开发的VHP(Virushost prediction,病毒宿主预测)方法报告了2019-nCoV宿主的预测结果。


2018年之前发布的病毒序列数据用于构建训练集,而2018年之后发布的则用于测试。用于训练和测试的数据集包括所有DNA病毒的基因组、所有RNA病毒的编码序列及其在GenBank中的宿主信息。在VHP对2019-nCoV的预测结果中,数值反映了新病毒的感染性,得分模式和p值模式反映了新病毒的感染性模式。 


随着全基因组序列的在线发布,朱怀球团队预测了2019-nCoV的潜在宿主,以及NCBI refseq中的其他44种冠状病毒和GenBank中的4种蝙蝠SARS样冠状病毒。结果表明,2019年nCoV的6个基因组均具有很高的感染人类的可能性(p值<0.05)。



除此之外,大多数报告的人类感染性冠状病毒的p值均为VHP法预测的最低值。2019-nCoV和其他人类冠状病毒的相似概率说明了2019-nCoV的高风险。 


VHP方法以及算法的验证:


为了构建VHP模型,朱怀球团队使用了双路卷积神经网络(BiPathCNN),其中每个病毒序列分别由其碱基和密码子的一个热矩阵表示。


考虑到输入序列长度的差异,分别建立了两个BiPathCNN(BiPathCNN-A和BiPathCNN-B)用于预测100bp到400bp和400bp到800bp的病毒序列宿主。


用于训练和测试的数据集包括所有DNA病毒的基因组、所有RNA病毒的编码序列及其在GenBank中的宿主信息。为了开发新病毒潜在宿主类型预测的方法专家,使用2018年之前发布的病毒序列数据构建训练集,而使用2018年之后发布的病毒序列数据进行测试。


将病毒的宿主分为五类,包括植物、细菌、无脊椎动物、脊椎动物和人类



上图详细列出了这五种类型中包含的宿主子类型。在病毒序列的实际应用中,通过输入病毒核苷酸序列,VHP将输出每种宿主类型,分别反映每种宿主类型内的感染性。此外,VHP提供了5个p值,用于统计感染与非感染事件的区别。


为了评估VHP的性能,朱怀球团队比较了blast和VHP的AUC(曲线下面积)。比较结果表明,VHP的平均AUC较高(见下图)。




本报告中预测了2019年nCoV感染人类的可能性,并暗示了2019年nCoV的风险。


报告也显示,VHP模型可以在公共卫生服务中发挥重要作用,为预防可能感染人类的新型病毒提供强有力的帮助,从而提供可靠的预测宿主和感染人类的潜力。 

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP