上学和近视到底什么关系?“基因黑客”拯救绝望的流行病学家
2020-03-04 17:00

上学和近视到底什么关系?“基因黑客”拯救绝望的流行病学家

本文来自公众号:Nature自然科研(ID:Nature-Research),作者:David Adam


孟德尔随机化分析法提供了一种从相关性中分辨因果关系的简单方法。但科学家是否在过度使用它?


1812年,英国眼科医生James Ware向伦敦的英国皇家学会会员讲述了一个奇特的发现。在被招募到英军团的成千上万的年轻人中,20年来只有6人因视力不佳被拒之门外。但却有多达四分之一的同龄学生在前往英国牛津大学求学时,都依赖手持放大镜或眼镜1


插图:Acapulco工作室


Ware没有得出任何关于因果关系的结论:比如长时间看书可能会导致视力下降,或者带眼镜的人天然地会被学术追求所吸引。这也无妨。长期以来,环境暴露与健康相关的观测结果一直让流行病学家感到挫败。近视就是一个典型的例子。数十年的研究表明,在学校待的时间最长的孩子,视力最差。但这些数据并未揭示是否是学校教育使孩子近视,还是近视的孩子在学校待了更长时间。亦或是其他因素,例如社会经济地位,推动了两者的发展。


流行病学家饱受这个逻辑上的死胡同的困扰,本世纪初,其中一些人开始提出,他们的工作可以到此为止了。他们认为,遗传学的进步可以更有效地解答上述问题。


他们对了一半。二十年来,遗传学已经改变了人们从相关性中理清因果关系的方式,这促进了流行病学的发展,而不是埋葬它。事实证明,可以通过加入遗传差异作为环境暴露的代用项,帮助消除分析中的混杂变量。这项技术被称为孟德尔随机化分析法。


科学家们用它来重新评估观测得到的数据,并就长期存在的因果关系问题得出全新的、更可靠的结论。例如,分析证明,低胆固醇水平不会引起癌症2,少量饮酒不能保护心脏3,上学确实可以让孩子们近视——你没看错4


阿姆斯特丹自由大学的社会科学遗传学家Philipp Koellinger说:“从原理上来说,孟德尔随机化分析法是一个非常非常酷的想法。它尝试去解决流行病学中最艰巨的挑战之一。”


蓄势待发


英国布里斯托大学的临床流行病学家George Davey Smith曾帮助开创了这项技术。他说:“这项技术之所以出现,是因为我们绝望了,转而去寻找流行病学中获得更好的因果推断的方法。”但是,他说,也有一个缺点。“问题在于,使用这种方法变得非常简单。”


他一直在敦促同事们不要被孟德尔随机化分析法冲昏头脑。这是一种强大的工具,但必须适当使用。随着基因数据的积累,没有达到科学标准的孟德尔随机化研究一窝蜂地出现了。一些依赖于误导性的数据,另一些则未能充分检验孟德尔随机化所依赖的假设。本领域的很多人说,是时候该收紧了。


Davey Smith是曾提出流行病学可能已经走到了尽头的科学家之一。他和一位合著者在《国际流行病学杂志》的一篇社论中指出,在随机对照试验中对干预项进行检验时,关于环境暴露可能有害或有益的观测数据会反复失效5


这篇文章发表几年之后,万众瞩目的SELECT试验——耗资1亿美元——失败了,这一点因此而变得清晰醒目。试验发现,服用硒补充剂不能预防前列腺癌——尽管有大量的流行病学证据暗示可以6


Davey Smith说:“这一切都相当令人沮丧,流行病学的声誉遭到质疑。”研究人员早在1986年就指出7,遗传学可以改进相关解读。但随着全基因组关联研究(GWAS,将遗传变异与特定性状联系起来)的发展,该方法才获得了动力。2018年,Davey Smith借助孟德尔随机化法,去重新研究硒与前列腺癌的关系。


研究人员使用成千上万的男性的基因型数据,发现了差不多十二种与血液中天然较高的硒水平相关的基因变体8。从出生开始,这些人就好像在服用补硒剂一样。之后,科学家们可以比较具有这些变异的人与没有这些变异的对照组的前列腺癌的发生率。


因此,研究人员可以更直接地聚焦于硒水平,并避免可能会同时影响硒水平和癌症风险的一些生活方式因素的影响,例如健康的饮食。而且,由于具有较高或较低硒水平的倾向在DNA中是固定的,这个分析受到逆因果(早期前列腺癌可能影响硒水平)的可能性的影响减小了。


与SELECT试验的结果一样6,分析发现,硒没有产生什么好处8


充足的数据


Davey Smith认为,这样的结果可以为是否启动全面临床试验的决定提供依据。孟德尔随机化分析法可以检验那些进行试验可能不合伦理或者不现实的假设。


原则上,只要可以找到遗传变异,就可以进行孟德尔随机化分析,从而去自然地模仿环境暴露的影响。每年都会发现更多——尤其是当世界各地数百万人报名参加他们的基因组分析和健康追踪时。这给予了遗传学家统计学上的证据,去识别从酒精摄入到胆固醇水平等一切事物的遗传学上的关联。


现在,流行病学家和其他研究者正在为这些发现,进行更多的孟德尔随机检验。来自Scopus和Web of Science的数据显示,到2010年,每年针对该主题发表的论文不到100篇,2015年增长到约200篇。2019年,到目前已有500多篇论文使用或讨论了该方法。


科研人员已经借助它,解决了大量通常与生活中的许多变量混淆的问题。研究已经帮助更明确地表明了,饮酒会增加患癌的风险9,但是低胆固醇并不会2,尽管有一些相反的看法。



为了举例说明孟德尔随机化分析如何发挥作用,许多科研人员指向了近视,一个迅速发展的公共卫生问题。一直以来,要通过随机对照试验来检验上学与近视的关联都是不可能的,因为故意让一些孩子失学是不合伦理的。


2016年遗传学家发布了来自两个独立的GWAS的数据之后,一个使用孟德尔随机化分析的机会出现了:一个寻找与教育程度相关的遗传特征10;另一个寻找与近视相关的基因11。这项工作研究了成千上万人,并发现了几十个与近视和上学年限强相关的基因变体。


第二年,流行病学家利用这些变异,研究了最大的人口数据集之一——488,000名参加UK Biobank项目的中老年人。志愿者让研究人员分析了他们的基因组,并回答几十个个人细节问题,包括他们的受教育程度和视力。当英国卡迪夫大学和布里斯托大学的研究人员使用孟德尔随机化方法分析数据时,他们发现,基因上有近视倾向对人们在学校待多少年没有影响。然而,那些携带与受教育程度相关的基因的人,近视的可能性要大得多4


领导该项目的布里斯托的眼科医生Denize Atan说,无论是通过阅读时间、较暗的自然光还是其他因素,在学校花费的时间都会明显影响视力。她说,这种关联非常密切,政策制定者和学校应该做更多的工作来解决这个问题。


公开的秘密


批评者认为,问题在于,并非所有孟德尔随机化研究都是可靠合理的。Atan说:“在研究开始之前,你需要有一个有力的假设和一些支持性的证据。而越来越多的研究并没有这些。”“你会想,‘他们的那些想法从哪儿而来?’看起来好像就是凭空出现的。”她补充道,这是一个大问题,因为孟德尔随机化分析法允许科研人员在不具备任何相关领域专业知识的前提下,去寻找、发现和公布不熟悉的数据集之间的关联。


正如荷兰鹿特丹伊拉斯姆斯大学医学中心的流行病学家Sonja Swanson所说的:“只需按一下按钮,说‘这个数字可以回答我的问题’,不用费很多功夫。”


几位流行病学家表示,很多公开发表的孟德尔随机化研究是有问题的,这在领域内是公开的秘密。“发表论文非常容易,”Davey Smith说,“一些非常差的论文是由一些不了解流行病学原理的人发表的。”2016年,一项孟德尔随机化研究声称发现血液中高水平的C反应蛋白(一种与炎症相关的肝酶)导致了精神分裂症。


研究提出,能够降低血液中酶水平的药物可能有助于治疗精神分裂症患者12。Davey Smith课题组和另一个课题组进行了类似的分析,发现实际上C反应蛋白对精神分裂症具有保护作用13。Davey Smith和他的合著者认为,原来的课题组在如何组合基因数据集方面存在问题。最终,这篇2016年的论文被撤回。


流行病学家还批评了另一项孟德尔随机化分析14,该分析声称,怀孕期间吸烟会导致婴儿的出生体重明显下降15,并大大增加后代发生唇腭裂的风险16


他们说,问题在于,作为吸烟行为替代变量的基因变体,是通过候选基因研究确定的。在候选基因研究中,科研人员评估了他们推测与吸烟等行为有关的一些基因。这样的研究结果可能不可靠,因为他们倾向于在被检查的基因中有意寻找某些作用。作者在他们的孟德尔随机化分析中使用的那些变异,在规模更大、更全面的GWAS中并没有出现。


爱荷华大学的健康政策研究员George Wehby领导了上述吸烟项目,他说该项工作是在获得了更好的数据之前完成的,“考虑到来自大规模GWAS的吸烟遗传学的最新成果,我同意这些基因变体不是首选。”


(安徽合肥)年轻的学生们正在做眼保健操,希望能预防近视。图片来源:SIPA Asia / ZUMA Wire / Alamy


违反常识


对于经济学家来说,孟德尔随机化分析法看起来很像工具变量分析:使用一种被称为工具的变量,来帮助消除两个其他观察值之间隐藏的关系。Koellinger说:“当我们看到流行病学家使用基因作为工具变量时,我们都很好奇,并说‘等一下!’”。此类分析建立在有待仔细检查的假设之上。


孟德尔随机化分析的一个中心假设是,遗传变异不能以任何其他方式影响结果。例如,有一种基因变体编码乙醛脱氢酶2(ALDH2),扰乱酒精的代谢。携带这种基因变体的人饮酒时往往会感到恶心,因此这种变体与低饮酒量相关。这可能看起来是一种可行的方法去检验,比如说,饮酒是否会提高血压,因为携带该基因变体的人通常比不携带该变体的人饮酒少。


问题在于,ALDH2也影响一个人吸烟的可能性17,而吸烟也独立地影响血压。这种现象被称为基因多效性,会使孟德尔随机化分析的结果无效。这就会带来问题,因为许多基因的多效性程度并未被完全认识到。


另一个假设是,一个指定的基因变体具有很强的作用。随着规模更大更强的GWAS挖掘出不同性状之间较弱的遗传联系,这一假设变得更加难以检验。


荷兰的流行病学家在2015年发表了一篇综述,对178篇已发表的孟德尔随机化分析进行了研究,发现只有不到一半的文章充分讨论了这些假设18。研究人员认为:“由于这些假设对于孟德尔随机化研究的有效性至关重要,应始终在研究的特定背景下进行讨论。”18


孟德尔随机化分析也受到一个显著的偏差的影响——一个关乎生死的问题。人只能死一次。这个问题会使诸如中风所致死亡的分析复杂化。这种死亡往往发生在老年人中,因此,对中风的研究通常会招募那些已经从影响较年轻的人的疾病(例如心脏病)中幸存下来的人。由于中风和心脏病具有共同的病因,例如高胆固醇(因此也有共同的疗法,包括他汀类药物),这种幸存者偏差可能会产生一些误导性的结果。


为了证明这种偏差造成的影响,纽约城市大学的公共卫生流行病学家Mary Schooling进行了孟德尔随机化分析试验。在这些试验中,与降低胆固醇有关的基因变体用于替代他汀类药物的使用。具有这种有益遗传特征的人,在其生命早期很少心脏病发作,并能够活到中风风险增加的年纪。因此,研究得出结论,降低胆固醇的他汀类药物实际上会引起中风19


Schooling说:“那没有任何意义。”正确的随机对照试验不会以这种方式产生混淆:它们显示他汀类药物可以预防中风。但是孟德尔随机化分析显示出一种幸存者偏差,这是必须被识别出来并予以纠正的。


战胜偏差


“每一种方法都可能有偏差。”Davey Smith说。孟德尔随机化分析并不是为了取代随机对照试验,而是为了与其他资料(包括观察性研究)一起,增加可用的证据,从而帮助做出合理的决定。现在,科研人员正在寻找改善的方法。


一种方法是识别和纠正一些偏差,并应用统计工具来检验假设的强度。Davey Smith指出了一些可以帮助科研人员评估孟德尔随机化分析研究质量的论文20


改进数据组织也会有所帮助。无偏分析假设基因是随机分布的,但已知某些基因呈区域性聚集21。基因型数据集已经可以通过大家族进行分组,并且这些数据的孟德尔随机化分析发现,例如,身高和体重指数可能不会像以前研究认为的那样影响教育程度22


通过比较家族内和群体内的研究结果,遗传学家可以帮助区分对于一个给定的性状,遗传和环境所起的作用。“特定的基因与当地环境特定的特征相关。如果你想用基因来进行因果推断,需要打破这种联系。”Koellinger说。


如果科研人员想要利用不断增长的遗传信息,提出公共卫生建议和政策建议,这种准确性非常重要。但是,即使是这些工具,也需要改进和补充。


200年前 Ware对学生和士兵视力的观察,如今从当时没有人能想到的遗传视角得到了解释。讽刺的是,英国军队又花了一个世纪才接受了需要戴眼镜的新兵,并改变了他们认为合格的视力标准。即使是在第一次世界大战期间,一些权威人士也认为,只要英国士兵能够“朝正确的方向开火”,即使他看不清楚自己在向什么射击也没关系23


用于流行病学的统计工具正在不断完善。尽管孟德尔随机化分析法并不总能提供完美清晰的结果,但它至少有望为科研人员指明正确的方向。


参考文献:

1.Ware, J. Phil. Trans. R. Soc. London103, 31–50 (1813).

2.Benn, M., Tybjærg-Hansen, A., Stender, S., Frikke-Schmidt, R. & Nordestgaard, B. G. J. Natl Cancer Inst.103, 508–519 (2011).

3.Millwood, I. Y. et al.Lancet393, 1831–1842 (2019).

4.Mountjoy, E. et al.Br. Med. J.361, k2022 (2018).

5.Davey Smith, G. & Ebrahim, S. Int. J. Epidemiol.30, 1–11 (2001).

6.Lippman, S. M. et al.J. Am. Med. Assoc.301, 39–51 (2009).

7.Katan, M. B. Lancet327, 507–508 (1986).

8.Yarmolinsky, J. et al.J. Natl Cancer Inst.110, 1035–1038 (2018).

9.Pierce, B. L., Kraft, P. & Zhang, C. Curr. Epidemiol. Rep.5, 184–196 (2018).

10.Okbay, A. et al.Nature533, 539–542 (2016).

11.Pickrell, J. K. et al.Nature Genet.48, 709–717 (2016).

12.Inoshita, M. et al.Sci. Rep.6, 26105 (2016).

13.Hartwig, F. P., Davies, N. M., Hemani, G. & Davey Smith, G. Int. J. Epidemiol.45, 1717–1726 (2017).

14.Taylor, A. E. et al.Econ. Hum. Biol.13, 99–106 (2014).

15.Wehby, G. L. et al.Biodemography Soc. Biol.57, 3–32 (2011).

16.Wehby, G. L. et al.Health Serv. Outcomes Res. Methodol.11, 54–78 (2011).

17.Masaoka, H. et al.Drug Alcohol Depend.173, 85–91 (2017).

18.Boef, A. C. G., Dekkers, O. M. & le Cessie, S. Int. J. Epidemiol.44, 496–511 (2015).

19.Schooling C. M. et al. Preprint at bioRxiv https://doi.org/10.1101/716621 (2019).

20.Davies, N. M., Holmes, M. V. & Davey Smith, G. Br. Med. J.362, K601 (2018).

21.Abdellaoui, A. et al.Nature Hum. Behav. https://doi.org/10.1038/s41562-019-0757-5 (2019).

22.Brumpton, B. et al. Preprint at BioRxiv https://doi.org/10.1101/602516 (2019).

23.Cubitt, B. B. Br. J. Ophthalmol.2, 35–40 (1918).


原文以The gene-based hack that is revolutionizing epidemiology为标题发表在2019年12月10日的《自然》新闻特写上

© nature

Nature|doi:10.1038/d41586-019-03754-3


本文来自公众号:Nature自然科研(ID:Nature-Research),作者:David Adam

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP