重复的基因:你我都是复读机
2021-01-28 15:32

重复的基因:你我都是复读机

人类的本质是复读机?从基因上看确实如此。不仅每个人体内都有过半的重复DNA序列,而且每个人重复的方式还都不一样。重复多了,还可能得病。


本文来自微信公众号:十点科学(ID:Science_10),作者:刘天同(清华大学医学院),编辑:陈天真,责编:高佩雯,头图来自:视觉中国


只要在网上冲浪够久,你总会遭遇灵魂一问:人类的本质到底是鸽子、柠檬、真香,还是复读机?


有意思的是,这个问题有答案——从分子生物学上讲,我们是复读机。


在人类基因组中,有一种“自私的垃圾”DNA,它们包含大量类似 GAGAGAGAGA 这样的重复序列,甚至可以占据基因组的一半以上。


而它们却不编码蛋白质。


所以如此聒噪、狂刷存在感,是要干啥?今天我们要讲的就是这些“垃圾”DNA,看它是真垃圾,还是假垃圾。 


从分子生物学上看,我们是复读机。


生物越复杂,DNA未必越多


常见的生物都有基因组,它是生物体中包含的DNA(部分病毒是RNA)中全部遗传信息的总和。


我们或许直觉地认为,物种越复杂,其基因组中包含的 DNA 就越多。比如,作为万物灵长的人类,我们每一个细胞中所含的 DNA 一定超过很多简单的生物,才能编码如此丰富的信息。


但人们很快发现,事实并非如此:对不同物种,个体细胞中所含的 DNA 的量不仅差异巨大,而且与决定生物复杂性的基因数量似乎并无多少关系。


*基因,是指有遗传效应的DNA或RNA片段,其数量越多,生物功能越复杂。


比如,蝾螈基因组的大小是人类的几十倍,基因数量却并不比人多,也明显不如人类复杂。只会吃饭睡觉挠沙发的猫猫,基因组几乎跟人类一样大。


蝾螈的基因组比你大几十倍。|University News


于是我们不禁纳闷,那些多出来的DNA,是用来当摆设的吗?


1970年前后,科学家们发现,基因组上有一些 DNA 并不转录出 RNA(一般而言,蛋白质都是由RNA翻译,被称为“中心法则”),从而也不直接参与蛋白质的合成,它们叫非编码 DNA。对不同物种,非编码DNA在基因组中所占比例有所差别,有时甚至占到九成以上。


中心法则示意图:基于DNA和RNA的生命遗传信息的流动方向或传递规律


既然不编码蛋白质,那非编码DNA有什么用呢?难道是自然造物的时候走神啦?


基因组里的噪音:阿巴阿巴阿巴……


1980年,四位科学家在《自然》上发表文章,认为DNA可以分为两种:特异性的和非特异性的。前者负责蛋白质合成,在细胞里勤勤恳恳地工作,但只占一小部分。后者则有三个特点:


其一,基因组里的大部分 DNA 都是此类;其二,它们通过已有的 DNA 拷贝扩展而来;其三,也是最重要的,无用!


他们认为,非编码 DNA 并没有明显的正面或负面作用,不过是DNA复制过程中不得不产生的副产物。它们如此堂而皇之地赖在细胞中,不干活还占地方,只是因为比较“自私”。


不编码蛋白质的DNA就是自私的垃圾吗?另一些科学家对此表示怀疑。


一些证据显示,这些“自私的DNA”并非完全无用。比如在一些物种中,基因组的大小跟细胞周期和世代时间(生物从一次繁殖结束到下一次繁殖结束的时间间隔)有关。所以,或许我们不应该急着将这些冗余 DNA 扔进垃圾桶。


40多年后的今天,全基因组测序越来越便宜,也越来越普遍了,我们对人类基因组的认识早已今非昔比。科学家发现,人类基因组里除了与编码蛋白质有关的特异性 DNA 序列之外,还有相当一部分重复DNA序列——正是它们决定了人类的“复读机”本质。


基因测序结果表明,在同一人类个体的基因组中,这些序列有的重复几次,有的重复成千上万次;其中既有长达1000~200000个碱基对的片段重复,也包括短的简单序列重复;重复的基本单位有时只有一个碱基(比如AAAAAAAAAA),有时包含几个碱基(比如CACACACACAC和CAGCAGCAGCAG)。它们加起来甚至可以占到人类基因组的一半以上!


人类的基因组包含特异性序列和重复序列。重复序列甚至可以占到人类基因组的一半以上。|来源:Molecular biology of the cell


人类基因组中为何存在如此多的重复DNA序列?这种“复读机”本质对我们有哪些影响呢?


你我都是独特的复读机


科学家逐渐了解到,那些曾被认为是垃圾、自私且毫无用处的重复DNA序列,对基因表达和决定生物性状至关重要。


*基因表达,指基因通过指导蛋白质合成,将自己表现出来。


以简单序列重复(简称STR)为例,虽然它们只占人类全基因组的3%,但分布极为广泛。据估计,有超过10万个STR位点遍布基因组的各个角落。它们既可以直接出现在编码序列中,直接影响DNA的翻译产物蛋白质,又可以处于调控序列中,间接影响基因表达。


有趣的是,STR 虽然是看似冗余的重复序列, 在每个人体内的重复方式却并不一样。即使是同一STR位点,在不同个体中,其基本单位的重复次数也有较大差异。这就像是,我们的基因组虽然都有着复读机的本质,但每个人的复读方式却又独一无二。


同一STR位点,在不同个体中,其基本单位的重复次数也有较大差异。|ScienceDirect


实验证实,STR 与人体的数十种疾病有关,且主要为神经肌肉性疾病,比如舞蹈征、肯尼迪病、肌萎缩侧索硬化等。其中与舞蹈征有关的 STR 位点位于一个特定基因中,如果它的基本单位的重复次数小于30次,患者就不发病;重复次数越多,则发病年龄越小,症状越严重。


2021年1月13日,《自然》上发表的一项新研究还发现,STR的突变与自闭症有关。研究人员分析了1637 个家庭的全基因组数据,结果发现,罹患自闭症的儿童,他们基因组上的STR突变数量明显比未患病的兄弟姐妹高出一截。而且与导致舞蹈征的STR突变不同,这些导致自闭症的STR突变并不局限于一个特定的基因,而是与很多基因都相关。


自闭症与肥胖类似,和遗传因素有很大关系,并且难以确定到底是哪些基因在捣鬼,更别说找出什么具体的突变。而STR突变的加入,为解释自闭症的遗传根源增加了一个新维度。


除了研究疾病,STR 序列还因为具有如指纹般的独特性,在现实生活中有广泛应用。比如身份认定、亲子鉴定、产前检查等。


2008年,美国洛杉矶的警察就曾通过比对嫌疑人和凶手的STR序列,追踪到二十多年前一桩连环强奸杀人案的真凶。美国 FBI 则建立数据库,在国家范围内收集罪犯或失踪人员的 STR 序列信息,以提高破案率。


眼下,基因测序已经非常普及,要把每个人的基因组测个明明白白,并非难事。不过,就像猴子可以打出一串字母,但并不知晓意思一样,我们也远未明白这些 DNA 序列的含义。它们与RNA、蛋白质如何相互作用,又如何影响我们的生命特征,许多未知问题仍有待严谨的生物医学探索。


但,关于重复序列的价值讨论早已没有疑义:我们是复读机,但不是垃圾。


鲁迅:我没说过这句话。


注:以上关于复读机的比喻仅为文字戏谑,并非科学上的比喻,各位读者请勿当真。


参考资料

[1] Molecular biology of the cell, 6th

[2] https://www.nature.com/articles/s41586-020-03078-7

[3] https://www.nature.com/articles/284601a0

[4] https://genome.cshlp.org/content/24/11/1894.full.html

[5] https://www.nature.com/articles/285617a0

[6] https://academic.oup.com/emph/article/2019/1/17/5303511


本文来自微信公众号:十点科学(ID:Science_10),作者:刘天同(清华大学医学院),编辑:陈天真,责编:高佩雯

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP