本文来自微信公众号: 一个生物狗的科普小园 ,作者:Y博的科普园
最近退学博士耿同学因举报多位杰青学术不端而引发广泛关注,数位学术明星陷入丑闻。在接受媒体采访时,耿同学提出可以通过重复实验来遏制学术造假。
其实学术不端,以及科研成果可重复性低,算不上新鲜事。而“让别人再重做一遍实验就能验明真伪”这个设想,在每次相关讨论里也反复出现。
但如果你真正了解科研流程,就会明白这里面牵涉三个不同的概念:学术不端(包括造假)、研究结论的准确性、以及研究成果的可重复性。这三者并不等价,搞清楚它们之间的关系,才能理解重复实验作为打假手段,存在显著的局限性。
首先,一个存在学术不端行为的科研人员,完全可能做出可重复的结果,并得出准确的结论。
遗传学奠基人孟德尔就是一个教科书级别的例子。他通过豌豆杂交实验,提出了遗传因子的分离定律和自由组合定律:前者指控制同一性状的遗传因子在传递给后代时会分别进入不同的配子;后者指不同性状的遗传因子在遗传时互相独立。
这两个发现的生物学本质分别是基因成对出现(指二倍体生物,比如豌豆,人类也是),形成配子时每个配子只获得其中一个;以及位于不同染色体上的基因,遗传时彼此独立。
孟德尔的结论无疑是准确的。但我们现在知道,一条染色体上不止有一个基因,同一染色体上的不同基因,遗传时并非互相独立。孟德尔怎么恰好只选中了不在同一条染色体上的基因?
实际上他是从海量的实验数据中,筛选了他认为“对”,而且“最好看”的数据发表。后世统计学家分析后认为,孟德尔的数据完美得“不合理”,历史学家倾向于认为这源于确认偏误——他下意识地筛选符合自己预期的实验结果,导致发表数据在统计上显得过于“完美”。
无论成因是否仅此而已,凭孟德尔选择性提供数据这一点,按当下科研标准,已属于学术不端,甚至可上升到造假。但他的结论不仅准确,还在此后不同物种、不同遗传学研究中被反复重复验证。
另一方面,一个实验无法被重复,或重复后得出不同结论,并不等于原来的研究者造假了。
还是遗传学里的案例。现在人人都知道人类有23对染色体,这也是基因测序公司“23andMe”和“23魔方”名字的由来。
但曾经有长达三十年的时间,学术界公认人类有48条(24对)染色体。1923年,美国动物学家、染色体研究先驱Painter在显微镜下观察人睾丸组织中的染色体,得出了24对的结论;此后数十年间,许多人重复了他的实验,结果也相同。直到1955年,科学家借助更先进的显微技术,才数清楚人类实际上只有23对染色体。
在这个例子里,Painter的实验起初能被重复,并不证明他的结论正确;后来人们发现重复不出他的结果,也并非因为他此前造假。技术条件本身的局限,才是问题的根源。在生物学研究中,不同实验室使用不同的细胞系、不同的动物模型,乃至操作细节上的细微差异,都能影响“可重复性”。
2011年,制药巨头安进的科学家发表了一项关于可重复性的重磅研究。他们选取了53篇影响巨大的癌症临床前研究论文(以细胞系和模型动物为对象的研究),尝试重复其结论,结果只有6篇能够复现。但这并不是说53篇中只有6篇是对的,其余47篇都是造假——能被安进复刻的6篇,也未必就完全正确。
回到耿同学所举报的几篇论文:有没有学术不端、是否存在数据造假,与研究结论是否成立、研究能否被重复,是相互独立的问题,不能混为一谈。
以同济大学通报的原生命科学与技术学院院长王平研究组发表于《自然》的论文为例。该论文发现HDAC6这个酶可以结合缬氨酸,而缬氨酸的数量影响了HDAC6在细胞内的分布,进而调控DNA损伤。由于DNA损伤与癌症高度相关,论文也因此提出了潜在的癌症治疗新方向。
该发现是否仍然成立,目前尚不清楚。而即便成立,能否据此发展出实际的治疗手段,又是另一个层面的问题——有很多因素会影响某个生物学机制能否转化为疗法,比如可能存在其他代偿机制,使得阻断HDAC6与缬氨酸的结合无法在体内起效。这些问题与论文是否存在数据操纵,彼此独立,互不相扰。
此外,不要低估重复实验在技术层面的复杂性。安进的重磅发现公布后,eLife曾主导过一个可重复性项目,选取50多篇重量级论文,试图逐一进行重复实验。结果一开工便麻烦不断——许多实验的操作细节无从查清,最终只能尝试重复其中23篇论文的50个实验,费用也远超预算。
随便翻开一篇顶级期刊CNS的论文,不难看出这些研究背后工作量的庞大,而且很多论文里的样本、模型和技术都具有高度独特性。让另一个实验室完整复制一遍,其操作难度和对应成本,可能远超直接开展一项新研究。
这也引出了主张“重复实验是最优解”的人往往没有认真考量的问题:有限的科研经费,究竟应该投入到更多原创研究,让更多科研人员自由发挥,还是用于试图复刻某篇论文?
注意,无论复刻成功与否,还不直接对应原论文的对错。
最后,学术不端现象,可重复性挑战是在威胁科研界,需要正视并改善。不过当下科研机制的不完美,不代表学术圈就真的没有纠错机制。科学家做研究都是在前人的基础上逐步推进,虽然很少有人去完全重复另一个人的实验,但每位科学家都在分析、参考同僚的发现,绝大多数原创研究,本身也是对过往研究的一种“重复”性实验。
参考资料
https://www.nature.com/articles/483531a
https://pmc.ncbi.nlm.nih.gov/articles/PMC8651282/
