他们试图重复心理学的多个经典实验,竟然只有一半成功了
2018-12-13 19:22

他们试图重复心理学的多个经典实验,竟然只有一半成功了

本文来自微信公众号:果壳(ID:Guokr42),作者:Ed Yong,编译:有耳,编辑:EON、Ent,头图来自:视觉中国。


最近,心理学界遭受了一点小震动:又有一些著名实验没能重复。


发表这些重复结果的,是一项名为Many Labs 2的大规模国际合作项目。过去几年间,该项目背后的200多名心理学家试图重复28项高引用和轰动性的研究,最终发现只有一半的重复实验能得出和原始研究一致的结论。如果这发生在六年前,或许是震撼学术界的大新闻。而现在,结果已然在预料之中 。


图 | JASIEK KRZYSZTOFIAK / NATURE


可重复性再遭审视


其实,“可重复性危机”已经困扰心理学界好几年。虽然各种质疑、捍卫之声聚讼纷然,越来越多的人已经意识到,即使是那些业界公认的心理学现象,也不一定是真的。也就是说,你还未更新的旧教材,收藏列表里的Ted演讲,都有可能错了。


比如说,“自我耗竭效应”——人的意志力是有限的,会随着过度使用而减少。提出这一理论的研究者最初发现,当被试面对巧克力的诱惑执行困难任务时,坚持下来的时间并不长。他们指出意志力对精神能量的消耗,就如同肌肉锻炼后会产生疲劳一样。这个理论很符合科学家的直觉,也备受畅销书作家的追捧。在人们通过各种实验知晓一系列消耗意志力的事项后,重复实验却发现,自我耗竭效应并不明显,很难找到支持它的证据。


为了尝试重复更多经典实验,开放科学中心(Center for Open Science)于2013年成立。但他们的首次结果并不足够乐观:在100项已发表的心理学实验中,只有不到40%成功重复。而作为该中心的新项目,Many Labs 2的结果表明,在更严格的统计学标准下(p< 0.0001,通常认为p<0.05时具有统计显著性),重复成功率仅为50%。


相当讽刺的是,似乎心理学领域最可靠的发现之一,就是仅有一半实验能被成功重复。


开放科学中心 | cos.io


加州大学戴维斯分校的西敏·瓦齐尔(Simine Vazire)表示,“心理学家们应该承认,我们得到的结果没有预期的那样可靠,也没有我们向媒体或决策者宣称的那样可信。Many Labs 2的结果在短期内可能会让心理学大受质疑,但在这样有力的证据面前,否认问题的存在只能带来长期的危害。”


没按原始方向走,所以重复不出来?


有怀疑者认为,可重复性的“危机”压根不算危机,很容易就能解释清楚。首先,重复实验本身可能样本太小。此外,这些实验的研究人员可能水平不够,或者不明白原始实验的具体操作。再者,人和人之间也有区别,同一个实验,由两组不同的科学家在完全不同的志愿者身上做,结果自然可能大相径庭。


Many Labs 2就是专门设计出来回答这些质疑的。他们总共招募了15305名被试,平均每个实验的被试数量是原始版本的60倍之多。这些研究人员与原版实验的科学家们深入交流过,确保每个细节准确无偏差。而且,重复实验的被试来自36个国家,每项实验都重复了多次,以判断被试的文化和背景是否对实验结果产生影响。


尽管这项工程的样本巨大,操作方式也得到了被重复的研究者的认可,他们依旧没能验证许多研究的结果。


重复失败的实验包括:潜意识接触过“热”这个概念的人更容易相信全球变暖;道德上“肮脏”的行为会迫使人们需要清洁自己的肉体,就像麦克白夫人那样;一个人成长中拥有更多兄弟姐妹,行为也就更利他……


Gabriel von Max画作《麦克白夫人》(1885)| Wikimedia Commons


实验结果不一样,人群差异来背锅?


除了样本量的问题,有些研究者认为,重复实验还应考虑被试的某些特征,比如性别和人格特质等。可Many Labs 2的结果证明,在12起案例中这些特征都无关紧要,实验结果是相对稳定的。


当重复者在不少实验中把被试的地域、文化背景当作变量,结果也同样令人意外:一项实验若是在一组志愿者身上重复成功,在其他组也都是成功的,反之亦然。这个细节尤为重要,因为它反驳了一种最常被提及的说辞——要一个实验无论在哪都能得到一致的结果,当然是不可能的。


负责该计划协调工作(也是开放科学中心的成员)的布莱恩·诺赛克(Brian Nosek)说:“他们会说,你没能重复实验?肯定是因为你是在俄亥俄州做的,而我是在弗吉尼亚州做的,两个地方的人不一样。但我们的结果证明,重复实验失败的理由没那么好找。”


图 | Yiran Ding / Unsplash


不过,人类行为的文化差异并非无关项。许多研究人员指出,来自经济状况好、教育水平高的西方工业化民主国家,也就是所谓的“怪异”(WEIRD)国家的志愿者,他们的思维和其他地方的人不太一样。因而,相关研究也就更容易出现差异性。


在Many Labs 2的绝大部分实验中,“怪异”国家和其他国家的志愿者没有体现出重要差异。但有人指出,这些分析并不严谨,因为“非怪异”国家的人被当成了一个整体。跨文化研究应该将所有的文化背景考虑在内,并单独分析它们的影响。


诺赛克接受这一质疑。他很希望看到大规模重复项目囊括更多非西方社会的志愿者,并着眼于那些可能与“非怪异”国家的多样性息息相关的现象。


重复危机的确存在,但未来没那么绝望


心理学家桑杰·斯瑞瓦斯塔瓦(Sanjay Srivastava)认为,Many Labs 2实验结果的相对一致性其实是个好兆头。一方面,它表明大规模重复失败很可能就是学术不端行为导致的。但另一方面,实验结果缺乏差异恰恰意味着心理学的本职工作做得很优秀:研究人员成功地把参差错落、难以捉摸的人类心智塞进了实验室里。


“实验室之外的真实世界里,现象可能随情境而变。”他说,“但在我们经过严谨设计的研究和实验中,结果的混沌和不可预测性消失了。这意味着我们能够实施可供验证的社会科学研究。”


如果情况与之相反,那才是心理学真正的噩梦。如果我们发现人类实在太善变,连最严格的重复实验都导致了五花八门的结果,“那么我们就没法解释这些实验,连阳性结果都无据可依了。”斯瑞瓦斯塔瓦说,“如果真是这样,我们可以不把重复失败当回事,但那些原始研究也沦为了笑话。长远来看,Many Labs 2带给我们的结果是积极乐观的。”


编译来源:《The Atlantic, Psychology’s Replication Crisis Is Running Out of Excuses》


参考文献:

The Atlantic, Psychology’s Replication Crisis Is Running Out of Excuses

Nature, Replication failures in psychology not due to differences in study populations

Science, Estimating the reproducibility of psychological science

https://psyarxiv.com/9654g/

Slate, Everything Is Crumbling


本文来自微信公众号:果壳(ID:Guokr42),作者:Ed Yong,编译:有耳,编辑:EON、Ent,头图来自:视觉中国。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定