学术互捧有用吗？46万条引文数据揭示互惠引用的潜在危害-虎嗅网

头图来自：东方IC；本文来自微信公众号：集智俱乐部（ID：swarma_org）；作者：陈曦；审校：刘培源；编辑：张爽

导语

论文引用量是学术影响力的重要指标，于是少数人动起了歪脑子：你引用我，我引用你，互捧一下，各有好处。但这种互惠式的论文互引真的有用吗？

近期的一项基于大规模引文网络的研究表明，互惠引用对学术声誉不仅仅没有正面作用，反而可能有害，研究质量才是学术影响力的决定因素。

学术界的“绩效”—引用数量

不同领域存在评价“绩效”的不同标准。科学界也不能免俗，影响因子对于科学家就如“GDP”对于经济、“绩效”对于员工、“成绩”对于学生一般重要。科学家们的成果最终被压缩为一些与生产力有关的指标——不论是影响因子，H因子还是引用数量。

使用它们，学术成果就能被量化、被比较。于是这些指标越发成为科学工作者申请基金，学术晋升上的硬性评判标准。

使用单一指标来衡量学术质量难免存在偏颇，这一点也是科学家一直希望解决的问题。其中最明显的问题来自自我引用（self-citations）与互惠引用（reciprocated citations）。

引用数量一直作为评价科学家工作质量的黄金标准之一，更高的影响因子或引文数量意味着职业生涯的优势，这就导致科学家们也会使用一些“技巧”来增加自己的引文数量和影响因子，获得的潜在直观的利益。

自引用意味着在新论文中引用自己已有的论文增加影响力；互惠引用则指的是学者们在有合作关系的作者圈内主动寻求和交换引用。

现阶段，已经存在很多针对自引用的研究，权威影响因子评价机构也能够提供的消除了自我引用之后更“严谨”的影响因子。

但是像互惠引用这种行为背后的争议仍然巨大，它看似是正常的引用方式，并且往往被归类为学术合作中的正常流程，因为诸多经济与社会学研究表明这种互惠行为能够维持合作的关系。影响因子上涨了，科学家之间实现了所谓双赢，似乎皆大欢喜，天下太平。

但是，如果学术互引真的利大于弊，它也不会被归为“问题”被研究了。事实上，过度膨胀的影响因子导致学术工作评价的不公，甚至引起互引的流行。被“水分”抬高了的某些学术工作的价值会给提供资金的机构留下错误的印象，造成经费浪费。

自引用产生学术影响力可以轻易从计算中的去除，但是过度的互惠引用却因其模糊性而没有那么容易侦测。

近期，来自伦敦大学学院计算机学院的李卫华（Weihua Li），就着手调查研究了学术互引的作用。他和同事们使用了1893年至2010年间发表在物理评论（Physical Review）上论文中的约46万条引文数据来调查长时间尺度下互惠引用现象极其影响。这项研究使用网络科学的视角来调查引文的模式，全面涵盖了物理学的所有研究领域。

这项研究能够回答两个问题：

（1）学术互引能够对学者们的学术声誉产生多大的增益？增加学术互引是否会让科学家的职业生涯产生不同的轨迹？

（2）学术互引现象有多盛行？随着时间的推进，这个现象产生了什么样的演化？

论文题目：Reciprocity and impact in academic careers

论文地址：https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-019-0199-3

如何在引用网络数据中定义互惠引用？

研究者把科学家视作网络中的节点，作者之间的互利引用视作网络的边。研究者定义了一种方式来衡量作者之间的过量互惠引用。

真实的互引网络被与一个经过随机化的基准化假想互引网络做对比，相当于减去正常互引的影响，最终得到的结果就是额外互引（excess reciprocity），用字母ρ来表示。如图所示，其中ρ0表示科学家在现实网络中的互引得分，ρnull是科学家在假想互引网络中的得分。这个数值可以衡量某个作者的互引量多大程度超出了正常的范围。

图1：额外互引的定义公式

举个直观的例子，假设一个作者一共被引用了100次，其中相互引用有28次（即互引得分为ρ0=0.28），而他在学术网络中所处的位置应当存在ρnull=0.2的正常相互引用（即20次互引），那么这位作者就有8份的互引是超过了基准值的，用上述公式就可以计算得到，这位作者的额外互引值ρ=0.1。

“绩效”如何改变科学家的引用习惯

根据历史数据分析，1950年-1990年间，互惠引用现象存在一个稳定且持续的上升。在此之后的20年内一直稳定在ρ0=0.15这个值附近。

图2：共同引用现象随着时间推移的发展历程。

这一趋势很容易让人联想到科学计量学（Scientometrics ）指标背后的刺激作用。确实，通过计量指标平评价科学工作是于1955年被提出的，并且在不久之后更成熟的SCI（Science Citation Index）指标也于1964年正式启用，直到近20年互联网盛行之前的四十年时间，互引现象一直稳步增长。

互惠引用普遍存在

统计分布图能够让我们对研究对象有初步且直观的了解，图3中的红蓝色分别代表作者之间的引用和相互引用量。

图3：1950年到2010年间作者对和引文量的分布图

其中，超过5万对作者有10个极以上的互惠引用，而超过两千对作者存在50以上的互惠引用量，甚至可以看到有极少数的作者存在接近10的三次方巨大量级的互惠引用量。总体而言，约21%左右的论文引用是存在互惠的，这证明互惠引用是普遍现象。

于是研究者提出了一个问题，即系统性使用互惠引用的学术工作者的表现是否真的超过其他同龄工作者？

互惠引用是否有用？可能有负面作用

数据确实确实揭示了互引的普遍性，介于学术工作者职业的长时效性，作者将眼光放长远，又分析了学术互引对职业生涯的长期影响力。

他们发现就统计结果来讲，前期发生的互惠引用对作者后续作品引用数量的提升基本没有影响，每篇新学术作品的评判相对独立。如果研究者希望“提升”作品的影响力，仍然需要从零开始互惠引用。这暗示着，交换引用行为对职业后期的学术成就是没有潜在帮助的。

为了进一步研究这一点，作者将研究对象根据他们获得的引用数量进行了分组分析，得到了另一个更神奇的结论：互惠引用量和学术水平反向相关——更多使用互惠引用的作者学术水平反而低。

图4：不同学术成就组别对应的额外互引指数。

论文的研究发现，具有中-低水平影响因子的作者更倾向于互惠引用，并且贡献量级最大；而具有高影响因子的作者群体中的互惠引用现象相对罕见。

并且值得注意的是，互惠引用在学术生涯过程中，是一个逐渐发展的过程，不同阶段各有特点。

在学术生涯的前期，比如在前4年内，学者们学术影响力差距不大的情况下学者的引文数量和互惠引用的结构都是相似的。在此时并不能对学术成就做出明显的区分，互惠引用情况在各组之间也基本相似。

随着时间的推移，组间不同的模式开始显现，具有更高影响因子的作者的额外互引比例剧烈下降。而在长时间尺度比如20年以上的时间跨度上，不同组别作者的额外互引指数的大小排名有着符合组别顺序的，并且差异显著。

作品质量仍是学术影响力的决定因素

这种相关性暗示着，即便在现有的影响因子制度下存在着一些能美化学术指标的小技巧，但也许是因为学术互引的甜头造成学术精力的分散，也许是因为漫长的时间跨度使得科学家工作的“价格”最终回归“价值”，又或许是因为做出高品质学术作品的作者没有主动寻求互惠引用的动力，一个无法回避的事实是：迄今为止，学术作品的质量仍旧是学术影响力的最主要决定因素。

到这里，论文似乎又一次强调了学术生成就主要考量者学着的积淀与质量。在科学学（Science of Science）发展的背景下，这项研究意在警示学术界，要警觉对主流文献计量学指标的盲从。呼吁做出更多工作来完善，解析指标背后的意义。科学界应给初出茅庐年轻科学家更多的机会，他们的潜力大于成就。

而这篇文章也能给年轻的科学从业者一些工作上的启示。单一的学术评价指标确实会引发些许公平性上的问题，学术互惠现象也确实或自然或人为得广泛存在着。但是，就目前为止，学术成就中最大的影响因素仍然是学术结果的质量，而取巧获得声望，最终会随着时间的一起流失。

本文来自微信公众号：集智俱乐部（ID：swarma_org）；作者：陈曦；审校：刘培源；编辑：张爽