“著名科学家”的门槛是什么？-虎嗅网

仅仅通过一个指标，例如 h 指数，来衡量科学家的学术影响力，这未免是对现实复杂性的过度简化。近日发表在 PNAS 上的新论文“科研影响力的三个维度”，通过中观维度（Meso level）的模型，利用三个指标，分别表示学者的总产出、总影响力以及该学者的幸运程度。该模型为科学学（Science of Science）又增添了新的工具。

本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：郭瑞东，原标题为《“著名科学家”的门槛是什么？高产、高被引、好运气一个都不能少》，题图来自：IC photo

论文题目：Three dimensions of scientific impact

论文地址：https://www.pnas.org/content/early/2020/06/05/2001064117

一、如何评价学术影响力

现在有一对双胞胎分别跟着不同的导师读博士，哥哥跟着学界权威，毕业时已经发了多篇论文，各篇引用都不少；而弟弟跟着新晋导师，毕业时只完成了一篇论文，但这篇论文却有极大潜力。那我们该如何评价兄弟两人的学术影响力？

如果按照 h 指数来看，即某个人发表了有 h 篇论文，每一篇至少被引用了至少 h 次来看，那么哥哥的成就更大。然而这样的评价方式，首先没有考虑到运气的影响，其次，忽略了富者越富的马太效应。

在学术界中，一项具有奠基性的研究，会被之后所有的相关研究引用，从而使得这样的文章获得大量引用。例如巴拉巴西提出 BA 模型的论文，就是网络科学中被引用最多的论文之一。这就是在学界被广泛证实的现象，称之为“由过往成功带来的成功”。

如何在对科研影响力进行评价时，同时考虑到运气和偏好依附（Preferential attachment）的影响，是本文要解决的问题，也是其创新点所在。其文中所提及的用三个指标来评价某领域学者的科研影响力，则是该模型的副产品。

二、中观视角，描述复杂问题的新方法

传统上的建模，要么是宏观的，从统计指标出发，去找到不同指标间的相关性；要么是微观的，先假设产生该现象的机制，再看什么样的参数能够再现出现实情况。

图1：宏观、中观、微观视角对比

在对学者影响力的建模上，宏观视角是用来找到在不同学科中，论文发表数量和被引用数之间的统计规律；而微观视角下研究主体变得很小，通过巴拉巴西提出的优先连接的机制，或基于主体的模型，其关注的是每篇论文的发表时间及影响力符合何种规律，而没有触及学者的影响力这一方面。

宏观模型描述的是整个学科的规律，微观模型描述的是单篇论文的引用量具有的特征。而中观视角，则介于宏观与微观之间，其研究对象的粒度，是以学者为单位的。而研究方法，则是基于对现象成因的理解，自下而上地用几个参数，来重新发现生活中的数据所具有的特征。

宏观视角下，每篇论文的引用数，经排序之后，会发现其符合指数分布；但这个规律，并不适合单个科学家。采用中观视角后，可以将每个研究者的 N 篇论文，及其各自的引用数，用更少的指标进行描述，并对每个指标给出清晰的解释，这体现了中观视角的优势。

在其它类似的问题上，例如对风险投资及其成功率的建模，也可以采用中观视角。关注各个投资机构，而不是整个行业（宏观）或者每一笔投资（微观）是否成功，其受到哪些因素的影响？这是该文带给读者方法论层面的启发。

三、模型中的三个组成项及其意义

不同于科学学研究中常用的 APA 数据集，该文的数据来自计算机科学，称为 DBLP。其包含 176 万名研究者，309 万篇论文和 2516 万次引用关系，该数据库还在持续更新中。

在 2020 年最新版的 DBLP 数据库中，已包含 489 万论文和 4556 万次引用关系。其中包含了文章标题，摘要，年份，影响因子等诸多信息，是一份值得深挖的数据集。

数据库中大量引用数过少的论文，会造成模型对长尾效应的过拟合。为避免上述影响，该文关注的只是 h 指数大于 5 的研究者及其发表的论文，以及这些研究者之间的引用网络。

在建模过程中，将每名研究者的影响力，设定为 X，每发表一篇论文，就会增加X所代表的值。其中一部分来自该论文因为运气所获得的引用，一部分源于该论文由于之前的成功所获得的引用，由此，可以得到下面的公式：

而从宏观的角度来看，按照上述的规则模拟，平均来看，给定每个人的总论文数为 N，被引用数合计为 C 以及论文引用中有多少为来自随机性的影响（用 ρ 描述，ρ 为 0 代表引用完全由于随机影响，ρ 为 1 代表该论文的引用完全来自之前的成功）可以推出平均每个研究者预期的 X 值，为下式：

N 和 C 的值，能够从原数据中经简单的统计获得。通过将所有研究者的 Xk 与X^k（N，C，ρ）的差进行整合，可以找到使两者之差最小化的 ρ 值，由此可以使用这三个指标，来描述某个学科论文发表中所呈现的规律。

四、越成功的研究者，其受随机性的影响越低

按照发表总论文数，将研究者分为 4 档，分别观察各档科学家所对应的 ρ 值，可以得到下图：

图2：总发文数不同的作者，其引用数呈现不同的规律

图中不同颜色的图形，代表不同档位的研究者，例如绿色代表总论文数在 48~52 篇之间的 2624 名研究者，橙色代表在 95~105 篇之间的 1113 名研究者。图中的每个点代表一篇论文。横轴是论文引用数的排名，纵轴是引用数。

该图指出：越高产的研究者，其论文的引用数就越不平均，对应于该档研究者中拟合的 ρ 值的平均就越大，这说明学术界存在着富者越富的情况。

由于总论文数更多的作者，有更大的可能是资深研究者，而他们发表的文章引用数却有很大差异，这意味着对于那些已经发表过爆款论文的研究者，有很大可能其最有影响力的研究已经发表。而这与之前对科研论文引用网络进行的研究所指出的“成功可能发生在职业生涯的任何一个阶段”可以相互印证。

图3：总产出，总引用数和 ρ 值的关系

上图进一步，将模型中的三个参数的关系展现了出来。其中不同颜色的线代表了，该类作者中，超过 25%，50% 及 75% 的其他研究者的所对应 ρ 值，左图横轴为总论文数，右图为总引用数。

有 30% 的研究者，其 ρ 值为 0，这些研究者大多处于学术生涯的早期，或者其最具影响力的文章还没有出现，从上图的左下角可以看出。

使用该指标，能够更好地评价青年研究者的学术潜力。比如两个 N 和 C 值相同的研究者，ρ 值越高，说明其研究越多地是占坑型的（基于以前研究的扩展型），而不是原创型的。

回到本文开篇的问题，该如何评价一对跟了不同类型导师的双胞胎博士毕业时的学术成就？用单一的指标，总会丢掉一些信息，唯有通过多个指标，才能描绘现实中的复杂性。

五、未来的研究方向展望

关于这篇论文本身的介绍，就到这里。在研究了该文的数据集后，笔者认为，基于该数据及本文提出的模型，还可以回答如下问题：

首先是不同年份的论文，其对应的平均 ρ 值是怎样变化的？是否有一致的趋势？如果 ρ 值越来越大，说明计算机领域真正开创性的研究越来越稀少。类似地，基于关键词可以得出在不同领域，例如计算机视觉，语音识别等对应的平均 ρ 值，并以此判断该领域的原创程度。

其次可以看到，处于不同阶段的平均 ρ 值不同的研究者，其科研合作呈现怎样的特征？是不是越是资深研究者的论文，就越有可能是来自大团队，由多名作者合作完成？而那些青年研究者，是否更有可能在小团队中，能够获得更好的训练，从而在未来更加成功？

最后，在微观的层面看，论文的题目和文章的原创性有没有关系？例如是不是题目越短的论文，其原创性越强？还可以根据题目中 review、survey 等关键词找出综述类文章。并比较综述类文章的引用量，是否总是显著地高于该学者论文的平均引用量？这些问题，也可以基于该文的数据进行研究。

本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：郭瑞东