如何科学客观地给一款游戏打分？-虎嗅网

本文来自微信公众号：游戏研究社（ID：yysaag），作者：石叶young，题图来自：游戏评分界面截图

最近，游戏评分又在玩家之间引发了不少的争议。围绕着著名游戏媒体IGN对《死亡搁浅》打出6.8分的同时对《宝可梦剑/盾》给出了9分的高分，不少人表示了对媒体评分的不认同：IGN的评分就是图个乐！

其实游戏评分的争议不只发生在IGN身上，很多媒体都曾因游戏评分或高或低而招致非议。

问题在于矛盾性：游戏评分给人的感觉应该相对客观公正，但实际上它却充满主观要素——游戏媒体的评测工作通常由一个人独立完成，而且为了保证独立性而不允许他人干预。

但即使IGN、GameSpot这样的传统大媒体，评分也并没有统一的标准，虽然这些编辑会尽量用专业客观的角度来评判一款游戏，但从根本上来说，他们仍是以自己的标准来打分的。所以同一款游戏的媒体评分和玩家评分出现较大出入时有发生。

创造一个科学客观的评分方法有那么难吗？

虽然本人的数学很烂，但我有理由相信自己能够一劳永逸的解决这个问题。

游戏是多种多样的，有些游戏是高成本、大制作，著名团队制作、大牌明星加盟。有些游戏可能只是某个大学生的毕业设计，几乎没有人听说过。我们对大游戏比较挑剔，对小游戏比较容忍，游戏在成本、质量、知名度上的巨大差异，决定了对于它们的评分方式也应该分而治之。

因此建立模型的第一步，我们按照马克思列宁主义阶级论，划分游戏的阶层。

生产资料占有关系将是我们进行阶级划分的唯一正确的标准。

对于游戏来说，独立游戏开发者对游戏拥有绝对的控制。随着游戏规模变得越来越大，制作者对于作品的掌控也会变得越来越少，而对于一些游戏工作室来说，生产资料完全掌握在大发行商手中。

因此根据制作者对于游戏的控制权，可以将游戏分为几个阶层。

不同阶层的游戏开发目标、受众不同，评分标准也不同。

把上层资产游戏和中层资产游戏为第一类游戏，因为这些游戏往往以获得商业成功为目标，成本更高，质量更好，也更会迎合大众的喜好，因此大众的评分对于这些游戏有较好的一致性。不要误以为是因为它们的数据比较容易查。

剩下的两类游戏为第二类游戏。这些游戏往往是独立开发的，或者销量不高，或无人知晓，所以没有很多的统计数据可以参考。

它们的评分标准也更加复杂。制作者的初衷未必是追求商业上的成功或者迎合大多数玩家的口味，因此这些游戏的评分往往会出现两极分化，一个玩家觉得无趣的游戏可能会在另一个玩家眼中是难得的精品。再加上它们的销量整体较小，玩家样本也少（换句话说就是没法算），因此它们的评分需要分开计算。

下一步，我们就可以开始计算游戏的评分了。

第一类游戏：

要对第一类游戏评分，首先我们要确定影响游戏体验的因素。

游戏体验是很难简单量化的，此前有不少人尝试过用数字去衡量一款游戏的体验，为此他们开发了一套完整的调查问卷系统，称为游戏投入度问卷（GEQ），通过让玩家回答一系列具体问题来获得一个最终的得分，比如“我觉得游戏很容易上手”“我觉得游戏很好操控”。

不同的研究中选择的影响因素也不同，可能包括注意力、代入感、成就感、美术、个人兴趣等等。还有人通过探索性因素分析法和验证性因素分析法，来确定影响游戏体验的因子。

但不论是哪种方式，都有需要通过调查多个层面的几十个小问题来实现科学的统计。

但对于每一款游戏都进行大规模的调查是不现实的,我们需要的是能够普遍用于多数游戏的通用公式，最好是利用现有数据就可以完成的。

在日常衡量游戏的指标中，我们首先想到的自然是媒体评分。但就像开头说的，媒体评分的波动性很大。媒体评分的形式更接近统计学中的立意抽样或专家抽样，属于非概率抽样，因此结果只能用做参考，而并不能用来推算本体。即使我们使用平均得分，因为总体的样本量小，也会很不准确。

因此我们选择metacritic上的用户平均分S0作为评分的基准，虽然用户评分同样具有主观性，但因为这些数据样本量大，相比之下比媒体评分代表性强。

接下来，要考虑的是一款游戏的关注度对其评分的影响。游戏的关注度高并不等于评分高，有时反而会成为游戏变烂的重要诱因，对此《辐射76》有很多话要说。

因此要科学地计算游戏评分，我们要考量的是游戏关注度和真实表现之间的关系。

抛开小众游戏不谈，对于第一类游戏来说，好游戏最真实的表现是什么？销量！购买是实实在在的肯定，我们常看到某某游戏的销量突破百万，就是证明这款游戏很不错。

但A游戏比B游戏的销量高，不代表A游戏就比B游戏好，总会有一边骂一边玩的人，所以一款游戏的真正好坏应该取决于它的表现是否达到了预期。

用游戏的销量N除以关注度，就可以得到游戏的真实购买率α，α越高，就说明这款游戏越符合大众的期望，如果α大于1则说明游戏的表现超过了预期，这样的游戏也自然就是更“好”。

那如何体现游戏的关注度呢？关注度用新词说就是流量，这里用游戏在搜索引擎中的搜索结果数量T来代表。

于是有了下面的公式：

接着我们要找到能够代表游戏“好玩程度”的参数。

好玩并不好界定。就拿最近的《死亡搁浅》来说，不少人觉得送货很无聊，但也有很多人觉得修路实在太上瘾了。那么，如何来衡量一个游戏是否好玩呢？

游戏时间可能是一个好的标准。如果一个游戏很无聊，我还坚持一直玩，那么……那么只能说明我就喜欢玩无聊的游戏，它对我来说就是一个好游戏。

但这里不能单纯使用游戏时间作为参数，如果游戏太无聊直接让你睡过去了，那游戏时间也会大幅增长。

因此这里我们通过howlongtobeat.com这个网站，找到每款游戏的平均通关时间。再用每款游戏的平均游玩时间t1除以它的平均通关时间t2，就得到一款游戏的平均停留度。

平均停留度越大，说明玩家越愿意留住游戏中。如果停留度大于1，说明游戏重复游玩的价值很高。

这样一来我们就有了决定游戏好坏的三个因素，它们的乘积结果（别问我为什么是相乘）就是游戏的科学加权评分。

最后让我们用几个熟悉的游戏做个测试，结果如下：

我不知道为什么只狼的得分如此低，科学就是如此神奇，大概是因为太难导致流量太多、销量太少吧。

这种评分方式存在一些“小问题”：对于刚发售的游戏，因为销量和评分还不稳定，无法使用（发售时间不同的游戏之间相比也有失公平）。再有就是不少游戏的销量无法查到，有些游戏不存在通关，还有除Steam平台之外的数据都很难查到。

没关系，我们对“第二类游戏”的评分方式会变得更加客观的。

第二类游戏：

下一步，我们要对无产阶级游戏和小资产游戏进行评分。

这种作品往往没有大规模的受众，或者没有详尽的数据进行参考。因此我们需要利用自己的评分，并尽可能的让评分真实有效。

不是因为我编不下去了，我们知道个人对一款游戏的打分往往受到情绪的影响，对喜欢的游戏吹爆，而对于不喜欢的游戏则一黑到底。所以个人对游戏的评分通常呈现非10即0的情况。

如果玩家对一款游戏相当兴奋，那么他对游戏的评分x，会随着兴奋程度n的变大而发生x=10n的指数型增长。

由此我们可以得到兴奋指数n。

如果取评分的满分为10分，那么减去兴奋度之外的部分为真实评分，再用真实评分除以兴奋指数，可以得到真实评分率β。

于是最终的游戏真实评分y可如下计算。

经过我对公式进行化简，结果如下：

可以看出，对第二类游戏的真实评分就是你对于游戏的评分。

所以至此我们终于一个科学结论：游戏评分还得信自己。

以上就是我的游戏评分方法，虽然不一定正确，但至少科学，即使不科学，也至少客观，哪怕不客观，也足以让你在与其他人的辩论中立于不败之地。

因为即使对方想驳斥你，也起码得写出一个同样科（wu）学（liao）的论证来。而在这之前，你已经证明了自己的评分比IGN更客观，这就够了。

本文来自微信公众号：游戏研究社（ID：yysaag），作者：石叶young