大数据解决的世界杯小问题-虎嗅网

关于大数据，我们已经听过太多类似科幻故事一般的畅想，这个领域虽然火热可是与普通人的生活仿佛没什么太大关系。例如教科书一般经典的“啤酒与尿布”的案例，我们既不知道美国超市到底是怎么计算出这个因果关系的，也在身边的中国超市里看不到这种古怪的摆放搭配。这次世界杯期间，IBM和腾讯的合作，依靠大数据计算解决了一个看起来很简单、背后却非常复杂的小问题。

想解决的问题非常简单，就是显示世界杯比赛期间对阵球队的支持率谁高谁低。

这个事情可以凭经验，比如找几个资深球迷或评论员，他们身边接触的球迷肯定比一般人多，所以靠感觉可以聊聊哪只球队的支持率更高。比如，我就感觉身边阿根廷球迷多，德国球迷也不少。问题是认识的人再多，也不太可能同时了解五千人的球队倾向吧？这个数字已经是微信的好友上限了。为了让进入统计范围的人数更多，之前还有一个解决办法就是投票。在网站首页放个投票栏目，可以选择支持的球队，针对一场比赛收集几万个人的投票结果不是难事。可是这种方式也存在很多问题，投票是一种主动行为，结果未必能准确代表那些懒于投票的人。

就是这么一个小事，这次世界杯每场比赛前腾讯网站上会显示两支球队的支持率，背后动用了IBM的一整套大数据解决方案。

首先是数据来源。其实这是最简单的一步，大的数据就在那里，能不能搞成有用的大数据就看各家的本事。IBM计算支持率，数据来源是微博上关于世界杯的讨论。自发讨论的数据，显然比主动投票更能反应大家对比赛球队的看法。微博上的讨论量虽然仍然不能覆盖所有看球的人，可是范围确实大大超越投票能够达到的极限。世界杯期间，64场比赛下来国内微博一家的讨论量约为10亿条，超过了国外Twitter、Facebook、Instagram三家的总和。这些数据之前就有，运算和存储也并不是难题，IBM在2013年就收购了全球领先的公有云服务公司Softlayer。也就是说，对于大数据这个事情，找到大的数据不难，找到运算和存储的硬件也不难，难的是用什么样的软件区分析这些数据。如果没有软件力量的直尺，大数据就只能做些分类整理的低级运算，这也是为什么国内一说大数据往往只是把全国的数据按照地域、星座、年龄之类分类汇总了事。

第二是排除杂音。运算能力和存储设备都有了，微博上的海量数据唰唰唰涌进来。虽然腾讯的球队支持率是每小时更新一次，可是背后的计算是实时的。面对数据，如果找人一边看一边数，在道理上也是能完成支持率计算的，只不过下届世界杯能算出来结果就不错了。在大数据的世界里，硬件只是基础，真正能让运算能力发挥功效的还是软件。当我们只能调整计算规则的时候，如何从千差万别的微博发言里找到和世界杯相关的信息就成为一个大问题，因为我们在讨论世界杯的时候并不会直接加入“世界杯”和球队名称这样的标签，切入点可能只是球星八卦，如果无法判断这些内容会低估支持率。相同时间段内讨论也有可能实在讨论参赛球队所在国的其它事情，此外还有大量利用世界杯做广告的企业微博和广告转发，这些内容如果混进计算数据中又会高估支持率。这些需要不断调整的算法，才是IBM在大数据领域的核心竞争力。

第三是分析语义。就算只是“支持A或支持B”这样简单的支持率计算，计算机所需要理解的人类语言仍然非常困难。如果没法让计算机理解人类千奇百怪的表达方式，就很难大批量分析微博这样的数据。比如，在英格兰和西班牙双双爆冷之后，以冷吐槽见长的英国队球迷直接开启了另一场狂欢。我个人最爱的sickipedia段子是这样三条：1.“飞翔吧，英格兰队”——驾驶英格兰回程航班的机长说；2.提醒那些下注英格兰夺冠的彩民，你们还处在14天的可撤销期内；3.多年的努力之后，英格兰终于可以像西班牙一样踢球了！这些吐槽内容该怎么分析？第一条吐槽该怎么和正常语义下的机长区分开？第二条中如何才能从14天撤销期联想到英格兰小组被淘汰？第三条更刻薄，如何让计算机理解英格兰球迷对西班牙的评价？这些连人类都经常无法理解的吐槽，当然还是算法的难点。不过以认知计算为核心的IBM的社交大数据分析技术已经足以让计算机理解很多内容，正是因为这些算法支持，在支持率之外，腾讯才可以通过大数据提供球星支持率以及支持某位球星的球迷有怎样的特点，这些小功能的推进完全依赖于后台算法进化的速度。

在以上这样的软硬件支持之后，大数据才有可能脱离星座和地域，为我们证实一些很有趣的现象。比如，阿根廷球迷是不是铁杆的比率很高呢？还真是。可能是由于国家队未能出场添乱，因此我国球迷的看球心态似乎更为轻松，胜王败寇的支持率倒戈的现象经常出现。尤其当两支大家都不太熟悉的冷门球队对阵时，这种“胜者为尊”的现象尤其明显，赢球后立刻就能看到支持率变动。其它传统强队或多或少也要面对这样的局面，唯一一家输球之后支持率基本不下降的球队正是阿根廷。我想这可能是潘帕斯雄鹰最近几年的悲情时刻较多，也可能是英吉利未能留给深爱他的段子手们更多时间证明自己。

还有一个有趣的现象是没有参赛的中国队仍然影响广泛。世界杯决赛阶段，仅仅只有三支球队能够有幸击败中国队，尤其是爆冷的哥斯达黎加，显然比其它黑马受到的更多的关注。那么，如果一条微博同时提到中国队的哥斯达黎加队，该算成谁的支持率呢？负责算法的IBM研究院的专家是苏中博士，他把这些数据从哥斯达黎加队的支持率中剔除了。可是，他本人也说事后仔细想想有点后悔，说不定留下才能更加体现真实情况。这可能才是大数据需要面对的有趣情况吧，进行判断让数据证明结论的关键仍然是人的立场和判断，并不存在某种可以依靠数据单独存在的绝对客观。假如负责算法的是你，会如何对这些大数据进行选择呢？