《信号与噪声》:为什么大数据时代的预测更容易失败?
2015-02-03 09:32

《信号与噪声》:为什么大数据时代的预测更容易失败?

生活节奏越来越快,身处在信息爆炸的大数据时代,我们所要做出的预测的速度和数量都在不断增加。


然而,一个不容忽视的事实是,现实世界中的很多预测都失败了,人们由此付出了巨大的社会代价。“9.11”恐怖袭击事件、2008年金融危机、卡特里娜飓风、2011年日本大地震、禽流感肆虐,这些“黑天鹅”事件的发生在很大程度上应归咎于糟糕的预测,也就是说预测者们被众多信息中的噪声干扰,而忽视了其中真正的信号。


纳特•西尔弗被视为美国最具影响力的预测专家之一,他在本书中检视了从飓风到地震、从经济到股市、从NBA到政治选举在内的众多领域的预测事例,旨在回答一个问题:如何才能从繁杂的海量数据中筛选出真正的信号,从而做出接近真相的预测?


这本书对大众的精神启迪意义不亚于像约翰•肯尼斯•加尔布雷斯(曾引发对经济政策的讨论)这样的公共知识分子和像沃尔特•克朗凯特(曾改变对越南战争的看法)这样的社会名人,它将会成为未来十年内最重要的书籍之一。

——《纽约时报》书评版


书评


数据狐狸的信号与噪声


文/陈朝 转自豆瓣读书


“狐狸知道许多事情,刺猬却知道一件大事”。以赛亚·伯林在古希腊诗歌的影响下写下了著名的文章《刺猬与狐狸》。在这篇文章中,伯林区分了两类知识分子:刺猬用一个观点统摄对世界的认识,另一类狐狸,则承认种种无法统一的经验,拒绝仅仅一个观点。这个经典的比喻影响了很多人,例如菲利普·泰特洛克(Philip Tetlock),一位政治心理学专家,在他的专著《专家政治判断》(中译名《刺猬与狐狸》)中,他分析了有着浓烈党派意识、用观念代替观察的刺猬型专家,和相信观察、不停修正自己的狐狸型专家。他的研究发现,狐狸专家对政治事件的预测准确程度要好过刺猬专家,即便如此,两者也都比不过作者给出的一些数学公式。

  
这个结果简直会引得一位分析师微笑,他就是《信号与噪声》的作者,可能是最当红的政治预测者,纳特·西尔弗(Nate Silver)——前会计师事务所的咨询顾问、数据棒球(Money Ball)分析师、政治分析师,中间还做过一阵子德州扑克玩家——就是这位西尔弗,在2008年的大选中,成功预测了50个州中49个的结果;而在2012年大选中,他的结果则是50全中。他的政治博客538(FiveThirtyEight,指总统大选有538名选举人团成员)经常公布对各种法案、选举投票的预测。这个横空出世的神奇小子用数据分析的方法,让很多老牌政治分析师黯然失色。

神奇小子?


对于中国读者,纳特·西尔弗有点陌生。他最重要的预测领域是棒球和美国政治投票,这两者我们都不熟悉。在美国,他真正成名也是从2008年对总统大选的预测开始的。这还要从美国大选的制度说起。美国大选虽然是全体公民一人一票,但是在决定总统是谁方面却有点复杂:大多数州都会分别统计本州的选票,超过半数的选举人将在这一州获胜,而一旦获胜就会获得该州所有的选举人票。之后在计算选举人票之和,超过半数的候选人将当选总统。先不用管这个有点复杂的制度,我们只需要得知,在美国大选中,不仅有最后的选举输赢决定谁来入主白宫,每一个州也都会得到一个候选人是否获胜的结果。而纳特·西尔弗正是在2008年成功预测了50个州中49个的选举结果。
  
纳特·西尔弗原名纳撒尼尔·里德·西尔弗(Nathaniel Read Silver),出生于1978年,生在密西根州一个知识分子家庭。母亲是一名社区活动家,而父亲曾任密歇根州立大学政治科学系的主任。也许这样的家庭促成了他的政治兴趣,但是他最初的爱好和很多男孩一样:棒球。早在童年时他就是底特律老虎队的球迷,少年时代起他热衷于各种球员的数据。青少年时期的西尔弗也展现了写作能力,高中时他就出任校报的编辑,进入芝加哥大学后也笔耕不辍。然而面对职业选择,西尔弗不能免俗,2000年他成了毕马威会计师事务所的一名经济咨询顾问。这些数据与棒球比起来实在是太无聊了。他之后坦言在毕马威的四年是他最遗憾的时光,用四年时间从事自己不喜欢的工作。2002年开始他开始利用业余时间分析棒球,并为棒球杂志撰写评论。这也许是他预测分析事业的开端。
  
棒球和很多球类运动不同。《点球成金》的作者迈克尔·刘易斯有个精彩的描述:有些比赛,球员打完一局下来甚至汗都没怎么出。这种运动融汇了技巧和智慧,将极快寓于外行看来有点缓慢的比赛。棒球也有比其他球类更丰富精确的数据统计,很多数据可以追溯到十九世纪;近些年的职业大联盟赛事中所有球员的场上表现都被记录了下来。这使得很多球迷可以用另一种方法参与棒球事业,就是分析数据。评价一个球员,究竟是安打率重要还是全垒打次数重要?一个投手的头球能力和他的年龄呈现什么关系?因为有着详细的数据,八十年代以来,分析师能够抛开某一场次输赢,用分析判断比赛的细节。西尔弗的分析就是利用每年出版的公开数据,配合自己设计的数学模型,来判断一个投手的能力。他用喜欢的大联盟球员比尔·派克塔(Bill Pecota)命名了他的系统PECOTA。凭借这个系统,他为棒球刊物撰写文章,预测球员的表现。2004年他从毕马威辞职,靠着当时大火的德州扑克网络赌博养活自己。从2003年的开始棒球写作,到2008年他大部分经历转向政治,期间共写作了200余篇棒球评论。
  
2008年大选是西尔弗的关注者从棒球迷到全体公众的引爆点。2007年,还在为棒球杂志写作的西尔弗开始撰写一个政治分析专栏,这个专栏又演变成了538网站。他的分析文章开始受到追捧,纽约时报的政治专栏也会引用。随着大选来临,网站吸引了很多目光。因为时差的缘故,各州大选的记票并不是同时开始和结束的。随着一个个州公布结果,西尔弗的结果引发了狂潮。最终,只有印第安纳州一州错误,49个州的预测全部正确。之后的事情让西尔弗走上了超级名人之路:企鹅出版社重金签约书稿,纽约时报开设政治专栏把538直接移到了自己的网站上,TED 大会邀请他演讲。他不再是那个玩棒球数据的极客,而是一个神人,居然能预测总统大选。注意,不是谁能获胜,而是50个州,谁在哪一个州获胜。剩下的问题只有一个了:他的传奇能延续么?
  
能。2012年的有一次大选,西尔弗在50个州的预测都对了。

分辨信号与噪声


2012年,纳特·西尔弗的第一本书《信号与噪声》出版。很好,这不是一本名人叙述自己成名经历的书,而是一本关于“预测”这件事的书。从第一章的2008年经济危机,到天气预报、地震预测、流行病、股票市场、全球变暖与恐怖主义袭击,以及作者最为熟悉的:政治选举、棒球和德州扑克,这些话题显示这是一本野心不小的书。

  
西尔弗并不打算,也不可能为各种预测提供方法,他更喜欢带读者游历预测这件事本身。预测的可能是一项国家政策,例如书中写到,福特总统对于流感疫情危险的高估,促成了一系列糟糕的疫苗接种计划,花费巨额资金,还导致了接种者不幸死亡。而金融市场的预测失败则带来了更为严重的后果。几个联邦评级机构对于房地产次级贷和衍生品的评级不负责任的宽松,直接导致了2008年金融危机。而这些机构对风险的预测,要不牵扯了自身的利益,要不就使用了错误的数学模型。
  
德州扑克一章也很有意思。西尔弗曾依靠网络赌博的收入过活,对这个话题很是了解。2003网络赌博在美国还合法,ESPN 的比赛的录像引发了全美扑克热潮:一个微胖、秃顶的办公室宅男也可以出现在全国男性最爱的体育频道,过关斩将获得百万奖金。相对于棒球明星,我们从录像里看到了我们自己。西尔弗的分析不是赌钱教学,相反,他分析了为什么能在网上赌博挣钱。很多人的牌技都是中间水平,且变化幅度不会太大。这种水平的人能从菜鸟身上赢钱,遇到高手则必输无疑。当一个网站上三类人的比例不错时,高手总是赢钱的,大部分普通人也能打个平手。可一旦菜鸟不会持续涌入,将导致普通人赢钱的可能性变小,沦为高手的钱袋子而退出。这场网络赌博即便没有被政府叫停,恐怕也难以为继。


再让我们看看政治,关于政治预测西尔弗举了一个例子,麦克劳夫伦讨论小组电视节目。这档节目由主持人麦克劳夫伦邀请一些政治分析家,每期都会召开圆桌会议讨论选民关心的政治议题,之后还会要求每一位专家就最近的大事进行预测。如果长期关注这档节目,会发现专家正如我们一开始说的刺猬们,实在有点可笑。他们的预测完全正确率不到50%,和瞎猜差不了多少。更严重的是那些观点先行的专家,即便所有数据、所有舆论,甚至大部分其他专家都认为2008年总统大选共和党候选人麦凯恩毫无胜算,这些共和党的支持者还是认为两党势均力敌。这种糟糕的预言家在2012年还是不长记性,无视一次又一次的民意调查结果,对米特·罗姆尼做各种乐观的估计。针对这些糟糕的预测,西尔弗自比狐狸,尽管刺猬专家言之凿凿的样子和浓烈的党派意识更适合出任电视嘉宾,狐狸专家却更能综合考虑各种因素,用概率的方式思考,考虑不同民调、定性的结论等,做出更精准的预测。


这本书没有给出万灵丹,只是试图分析什么是分析,概览“预测”这件事。


信号会被噪声淹没吗?

从巨量的信息中,甄别信号与噪音,这有时是分析师工作的真实描述,有时只是一个浪漫的比喻。纳特·西尔弗被很多人奉为偶像,尤其是所谓大数据时代的代表人物,他的方法是什么?这些都写在538网站上:大选预测的数据全部来自公开的民意调查;首先他会对调查结果给与权重,越是最近的,越是大样本的调查,一项调查以往的结果越准权重越高。之后,他还会做数据校正,连同几项公开的政治数据(全部列在网站上)做线性回归分析(一种用于预测的统计方法)。得到回归方程后,还要根据实际选举结果比较、分析错误和模拟。读一遍文档大概没法让一个人学会预测,甚至另一个分析师因为没有掌握他的具体参数,也很难在自己的电脑上复现预测过程。但是西尔弗的方法不是魔法,而是统计学。


而统计学简直是这个时代的新宗教之一。每周科技媒体都会出来一两篇关于“大数据”不着边际的文章。这种狂热多少有点可笑,很多关于大数据的文章中数据根本不“大”,无非是传统数据分析方法。纳特·西尔弗也没有使用大数据。但即便如此,他也卷入了新旧沿革的话题:科技媒体 PandoDaily 的文章宣称,和狐狸纳特相比,媒体老刺猬们将要过时。也有人分析,西尔弗颠覆了传统意义的政治新闻:那些靠采访、线人与专家分析的新闻,败给了靠公开数据与分析方法的新新闻。


老牌媒体并非不愤怒。2012年大选前夕,就有政治节目主持人没点名的宣称,大选不是数学游戏,有些人真应该闭嘴。西尔弗的表现有点失态,他在Twitter 上公开宣布愿意和这位主持人打赌一千美金。但是后来他的预测精准,这些争议也就被人搁置一旁了。倒是《纽约客》的评论值得一提:西尔弗非常推崇贝叶斯方法,在书中不惜对经典统计的创始人之一费希尔褒贬了一番。然而通读全书你会发现,西尔弗自己也在混淆贝叶斯方法,一会儿用它来指代在分析数据时使用贝叶斯定理,一会儿只不过是一个比方,强调使用之前的数据校正现有认知。而数据科学家凯西·奥尼尔(Cathy O'Neil)则撰文对西尔弗《信号与噪声》一书中的分析挑了不少错误,例如对于自己并不熟悉的金融预测,西尔弗的分析恐怕并不高明。


然而不管批评者的观点如何,纳特·西尔弗在2012大选期间,一度贡献了纽约时报网站流量的三分之一。这几个月的热门新闻是,他决定离开纽约时报,携团队加盟ESPN,继续他的分析,当然可能更多关于体育。预测大选的传奇还会延续么?很可能会的,这不是魔法,而是对可见民意的提取分析。然而神奇小子还会有更神奇的动作满足粉丝么?他的那些错误是否会导致他失准?这些问题,倒是可以读一读《信号与噪声》,读者也尝试一下预测。


发于2014.1 《新知》创刊号


小编注:若您爱读书爱读点,我们欢迎您关注虎嗅网旗下的微信公众号“书入法”(Roobook)。你的一部分是你读过的书决定的,书入法精心挑选好书和美文,愿你在此每日遇新知予你欢喜。

如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定