预测自杀概率的算法这么多,为什么科学家青睐这一种?
2019-03-11 09:08

预测自杀概率的算法这么多,为什么科学家青睐这一种?

本文来自QUARTZ,中文版首发于微信公众号:造就(ID:xingshu100),翻译:于波


“随机森林”是数据科学领域最受欢迎的预测算法之一,20世纪90年代由统计学家利奥·布雷曼(Leo Breiman)提出,因其简单性而备受推崇。虽然随机森林有时并不是最准确的预测方法,但它在机器学习领域拥有特殊地位,因为即便是数据科学方面的新手,也能运用和理解这种强大的算法。


在2017年一项关于自杀预测的研究中,就用到了随机森林。该研究由范德堡大学的生物医学-信息学专家科林·沃尔什(Colin Walsh)以及佛罗里达州立大学的两位心理学家杰西卡·里贝罗(Jessica Ribeiro)和约瑟夫·富兰克林(Joseph Franklin)开展,他们想看看能不能利用5000名自残病人的数据,来预测这些病人自杀的可能性。这是一项回顾性研究(译注:指以现在为结果,回溯到过去的研究)


遗憾的是,研究还没有结束,已经有近2000名患者自杀身亡。


总的来看,研究人员可以利用1300多个不同的特征来进行预测,包括年龄、性别以及个人病历的各个方面。如果随机森林作出的预测被证明是准确的,那么从理论上来说,这种算法以后也可以用于识别自杀风险高的人,为他们提供有针对性的治疗。这会是一件善事。


如今,预测算法无处不在。在当今这个数据丰富、算力强大且便宜的时代,数据科学家越来越多地利用个人、企业和市场的信息(不管是自愿提供还是偷偷获得)来预测未来。算法不仅可以预测我们想看哪部电影,哪些股票的价格会上涨,还能预测我们最有可能对社交媒体上的哪些广告作出反应。人工智能工具也往往依靠预测算法来做出决策,比如汽车自动驾驶系统。



预测算法最重要、最个性化的应用也许是在医疗领域。算法驱动的AI或许会彻底改变我们诊断和治疗疾病的方式,从抑郁症、流感,到癌症、肺衰竭,无一例外。因此,预测算法虽然看似晦涩深奥,但它值得我们去认识和理解。实际上,很多情况下,它们理解起来还是比较容易的。


理解随机森林的第一步是理解决策树。毕竟,森林是由一颗颗树组成的。


决策树是基于这样一个想法:我们可以通过提出一系列是非问题来作出预测。例如,就自杀预测而言,假设我们只有三条信息可用:是否被诊断为抑郁症,是否被诊断为躁郁症,过去一年里是否到急诊室就诊三次以上。


决策树的一个优点在于,不同于其他常见的预测方法(比如统计回归),决策树模拟了人类作出猜测的方式。这使它们相对更容易理解。考虑到隐私问题,研究人员不会公布真实数据,以下是假设的一颗决策树,利用我们掌握的上述三条信息来预测一个人是否会自杀。



决策树的分叉点旨在最大程度地减少不正确的猜测。虽然人也有可能计算出正确的分叉点,但数据科学家几乎总是让计算机来做。


决策树的缺点在于,想要作出正确的预测,不能单靠一颗决策树。


你需要生成很多不同的决策树,然后取所有这些决策树的预测平均值。这就是复杂之处:如果只有一个数据集(上述例子中即为抑郁症/躁郁症/急诊室就诊),如何生成不同的决策树?如果使用同样的数据,每颗决策树难道不是相同的吗?


这就把我们引向了对现代机器学习的一个重要认识。一个数据集其实可以通过重采样,变成很多不同的数据集。重采样是指随机排除一些数据,从而创造出新的数据集。


比方说,预测自杀可能性的研究人员有一个数据集,包含5000人的数据。为了通过重采样创造出“新”的数据集,研究人员会从5000人中随机选择一个人剔除,并将这个过程重复5000次。由此产生的数据集不同于源数据集,因为同一个人可以被选中不止一次。由于概率法则,任何特定的重采样数据集只会使用源数据集5000人之中的3200人左右,另外1800人不会被随机选中。有了重采样数据集,研究人员就可以生成新的决策树,它可能略微不同于利用源数据生成的决策树。



如果随机重采样碰巧排除了罕见情况(也就是“异常值”),那么准确性就会提高;如果碰巧包含了所有的异常值,排除了一些更典型的情况,那么准确性就会降低。但重点在于,你生成的新决策树不止一颗。就“随机森林”而言,你生成了大量的新决策树。预测自杀可能性的研究人员生成了500颗不同的决策树。由于是计算机来完成所有工作,研究人员有时会生成数千乃至几百万颗决策树。通常来说,500颗决策树就够了,随机森林的准确性是有上限的。


一旦随机森林生成,研究人员往往会取所有决策树的平均值,得到研究结果的一个概率。例如,一名40岁男性,收入为4万美元,有抑郁史,如果500颗决策树中的100颗预测他会自杀,那么研究人员可以说,拥有这些特征的人,自杀概率为20%。


为了理解重采样为什么重要,我们来看一个例子。


假设你想根据年龄、性别和收入来预测普通人的身高,而职业篮球运动员勒布朗·詹姆斯(身高2.03米/男性/年薪3565万美元)和凯文·杜兰特(身高2.08米/男性/年薪2654万美元)不知怎么进入了你的100人样本。一颗决策树如果按照这些超级富有的篮球明星来预测身高,就可能作出错误的预测,认为年薪超过2500万美元的人都长得很高。而重采样能够确保,最终分析所包括的一些决策树排除了詹姆斯和杜兰特中的一人或者两人,从而提供更加准确的预测。


我们还需要做另一件事,让随机森林真正体现出随机性。


用重采样数据集生成的500颗决策树虽然各不相同,但差异并不是很大,因为每个重采样的大部分数据点都是一样的。这把我们引向了对随机森林的一个重要认识:如果限定了你(或者计算机)能够从任何分叉点选择的变量的数量,就可能得到全然不同的决策树。


在关于自杀预测的研究中,研究人员有大约1300个变量可用来作出预测。在典型的决策树中,这1300个变量中的任何一个都可以用来生成决策树的分叉点。但随机森林的决策树却不是这样:可供计算机选择的变量只有一部分,而不是全部1300个,并且是随机选择。



这种随机性使随机森林中的每颗决策树都是不同的。在对自杀预测的研究中,一些决策树可能包含了是否诊断为抑郁症的变量,而另一些决策树可能没有包含这种变量。用术语来说,我们已经让决策树“去相关”。接下来,再取这些去相关决策树的预测平均值(自杀预测研究中有500颗),即为随机森林的最终预测结果。


从每颗决策树中剔除一些变量,使每颗决策树不那么准确,最终的预测反而更好,这是怎么回事呢?在预测身高的上述例子中,用收入来预测身高的所有决策树都会认为,高收入者长得极高。但如果身高变量从一些决策树中被随机排除,这些决策树对普通人身高的预测将会更加准确。


一种好的自杀预测算法,应该具有两个特征:一是在某人不会自杀的情况下,很少预测此人会自杀;二是在某人会自杀的情况下,很少漏掉此人。范德堡大学和佛罗里达州立大学研究人员开发的随机森林算法,在这两个方面都表现得不错。


我们用真实结果来做检验。如果该算法预测一个人的自杀概率为50%或更高,那么79%的情况下,此人确实会自杀。如果该算法预测自杀概率不到50%,那么只有5%的情况下,会发生自杀行为。


随机森林的一个优势在于,除了是非预测以外,它还提供了一个概率。假设随机森林预测一个人的自杀概率为45%,另一个人为10%。对于这两个人,算法认为他们不会自杀的可能性更大。但决策者也许想制定一个计划,把算法认为自杀概率高于30%的所有人都作为目标对象。


统计学家和计算机科学家开发了很多预测算法,随机森林只是其中之一。某些情况下,随机森林是最好用的。


例如,在对自杀预测的研究中,随机森林的预测准确性大大高于更简单的回归算法。但在另外一些情况下,其他算法可能会给出更好的预测。最受欢迎的是支持向量机和神经网络。如果你有很多可能的预测指标,比如你想根据基因数据来预测某种疾病的遗传可能性,那么支持向量机非常有用。神经网络算法往往非常准确,但用起来极为耗时。



遗憾的是,上述关于自杀预测的研究并非一种常态。眼下,算法最常用于定向广告和识别欺诈,而不是改善公共政策。


不过,有些机构正尝试将算法用于公益事业。例如,DataKind为纽约市约翰杰伊刑事司法学院(John Jay College of Criminal Justice)开发了若干预测模型,帮助他们识别面临辍学风险的学生,哪怕他们即将毕业。这些模型是在2017年开发的,它基于10多年的学生数据,将用于为辅助项目确定目标对象,帮助那些面临辍学风险的学生。


这些数据模型也许看起来晦涩难懂,实际上并非如此。你如果稍有数学头脑,就会知道如何理解和运用算法。掌握这些工具的人越多,它们就越有可能去解决各种各样的社会问题,而不仅仅是用于商业目的。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定