数据是如何成为对抗流行病的强大工具的
2020-06-18 19:39

数据是如何成为对抗流行病的强大工具的

本文来自微信公众号:乐天行动派(ID:letianxingdongpai),作者:史蒂夫·约翰逊,题图来自:视觉中国


从生命统计的角度来看,在一场流行病期间,一个人的死亡讲述的是过去,而一百只死鸡则可以预示未来,甚至可以完全阻止这些故事的发生。


新冠时期,我们几乎每天都在关注各种数据统计。21世纪的我们对这种曲线图早已司空见惯,它出现在证券大楼的屏幕上,红线绿线交缠;它出现在我们的调查问卷中,此涨彼伏。事实上,对于疫情数据的这种统计工作,早在两个世纪前就萌芽,围绕这些数据的收集与分析工作构建出了全体人类在疫情面前的保护伞,证券指数、民意调查等在疫情数据统计面前只能算是“晚辈”。


自19世纪以来,公共卫生专家就知道信息可以是最好的药物,知道哪些数据流可以帮助平息未来的暴发。而这一切都要归功于一个叫威廉·法尔(William Farr)的男人。


威廉·法尔(William Farr)


伦敦霍乱的终结者:法尔


1866年6月27日,位于英国伦敦利河(The River Lea)边的一个工人社区里,亨吉斯(Hedges)夫妇在这一天先后死于霍乱,该案例在当时并未立即引起重视。1832年伦敦首次暴发霍乱,几周内数千人死亡。随后,霍乱便像阴雨连绵一样困扰着伦敦,就在亨吉斯夫妇死亡的前几周媒体还有陆续在报道霍乱死亡,这样的大背景下,夫妇同一天死于霍乱似乎并非闻所未闻。


没想到,这对夫妇的死亡就是疫情更大范围暴发的开始。数周内,利河周边的工人社区暴发了英国历史上最严重的霍乱。报纸开始发表疫情统计信息,到7月14日结束的这一周,伦敦东区有20例霍乱死亡;再下一周总数跳到了308;到了8月,每周的死亡人数已接近一千。这些增长的数据形成的上升轨迹,像新冠时期一样的统计数据一样困扰着人类,失控与未知令人恐惧。


随着死亡人数的上升,当时的伦敦又是如何找到细菌起源地和霍乱传播路径的呢?早在1854年伦敦经历霍乱的时候,当时的医生后来被称为流行病专家的约翰·斯诺(John Snow)就已经证实,霍乱是经由水传播的。基于此,随着死亡人数的增加,威廉·法尔立即开始调查东区附近的水源。


他对死于霍乱的人进行了分类,分类标准不是按住所而是按提供饮用水的公司。他收集的数据揭示了,绝大多数病患都饮用过东伦敦水务公司的水。


调查人员很快就找到了污染源:东伦敦水务公司的水库没有与附近的利河隔离开。通过查看夏季初的死亡报告,住在利河附近的亨吉斯夫妇的死亡进入调查人员视线。经调查,该夫妇的厕所直通利河,利河又与东伦敦水务公司的水库相连,霍乱细菌流入供水系统并引发疫情。


这次事件无疑是流行病学史上的一个里程碑——1866年是伦敦历史上最后一次霍乱暴发。伦敦霍乱的终结者威廉·法尔简直是以惊人的速度和效率完成了一项出色的侦探工作,而他的利器无疑就是他发明的“生命统计”。


生命统计的“发迹”


威廉·法尔于1807年出生在一个农村家庭,因有赞助者支持才得以在巴黎和伦敦大学学习医学。20多岁的法尔在伦敦建立了医疗机构,但他真正的热情在于生命统计,他相信对死亡率宏观模式的认识可以像任何传统医学干预一样成为一种拯救人类的有效工具。在18世纪,使用数据来了解生死模式几乎完全是商业利益驱动,但法尔和少数同僚认为,人口动态统计是诊断社会弊端和揭示社会不平等现象的改革工具。


抱着这样的信念,法尔在《柳叶刀》上发表了几篇医学数据分析的论文,并于1837年就职于中央户籍总署,该署是一个新型政府机构,负责追踪英格兰和威尔士的出生和死亡。在法尔的鼓励下,该署开始在死亡率报告中记录更广泛的数据,包括死亡原因,职业和年龄等。


计数本身并不是什么新技术:自伊丽莎白女王时代以来,伦敦就每周发布一次“死亡单”。单个数据并没有用处,是法尔让获取的原始数据变得有意义:发现数字中有趣的趋势,比较人群中不同亚组,发明新的可视化形式……


法尔绘制了伦敦的温度和死亡率可视化图表


收集和发布数据不仅是报告事实的问题,而且是更微妙的探索性艺术:测试和挑战假设,建立解释性模型。正如法尔所写的那样,“事实不计其数,但并不是科学。就像海边无数的沙粒一样,单个事实显得孤立、无用、无形。当事实以天然关系排列就能被比较;当事实被智慧诠释,才构成了永恒的科学真理。”


法尔使用统计数据回答的第一个问题也与我们当前的危机有关:城市密度在多大程度上促成死亡率?在报告中,他尝试了一种巧妙的方法——“生命表”来比对3个独立社区(伦敦大都市,利物浦工业区和萨里乡村)的密度与死亡率关系,即按年龄细分特定人口的死亡率。


法尔“生命表”插图


在同一份报告中,法尔还注意到数据中另一个令人困惑的模式:他称之为“流行病的作用定律”,现在流行病学家将其称为“法尔定律”。通过分析利物浦的天花暴发数据,法尔将死亡率计数分为10个独立的时期。第一个周期的死亡人数为2,513,第二个周期为3,289,第三个周期为4,242。一目了然,这些数字几乎以30%的速度增长。” 死亡率统计进入到第四个周期,法尔观察到,这种增加的速度“在接下来的时间内会再上升6%,在那里保持不变,就像曲线顶点处的弹丸一样,注定值得关注”。法尔定律是用数学方法描述传染性疾病发展规律的首次尝试。


再看新冠:数据的延续与革新


在新冠病毒暴发的今天,尽管我们的科学、技术和医学专业知识相比1866年已经千差万别,但我们发现自己所处的环境与维多利亚时代的人类并没有什么不同——缺乏保护未感染者的疫苗、没有直接有效药物可以治愈新冠肺炎。


从事新冠肺炎研究的流行病学家收集分析了许多核心数据:感染,死亡,地点等信息,通过法尔发明的生命周期表,我们可以看到新冠的致死率不成比例地集中在老年人中;华盛顿大学对于新冠的预测等都法尔最初在1840年制定的行动法则的当代产物;当我们讨论展平曲线时,所讨论的曲线是由法尔首先绘制的……


再看新冠防疫,我们依赖的竟然还是法尔在大约两个世纪前开始构建的保护伞:数据收集和分析。数据使我们能够看到疾病正在传播的地方、医疗保健系统可能透支的地方……它使我们能够计算感染率,并将热点映射到地图上。


事实证明,法尔的生命统计数据源远流长,这是一种平等主义。它在19世纪终结了伦敦霍乱,也在21世纪新冠中与新兴技术结合衍生出众多有效研究。显然,当今的重要统计学家比19世纪的法尔能够获得更多的信息,如抗体测试结果,受害者合并症,甚至是不同的病毒遗传株。他们拥有的软件可以使他们建立模型以形成法尔最初发现的流行病学曲线。


东北大学新兴流行病实验室的塞缪尔·斯卡皮诺(Samuel V. Scarpino)、牛津研究人员莫里茨·克雷默(Moritz Kraemer)和清华大学的博士徐波于1月下旬成立了一个特设组织,负责创建21世纪相当于法尔的死亡率报告的文件:世界上所有新冠病例的单一开源档案。到2月初,工作组已经收集了10,000个案例的详细记录。如今,由数百名志愿者组成的非正式网络已经在全球142个国家/地区收集了超过100万个案例的记录。


西雅图流感研究是另一种新兴技术的变体,该技术“症状监测”已在此次防疫中发挥了重要作用。在患者进入医院之前,先对进入卫生保健系统的患者的官方数据进行补充,以跟踪疾病症状的出现。如通过结合交互温度计、搜索数据、小程序等记录使用者的邮政编码、初期症状等,收集的数据使新兴热点在出现于诊所或官方卫生报告中之前对其进行映射,从而有效地将数据收集时间轴向左移动了五天,这一举措对于潜伏期较长的新冠肺炎十分必要。


相信最终有效药物、疫苗会被研发,传统医学将保护我们免受新冠病毒的侵害,但就目前而言,生命统计数据是我们人类拥有的最佳防御方法。本着威廉·法尔的精神,在新冠时期涌现了多个新的数据收集和分析实验,可能在危机结束前挽救了成千上万人的生命。


向左走向右走:生命统计的未来


19世纪,法尔最早系统地研究暴发数据是从空间和时间上的分布情况角度进行分析,利用数据趋势来遏制疫情的发展。如今,我们当前数据分析的局限性也依旧是空间性与时间性。


在空间的局限性上,或许我们应该向右走两步。正如纽约医学院医学院人口健康系主任马克·古雷维奇(Marc Gourevitch)所指出的那样,在许多城市和城市社区中,几个街区或一英里之内可能会有很大差异。


对于跟踪快速传播的病毒,想要明确区别感染区与未感染区是完全错误的,一个潜在解决方案是将暴发数据的地理模糊化处理,古雷维奇建议不要故意在地图上标出表示感染具体地址的图钉,而应故意降低定位的准确性:也许可以是城市街区,而不是特定地址。这种做法完全也可以监测到通过城市中的微型社区暴发的疫情,同时又无法在公共数据中识别出个人身份,保护了公众隐私。


在时间的局限性上,我们应该再向左走。正如今年2月份梅德玛(Medema)和他的同事在荷兰的污水数据收集所证明那样,污水中病毒的峰值时间比新冠肺炎病例报道时间要早7天。在法尔生活的时代,污水是造成流行病的主要原因,而在21世纪,污水很可能为我们提供了控制其扩散的重要数据。


对于过去几十年来出现的许多最可怕的疾病,最初人类并不是感染主体,人类病例往往出现在时间轴中部位置。无疑,我们需要将数据收集时间轴向左移动,最激进的方式,无外乎是完全将人类排除在分析考虑之外。


在过去的三十年里,约有50种疾病从动物转移到人类身上。非典、中东呼吸综合征、禽流感、埃博拉、艾滋病等都曾一度是动物疾病。生命统计向左走两步就是对动物疾病的监测。将生命统计数据应用于动物疾病领域的原因很简单——可以阻止正在出现的人畜共患病,可以避免专家们历来最担心的潜在大流行。


公共卫生数据最初只是简单的计数:某天在某地死亡了多少人。数据收集与分析帮助将城市从“人类的坟墓”变成了如今地球上预期寿命最长的社区。从生命统计的角度来看,在一场流行病期间,一个人的死亡讲述的是过去,而一百只死鸡则可以预示未来,甚至可以完全阻止这些故事的发生。


*本文原标题为《数据如何成为对抗流行病的最强大工具之一》(How Data Became One of the Most Powerful Tools to Fight an Epidemic)。作者史蒂文·约翰逊(Steven Johnson),2020年6月10日发表于《纽约时报》杂志(The New York Times Magazine)。


本文来自微信公众号:乐天行动派(ID:letianxingdongpai),作者:史蒂夫·约翰逊

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP