医疗做AI,不能不顾隐私
原创2019-10-21 18:10

医疗做AI,不能不顾隐私

做AI,实际上就是让计算机根据一小部分已知的数据,在人的“指挥”下,自我生成程序,进而能够处理更多的数据。而事实上,AI训练出程序的这个过程,所需的数据是需要达到一定数量,而且要经过人类的预处理的。

 

以AI领域截至目前突破最大的图像处理领域为例,李飞飞在内的数位研究者和机构2009年共同搭建了ImageNet项目,其中包含了1400万张、各种各样、人类手工标注的图片。其中不少图片都是学术研究者拿自己为模特拍摄的图片,完全不存在版权和隐私问题。


ImageNet对于AI图像领域是至关重要的突破


也正是因为这些原始数据的存在,全世界的AI研究者才在之后研究出了ResNet在内的一系列专门针对图像进行深度学习的神经网络架构。

 

但当以AI计算力驱动的图像分析技术,拓展到医疗领域时,却出现了很尴尬的事情——尽管已经有了基础性的图片神经网络、尽管有不少学术研究利用小样本数据已经证明了应用的潜力,可实际的落地仍十分艰难。关键的阻碍就在于隐私。

 

医疗行业本身就在AI系统的准确度上要求更高,在AI学术研究时,几十人的数据可能就足够了,而到了实际的临床应用,可能需要成百上千甚至数万人。后一种情况下,同一个医院显然不可能总有那么多的同类患者,跨医院的数据分享几乎是强制性的要求。原本只存储在一家医院的数据现在被迫在多家医院之间穿梭,显然隐私得不到保障。

 

这也不仅会触犯到病患的隐私、有可能造成别人利用这种信息来牟利、更有可能直接打击到普通消费者对于使用AI的决心,间接影响了AI在整个医疗领域的推广。

 

而就在上一周,在深圳举行行的全球最高端的医学影像会议之一——MICCAI 2019大会上,英伟达和伦敦国王学院的研究人员就介绍了他们的最新技术成果:首个面向医学影像的隐私保护型联邦学习系统。

 

又要AI又要隐私的系统


此次英伟达发布的“面向医学影像的隐私保护型联邦学习系统”


先简单解释一下联邦学习(federated learning),它是一种能够让开发者与各企业机构利用分散在多个位置的训练数据对中心深度神经网络(DNN)进行训练的学习范式,该方法可以支持各企业机构针对共享模型开展协作,而无需共享任何临床数据。

 

通过应用联邦学习,数据是不用上传了,但通过数据训练出来的神经网络依旧要上云,这些神经网络虽然不包括最直接的源数据,可通过对神经网络进行分析和反推算,依旧能够找出部分源数据,也就是说隐私依旧得不到保障。

 

这个时候我们就要祭出另外一项法宝技术:差分隐私。这项技术其实在2016年就被苹果在WWDC上提出来说过一波。我找出了当时苹果公司比较详细的官方介绍——“这是一种利用概率学原理,在尽可能多地了解一个群体的情况下不去了解这个群体内的人。拥有了这项技术的苹果,能够利用他们手机和存储的用户数据反过来了解用户言语、喜好、以及需求。”

 

用我当时自己的话说:这是一个弱化之后的用户信息收集策略,关键在于不能从手机信息里还原具体是谁,但同时能够区分是哪一群体。整体步骤应该包括用户数据的 “打碎”,并且降低不同碎片之间的关联性。

 

举个例子:


李雷放学之后,在学校门口的第三间书店见到了韩梅梅。然后在书店旁边的电影院看了《魔兽世界》,最后在和韩梅梅道别之后回到了自己在学校旁边的家里。

 

而实际收集的数据却 “很有可能” 是这样的:

  • 很多人会放学,很多人会在电影院看魔兽,很多人会告别

  • 有一些人 “放学+看魔兽”

  • 有一些人 “看魔兽+告别”

  • 有一些人 “放学+看魔兽+告别”


英伟达此次的研究逻辑同样也是如此,在医疗影像进行联邦学习之后,神经网络上传的这一步中,再对数据进行差分隐私,导入的噪声信息就足以保障之前所担心的隐私问题了。

 

最后但也是最重要的是,英伟达此次提出的这一整套深度学习系统并没有局限于哪一个医疗范围,而是所有涉及到医疗影像的应用都可以使用。其次,这个学习系统已经出现在了英伟达的Clara Train SDK中,后者本身就是英伟达为了简化AI医疗应用所提供的软件开发组件,这也意味着这一整套深度学习系统的应用将会无比简单。


鉴于目前英伟达在多个AI应用领域都构建了相应的SDK套件,已经针对行业乃至赛道的针对性优化,假如别的场景中也需要“联盟学习+差分隐私”这一套方案,相信也能够很快的迁移、改造出来。

 

英伟达副总裁和科学家还说了啥?

 

NVIDIA医疗副总裁,Kimberly Powell


在本次MICCAI 2019现场,虎嗅其实也与NVIDIA医疗副总裁,Kimberly Powell,以及这项研究的作者之一NVIDIA资深研究科学家,Nicola Rieke进行了交流,以下是一些关键的问答内容。

 

问:就这个系统而言,使用“联邦训练”的考量可能是什么,为什么训练神经网络的数据不会被“反推”?

   

Kimberly Powell:在联邦学习系统下,其实它实际的数据、其实是模型找数据,而不是数据找模型。模型找数据用的是本地的数据来进行训练,所以在这个新的技术当中最大的突破,实际上就是我们在“回传数据”。训练完、数据回传的时候,要保证最少的涉及到隐私的数据被回传过来,所以我们只是回传训练后模型的那个数据,而不是原有的数据。

 

其实涉及到“联邦学习”整个系统下面、涉及到隐私,其实也是有不同层级的。我们在搭建这个学习体系的时候,其实就已经给予了数据一定的隐私性。所以刚才我们提到,就是说其实我们不是数据追模型,而是用模型去追数据,所以这些数据其实一直在医院、从来没有离开过医院,这些用户的数据一直是待在医院中的。当然,就像您说的,确实有一定的道理。

 

因为你如果根据这个模型反推,根据模型训练出来的数据,然后你又知道底层的运行逻辑,可能是能够做一些反推的事情,所以这个其实就是这个模型反推的技术。所以当然我们作为研究人员的话,其实也是想到了这一步,所以就往前也走了一步,所以这也是我们为什么把它称之为叫“隐私保护的联邦学习体制”,也就是在这样的一个基础之上给隐私又加了一个保护层。所以我们在训练完之后,这个数据当中加入了一些“噪点”这样就可以使有一些数据变得模糊,我们也改变了原有数据的颗粒度,这样就使得你反推就更加困难了。

 

问:从今年春季到现在,整个Clara平台,有没有什么技术升级、创新可以给我们享一下?

   

Nicola Rieke:其中一个比较大的进展,其实大家也看到就是我们Clara平台开发者数量增长比较快的一个主要原因,就是我们工具集是高度模块化的。在Clara第一个版本当中,其实我们整个工作流是提前设定好的。也就是说,你用现有的模型去训练现有的预定好的模型。在最新的版本当中,其实你就可以将自己的模型带到这个平台来做训练,所以这也是在使用层面来说就是更加友好了。

 

另外,我们还整合了一些开源的其它工具到这个平台当中。比如:医疗影像的一个新的浏览器功能,相当于是一个“AI助理分析工具”,它能有从三个视角看这个图象,所以从用户的角度来说,用起来也就更加方便了。另外一个,就是第三个我们做的改善,就是性能优化,尤其是在数据加载到训练的过程当中。因为在会上也有说:有时候数据加载的时间,可能比训练的时间还要长。另外的话,我们可以用这种,就是实现了自动化多GPU训练,也就是用户不用去管它。

 

问:英伟达AI医疗领域这一块,国内有没有理想的合作伙伴?

   

Kimberly Powell:是有的,现在我们也是在NVIDIA内部是在打造中国本土的医疗团队。我们之所以来参加今天的会议,其实也是去见一些潜在的合作伙伴。

   

这次我们推出的技术,它只是一个工具。我们当然是卖GPU产品的,但是这是一个工具。所以建不建共享的数据中心,这个是完全取决于我们各地或者是各个机构你自己去考虑的问题。比如:一个省里面可能有30家医院,你要共享数据去训练一个模型。那就是这些家医院自己讨论,是不是建立一个共享的中心,也可能去用公有云、也可能自己去建区域的云,我们只是给了你一个技术。

如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定