原来AI也会种族歧视?
2019-08-13 11:46

原来AI也会种族歧视?

Photo by Icons8 team on Unsplash,本文来自:神经现实,作者:DANIELLE GROEN,翻译:邮狸,亦兰,校对:tangcubibi,编辑:EON


人工智能影响着一切,从招聘决策到贷款批准。然而不幸的是,它像我们一样充满偏见。

2010 年一个秋天的早晨,萨菲亚·乌莫加·诺布尔(Safiya Umoja Noble)坐在伊利诺伊州家中的餐桌前,在谷歌上搜索了一些词汇。


彼时她正准备与她十四岁的继女(她喜欢称她为上帝额外的奖赏)和五个小侄女一起过夜。诺布尔不想再让孩子们盯着手机,又怕她们放下手机会直奔笔记本电脑,于是先检查了一下电脑里是否会找到不宜的内容。


“我想搜一下‘黑人女孩’,因为我脑子里想的是她们——我最喜欢的黑人女孩组合,”她说。

但看似无害的搜索引擎显示的结果却令人震惊:一个充满了色情链接的页面。那时候,任何人在谷歌搜索“黑人女孩”,都会得到同样的结果。


“退一步说,这太令人失望了,几乎所有将种族和女孩联系在一起的搜索结果都以色情内容为主。” 如今是南加州大学的传播学教授的诺布尔说,“我赶紧把电脑拿开了,希望孩子们都不会提出要玩它。”


几乎同时,在美国的另外一座城市,计算机科学家乔伊·布兰威尼(Joy Buolamwini)发现了AI的另外一个代表性问题。乔伊出生在加拿大,父母来自加纳,她发现当时先进的人脸识别系统,例如IBM和Microsoft使用的人脸识别系统并不能识别她深色的皮肤。有时更糟,程序根本发现不了她正站在前方。当时她是佐治亚理工学院的一名学生,正在研究一个机器人项目,却发现本应识别并躲避用户的机器人根本无法认出她来。她只好求助浅肤色的室友完成了这个项目。


2011 年,在香港的一个初创公司,她又尝试了另外一个机器人,结果一样,最新的软件无法识别出她来。四年后,作为麻省理工大学的研究生,乔伊发现最新的电脑软件还是看不到她。但当她戴上白色面具——那种可以在沃尔玛买到的万圣节新奇道具,识别就很顺利。于是她戴着那个面具完成了项目编程。


人工智能也逐渐影响我们潜在的就业机会,资源获取和健康


人脸识别技术和搜索引擎只是人工智能的两个专长,人工智能是一门训练计算机执行人脑特有任务的学科,包括数学、逻辑、语言、视觉和运动技能。(智能和色情作品一样,很难被简单地定义; 科学家和工程师们并没有提炼出一个简单、通用的定义方式,但一旦邂逅这个完美的定义,他们立刻就会知道。)自动驾驶车辆可能还不能在城市的街道上来去自如,但像Alexa一样的虚拟助手随时准备着为你在心爱的咖啡馆预订一个午间会议室。人工智能语言处理的优化意味着你可以在自己的手机上用英文读一篇俄语报纸上的文章。人工智能推荐系统非常擅长根据你的口味选择音乐,或推荐Netflix上的电视剧,帮你度过一个愉快周末。


我们生活中受AI系统评估的领域不仅仅局限于此。在某些情况下,我们的时间是最宝贵的:例如,当你去银行办理业务时,你在等待列表中的位置可能并不是按顺序来的,而是取决于你作为客户的价值。 (如果银行认为你的投资组合更有潜力,那么你可能只需要等待三分钟而不是十一分钟。)人工智能也逐渐影响我们潜在的就业机会,资源获取和健康。应聘者追踪系统通过扫描简历的关键词,来帮招聘经理筛选候选人。算法——指示计算机做什么的一组指令—— 目前可以评估谁有资格获得贷款以及谁会受到欺诈调查。风险预测模型(包括魁北克几家医院使用的模型)确定哪些患者最有可能在45天内再次住院,哪些患者更适合出院,哪些患者更需要过渡性医疗服务。


AI也能够引导和通知各地警方以及联邦安全部门哪里有险情。2017年3月,加拿大边境服务局(Canada Border Services Agency)宣布将在其最繁忙的国际机场安装人脸识别软件;从温哥华到渥太华再到哈利法克斯这几个地方的售货亭现在都使用该系统来确认持护照者的身份,并根据加拿大政府招标书的规定,“提供旅行者风险自动评估”。


卡尔加里警方从2014开始使用人脸识别技术,对视频监控中的人脸和人们的证件照进行比较,去年秋天,多伦多警察局宣布投入1890万美元的警务实效和现代化资金用于实施类似技术。相比传统的警务部门,对已经发生的犯罪做出反应,预测性的警务依赖于历史模式和统计模型,协助预测哪些社区犯罪的风险更高,然后将警车引导到那些热点地区。美国主要司法辖区已经普遍应用了该软件,去年夏天,温哥华成为加拿大第一个这样做的城市。


这些技术的价值在于它们的效率、成本效益、可扩展性,以及高度中立性。“统计系统具有客观性和权威性,”多伦多一家专注于人工智能的初创公司的产品和战略副总裁凯瑟琳·休姆(Kathryn Hume)说。如今人类的决策可能是混乱而不可预测的,受情绪、甚至距离吃过午餐时间的影响,“数据驱动的算法为我们呈现了一种不受主观或偏见影响的未来。 但一切远远没有那么简单。”


人工智能可能已经破解了某些通常需要人类智慧来完成的任务的代码,但为了学习,这些算法需要大量人类生活中产生的数据。它们将这些信息连接起来,在寻找共性和相关性的过程中进行搜索,然后根据它们检测到的运算模式,提供一个分类或预测(比如该病变是否癌变,你是否会拖欠贷款)。然而,它们的智慧仅源自它们的训练数据,这意味着我们的局限性——我们的偏见,我们的盲点,我们的无知——也被赋予了它们。


今年早些时候,布兰威尼和他的一位同事发表了对三个领先的人脸识别系统(分别由微软、IBM和Face++开发)测试的结果,检测它们识别不同肤色人的性别的能力。这些系统识别浅色肤色男性的正确率均高于 99%。但是,数据集严重偏向白人并不是什么了不起的事情;在另一个广泛使用的数据集中,用于识别身份的训练图片集得到了 78%男性和84%白人的正确率。当布兰威尼在黑人女性的照片上测试人脸识别系统时,该算法出现了约34%的错误率。肤色越深,系统运行的效果越差,错误率在47%左右——相当于投掷硬币的概率。当黑人女性出现在系统面前的时候,系统认不出她来。


布兰威尼能够计算出这些结果是因为人脸识别系统是公开的,她可以在她自己收集的1270张非洲和北欧政治家的照片中测试这些程序的运行情况,这些国家的政界女性就职的比例很高。对于探索为什么技术在有些预测中失败率高,这是一个很难得的机会。


但是技术透明只是例外情况,而不是通用规则。大多数应用于商业的AI系统,如关系到我们的工作、信用和贷款的中介服务都是专属的,它们的算法和训练数据隐藏在公众视野之外。这使得个人很难质疑机器的决定,也无法知道受人类偏见扭曲的历史数据所训练出的算法是否对自己不利。别想着试图去证明AI系统违反了人权法。“大多数算法都是黑箱,”加拿大伦理、法律和技术研究教授伊恩·克尔(Ian Kerr)说。部分原因是企业会利用政府或商业机密法来掩盖他们的算法,但他补充说,“即使公司和组织有完美的透明度,也可能只是对我们来说,算法和AI自身过于复杂、难以理解。”


但是技术透明只是例外情况,而不是通用规则。大多数应用于商业的AI系统都是专属的,它们的算法和训练数据隐藏在公众视野之外。


刚刚出版了《压迫算法》(Algorithms of Oppression)的诺布尔说:“人们曾组织起来,为争取公民权利和去除歧视性的借贷行为抗争;并诉诸法庭,想要试图在法律的保护下改变这些做法。现在,我们有了类似的歧视性决策机制,只不过是由难以理解的算法完成的——而且你不能把算法告上法庭。我们正在逐渐被简化为系统评分和决策,这些系统是人类的产物,但人类的身影却越来越模糊。”


····


如果你想设计一个智能机器,从挖掘一个聪明人的专业知识开始不是一个坏主意。早在 20世纪80年代,开发人员就用所谓的专家系统实现了早期的人工智能突破。在这个系统中,会有一个有经验的诊断师或机械工程师帮助设计代码来解决一个特定的问题。想一想温度自动调节器是如何工作的:人们可以通过一系列的规则使房屋保持在指定的温度,或者当人进入房间时能够吹出温暖的空气。这看起来很酷,但这是那些规则和传感器的把戏 ——如果[温度下降到 X 以下],就[将暖气调热到 Y]。调节器并没有学到任何有关冷锋或下班时间表等有实际意义的东西;它无法理解自己的行为。


另一方面,机器学习是人工智能的一个分支,它教会计算机通过分析模式来执行任务,而不是系统地去应用既定规则。 大多数情况下,这是通过一种被称为监督学习的技术来完成的。人类还没有摆脱困境:程序员必须整合她的数据,称为输入,并为其分配标签,称为输出,以便系统知道要查找什么。


假设我们的计算机科学家想建立一种水果沙拉物体识别系统,可以从一堆香蕉(十足浪费空间的食物)中分离出草莓(对任何水果沙拉都有价值的添加物)。 她需要选择两种水果高度相关的特征,以便机器能够区分它们——比如颜色和形状。 她把红色和圆形物体标记为草莓,把黄色的长状物体标记为香蕉,然后她会编写一些代码,指定一个值代表颜色,另一个值代表形状。 她为机器输入大量草莓和香蕉的照片,以便机器了解这些特征之间的关系,从而能够对所观察的水果进行合理的猜测。


神经元之间的突触权重启发了人工智能研究人员对训练这些人工神经网络的思路和想法


刚开始系统不会特别好用,它需要从一组稳定的例子中学习。我们的项目负责人、计算机科学家知道这个特定的输入是一个草莓,所以如果该程序的输出是香蕉,她会惩罚它给出了错误答案 。基于这些新信息,系统将调整它在特征之间建立的连接,以便下次改进预测。很快 ——由于多次的输出花不了多少力气——机器将能够“看着”它其实看不见的草莓或香蕉并准确识别它。


“有些事情很容易概念化并为之编写软件,”盖尔弗大学机器学习研究小组的负责人格拉汉姆·泰勒说。但是也许你想要一个能够识别比水果更复杂物体的系统。也许你想让它在人海中识别特定人脸。“这就是深度学习的领域,”泰勒说。 “它可以扩展到非常大的数据集,快速解决问题,并且不局限于定义规则的专家的知识。”


深度学习是机器学习中受我们大脑工作方式启发的一个的分支。简而言之,大脑是由数万亿个突触连接起来的数十亿个神经元的集合,而这些连接(如红色和红色水果之间的联系,以及红色水果和草莓之间的联系)的相对强度会随着时间通过学习过程不断被大脑调整。深度学习系统就是基于这个神经网络的电子模型。


“在你的大脑中,神经元只会传递很少的信息给其他神经元,”蒙特利尔计算机科学家,深度学习的先驱之一约书亚•本吉奥(Yoshua Bengio)说。一对神经元之间信号的强弱称为突触权重[1]:当权重较大时,一个神经元对另一个神经元施加强大的影响;当它很小时,影响也相应变小。“通过改变这些权重,不同神经元之间联系的强度会发生变化,”他说。“神经元之间的突触权重启发了人工智能研究人员对训练这些人工神经网络的思路和想法。”


这就是AI从区分草莓和香蕉到能够识别人脸的一种发展路径。一位计算机科学家提供带标签的数据 —— 所有这些特定的人脸都附有每个人的名字。但并不需要她告诉机器照片中的哪些特征对识别重要,而是由计算机完全独立地提取这些信息。“人们输入人脸图像,机器会输出它的决定——这个人是谁。”泰勒说。


为了实现从输入到输出的旅程,图像经历了多次转换。 “它可能会首先转化为非常低级的表达形式,只是列举边缘的类型和位置,”他说。之后可能分辨出的是角点和那些边缘的交点,然后是组成形状的边缘的图案。起初的几个圈可能会变成一只眼睛。 “每个表示层在特征方面都是不同的抽象层次,”泰勒解释说,“直到你达到高级特征,那些开始看起来能够辨别身份的特征——发型和下巴的曲线——或者面部对称性。”


整个过程是如何发生的呢?数字。令人难以置信的数字数量。例如,人脸识别系统将基于构成它的各个像素来分析图像。 (一个百万像素的相机使用一个1000×1000像素的网格,每个像素都有一个红色、绿色和蓝色的值,一个介于0到255之间的整数,它告诉你显示的颜色强度。)系统通过这些表示层分析像素,建立抽象,最后全靠它自己确认对象身份。


但请注意:虽然这张脸很明显是加拿大男演员克里斯托弗•普卢默(Christopher Plummer)的,但是机器却认为这是加拿大女演员玛格丽特·特鲁迪(Margaret Trudeau)。泰勒说:“这个模型刚开始的表现非常非常差。我们从让它辨认图像中的人物开始,但在它经过任何训练与学习之前,它从没答对过。”这是因为,在算法正常工作之前,人工神经网络中节点间的权重是随机分配的。


通过循序渐进的试验与试错,系统调整了不同层之间的连接强度,因此再提供另一张克里斯托弗·普卢默的照片时,结果会好一些。小调整能稍稍优化连接并降低错误率,直到系统能以高正确率识别人脸。正是这项技术让Facebook在你出现在照片里时提醒你,就算你没有被人标记。泰勒说:“深度学习的酷炫之处就在于你可以提取任何东西,无需别人再对它的用途多费心思。它的神奇之处就在于自动化。”


····


这里还有个插曲:在谷歌图片中输入“CEO”,你会搜索到一连串长得差不多的男性白人面孔。如果在加拿大搜索,还能看得到屈指可数的几位女性,其中绝大多数是白人女性,少数有色人种,还有神奇女侠演员盖尔·加朵(Gal Gadot)。在去年加州的机器学习大会上,一位主持人不得不翻过一大堆穿着黑色西装的白人男士后,找到第一个女性CEO的照片—— 芭比娃娃。


数据量对 AI 系统的运行来说至关重要。系统越复杂——神经网络的层数越多,例如用于翻译演讲、识别人脸或者计算某人贷款违约的可能性——必须收集的数据就越多。程序员可能要依靠素材照片或维基百科条目、历史新闻或录音;他们也查阅大学录取信息和假释记录;他们还想要临床研究与信用评级。麦吉尔计算机科学学院教授多纳安·普雷卡普(Doina Precup)说:“数据非常非常重要,拥有的数据越多,解决方案就越好。”


但并不是每个人都会平等地出现在数据里。有时,由于历史上对特定人群的排斥,导致AI功能的不完善:2017年,女性只占《财富》500强CEO中的6.4%,尽管这一比例相较去年已经提升了52%。加拿大卫生部直到1997年才明确要求将女性纳入临床试验;根据心脏及中风基金会(Heart and Stroke Foundation)的《2018年心脏病报告》(2018 Heart Report),三分之二的心脏病临床研究仍然重点关注男性,这也解释了为何最近一项研究发现,半数以上的女性忽略了心脏病的症状。由于知晓女性被排除在了高管层和临床试验中,我们可以合理假设,缺少她们的数据被任何 AI 系统用于学习训练后,将会导致结果的扭曲。


有时,即使有足够的数据量,但是在分配训练集时没有采取有效措施来保证数据的多样性的话,就会导致人脸识别系统在识别不同人群的面部时出错率不尽相同(就像布兰威尼需要精致面具来骗过它)。由于缺乏具有代表性的数据,导致所谓的抽样偏差[2](sampling bias)。通过优化手段,算法尽可能地少犯错,设法降低错误量。但算法的重点关注对象是由数据的组成决定的。


多伦多大学计算机科学教授托尼安·皮塔西(Toniann Pitassi)专注于研究机器学习的公平性,他提供了一个学校招生计划的例子。泰勒说,加拿大高校的录取工作还没有依赖于算法,但数据科学家凯茜·奥尼尔(Cathy O’Neil)在美国的院校找到了相关例子。“假设5%的申请者是黑人学生,95%的申请者是白人学生,那么你所有的数据几乎都将会是白人。算法试图降低的是在决定谁能被录取这方面针对所有数据的整体错误率。但是算法不会花力气降低那 5% 申请人中的错误率,因为这不会对整体错误率有什么影响。”皮塔西说。


犹他大学计算学院教授苏莱什•文卡塔苏布拉曼尼安(Suresh Venkatasubramanian)解释说:“很多算法的训练依据是算法在训练数据中的正确率,这没问题,但是你细数你得到那些的答案,总有一个数据组错误很多。这对你自己无关紧要,但由于算法系统地在那个小众数据组中出错,相比于将错误率分摊给多个小组,这种针对特定小组的错误决策带来的后果要严重得多。”

正因为如此,布兰威尼发现IBM的人脸识别技术准确率仍达到87.9%。浅色肤色女性与浅色肤色男性被系统识别正确的机率分别为92.9%和99.7%,至此,黑人女性将近35%的识别错误率可谓无关紧要了。微软的算法同样如此,布兰威尼发现系统判断性别的准确率达到了93.7%,但很巧,93.6%的性别判断错误出现在深肤色对象身上。但对此,算法并不需要在意。


····


如果花上足够时间与人工智能专家们进行深入交流,某些时候,他们都会提到一个相同的道理:垃圾输入,垃圾输出。避免抽样偏差并确保系统正接受大量均衡的数据训练是可能做到的,但如果这些数据本身就受到社会偏见与歧视的影响,算法其实并不优于人类。普雷卡普说:“我们需要的是那些忠于现实的数据,而当现实存在偏见时,算法别无选择,只能反映出这些偏见。算法就是这样被创建的。”


如果花上足够时间与人工智能专家们进行深入交流,他们都会提到“垃圾输入,垃圾输出”。

有时候,算法反映出来的偏见意想不到,甚至滑稽。网页搜索、聊天机器人、图像描述(image-captioning[3]程序以及机器翻译正越来越依赖于一项叫做单词嵌入(word embedding)的技术。这项技术通过将单词之间的关系转化为数值,让系统在数学层面上表现语言的社会语境。借此技术,人工智能系统可以“了解”巴黎与法国、东京与日本之间的联系;还能“感受”东京与巴黎之间的不同联系。2016年,来自波士顿大学和微软研究院的研究人员为一种算法提供了300多万英文单词的数据集,数据从谷歌新闻文章中提取。研究人员重点关注那些最常用的英文单词,然后让算法做完形填空。“男人(Man)之于程序员(computer programmer),那么女人(woman)之于什么”,机器通过算法“思考”后,得出答案:“家庭主妇(homemaker)”。


这些统计相关性被称为潜在偏见(latent bias):这就是为什么人工智能研究机构的图像库中“烹饪”这个词与女性照片相关的比例达到了68%,同时也解释了谷歌翻译为何对于中性代词的语言并不精通。土耳其语一般不会说明医生的性别,但是英文机器翻译会假设:如果家里来了医生,那么他必定是男性。这种假设甚至蔓延到了互联网上的广告。2015年,研究人员发现,年薪超过 20万美元的职位招聘广告,谷歌会推送给男性的概率是女性的6倍。


凯瑟琳·休姆说:“该系统能认识到职业与性别之间的相关性,但缺点是系统没有任何意向——仅是数学在关联中发挥作用。它意识不到这是敏感问题。”在这项技术中,未来主义与守旧因素都在起作用,并相互拉锯。AI的发展速度要远远快于它所需要的数据,因此,它注定会反映、复制人类偏见,不仅如此,还会让偏见更加根深蒂固。


因此,当把公安与法院裁决权交给机器时,受到体系歧视的群体并不会得到更公正的判决。多伦多大学犯罪学和社会法学研究中心凯利·汉娜·莫法特(Kelly Hannah-Moffat) 教授说:“设计一种公平、客观的AI工具是一个难题,面对是或非的二元判断时,犯罪的详细背景尤其重要。我们知道有些种族会面临更严格的盘查、询问、登记政策,所以如果你在收集警方接触(冲突)、逮捕率等数据的话,你要知道你所收集的变量已经受到偏见影响了。”一旦那些变量交与机器学习系统,偏见就会被嵌入算法评估中。


两年前,美国调查性新闻机构ProPublica 调查了一款被广泛使用的程序——COMPAS,该程序可以判断被告再犯罪的风险。记者收集了佛罗里达某乡村7000多人的逮捕记录,并在随后的两年内观察他们有多少人犯罪,这与COMPAS的基准是一样的。记者发现,该算法存在严重缺陷:黑人被告再犯罪的风险被错误地标记为真实的两倍;被标记为低风险的白人被告,未来犯罪的风险反而是预计的两倍。


美国有5个州依赖于COMPAS这种刑事司法算法,他们驳斥了ProPublica的发现,同时其他风险评估程序已在全国其他辖区落实。而加拿大免于使用这些备受争议的算法,可能恰是因为根植的“陈旧观念”。汉娜•莫法特说:“我们大部分的数据来源于纸质存档,而我们的陈旧封建思想仍印刻在纸上。所以在基础的技术层面上,我们还没有能力启用这样的系统。”


····


为了实现算法的公平公正,程序员可以干脆摒弃种族与性别等属性。但就算把性别、种族等属性去除,这种根深蒂固的历史关联(将女性与厨房联系起来、把某独立群体与特定邮政编码联系起来),无论如何都会让系统轻易“揣度”出其中的偏见。因此,计算机科学家们提出了一个解决方案:类似于管弦乐界的拉帘盲选,为了隐藏某人的身份,他们制造了一块屏障。


算法干预的作用仍是有限的,消除偏见还需要拥有多元视角的机器训练程序员们,从一开始便对偏见予以关注


深度学习界领军人约书亚·本吉奥说:“如果我们担心种族身份是歧视的原因的话,那么我们可以把数据中的种族身份因素量化。无论这些信息是隐含的还是明确的,在神经网络中加入另一种约束,可以强迫其忽略数据中的种族因素。这种方法虽不能完全屏蔽系统获取这些敏感信息,但是效果还是不错的。”本吉奥补充道。


其实,越来越多的研究领域着眼于用算法消除算法带来的偏见。这可能就会涉及反设事实(counterfactual,指在不同条件下有可能发生但违反现存事实的假设)——让算法进一步分析某女性获得贷款后的各种可能性,而非仅仅以过去的信用等历史记录作为判断基准。这就意味着为算法加上约束条件,当算法出错时,确保错误可以被均摊到每一个代表群体。也可以为算法加上其他的约束条件,比方说,降低特定人群的大学入学门槛,确保某群体的入学率——这种措施被称为算法平权行动(algorithmic affirmative action)


然而,算法干预的作用仍是有限的,消除偏见还需要拥有多元视角的机器训练程序员们,从一开始便对偏见予以关注。麦吉尔大学的多尼安·普雷卡普教授说:“甚至并非出于恶意,出身不同背景的人可能会完全忽视其他人的(文化)背景,并对自己所为带来的后果一无所知。”如果乔伊·布兰威尼IBM面部识别系统开发者的话,在处理数据集时她就会立刻发现,这项尖端科技在识别黑皮肤面孔时真的很糟糕。萨菲亚·诺布尔,《算法压迫》的作者补充道:“对于种族主义和性别歧视没有更深入的认识,其后果远远比公关危机与见诸头条严重。这不仅意味着企业错失更多、更忠实的消费群体,还会在不经意间让企业的产品与服务成为社会的破坏者。”


让越来越多的人意识到算法偏见,不仅仅对构建更公正的AI系统有益,还给我们一个自我审视的机会:为什么我们创造出来的数据会存在偏见,哪些偏见会继续影响我们的社会,未来的社会还会容许这样的数据模式出现吗等。毕竟算法只是一套指令。本吉奥强调说:“我们使用的算法是中立的,不中立的是神经网络,一旦使用那些包含了我们偏见的数据来训练神经网络,歧视将铺天盖地。


这就是为什么,我们需要对收集的数据更加留心。今年3月,微软带领一群研究者们为此来到旧金山,在会议中提出了一种可能的解决方案。由于没有标准手段来确认数据集的创建方式,也没有警告标签来标明其中可能包含的偏见,他们提议在公共数据集与商业软件中附上一种数据表。该数据表将清楚说明训练数据是在何时、何地、如何制成的,并附有数据对象的人口统计学资料,为研究人员与机构组织提供必要的信息,以决定在何种情况下、如何使用数据集。


在欧洲,一项名为《通用数据保护条例》的全新隐私法规限制了对敏感数据的收集行为。法规要求操作者对算法决策作出解释,并保护完全机器决策下个人的权利。“虽然这些都是欧洲的法律,但是长远来看加拿大也可能采取类似的措施,以满足各类贸易需求。”加拿大首席研究员伊恩·克尔说。


当然,还有另一种解决方案,简洁而优雅、从头至尾的公平:获取更好的数据。在乔伊·布兰威尼的调查发现促使IBM启用更大规模的照片训练集,以改善面部识别系统在处理不同性别与肤色人群图像时的不平衡状况。于是,在IBM使用新系统识别来自瑞典、芬兰、南非和塞内加尔等国家的议员照片时,不算意外的事情发生了:对每个人而言,算法表现得都不错。不完美的地方还是有:深色皮肤女性的错误率仍然是最高的,为3.46%。但是相较以往,错误率降低了10倍——道理很简单,只要把获取“好”数据作为优先事项,提升算法公平性是有可能的。就算一个只是半成品的智能机器也明白这一点。


注释:


1.在神经科学和计算机科学领域,突触权重是指两个节点之间联系的强度或幅度。如长时程突触增强或易化效应就是突触权重增加的表现。“突触权重”主要出现在人工神经网络和生物神经网络研究方面。

2.抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标的绝对离差。

3.对图像进行分割后,将图像分成了若干个区域,包括不同特征的物体和背景,其中可能包含某些形状,如长方形、圆、曲线及任意形状的区域。分割完成后,下一步就是用数据、符号、形式语言来表示这些具有不同特征的小区,这就是图像描述。以特征为基础进行区别或分类是计算机理解景物的基础。图像区域的描述可以分为对区域本身的描述和区域之间的关系、结构进行描述。包括对线、曲线、区域、几何特征等各种形式的描述是图像处理的基础技术。



原文:https://thewalrus.ca/how-we-made-ai-as-racist-and-sexist-as-humans/


本文来自:神经现实,作者:DANIELLE GROEN,翻译:邮狸,亦兰,校对:tangcubibi,编辑:EON                

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定