机器眼中的世界和人类一样吗?-虎嗅网

本文来自微信公众号：中科院物理所（ID：cas-iop），作者：Jordana Cepelewicz，翻译：Nothing，审校：Nuor，头图来自视觉中国

为了让深度学习算法像人类一样用形状来识别物体，研究人员用涂有不相干纹理的图片来训练这些系统。结果表明：系统的表现得到了提高，这同时也为我们视觉的进化提供了线索。

当你注视一张猫的照片，无论它被涂成姜黄色，被弄皱，变成黑白色，被污染，被磨损甚至是褪色，你都有可能把它识别出来。当猫藏在枕头后面或正在向工作台上跳跃时，你同样可能会识别出它。你已经很自然地学会了在几乎任何情况下识别一只猫。相比之下，由深度神经网络驱动的机器视觉系统有时甚至能在某些条件下比人类做得更好。但是在一些特殊的情形下，如图片上有噪声，颗粒等的情况下，机器的识别率会大打折扣。

德国的一个研究小组发现了导致这种情况的令人意想不到的原因：当人类关注物体的形状时，深度学习计算机视觉算法通常会关注物体的纹理。

这一发现使人类和机器的“思考”方式形成鲜明对比，并说明了我们的直觉可能误导了人工智能的发展，同时也暗示了人类的视觉为什么会以现有的方式进化。

身着大象皮肤的猫咪和钟表组成的飞机

深度学习算法的训练方法是向神经网络展示包含或不包含猫的数千幅图像。系统从这些数据中找到一些模式，然后用这些模式来决定如何给从未见过的图像贴上标签。该网络的架构粗略地模仿了人类视觉系统的架构，因为它相互连接的层可以让它从图像中提取越来越抽象的特征。这个系统通过一个黑箱过程来建立联系，使其找到正确的答案，而人类只能在事后去理解这个过程。“我们一直在试图找出这些深度学习计算机视觉算法成功的原因，和导致了它们的不稳定的因素。”俄勒冈州立大学(Oregon State University)计算机科学家托马斯·迪特里希(Thomas Dietterich)说。

大象皮肤的猫

为了做到这一点，一些研究人员来研究通过修改图像来欺骗网络时会发生什么。他们发现，非常小的变化就能导致系统的识别结果完全错误，而大的变化又不会导致这些错误。与此同时，其他专家通过网络去分析单个“神经元”对图像的反应，生成系统学得的“激活图谱”的特征。

但德国图宾根大学(University of Tubingen)计算神经学家马蒂亚斯贝斯格(Matthias Bethge)和心理物理学家费利克斯威克曼(Felix Wichmann)的实验室里的一队科学家采用了一种更加定性的方法。去年，这个小组训练一个对被某种特定噪音影响的图像进行分类的神经网络时，发现它可以比人类做得更好。但是，当这些图像以一种稍微不同的方式改变时，它就完全失效了，尽管在人类看来，新的这两种情况看起来几乎一样。

为了解释这个结果，研究人员想到即使是只包含极小的噪声其特征也会变化很大的特征量——纹理。贝斯格（Bethge）和威克曼实验室的研究生、这项研究的主要作者罗伯特·吉尔霍斯(Robert Geirhos)说：“如果一直增加噪音，物体的形状基本上是完好无损的。但是图像中的局部结构会随着噪音的添加很快被扭曲。”所以他们想出了一个聪明的方法来测试人和深度学习系统是如何处理图像的。

贝斯格（Bethge）和威克曼的同事制作了包括两种特征的图像：其中形状来自一个物体，纹理来自另一个物体。例如一只猫的轮廓颜色与大象的皮肤纹理,或者铝罐构成的熊或一架由钟面填充的飞机。在展示了数百张这样的图片后，人类几乎每次都会根据它们的形状——猫、熊、飞机——给它们贴上标签，就像预期的那样。然而，四种不同的分类算法却倾向于另一种方式，它们贴出的标签反映了物体的纹理的识别：大象、罐头、时钟。

哥伦比亚大学的计算神经学家Nikolaus Kriegeskorte说:“这改变了我们对深度前馈神经网络如何进行视觉识别的理解”。

乍一看，人工智能偏爱纹理甚于形状似乎有些奇怪，但这是有道理的。克里格斯科特（Kriegeskorte）说:“你可以把纹理想象成更微小尺度上的形状。这种微小尺度更容易被系统捕捉到：包含纹理信息的像素数量远远超过构成物体边界的像素数量，而网络的最初几步包括检测线和边缘等局部特征。多伦多约克大学(York University)的计算视觉科学家约翰索索斯(John Tsotsos)说。“纹理就是将以相同方式排列的线段分组。”

吉尔霍斯和他的同事已经证明，这些局部特征足以让网络执行图像分类任务。事实上，贝斯格和该研究的另一名作者、博士后研究员维兰德布伦德尔(Wieland Brendel)在一篇论文中也阐明了这一点。在这项工作中，他们建立了一个深度学习系统，它运行起来很像深度学习出现之前的分类算法——就像一个“功能包”。“它把图像分成小块,就像现在的模型开始做的那样,但是,接下来并不是整合这些信息逐步提取高级特性,而是直接判断每个小块的内容。它只是将这些小块加在一起来确定对象的身份，而没有考虑每个小块之间的全局空间关系。然而，它却能以惊人的准确度识别物体。

布伦德尔说:“这挑战了‘深度学习正在做一些完全不同于以往的事情’的假设。”“显然……这是一个飞跃。这一飞跃接近一些人的预期。”

约克大学(York University)和多伦多大学(University of Toronto)的博士后研究员阿米尔罗森菲尔德(Amir Rosenfeld)表示，“我们认为神经网络应该做的事情和它们实际做的事情之间仍然存在巨大差异”，包括它们在多大程度上重现了人类行为。

布伦德尔表达了类似的观点。他说，一般我们假设神经网络将像我们人类一样解决任务。“但我们往往忘记还有其他方式。”

更人性化的方案

目前的深度学习方法可以将局部特征(如纹理)集成到更全局的模式(如形状)中。克里格斯科特说:“在这些论文中，令人惊讶的一点是，尽管架构允许这样做，但如果你只是训练它(对标准图像进行分类)，它不会自动学会这种整合方式的。”

吉尔霍斯想看看当团队强制令他们的模型忽略纹理时会发生什么。该团队拍摄了传统上用于训练分类算法的图像，并以不同的风格“绘制”它们，本质上剥离了它们有用的纹理信息。当他们根据新的图像重新训练每个深度学习模型时，系统开始依赖更大、更全局的模式，并表现出更像人类的对形状的偏好。

图宾根大学(University of Tubingen)计算神经科学研究员维兰德•布伦德尔(Wieland Brendel)发现，神经网络将图像视为“特征包”，并依赖于这些特征信息对图像对象进行分类。

当这种情况发生时，算法也变得更善于对有噪声的图像进行分类，即使它们没有接受过处理这种失真的训练。“基于形状的网络变得更加强大，”吉尔霍斯说。“这告诉我们，对特定的任务有正确的偏好，也就是形状偏好，在这种情况下，有助于将其推广到一个新的背景。”

它还暗示，人类可能天生就有这种偏好，因为即使是在有噪声的情况下，用形状定义我们所看到的东西也是一种更有力的方式。人类生活在一个三维的世界里，在这个世界里，人们可以在许多不同的条件下从多个角度观察物体，我们的其他感官，比如触觉，可以根据需要帮助识别物体。所以我们的视觉将形状置于纹理之上是有道理的。

威克曼说，这项研究提醒我们，“数据利用的偏好和影响比我们想象的要多。”这并不是研究人员第一次遇到这样的问题：面部识别程序、自动招聘算法和其他神经网络因为训练他们所用的数据存在自身的偏好，所以之前已经被证明过于重视我们不太关注的特征。事实证明，在他们的决策过程中消除这些不必要的偏好是困难的，但威克曼表示，新的研究表明这是可能的。

然而，即使是关注形状的吉尔霍斯模型，也可能被图像中过多的噪音或特定的像素变化打败——这表明它们距离实现人类水平的视觉还有很长的路要走。尽管如此，克里格斯科特说，通过这样的研究，“我们可以很明确地说这些模型还没有捕捉到人类大脑的重要机制。”“在某些情况下，”威克曼说，“也许研究数据集更重要。”

“我们需要设计更聪明的数据和更聪明的任务，” 多伦多大学的计算机科学家费德勒（Sanja Fidler）说。她和她的同事们正在研究给予神经网络次要任务从而能帮助它们发挥主要功能。受吉尔霍斯发现的启发，他们最近训练了一种图像分类算法，不仅能识别物体本身，还能识别出哪些像素是物体轮廓或形状的一部分。网络自动地在它的常规对象识别任务中变得更好。费德勒说:“给你一个任务，你会选择性关注某些特征而对其他很多事情都视而不见。”“如果我给你多个任务，你可能会关注更多的方面。这些算法也是一样的。解决不同的任务让他们“对不同的信息产生偏好”，这与吉尔霍斯在形状和纹理上的实验相似。

迪特里希说，这些研究成果是令人兴奋的一步，加深了我们对(深度学习)现状的理解，或许有助于我们克服目前所看到的局限。”

原文来源：https://www.quantamagazine.org/where-we-see-shapes-ai-sees-textures-20190701/

本文来自微信公众号：中科院物理所（ID：cas-iop），作者：Jordana Cepelewicz，翻译：Nothing，审校：Nuor