谷歌、Facebook研发的神经元网络，如何进行场景识图？-虎嗅网

虎嗅注：2014年11月，谷歌研究院发表的一篇博文称，未来谷歌的图形识别引擎不仅仅能够识别出照片的对象，还能够对整个物理场景进行简短而准确的描述，也就是“图像识别神经网络”（简称“神经元网络”）。与谷歌对该技术进行研究的还有Facebook。近日，两家公司各自对透露了该项目的最新研究进展。本文综合了网易科技、腾讯科技的相关编译报道。

神经元网络——人工大脑，其可以立即识别照片中人的面部、车辆、建筑物以及其他对象。但是，该系统局限性仍存。

该网络基于机器语言翻译方面的研究成果：通过一种递归神经网络（RNN）将一种语言的语句转换成向量表达，并采用第二个RNN将向量表达转换成目标语言的语句。

该网络可以识别语音、将一种语言翻译成另一种、定向投放广告或者教会机器人开启瓶盖。如果将整个过程逆转，人们可以让该系统具备全新能力，不仅可以识别图像，而且可以创造图像。

Facebook表示，其正在教授自家的神经元网络完成创建包括飞机、汽车及动物在内的图像的任务，在40%的情况下，这些图像足以让我们相信自己看到的是真实照片。

而来自谷歌的研究人员则正在进行截然相反的工作，他们通过神经元网络将真实的照片转换成某种超现实主义的风格。他们让机器识别照片中熟悉的模式，然后对这些模式进一步增强，然后在同一张照片中重复这一步骤。如果照片中的云朵有点像鸟，网络就会使其变得更像鸟一点，周而复始，直至完全体现出一只鸟的样子，其结果就是某种由神经元网络生成的抽象艺术画作。

以下是谷歌的实验过程

研究人员将图片输入图像识别神经网络，并让它识别该图片中的一个特征，并修改图片以强调这项特征。修改后的图象然后被反馈到神经网络，并让神经网络再次识别其他特征并强调它们。最终，这幅图片被修改得面目全非。

在一个低水平上，这种神经元网络可以被用来检测图像的边界。在这种情况下，这些图像就像绘画作品，使用过Photoshop滤镜的人应该对此感到不陌生：

但是，如果神经元网络被要求识别更复杂的图像，——例如识别一头动物，它会产生令人不安的奇幻图景：

最终，这个软件可以对随机噪声进行识别，但生成的结果完全属于自身的想象：

如果你让一个用来识别建筑物的神经元网络去识别一幅毫无特征的图像，它将产生这样的结果：

这些照片是惊人的，但他们不仅仅是用来展示的。神经网络具有机器学习的一个共同特征：它不是向计算机输入程序以让它能够识别特定的图像，而是向它输入许多图像，并让它自己整合这些图像的关键特征。

但是，这可能会导致软件更加出人意料。我们很难知道软件正在审查哪些特征，以及它忽略了哪些特征。例如，研究人员要神经元网络在一幅随机噪声图像中识别哑铃，发现它认为哑铃一定是有手臂握住的：

解决方案可能是向它输入更多放在地上的哑铃图像，直到它明白手臂并非哑铃的内在组成部分。

谷歌表示，通过将神经元网络的运行过程逆转，传授它们生成图像的技巧，能够让人们更好的理解它们的运作机理。谷歌让网络对自己在图像中发现了什么进行描述。有时，它们只是发现了某个形状的边界；有时，它们发现了更加复杂的事物，例如位于水平线上一座塔的轮廓或者一棵树中隐藏的建筑物。每一次，研究人员都能够更好地理解该网络。

虽然Facebook和谷歌在神经元网络呈像效果上有所差异，但跨越了“多层”人工神经元还是能够一致地完成特定任务。

通过该网络，就特定层面的神经元是如何理解一副图像的问题，人们可以获得一个量化的答案，这帮助研究人员通过可视化方式来理解神经元网络如何处理分类任务，进而改进网络架构以及判断是否网络通过训练完成了自我学习。