动物的大脑里都在想什么？科学家追踪了数十年-虎嗅网

文章来自公众号：神经现实（ID：neureality），作者：Jordana Cepelewicz，翻译：物离，原标题为：《为了解码大脑，科学家让行为研究自动化》。

动物的心智和大脑中究竟发生了什么？对这个问题的不断追寻，让神经科学家们进行了许多令人惊讶的尝试：从直接观察活体大脑，到用光控制神经元，再到构建错综复杂的装置和虚拟现实环境。

2013年，为了解决上述问题，神经生物学家鲍勃·达塔（Bob Datta）和他在哈佛医学院的同事从他们的实验室出来，来到了大街上的百思买。在电子商店，他们找到了他们需要的东西：Xbox Kinect，一种能够感应到玩家运动状态的游戏设备。

科学家们想事无巨细地监控小鼠的身体运动轨迹，但是并没有常规的实验室技术能够胜任这项任务。所以达塔的团队转向了游戏设备，希望收集动物们探索环境时产生的三维运动信息。该设备实质上是先将这些运动信息渲染成空间中的点阵，随后研究者们再对这些点的节律性运动进行分析。

在当时，达塔的解决方案显然是不寻常的。但是这种方案如今却是一系列自动化方法中的典型。这些自动化的方法正改变着研究行为的科学。研究者们希望通过更加严格定量的方式研究动物行为，从而更深入地洞察动物无形的“驱动力”或者说内部状态。“我们甚至不清楚动物可能处于哪些状态。”普林斯顿大学研究动物行为的博士后亚当·卡尔霍恩说。

为了追踪动物自然行为的运动轨迹，科学家们越来越多地转向机器学习的方法。在这个视频中，名为DeepPoseKit的算法能够自动追踪容器中沙漠蝗虫的运动轨迹和方向，以向研究人员提供有关其共同行为的数据。

视频来源：Graving et al. DOI: 10.7554/eLife.47994

研究人员需要面对的进一步挑战，是如何将这些内部状态，回溯到大脑复杂神经回路中的特定活动。尽管精密的仪器能够一次性记录成千上万的神经元活动，达塔仍然指出：“我们对大脑的输出系统仍知之甚少。要弄清楚这些密集的神经代码，就需要对行为有更加深入的理解。”而那种更深入的理解已经不再那么遥远了。

利用机器学习的进步，科学家们正在构建能够自动追踪动物运动轨迹的算法。这些算法能够捕捉到像果蝇翅膀扇动的角度、小鼠背部弯曲弧度这样微小的变化。他们还创建了模式搜寻工具：这种工具能够自动分析数据、对数据进行归类，来提供有关动物内部状态的一些线索。

这些方法的核心优势在于它们能够捕捉人类难以察觉的模式。2019年11月发表在《自然-神经科学》的一篇文章中，卡尔霍恩和普林斯顿的神经科学家玛拉·穆西（Mala Murthy）及乔纳森·皮洛（Jonathan Pillow）一起构建了一个机器学习模型。这个模型旨在利用果蝇求爱的行为来识别它们的内部状态。

通过操纵果蝇的大脑活动，研究者们能够精确掌控控制着这些内部状态的一组神经元。运动追踪和行为分析的相关工作，让这些结果的出现成为可能，而这也代表了行为研究中的技术革命。这种成功只是一个开始。现如今，科学家正将这些方法用于解决神经科学、遗传学、演化和医学领域迄今尚未解决的问题。

日志和清单

数十年来，科学家们都是用纸笔和秒表，在野外（及实验室）对动物的行为进行量化研究。科学家们观察它们睡觉，嬉戏，觅食以及交配。他们不仅记录了观察的数据，还描述了行为的模式，并且提出了组织框架来系统化和解释这些趋势。

生物学家尼古拉斯·廷伯格（Nikolaas Tinbergen），康拉德·洛伦兹（Konrad Lorenz）和卡尔·冯·弗里希（Karl von Frisch）因各自独立地对鱼、鸟以及昆虫进行这类实验而获得了1973年的诺贝尔生理学医学奖。

动物学家伊兰·戈兰尼（Ilan Golani）手工绘制了许多生物物种的行为和运动状态，目的是量化控制动物行为的规则。他的这些画作展示了一只獾的全身旋转的状态。图片来源：Ilan Golani

这些工作所记录的相关行为极其详尽：在一篇1973年的《自然》杂志文章中，作者们描述了小鼠自我清洁的一些行为，例如“用前爪挠搔脸下”，以及“前爪在头顶同步却非对称的轻抚”，并估计了在不同情况下出现这类行为的可能性。研究人员之所以需要捕获所有细节，是因为他们不清楚观察到的行为中，到底哪些方面是重要的。

一些科学家则采取了完全相反的策略。他们将动物置于严格控制的实验室环境中，仅让它们做出简单的二元决策（例如在迷宫中向左转还是向右转），从而减少了行为的变异性，仅保留其中的关键部分。有时候，这种简化方式确实管用，也能提供信息。但是，人为带来的限制确实会妨碍研究者们对自然行为的理解，让他们忽略重要的信号。加州理工学院理论神经科学博士后研究员安·肯尼迪（Ann Kennedy）说：“对行为的精准把握，的确是现在研究的一个限制因素。”

这也就是为什么科学家们开始对该领域进行现代化，正如普林斯顿大学的塔尔莫·佩雷拉（Talmo Pereira）所指出的：“这是为了更加定量化地思考自然行为。”在行为研究的进化中起到重要作用的，正是对数据收集和数据分析进行自动化。

追踪口鼻、脊椎和尾巴

图像捕获技术对追踪运动中动物的姿势一直是至关重要的。在十九世纪，爱德华·穆布里奇（Eadweard Muybridge）使用了定格照片来研究马奔跑和人们跳舞的机制。通过这些照片，研究者能够逐帧标注马腿的位置或者马头的朝向。录像技术的到来，也让研究者们能有更精细的测量。不过这些测量也是基于较粗糙的数据，比如动物的速度或者平均位置。对每个运动在三个空间维度中进行追踪几乎是不可能的。而且，所有对视频的注释仍必须由人亲手录入到计算机中。与之前在笔记本上绘图的方法相比，这一过程并没有太大的改进。

在十九世纪，爱德华·穆布里奇（Eadweard Muybridge）用定格摄影技术，研究奔马和其他运动物体的姿态。他的相机可以捕获并定格一些动作细节。这些动作上的细节因为太快或者太微小，常常难以用肉眼察觉。图片来源：Eadweard Muybridge

上世纪八十年代，研究者们开始将计算机视觉算法应用到研究当中。这些算法已经被应用于在图形中发现轮廓和边，而研究人员可以将其应用到研究动物行为中：比如追踪平面上果蝇的运动轨迹等。在接下来的数十年中，一些新研发的系统陆续出现，被用于标记动物在每一帧视频中的位置，区分多种生物，甚至还能识别特定的身体部位和方向。

尽管如此，这些程序的效率远不能满足科学家们的需求。德国马克思·普朗克动物行为研究所主任伊恩·库赞（Iain Couzin）说到：“以前，我们对未来只有一些隐约的猜测。直到最近深度学习的到来，我们才能看到一些真正的细节。”

通过深度学习，研究者们已经开始训练神经网络，以追踪视频每一帧中几乎所有动物（包括昆虫、小鼠、蝙蝠和鱼类）的关节和主要身体部位。这些训练只需要少量带标签的视频帧（对于某些算法，可能仅需十帧画面）。而输出结果，将以彩点的形式出现在动物身体上，标明鼻子、尾巴、耳朵、腿、脚、翅膀和脊柱等。

在过去的两年中，这样的程序数量爆炸式增长。这不仅得益于机器学习的进步，而且也归功于电影制作人、动画制作人以及游戏工业中映射人体运动的相关工作。

新方法可以追踪各种动物交互时的身体姿势。在这些视频当中，SLEAP算法会自动标记、跟踪一对正在求爱的果蝇的（左侧）以及两只探索环境的小鼠的身体各个部分。

视频来源：（果蝇）来自于普林斯顿大学Mala Murthy实验室的Junyu Li；（小鼠）来自于普林斯顿大学Samuel S.-H. Wang实验室的John D’Uva和Mikhail Kislin

在好莱坞和硅谷的动作捕捉相关的各种相关工作中，人们都穿着带有标记的紧身衣，让该系统可以轻松发现并追踪人们的动作。随后，这些数据就可以被用来构建详细的姿势动作的模型。但是，对于动物研究来说，让动物穿上紧身衣可不是一个好的解决方案。

2014年，神经科学家乔纳森·惠特洛克（Jonathan Whitlock）开始寻找标记小鼠的其他手段。他尝试了几乎所有他能想到的方法：刮掉动物们的皮毛，用红外反射的墨水标记它们；将经常用于道路反射涂料的玻璃状悬浮液，涂抹在动物们的背上；在动物们的关节处，涂抹发光的墨水和抛光剂。这些尝试还在继续，但是都于事无补：有时候标记不够明亮导致跟踪失败；有时候这些标记让小鼠焦虑不安，破坏了它们的行为。

最终惠特洛克团队决定，通过固定在动物背部三个点上的微小反光，从而重构脊柱的动作，并使用带有另外四个反光带的微小头盔来追踪头部的动作。“这足以为我们打开一个全新的世界，”惠特洛克说。

通过激活果蝇某些特定的神经元，研究人员让昆虫在球形跑步机上向后走（左下）。用深度学习方法测量果蝇腿中关节的角度随时间的变化（上），并将腿部，腹部和触角的运动投射到三维空间中（右下）。

视频来源：Semih Günel and Pavan Ramdya, EPFL; DOI: 10.7554/eLife.48571

有许多研究人员想完全放弃标记物的使用。他们希望能在动物身上追踪七个点以上。前人在动物和人类的研究中都获得了许多见解。通过结合这些经验，很多实验室已经创建了易于使用的系统，目前已得到广泛应用。

第一个这种类型的系统已于2018年上线。DeepLabCut是由哈佛大学的神经科学家麦肯齐·马西斯（Mackenzie Mathis）和亚历山大·马西斯（Alexander Mathis）一起开发的。他们重新训练了一个神经网络。在此之前，这个神经网络已经可以对数千个客体对象进行分类。其他的方法迅速接踵而至：LEAP（Leap Estimates Animal Pose），由佩雷拉（Pereira）等人在穆西（Murthy）和谢维兹（Shaevitz）的实验室开发；SLEAP，是同一支团队即将推出的软件，可同时追踪多个动物交互的身体定位；还有库金（Couzin）的小组在几个月前发布的DeepPoseKit。

“它学习的速度真的很快！”穆西对LEAP评价道，“在10到15分钟之内它就能完成训练，随后就能在所有视频上自动运行。”其他研究小组正尝试对运动姿势在三维空间而非二维空间进行建模。为了做到这一点，他们使用了多个摄像机来校准相似的模型。库金说：“在后台，这些技术可能极为复杂。但现在，它们很容易被应用到广泛的研究中，例如小鼠胡须的移动，蚂蚁的行为，鱼群的动作。”

惠特洛克发现，小鼠参与协调运动的整个皮层区域，编码了小鼠特定的运动轨迹和位置，这个过程可能涉及到更广泛的脑区。他说：“大脑的这些区域，好像特别关心动物如何支撑头部，我们之前根本没有意识到皮层处理有这样的作用。”因为在此之前，研究者们还没有办法追踪自由移动的动物。

这些算法通过描绘姿势，为深入理解行为打开了一个窗口。惠特洛克表示，从本质上来说，所有可测量的行为“都有随着时间改变的姿势。并且我们已经搞明白了那些姿势，我们已经成功了”。因为姿势追踪的软件已经简化了数据收集，哈佛大学的行为生物学家本杰明·德·比沃特（Benjamin de Bivort）说：“现在我们可以考虑一些其他问题了。”一个起点是：“我们如何定义行为的组成模块，以及如何解释它们？”

隐藏的语言

在很长一段时间里，这些问题的回答都依赖于观察者的直觉。个体生态学家常常戏称这种直觉为“完美的知觉”。但是直觉容易因为种种原因陷入困境，其中原因包括固有的偏见、缺乏可重复性以及推广的困难。

在过去的60多年中，特拉维夫大学的动物学家伊兰·戈兰尼，花了很多时间寻找一种描述和分析行为的方法。这种方法应该少一些主观偏见，用行为的基本单元，类似于化学中的原子来描述和分析行为。他不希望我们简单地将行为标记为求偶或者觅食。他希望这些特征能够呈现得“更自然”，能够基于动物解剖学的通用规则。关于这些行为单元或者规则应该有什么样的特征，戈兰尼已经有了一套他自己的模型。但是，他认为这个领域还远远没有就此达成共识。

其他的研究者则有不一样的立场。他们认为机器学习和深度学习的方法能够让这些领域更早达成共识。但是，由于DeepLabCut、LEAP以及其他前沿的姿势追踪算法都依赖于监督学习。监督学习需要用人手动标记的数据来进行训练、推测身体各部分的定位。所以，科学家们希望通过无监督学习技术来发现、分析行为的组成模块。在理想情况下，一种无监督的方法应该能够揭示行为的隐藏结构，无需人工去标记每个步骤，进而避免了人带来的主观偏见。

2008年出现了一个有趣的例子。当时，研究者们确定了蠕虫运动的四个组成模块，这四个模块可以组合起来捕获几乎所有的蠕虫动作。这四个模块又被称为“蠕动本征（eigenworm）”：这个简洁的表述提供了一种完全定量的方法来思考行为动力学。

在2013年，达塔用他的Xbox Kinect带领这种方式走向了新巅峰。他很快就得到了回报。当描述小鼠运动轨迹的数据呈现在达塔和他同事的面前时，他们惊讶地发现其中蕴含着一个总体结构。动物在三个维度的运动模式好像被自然地分成了几个小块，并且平均持续300ms。达塔说：“这些都在数据里了。我给你看的都是原始数据。这就是小鼠行为的基本特征。”

哈佛医学院鲍勃·达塔实验室构建的Motion Sequencing算法可以识别小鼠行为动力学中的基本单元，或者说“音节”。科学家们认为，动物的行为是由按照特定的“语法”规则串在一起的“音节”组成的。上图展示了这些行为单元的六个例子。每个视频由不同小鼠的试次合成，当这些点出现在动物身上时，它们都在进行着相同的简单行为。图片来源：Jeff Markowitz, Datta lab

他认为这些小块真是太像期待中的行为单元了—— 好像音节通过一组特定的规则或语法串在一起。他和他的研究团队构建了一个深度神经网络来识别这些音节。为了做到这一点，该算法能够在某种程度上对动物的行为进行区分，进而对未来的行为做出最佳预测。这种算法被称作Motion Sequencing （MoSeq），而“音节”后来被研究者们命名为“向前跑”、“飞奔”和“逃跑”。通常实验里，一只小鼠会用到40-50个“音节”，只有其中的一些和人类命名的行为相符合。惠特洛克评价到：“他们的算法能够找出我们无法言明的行为。”

如今，研究者们正在尝试确定这些先前被忽视的行为的生物学、生态学意义。他们正在研究这些行为如何在个体、性别或者物种间变化，如何随着年龄或疾病而中断，以及如何随着学习或演化进程而发展。他们使用这些自动化分类的算法来识别行为在不同的基因突变和药物治疗中受到的影响，同时也被用于描述社会交互的特征。他们开始首次建立行为和大脑及其内部状态的联系。

解码大脑

达塔和他的同事将目光聚焦在一个负责运动计划和其他功能的脑区，他们发现在这个名为纹状体（striatum）的区域，当MoSeq识别了不同的“音节”时，不同的神经元集合就被激活了。按照达塔的说法：“我们知道这种‘语法’是由大脑直接调控的，这并不是一种附属现象，而是由大脑实际控制的东西。”

有意思的是，某种特定的“音节”的神经表征并非固定不变的。它们会随“音节”的嵌入顺序变化。通过观测神经元的活动，达塔就能分辨一个特定的“音节”是处于一个固定的序列中，还是处于一个变化的序列中。他说：“在最高的水平能获得的信息是：纹状体不仅能编码什么样的行为得以被表达，还能提供关于行为表达的背景信息。”

他测试了纹状体在不能正常工作情况下的反应，而实验结果进一步支持了这个假设。这些“音节”本身完整，但语法开始变得混乱，行为的序列看上去变得更随机、适应性更差。

其他的研究者们正在研究在较长的时间尺度内，大脑中究竟发生了什么。埃默里大学的理论生物物理学家戈登·伯曼（Gordon Berman）使用了一种名为Motion Mapper的非监督分析技术来对行为建模。2019年12月，据维也纳大学的一个研究团队发表的论文表明，这个模型将行为放置于一个层次结构中，并且能够预测大脑中的神经活动层级。（伯曼说“理想的目标”在于在某一天能够使用Motion Mapper来预测动物之间的社会交互。）

同样值得一提的是穆西和他的团队：他们对大脑内部隐藏状态的探索。之前，他们已经创建了一个用于测量果蝇动作的模型，该模型能够用于预测雄性果蝇在什么时候、究竟怎样嗡嗡叫。举个例子，他们发现随着雄性和雌性果蝇之间的距离越来越小，雄性果蝇越来越有可能产生一种特定类型的叫声。

去年发表在《自然-神经科学》的文章指出，科学家们将这个模型扩展到能够纳入雄性果蝇的潜在内部状态。这些状态有助于预测果蝇能够产生的叫声类型。该团队发现了三种状态，他们将其分别命名为“亲近”（close）“追逐”（chasing）和“无所谓”（whatever）。研究团队激活了不同的神经元，并通过他们的模型对激活结果进行检验，结果表明果蝇的这些状态，是由一组曾经被认为是控制嗡嗡声产生的神经元所控制。穆西说：“这是一种不同的针对果蝇行为神经机制的解释。”

他们现在正通过SLEAP进一步探索这些发现。佩雷拉说：“当我们纳入了更高分辨率的姿势追踪时，这种模型能够筛选出的隐藏状态就会呈现在人们眼前，这无疑是令人激动的。” 科学家们谨慎地指出，这些技术应当辅助、完善传统的行为研究，而不是取代它们。同时，他们也认为在核心的普遍行为法则出现之前还有很多工作仍需完成。举个例子，我们也许需要更多的机器学习模型，它们能够将行为数据和其他复杂类型的信息建立关联。

达塔说：“就这个问题而言，这无疑是第一步。”他毫不怀疑“有人会想出更好的方法来做到这一点”。尽管如此，“值得称道的是，我们正在远离个体生态学家曾经所处的地方。在那里人们互相争论，叫嚷着我的方法比你的更好。我们现在有了统一的标准。”

穆西说：“现在，我们来到了方法能够紧跟问题的时候。那些路障已经被清除了。所以我认为再没有什么限制，人们可以做他们想做的了。”

原文链接：

https://www.quantamagazine.org/to-decode-the-brain-scientists-automate-the-study-of-behavior-20191210/

文章来自公众号：神经现实（ID：neureality），作者：Jordana Cepelewicz（Quanta杂志生物主题专职作者。她在数学、神经科学等方面的文章也在 Nautilus和 Scientific American上发表。她在2015年获得耶鲁大学授予的生物学和比较文学学士学位）。