当代码脱去枯燥乏味的“外衣”，我发现了真正的创造力-虎嗅网

造就第423位讲者夏光宇

上海纽约大学计算机系助理教授

我叫夏光宇，来自上海纽约大学计算机系。我的研究学科是音乐智能。

当我收到“创造力”这个题目的时候，心里泛起了很多波澜，因为我和创造力的因缘，可谓是一波三折。

献身科学（沦为码农）的音乐人

回首往昔，其实我是个学音乐的，而且学的是中国古典音乐，吹笛箫。大学的时候，我把很大一部分时间投入了笛箫学社的社团工作中，那时候我就觉得，创造力时刻与我同在。

但是在我申请研究生的过程中，阴差阳错地走上了计算机科学的道路。在卡内基梅隆大学读计算机人工智能博士的时候，就天天在码代码，感觉非常的苦，创造力正在逐渐地离我远去。

随着研究的深入，那些代码和公式脱去了那层枯燥、乏味的外衣，我发现里边显现出来的东西，是真正的创造力。而这个创造力，与我在笛萧中体会到的那种生生不息的东方哲学思维，是如出一辙的。

那么，我们先来体会一下音乐智能是什么。

让我们把时间回拨到2015年，那年我回国办签证，结果由于飞机问题飞到了日本。我看到一个广告，是日本早稻田大学有一个非常可爱的机器人，它可以吹萨克斯。

我当时不知道那究竟是不是真的，又或者只是个模型罢了。我只是觉得它的眉毛很搞笑，就去联系了这个教授。他说：“我们这个是真的，你如果想过来造访的话，可以到我们实验室来。”

那我就去了，因为我的博士研究的一个课题叫自动伴奏。什么概念呢？就是我们在唱卡拉OK的时候，我们是跟着伴奏走，那么如果这个卡拉OK可以跟着我们唱歌的节奏，那该多好。我们快它就快，我慢它就慢。其实我就是研究这个的。这个技术早就成熟了，只不过是还没有走到大家的生活中去。

我说，我有这个技术，你有这个机器人，那用你的躯体搭配上我的灵魂，不就有一个活生生的机器了吗？于是我们就做了，这是全世界首次人机交互自动伴奏的实验（请看开头的视频）。

注意看它的肢体动作。你看我渐慢的时候，它也渐慢，然后再渐快，再渐慢，最后深情地结束。这就是2015年我和这个机器人的际遇。

首先问大家一个问题，大家觉得这个机器人在创造吗，有创造力吗？

有创造力的举手，没有再举手。好，绝大多数人觉得还是没有创造力，因为它还是完全的机械反应——我快它就快，我慢它就慢。

那么接下来一个问题是，如果这个机器人可以作曲、它可以编排，我只要给一段旋律，它可以在上面发展，然后把伴奏做出来，再和我一起演奏。那这想必就是有创造力了。

所以从2015年开始，我的研究正式回归到创造力的正轨。

创造力的三个层次

在这里，我想为大家揭示我认为的创造力的三个层次，分别是创、造和作。

首先要明确一个概念，就是当我们让机器拥有创造力的时候，这个事有点特殊。与其说我们想创造有创造力的机器，不如说我们人类想做上帝，因为这是关于创造的创造，这是终极的创造。

这个概念上有点飘，但是我们还是要回归到落地，机器到底应该怎么创造呢？

比如说下面这个图像，我们可能联想到很多东西，《创世纪》、人工智能等等。现阶段的人工智能，它看到的这个世界，在它们的眼中是客观的，不含带任何态度的。

像这个图像，在机器的眼中就是一堆像素，就是x，然后它可能服从一个概率分布，probability of x，Px。这时候我只要能学到它的分布，从里面随机取样一个点出来，那我就有了一个新的图像。

我们从最简单的“作”开始，最简单的创造的方法，就是东拼西凑。

我有一个x，我把其中的每一个部分都从别的那儿腾挪过来，最后拼在一起，我就有一件新的作品了。当然这是非常非常初级的创造，叫“作”。

这个是本世纪初的一个研究，它就是“精作”。你给它一个人的图像，它把图像的每一个像素区块，去和一个既定的纹理去做自相关，然后再把相似的东西腾挪回来，拼在一起。这个时候就有点创造的意味了。

这个工作叫纹理迁移，但是还是觉得停留在“作”的层面。因为它只是形似，而不是神似。

我们能不能创造出神似的作品呢？那这就要说到创造力的第二个层次，叫作“造”。

时间一下子跳到2016年，有一个研究叫“图像风格迁移”，一下子炸开了人工智能界的锅。这是几个德国科学家做的东西，大家看这4个图像，你不能说它只是形似了，它神似。

左上角的这个是母体，剩下的是人工智能“一气化三清”画出来的三幅画。

我们只能说，它们是类似的，因为它们看起来很像。我说的这个像，是它们的抽象一致，不是形似，而是神似。这就和我们中国古代说的“取象比类”一样。

什么叫“取象比类”呢？就是它们拥有共同的象，然后把它们放在一起比，就是把两个类似的东西放在一起，它们属于一类。

“取类比象生成”有三个步骤。首先第一步叫做抽象或取象，在机器学习的行话里叫做表征学习，什么意思呢？

给一个图，从图里抽象出概念，比如说是什么物体，是什么颜色。这个时候就不是把一个x简单地分块了，而是去抽象成一个概念。这个概念，我们一般用z来表示，x抽象到z。

第二步叫比类，也就是互换表征。举一个例子，我们有红房子的图片，还有大白兔的图。颜色有红色和白色，物体呢，有房子和兔子。

这个时候，我们只要稍微一腾挪转换，我们就造出了什么？白房子和红兔子。

有哪位见过白房子举手？都见过是吧。

有哪位见过红兔子举手？没见过吧。

但是，有没有注意到，我说红兔子的时候——每个人脑子里都知道我说的是什么。这就是人类大脑的神奇之处，这叫类比。

其实，这已经是在创造了，虽然不是很高妙，它还是由已知推未知，但是已经在创造了。但是它还没有落地，最后还有一步叫成型。就是把你已知的创造概念，再还回到图片。

比如说，我们生成出了一个红色的兔子，那这个红色的兔子是我们日常生活中没有的，就是我们达成了创造。

音乐可以进行类比吗？

让我们现在回到音乐，看看音乐的类比是什么样子。这个是新鲜出炉的人工智能深度学习模型不，我们来逐一解析。

左边的这个是一个表征学习的方法深度学习的，上面是音乐，它把音乐变成一个极度浓缩的表征z。

当然，图像的表征是在空间上，音乐的表征在时间上，这是唯一的不同。

然后再把这个z变成x，也就是一切即一，一即一切。而且在深度学习过程中，我发现一个很有意思的现象就是，其实原来不用深度学习，我们也能把x变成z，但是那都是人去写定的公式。

我们发现，人为写定的公式，不如让人工智能自主学习。机器自主学习学到的那个z，非常好。

那么有了这个一即一切的东西，还不能类比，因为它太孤单了没法比。

我们怎么办？就像亚当和夏娃的关系一样，抽出一半来负责节拍，剩下的负责音调。这样就一生二。

然后我们再给它配上一个和弦，二生三。

这样音乐类比就可以用深度模型，三生万物了。当然，万是一个虚词，我们先来看看2段音乐是怎么生成6段的。

以下这段文字，可直接点击视频通过音乐和讲者讲解来理解

如果一个音乐是乾卦就是天，另一个音乐是坤卦是地，属于父亲和母亲。那它们每个人都有三段基因，我们现在就“互相杂交”，可以杂交出6个“孩子”。

我们先听父亲是什么样的。

这是父亲，我们现在把它的和声变了来听听看。

我们现在把节奏变了，节奏换成这个的节奏。就是这个是母亲给的节奏。如果它用这个节奏去谱这个旋律是什么样的？

这个是机器自动生成的，如果我们把音调换了呢？我们用原来的节奏，音调换成母亲的。

你们听，这就是音乐类比的高妙之处。

现在，我们已经可以做音乐类比生成，如果它和前面我们提到的机器人交互演奏结合起来，会是什么样的呢？

时间回到今年的1月，这是我在回访意大利的时候，又做了一次demo。

我演先奏一段，然后它基于我的演奏做了更改。它的演奏神似我的演奏，但并不是一样的。而且它还可以改节奏，变得更浪漫，或者更爵士。

我希望不久的将来，这样的机器人可以走进千家万户。

AI让人类更有创造力？

初级的是“作”，中级的是“造”，高级的才是“创”。

那么到底怎么创呢？创是无中生有，至于到底怎么无中生有？说实在话，我不知道。而且估计这地球上知道的人也不多。

因为从信息的角度来讲，真正无中生有的东西，我们如果能可以找到的话，在这个地球上只有人类的意识，活体生物的意识。

所以说如果想要解决无中生有的问题，可能要先解决意识的问题，那这个就是一个特别特别大的话题。

但我们不能停滞不前，虽然我们无法让机器无中生有，但是我们知道，人可以无中生有，音乐可以让人更有创造力。但是我们发现，有95%的人在学习音乐的前三年就放弃了，为什么呢？

我们来分析一下原因：首先学音乐要识谱，就像学一个不同的语言；识完谱之后要学习乐器的指法，经过上万个小时的操练，然后再把谱子实操到乐器上，还要把这个曲子记住，要花好长时间。

如果是初学者的话，我们何乐而不为，直接学习指法呢？

这个在古代是做不到的，但是今天，依托人工智能，我们可以用一种提线木偶的方式来学笛子——在笛子上装马达。

大家来看一下，这是2017年的研究。这个笛子上连了6个指环，指环被马达控制，马达被程序控制。这样它就可以教你吹笛子了。

当人学会了这个指法之后，我们发现人会自动和气息建立起联系，他就能吹了。我们实验发现，它的学习效率，比起跟着视频学，要快50%。

但是我觉得总还是可以提高再多。大家有没有回想一下，之前我说的深度学习这个问题。我们要深度学习的东西，让机器学习模型去学习的时候，我们要放手。规定它的方向，但是具体细节要放手。

这个吹笛子的模型现在就是100%地控制它的细节，那怎么做到部分放手呢？那我就联想到我们更加人性化的指导，到底是散养式的还是填鸭式的指导更好？

散养式的是以前学习音乐的方式，只有天才能出炉。如果一个教学方式，只有天才能出炉呢，那我觉得这个教育方式是崩坏的。

我们现在是用填鸭的方式，能不能取一个中庸的之道——圈养，我们给他一个方向就足够。

现在这个是今年才出来的研究，是一个外骨骼的魔法手套，大家来看一看。

这个马达一动，你的手就动起来了，但是它这个手套是灵活的。它让你动起来，但不会把你的手指箍死，你还可以自己来动。

而且它里面有一套算法，只有当你吹错的时候，它才去改变你的行为；当你对的时候，它不会动。

就像我们小时候学自行车时父母扮演的角色——他们总是说，我在后面扶着，其实根本就没扶，只有在你要摔倒的时候才来扶一把。

这样的学习效率我们认为是很高的。

换而言之，我们已经在把在AI深度学习中得到的经验，再放回到人身上，取得了良好的效果。这个又比刚才的那个填鸭式的教学，还能提高50%。

而且我们发现，在填鸭式的教学中，90%的人会在两小时后忘掉，而这个方式只有10%的人会忘掉，记住的那些人，在一周之内都不会忘掉，所以说是学得又快又深。

最后，我想再分享一点小的想法，就是当人工智能和艺术结合的时候，它实际上是一个科技和人性的桥梁。

大家想象一下，在一个未来的世界，未来的城市，只有机器没有人。这个只有机器的城市里面，肯定有自动驾驶的汽车，不同的机器可能还会用玩围棋这种算法，来测试不同算法之间的能力。

《星际迷航3》的未来太空城市

但是我难以想象的是，在这样的一个未来城市里，两个机器人会玩音乐。

因为音乐是给人听的，它不仅仅是一个客体，还是我们精神的媒介。

换而言之，当人工智能和艺术结合的时候，我们才真正地把技术服务于人类，因为我们最后要的，并不是那个全知全能的人工智能，而是更加幸福的人生。