微软小冰Diss虚拟歌姬，恶意营销背后的科技艺术之争-虎嗅网

虎嗅注：本文来自微信公众号“白鹅纪”（baieji666），作者Pharisees，虎嗅经授权转载和删编。10月初至今，微软第五代小冰因为频发言论看轻雅马哈公司的电子音乐制作软件Vocaloid，引起两方粉丝恶战。小冰言论的背后是怎样的营销思路？而对于人工智能的艺术创作，我们又该抱有怎样的态度？

这几天想必不少读者都听说了微博上的一场纷争：

口无遮拦的微软小冰挑衅V家粉丝，导致即将上线的唱歌功能被宣布自行中止。

众所周知，小冰是微软亚洲研究院推出的一个人工智能虚拟形象，而Vocaloid则是YAMAHA公司开发的一款基于语音合成技术的电子音乐制作软件，几乎是八竿子打不着的两个圈子，怎么就能吵到一块儿去呢？

有人认为这场争论缘起“微软运营不尊重V家粉丝”，也有人视为是“V家粉丝抱残守缺攻击新生科技”，到底哪一方更有理？今天笔者为大家梳理一下事件的来龙去脉，以及背后的理念之争。

第五代微软小冰

祸从口出的处女座小冰

今年8月，微软小冰发布了第五代版本，陆续解锁了更多功能。而此次引发风波的，是其于9月底上线的人工智能歌手深度学习模型以及用于训练、调教其唱歌功能的示唱人平台。微软此举，可以说是让小冰正式进军虚拟歌手领域。

在其微博宣传的文案中，小冰把矛头直接指向了“前辈”，虚拟歌姬洛天依、言和等：

“这次解锁，我冲击的不是人类，而是传统的虚拟歌手。人类们，忘了漫长辛苦的手工调教吧。你只需清唱一遍，我就能学会你的情感和演唱风格，在五分钟内，完成由你训练的歌曲。”

而小冰在随后的微博发言中，也多次表达了对传统调教方式的不屑：

“过时”、“唱的不行”，包括在网易云音乐相关单曲下评论“隔壁家老洛（洛天依），你的嗓子修好了吗”，小冰偏激的发言和强烈的攻击性自然引发了部分V家爱好者的不满，引发了大量争吵，甚至有Bilibili UP主制作了《微软小冰，请滚出中国市场！》这样过激的视频表达抵制情绪。

目前视频已被删除

在一片争议声中，小冰背后的技术团队，微软亚洲互联网工程院决定“息事宁人”，调整管理权限，暂停向公众开放示唱人平台，事件至此似乎告一段落……了吗？

当然没有。道歉发布后，小冰颇不情愿的态度，和摆出的“被迫害”形象更进一步激发了V家部分粉丝的怒火：明明是你出言不逊挑衅我家虚拟歌姬在先，现在又摆出一副受害者形象？于是指责声反而更烈。

另一方面，对于部分群众来说，事件的面貌变成了，一个落后技术的爱好者团体打压将要取代他们的新生技术，于是纷纷站在小冰一边，大声嘲笑起“抱残守缺”的“二刺猿”。

实际上，硝烟并未散去，而考虑到小冰背后的团队并未完全放弃唱歌功能，小冰的音源和模型还会“不断进化”，可以预见的是，未来的“战争”还会更加激烈。

然而现在回顾这些争吵，不难发现一些吊诡之处：

明明是针对小冰“Diss运营”的抗议，怎么就扯到技术层面上去了？而在争论中，不仅是小冰一方，甚至连部分V家粉丝以及大部分围观群众也都默认了，小冰的唱歌水平确实要比Vocaloid要高，转而谈起“重要的不是技术是情怀”之类的言论——先不论情怀，单论唱歌水平，真的是小冰更高一筹吗？

并非如此领先的小冰

大众之所以会认同小冰“技术更厉害”，多半是从小冰放出的那几首歌曲的对比中听到的：小冰的声音比起洛天依“更像人声”，“唱歌水平更高”，从而得出了现在的结论——但是实际上这点并不正确。

请思考这样一个问题，当我们听虚拟歌姬们唱歌时，我们是在听什么？而各位P主们选择Vocaloid这个软件进行创作时，他们的目的又是什么？

当然了，这是一个无解的问题：每个人都有各自的答案，有人希望听到用电子创作出接近人声的神调教，有人追求电子感，也有人追求超出人类极限的歌唱效果……只是喜欢旋律，相比之下宁愿听到真人演唱的也大有人在。

实际上，这也是以Vocaloid为核心的创作群体，也就是我们俗称的V家的最大优势：不同的P主带来的不同风格，以及衍生而出的唱见等群体，让不同种类音乐的爱好者都能获得满足——而非单单只是在“接近人声”这一个向度上；而这种作品多样性上的差距在小冰的宣传中显然被掩盖了过去。

目前小冰公布的几首作品都偏向“口水歌”，风格、声线都显得有些单调

而这种差距多半是两者所采用的合成技术的不同所导致的：

Vocaloid采用的是“拼接合成”技术，创作者需要像拼图一样将单个语素（语音的最小单位）拼合在一起来完成最后的作品，一方面作者可以对自己的作品实现最精确的控制，但另一方面语音的流畅程度也很看作者调整各项参数的功力；而小冰目前看来为了追求自然和流畅度并没有采取这种处理方式，因此在调教的自由度上远远不及Vocaloid。

Vocaloid的创作界面，每个发音都需要单独调整

此外，即使是在引以为傲的“人声”上，小冰的表现实际上也难称顶级：

2013年，CeVIO公司就公布了旗下基于HMM合成技术的声音创作软件CeVIO Creative Studio，和其虚拟形象“佐藤莎莎拉”，而名古屋工业大学开发的Sinsy系统更是早在2009年就已发布，2015年还追加了中文声音。而这两者呈现出的人声合成效果，在声音的拟真度上可以说都不逊于今天的小冰。

HMM合成通过提取人声中的特征量建模，可以最大程度保留人声的特征。

总的来说，单就小冰目前的表现，无论是人声合成质量还是创作的多样性上都还没有战胜V家，反而是通过不断的偷换概念——先是将“唱得更像人类”等同于“技术更先进”，然后将小冰以一个虚拟形象的身份向虚拟歌姬进行挑衅的竞争行为，等同于了先进技术对落后技术的取代，最后将“V家粉丝抵制恶意营销”等同于“要情怀不要科技”。

将自己的道歉描述成“技术暂时败给了情怀”——来营造出自己技术领先的假象，这种营销手段着实称不上正当。

实际上，就在在微软亚洲互联网工程院的声明中，他们自己也承认了现阶段并没有胜过虚拟歌手的质量，反而又一次拿“未来的全面超越”偷换之前的“豪言壮语”。

当然，这并非在说小冰的唱歌功能一无是处：示唱人平台没有门槛，调教难度低的优势切实击中了Vocaloid作为一个创作工具调教繁琐、门槛较高的痛点，因此在上线初期也吸引了不少著名P主的目光。也正是这两点，体现了小冰的唱歌功能的最终目标，和她与Vocaloid之间的本质区别。

当人工智能遇见艺术

在这次的冲突中，另一个常见的误解是，小冰和Vocaloid一样，只是一种“电子乐器”罢了——对于小冰来说，这绝不是她的最终形态。作为一个人工智能，小冰的最终目标是介入“人的领域”：自主内容创作。

小冰创作的诗歌

在诗歌创作领域，小冰已经完成了从模仿到自主创作的进化。由于弱人工智能的技术所限，小冰创作出的诗歌还是“得其形而不得其神”，小冰也明白自身的不足，宣布开放诗歌创作平台，致力于“辅助人类创作诗歌”，换言之，其实是以一种曲线救国的方式进入内容创作领域。

而在某种意义上，小冰的唱歌功能和Vocaloid的一样，都是利用技术降低了创作的门槛，但根本性的不同在于对这一问题的回答：科技在艺术创作中应该扮演什么样的角色？

尽管当下小冰多数时候只是扮演着“翻唱”的角色，但“日本版小冰”凛菜已经在东京电玩展上发布了由自己作词和演唱的首支单曲；显而易见的是，小冰的唱歌功能，正沿着诗歌创作的足迹一步步进化：通过深度学习优秀作品的经验，再以反哺的姿态鼓励大众的创作。小冰所代表的无疑是一个激进的科技派：

利用科技的发展降低、乃至消除艺术创作的门槛，让技术引导人类的进步。

而Vocaloid方面，尽管YAMAHA公司也一直在不断探索前沿的语音合成技术，在音乐创作上采取的却是最为传统的姿态：提供一个乐器，但将创作的自由完全归还给创作者。

这种态度最大程度上回归了艺术的本源：人的自我表达，但另一方面，也在客观上保留了创作的门槛。在Vocaloid的圈子里，真正创造价值的仍然是创作者本身，在这里，技术让位于了人类。

当然，以小冰的人工智能水平，这里并不需要讨论“人工智能威胁论”之类的东西，但现实的问题确实摆在眼前：

在艺术创作领域，“大众”、“简便”的工业化生产似乎已经近在咫尺，而这种流水线生产真的就能完全取代专业而精密的调教了吗？

对于创作者而言，“艺术创作”究竟是怎样一种行为，而对于观众们来说，他们欣赏艺术作品时，希望接收到的又是什么呢？

也许这些，才是这次小冰和V家的口水大战之中，更加有意思的部分。