2018，我们能等到那款现象级语音交互产品吗？-虎嗅网

虎嗅注：这几年语音识别软件、智能音箱产品层出不穷，甚至有人说智能语音识别已经媲美人类。但是其实，一直还没有出现真正的语音交互现象级产品。这个领域和市场，不管是从大公司视角、设计师视角，还是技术公司和普通用户的视角来看，到底什么时候能出现中国的“ Amazon Echo ”还是个问题。

本文转自公众号“KnowingAI知智”（ID：Knowing_AI），作者：虞喵喵。

“大突破！语音识别能力超过人类！”

“远场识别率超 90%！”

“语音合成自然度媲美人类！”

语音技术和硬件指标频繁超越、媲美人类，充满感叹号的题目开始让人疲惫。2017 年智能音箱大战爆发，大小玩家纷纷入场，可至今我们仍未等到那款“语音交互现象级产品”。中国的 Amazon Echo 藏在哪儿？

大公司视角：绝不是制造一个会说话的音箱这么简单

“音箱不仅仅技术驱动的。技术的角度看会希望是大而全、用户的什么都能回应的音箱，但现实世界并非如此。”在一次由 Geek2Startup 主办的小型沙龙活动上，作为分享者的 Google Home 创始团队成员张逸嘉如是破除了技术迷思。

1. Google Home 诞生往事：音箱的产品特点

通过串联起家中的智能设备和个人账号数据，以音箱作为语音交互入口，以手机智能助手作为辅助——Google Home 从没被“大而全”的技术视角束缚，一直走的就是偏向智能家居中控的轻量级路线。

“看起来像是平常放在厨房或是卧室里的东西”，是 Google Home 外形的设计初衷

不过与电商基因的 Amazon 相比，立足搜索、拥有更多数据的 Google 在智能音箱上本该更有优势。可为何如今占据市场超过 70% 份额的，会是 Amazon Echo 系列？

也许这要回溯到 Google Home 的诞生。最初开始思考 Google Home 时，团队考虑的是将已有的“上下文搜索”等搜索技术，与 Google Now 的 Voice Actions 功能进行融合。这就相当于是将搜索引擎“语音化”，音箱只是硬件形式的外壳。

从当下已经验证的结果看，智能音箱在功能上绝不只是搜索的入口。用户使用音箱时往往有三种请求：问答类，即有知识背景的，与搜索引擎的功能类似，如“最小的猫是什么猫”等；动作类，即由任务驱动的，与智能家居中控的功能类似，如“关灯”“开空调”等；闲聊类，即供用户消遣，通常提前由文本安排好的对话，如“你是谁”等。搜索引擎型对话只是其中的一部分。

同时随着研究的深入，Google 发现对话场景自有其特点，比如用户会更倾向于使用自然语言，默认自己处于有上下文的沟通环境等等。

于是 Google 组建了 Assistant 团队为语音助手提供更全面的支持，并开始为音箱增加了闲聊、游戏等搜索引擎中并不会出现的功能。

2016 年 5 月，Google 在 I/O 大会上正式发布了 Google Home。此时第一批 Echo 已经发售了近 2 年，距离 Echo 在 Amazon 内部立项已经过去了 4 年。

经过 3 年多的发展，Echo 已经变成了庞大的产品系列

此时追上 Echo 脚步的 Google Home 在语音、语义技术和数据上都更有优势，可用户的评价仍倾向于 Echo，并在 Amazon 上为它打出 4.5 的高分。

“技术给出了窗口，但音箱产品的口碑和营销很重要。”作为 to C 产品，消费者天然注重反馈与口碑，产品的评价一旦形成，销量的滚雪球之势就很难阻挡。与 Google 相比，Amazon 的分销渠道和营销能力上显然更胜一筹。

吸取教训的 Google，开始在 BestBuy 等渠道建立口碑。据称 2017 年 Google Home“销量大增”，达到 630 万台。

为什么不是 Google 更早做出音箱？除了一款成功的 Chromecast，从未在硬件产品上尝过甜头的 Google 注定不会主动制造类似产品。直到 Echo 大卖、开始抢占家庭入口，对“流量”异常敏感的 Google 才会开始行动。

2. 智能音箱的中国特色生存环境

同样是能对话、游戏、播放音乐、与智能家居联动的智能音箱，为什么还没在中国“火”起来？

中国的智能音箱市场有自己的特点。

除了没有音箱消费习惯，大部分人持观望态度外，音箱所处的使用环境也有很大不同。

海外的家庭环境通常是大空间、杂音少、成员较少，语音识别的准确率相对较好。中国的家庭环境通常空间不大、电视机等背景杂音较多，家庭成员较多，识别起来有很多困扰。同时中文方言较多，语音语调都会影响识别结果。

客厅是音箱的典型场景，截图来自天猫精灵宣传片

还有内容。海外的内容供应市场相对开放宽容，即便是 Amazon 的 Echo Show（2017 年 5 月发售，带有屏幕的 Echo 系列新产品）同样可以播放 YouTube。中国的内容市场状况，从音乐、视频版权大战就能一窥全貌——从来都是非此即彼、壁垒丛生。

“基于内容的壁垒一旦形成后，其他的因素就不那么重要了。”小雅 AI 音箱背靠喜马拉雅庞大的播客内容，天猫精灵有虾米支撑。接入百度、考拉等大量音频资源的叮咚音箱，在 2017 年末突然无法调用歌曲资源，客服表示“曲库内容调整，部分资源暂时无法收听”。

关于“资源调整”，京东客服给出的解决方案

没有强关联、仅靠合作支撑的内容资源库并不稳定，提供内容的一方可能因为更强势的合作方终止合作，或者干脆自己也做个音箱。

毕竟音箱，最基础的功能就是听音乐。

3. 聚焦任务型需求，是中国智能音箱的出路吗？

这场小型沙龙参与者，有投资经理、产品经理，有研机构也有创业者。分享结束后的互动时间，人们的提问绕来绕去，终究绕不过那个如金苹果般、让所有人着迷的问题：中国的现象级语音交互产品应该是什么样子？

“和家中的任何设备都能交互，形成一个整体。”张逸嘉的回答与 Google Home 的思路一致，同时他也清楚的了解中国现状，“不过在中国很难实现。”

音箱的使用场景决定了“开灯”“关灯”的任务型需求会随时间推移，成为频率最高的用户请求，真实的用户使用数据也印证了这一点。不过在中国，除了如前文所述的内容壁垒，还有绕不过去的智能硬件生态壁垒。以智能家居中控的视角看待智能音箱，只能希求不同设备之间的协议打通，或者出现一个端口标准化、并被所有人认可使用的通用平台。

这是中国智能家居行业努力了很久，却没能完成的事。

设计师视角：我们需要更多懂语音交互的人

人机交互研究背景、在北美用户体验设计行业工作多年的刘梦溪，是专注于人工智能领域的设计创新公司 FutureForm 的创始人。

自 2015 年起，关注到人工智能领域的 FutureForm 就在语音交互设计方面展开了探索。2016 年，通过多次深入合作，FutureForm 与云知声 AI Lab 合作并落地了智能家居垂直解决方案 Pandora，以及儿童语音交互解决方案 Unitoy。

1. 决定产品的使用体验，是语音交互设计师的工作

与通常基于图形交互（GUI）展开设计的交互设计师不同，语音交互（VUI）设计师，往往扮演着与产品经理类似的角色，决定人们使用语音交互产品时的感受。在设计“行为后的效果”之外，还要设计产品的“性格”、表达方式和话术。

比如“个性化”就需要通过巧妙的话术，完成儿童、成年人等的用户画像分割，予以不同的反馈，将单一的用户体验变成不同的“个性化的用户体验”。“性格”的设计决定了对话中的词汇与语气，冷静正式让对话提高效率，亲切会让用户更乐于交流。不过太过拟人化，会在系统不那么智能时增大用户的挫败感，这都需要交互设计师平衡。

《Her》中的 Samantha 就是一个极端拟人的实例，我们当下的技术水平还无法支撑如此拟人的语音交互

除此之外，设计师还需要还要理解技术。不仅是具象的，如前端的“声音处理”和“唤醒方式”等的技术功能，还要了解语音识别技术本身的能力与边界。有时，交互设计师也会参与硬件设计，“好的产品需要一整套的东西同时发力，需要整体团队把这件事做好。”

“受限于技术边界，当下大部分语音产品还是以传统的问答式逻辑反馈为主”，与大环境对人工智能技术过于的狂热期待相比，刘梦溪显得非常清醒。“机器学习大潮暂时没有深入影响语音交互体验，这和技术发展与产品的落地形态都有关。目前的技术本质上是擅长特定场景的的弱人工智能（Weak AI/Narrow AI）, 而大众期待的强人工智能（Strong AI/ AGI）的完美智能体验，可能还有点远，更不用说被炒得火热的‘情感化交互’了。”

2. 当下语音交互设计面临的困境

尽管 Amazon Echo 系列已售出千万，但当下的语音交互产品的设计方法、流程、指标仍是一片混沌。

在刘梦溪看来，语音交互产品在设计上面临的第一个、也是最大问题，是缺乏一个统一的语音交互设计方法和流程。

因深度学习的应用，使得语音识别这项诞生多年的技术终于可以试水实用。被技术驱动的语音产品，其交互设计尚属探索期。虽然 Google 于去年下半年发布了一份可参考的交互规范文档，Tony Sheeder、Tom Hebner 等自 Nuance 时代便已开始 VUI 设计、拥有十多年语音交互设计经验的设计师们也提供了不少经验与建议。但在更广泛的新兴语音交互设计范围内，并没有形成类似 GUI 设计规范的共识。

在 Actions on Google 网站上，有 VUI 文档可供参考

评估语音交互的指标同样需要改变。或者，理解指标在场景中的意义变得更加重要。

“做语音（产品）的工程师们很容易专注于唤醒率、交互轮次等工程指标的提升，但单纯看这些指标在产品体验的提升上是没有意义的，要理解这些指标被运用的情景、实际状况和质量。”

目前语音交互系统的常见指标，包括唤醒率、错误率、对话轮次等，均是技术导向化指标。如果用户是孩子，“反馈”的内容在他们眼中没有区别，“错误率”就变得没有那么重要。一旦变成更倾向于任务型对话的成年人，“对话轮次”又失去了意义。

Alexa 的负责人 Toni Reid 就坚持认为，用户下达指令后 Alexa 只有一次机会完成相应任务，不能与用户反复多轮对话。“如果第三次对话还没弄清用户需求，就算彻底失败，反复对话对用户来说是很糟糕的体验。”当然这份理解也是被 Alexa 的任务型场景所支配的。

缺乏有经验的语音交互设计者也是当下的困境之一。

“2016 年时，合作方还很难找到懂得语音交互的人或者团队。”既没有多少有经验的语音交互设计者在市场上活跃，也无法指望大学院校或进修机构培养。想要进入该领域的交互设计师只能自行探索，“边做边学”。

不过也并非无迹可寻。需要载体的语音交互产品，并没有完全独立于人机交互，过往的设计经验仍有借鉴价值。学术研讨会上也能见到相关讨论，在 2017 年的 AAAI 春季研讨会中，就专门开辟了“机器学习系统的用户体验设计”（Designing the user experience of machine learning systems）讨论组，讨论如何为机器学习系统做设计、定义机器学习专家的核心需求等等。

AAAI 网站“机器学习系统的用户体验设计”讨论组页面

“我们接触到一些客户，技术与资金储备非常好，就是找不到合适的人来做。同时行业内的语音交互产品在功能上过于强调语音技术本身，忽略了使用效率以及用户的生活习惯、场景，做出的技术流产品没能被市场买单。”

让语音技术变成产品被更多人使用，还需要更多的交互设计师的加入。

3. “现象级语音交互产品”，也许是更具中国的特色的新产品

刘梦溪的办公桌右侧是一摞与人工智能、前沿科技相关的书籍，在这之中，他特别提到了 MIT 物理系终身教授 Max Tegmark 的新书《Life 3.0》中的一张图谱。

Illustration of Hans Moravec's“landscape of human competence”, From“Life 3.0”

这张图谱用山与水描绘了计算机能够替代人类完成相应任务的难度，困难的任务如高山，不知何时才会被水淹没；容易解决的任务则地处平原，将会最快被解决。

艺术、科学和写作海拔最高，象棋已经被水淹没，下一步会被覆盖的是投资、驾驶以及视觉。

对设计师来说，抽象的全局思考有助于理解当下技术所处的阶段，把握相对较近的未来。具象的技术了解也必不可少，“离技术近一点就能将设计多向前推动一点”。虽然数量不多，与人工智能相关的交互设计论文也已经开始出现，“CMU、Stanford 等都做得很不错”。

办公桌的左侧，则是 Amazon 于 2017 年 5 月发售的 Echo Show。人们将其形容为拥有屏幕的智能音箱，或者有语音交互功能的 iPad。与只有语音功能的前代产品 Echo、Echo Dot 相比，Echo Show 自有其魅力。

拥有摄像头的 Echo Show 还可以承担即时视频通信功能

无论是静止时屏幕上不时轮播的新闻简要，还是下方不断轮换的语音交互提示（如“Try ‘Alexa, do i have any meeting tommorow’”），Echo Show 正在探索的超越手势交互之外、更具未来感的屏幕交互。

“这会是语音交互产品的下一个形态吗？”

“我想 Echo Show 团队正在尝试定义类似‘新型声控个人电脑’的未来，但是会不会失败也不好说。”

“那中国版本的现象级语音交互产品会是什么样子？”

“Echo 和 Alexa 这种形态的产品现阶段不一定适合国人。我觉得未来有可能成功的是更具中国特色的，甚至第一眼看上去不太起眼，但恰当地利用了新技术的产品类别。”

看起来他已经有了自己的答案。

技术公司视角：也许不只音箱一种形态

据 GfK 统计，2017 年 1~8 月智能音箱中国市场的销量在 35 万台左右，加上天猫精灵在双十一期间以 99 元超低价吸引的百万销量。可以估计 2017 年中国智能音箱总销量在 150 万左右，不及海外市场销量的十分之一。

天猫精灵发售前，中国市场的智能音箱品牌份额情况，来源：GfK

“语音交互在国内并没有真正成熟的产品，这是我们做技术的公司尴尬的地方——最关键的点还是先有一个大家都在用的产品。”在由“KnowingAI 知智”主办的“商业进化论”活动上，声智科技合伙人李智勇如是回答了解决方案商如何从技术上提升语音交互的效果：要先有场景，才有针对场景的优化。

音箱所处的物理环境，决定了技术方案中的去噪、去回声、声源定位等该如何提升，以及麦克风阵列、扬声器阵列等硬件配置的选择。现象级语音交互产品可以帮助他们摸清使用者的共性，通过它们对消费者和行业的影响也能帮助培养共性——不仅技术方案商，这是智能音箱行业中所有从业者都想解决或者等待解决的“鸡与蛋”困境。

现象级语音交互产品躲在哪儿？

回到技术的本质，语音是与按键、触屏一样的人机交互的手段。“交互只有一个衡量指标，就是方便”。不必掏出手机，能更快速达成某些指令，是语音交互可以脱颖而出的基础。

但交互自身是无法产生价值的，就像触屏需要与手机结合，语音交互同样需要自己的载体。过去人们将它嵌入到手机、PC、电视上，虽然没能引发浪潮，但为今天智能音箱的火热提供了基础。抛开音箱的外壳，Amazon Echo 和 Google Home 的背后是 Alexa 和 Google Assistant 的智能助理功能，以及智能家居控制中心，这些“定位”都是过去几年间人们做过的尝试。

这两种定位之外，语音交互同样可以与智能摄像头、儿童早教机器人等结合。如 Luka 机器人主打绘本阅读，同时承担一部分与儿童闲聊、游戏等功能，在父母群体中获得了不错的反馈。在医疗、电商等行业同样存在用语音能够提升效率的可能，但每个行业都有自己的特点，理解并深入其中需要缓慢的过程，很难像 C 端产品一样爆发。

形似猫头鹰的 Luka 绘本机器人，在外表上下了不少功夫

2017 年 9 月发布了 DUI 智能对话开放平台的思必驰，通过数据看到了一些不一样需求。在此前的一次采访中，思必驰 CMO 龙梦竹曾表示“智能服务”就有非常大的需求，像是微信助手、APP 助手、电话客服等等有着不小的调用量，传统行业自身也在悄悄改变。

语音交互天然的工具属性，是技术类公司大多对智能音箱能否爆发持谨慎态度的原因。同时抱有对现象级产品的期待，与其说是矛盾不如说是希望更多人先用起来，才能形成商业与技术的正向循环。也许现象级语音交互产品不一定要表现为唯一的固定形态，其自身能够成为现象级交互方式。

普通人视角

大公司、设计师、技术公司的视角给了我们不少有益启发，轻量、连通、便捷、体验。但我们还忽略了一项最明显、却最容易被人忽视的部分，外表。

搭载 Duer OS、与其他智能音箱在功能没有太多区别的 Raven H，也许没有瓜分我们太多精力。但它的确引起了不少消费者的注意，“Raven H 很漂亮”。与其他外观相似的圆柱形智能音箱相比，“很不一样”。

除了出众的外表，Raven H 的表面是一块 LED 点阵触控板，随不同的操作有不同的灯光反馈

长期浸淫在技术指标与解决方案之间，将目光放在“现象级产品”的功利视角，让我们忽视接受新事物的普通人，正处在面对语音交互产品的“第一眼”阶段。这也许能解释陆奇为何刚上任百度 CEO，便主导收购了渡鸦科技。这家创业公司过往设计的所有产品，都明显展示出与其它同类公司的不同——对设计和美学的注重。

这正是大公司缺少的。在两个月前接受 YC 采访时，陆奇直言大公司在产品设计上“非常糟糕”（suck）。

音箱大战烽烟渐熄，2018 年，我们能等到那款现象级语音交互产品吗？

如同刘梦溪在谈到智能音箱的设计需要一整套东西来发力一样，一款现象级语音交互产品的出现也许同样需要“一整套东西”。

丰富的音频视频内容、强大的营销推广能力、有人情味但不至于太像人的“性格”、根据场景优化的技术方案、让 C 端消费者感兴趣的外表……

还有说不清道不明的那一点运气。

在一月份极客公园主办的 IF 创新大会上，罗永浩表示将在 5 月 15 日推出一款革命性产品。有消息称这款“革命性产品”将会是带屏幕的智能音箱——听起来有点像 Echo Show。但这会是我们等待的那款“现象级产品”吗？

或者，语音交互的“现象级产品”一定是智能音箱吗？

别无他法，唯有尝试。