老罗的TNT工作站到底前景如何？-虎嗅网

今年五月的时候，老罗发布了一款名为TNT（Touch And Talk）的工作站，然后每隔一段就有消息爆出，比如改变世界的TNT终于被你们笑话死了。抛开具体某个案例来看，这类产品的未来究竟会如何？

盖茨的感叹

比尔·盖茨先生8月17日在领英上推荐了一本书，同时写下了这样的一段文字：

In the early days of Microsoft, I felt like I was explaining something completely foreign to people when I would talk about our business plan. They didn’t understand how a company built entirely around software could be profitable.

这段话的大意是：

在微软的早期阶段，当谈到商业计划时，我感觉自己一直在向人解释特别陌生的东西。人们不理解为什么一个完全基于软件的公司可以盈利。

盖茨先生说的这类事情一直重复发生，在互联网早期（2000年前后）其实我们也不理解基于一种免费的产品如何构建商业模式。

每种创新模式之所以难以理解，核心在于其往往要依赖于几个大胆假设，而这些大胆假设本身非常难以求证真伪，从正反两个方面都可以获得无数的证据，然后基于这些假设又要做推理，最终才是结论。

这样的一个过程，不是单纯的生意机会，所以明白不难，但认同会比较困难。

我们可以比较下罗老师的TNT工作站和长租公寓：

长租公寓的理解方式可以是北京有1000万外来人口，总计需要租房800万间，市场总共有的房间是500套，所以这是一个供不应求的市场。因此只要能把握房源，建立品牌，那盈利比较确定（房屋数字和盈利数字都可以进一步精确化和测算，当前数字是我随便写的）。这样一来，从商业机会的角度看就非常明显，即容易明白也容易认同。

相比之下，TNT工作站上理解起来就繁杂很多。要理解TNT工作站需要的是：人们需要更便利的交互方式，当前语音技术已经成熟到这个地步，只要加上良好的设计，那就提供更好的体验。所有这些需要一款新的硬件做载体，因此需要这款产品。

后者麻烦的是，需要的判断点特别多：需要理解技术的成熟度，需要知道设计本身可以带来的价值，需要知道有多少人愿意为此买单。但真具有颠覆性的其实是后者，前者只不过是风险不同的各种生意。至少从这个点来看，老罗是值得尊敬的，他在做一些真正有创造性的东西。

说到底还是语音交互

抛开具体某款产品不论，TNT工作站这类产品究竟成立与否，最终取决于语音交互落地的深度。

当前的形态（各种音箱上的播歌、控制外设等）可以看成是语音交互的初级阶段，也可以看成是第一个支点。随着应用的深化，那各种深度应用形态必然会不断出现（电脑的第一个支点是用来计算，然后经过字处理、游戏、上网等阶段后，最后已经是一种无所不能的通用设备）。

眼下，语音交互的发展从层次上看至少要经历两个阶段：

第一个阶段就是现在Echo所展示的。通过语音来做播放控制，播放的内容可以是音乐、FM、儿歌、天气、路况等。具体的产品形态可以是音箱（有屏+无屏）、故事机、闹钟、电视、盒子、游戏玩具、智能灯等。

第二个阶段则是应用深化的阶段，这在Echo上也有一定苗头，比如购物会被整合到语音交互里来。如果语音交互真的可以用于购物，那为什么不可以用于办公，为什么不可以用于IM等。只要产品基数够，那每种尝试就都足以收集自己的反馈，然后迭代发展。

这个时候产品的形态反倒是会收敛，越重的应用越需要比较强大的硬件做支撑。而所有现在的尝试里面，最有可能成为这种通用型产品的基础的还是智能音箱，智能音箱天生就不是音箱而是一款智能通用设备的基础。

如果第二个阶段全面展开，那设备会分为浅层应用设备和深层应用设备。比如电灯，那需要的还是1轮～3轮对话来做基本的控制，这就是浅层应用设备。但带屏的音箱等承载的应用就会非常复杂，电脑上的很多事都需要重做一遍（老罗所看到的机会）。

这时候的智能音箱也会进一步分化，从价格上也可以看出这种划分。现在的智能音箱上，巨头往往主打便宜以启动市场。但下面则会分化，比如有的人可能会考虑集成NAS的功能，有的人可能会考虑集成路由器的功能等。

最终设备的销量也会因为这种应用深度的不同而不同：

在浅层应用阶段，智能音箱的销量可能更像传统的音箱，每年的上限在3千万台～4千万台。

在深层应用的阶段，智能音箱则可能突破垂直品类的限制，然后逼近电脑的量级，最终超越电脑的量级，达到每人一台的程度（逼近手机的量级，手机很多时候一个人有两个）。

有意思的事情是，很多时候大家把眼下的销量看成是判断语音交互发展的根据，其实这是有问题的。当前的销量只是语音交互发展的结果，而语音交互成立与否只与这种交互是否真的便利有关。销量和使用频次只与应用的深度和体验有关。

当前行业的真正瓶颈

当前语音交互在技术上并没有瓶颈，但在落地上有瓶颈。

没技术瓶颈，说的是NLP上的限制并不是语音交互的真实瓶颈。我们绝大多数的操作其实可以在3轮交互以内完成，这在当前技术水平所能支持的范围以内。实际的应用场景上也不是真的需要一个开放的无所不能的语音助理（电影里演的那样）。

不管是从数据还是使用习惯来看，也不存在语音交互习惯不成立的问题，当前落地的真正瓶颈其实是“内容”太少和落地太麻烦。

人们主要的时间其实是被手机占据着，而语音交互设备能做的事太少，只能局限在播放音乐等几个领域。这时候就特别需要“内容”的出现。这里的内容不单是指“影视”“音乐”的进一步增加，也包含罗老师想挑战的TNT，包含视频通话，包含对其它设备的控制等。

从这个角度看，语音交互的第一个战场就是家里。对决的两方是：在家里随着应用的深化，语音交互设备PK手机，两者抢夺家里的用户时间。

落地太麻烦则是个纯粹技术问题，当前打造一款语音设备产品的周期太长，通常要6个月以上。主要问题还不是经常说的NLP甚至ASR，核心在于和声音相关的部分。不同硬件有不同结构，有不同的声学特征，需要不同的麦克风阵列，所有这些问题都可以解决，但往往会拉长周期。

这时候需要的是像Android一样的系统，当年那么多手机厂商存在，核心的一个原因就是Android这样的系统拉低了打造一款手机的门槛。

当一个真的属于语音交互的Android系统出现后，那这个行业的发展速度可以进一步加快，产品的品类也会进一步增加。

小结

只要语音交互会成功，那TNT是一定会来的。即使不是马上，本质上也为时不远。

订阅号：琢磨事

老李