去搜搜
头像
在阿里AI实验室,我们探讨了智能音箱的几种可能
2019-12-02 10:52

在阿里AI实验室,我们探讨了智能音箱的几种可能

文章所属专栏 活动实录

虎嗅注:

 

本篇为“虎嗅Pro钻石会员”标杆企业参访,走进阿里AI实验室参访实录内容。

 

本次参访中,阿里巴巴人工智能实验室(A.I.Labs) 硬件终端总经理茹忆及团队,与团员共同探讨了万物互联时代产品打造的未来方向、技术创新方向,从产品形态、技术优势、产品布局、产业合作等多个方面为我们解读全新形态的AI产品与背后神秘的阿里巴巴人工智能实验室。

 

想要解锁全部交流内容,立刻加入加入虎嗅Pro钻石会员,亲自前往名企内部学习,与我们一道破解科技与产业领域趋势预判与创新方法论。

 

此外,2020年,“虎嗅Pro钻石会员”全新升级,以“助推技术落地产业”为主题开展全年创新创业学习计划,扫描下方二维码添加好友/点击图片,可快速了解详情。

 


本文为实录节选:

 

我们对当前中国市场和技术形势的判断,用四个字来形容叫“三浪叠加”。

 

第一,在技术方面,“三浪叠加”体现在PC互联网、移动互联网、智能互联网,三个互联网在中国是同时存在的,PC现在整体销量开始有所下滑,但大部分用户还是用PC。移动互联网是普及最快的,智能互联网以5G+IoT,包括多模态交互也是刚刚兴起。

 

第二,从消费市场来看,日本的社会消费专家研究消费市场,提出第四消费社会理论,讲到为国消费、家庭消费、个人消费是前三个消费时代,及“三浪叠加”。他总结的是日本一百年的情况,但在中国四十年里,我们三个消费时代同时存在。2008年的传统零售1.0刚要没落,2.0的国美、苏宁正兴起,那时候淘宝做到了999亿,国美、苏宁是1000亿,大家分不清到底哪个是时代的趋势,觉得国美、苏宁可能是主流,但过了几年证明淘宝是主流。

 

整体对形势的判断,就是三浪叠加,三浪叠加的时候,对企业的战略选择是非常困难的,在变化中我们也看到有一些不变的东西:

   

首先是智能商业的趋势,在线化、智能化、网络化应运而生。

 

第一是在线化,未来互联网基础设施更完善,所有东西都会在线,就是在线和离线之分。

   

第二是智能化,依据大数据和计算,让生产端、应用端都智能化。

   

第三是网络化,网络化不是互联网,是指在线接入到网络里的各个实体越来越多,它发挥的价值越来越大。举个例子,比如两个人用微信和两百人用微信,微信体现的价值是不一样的,加入的人越多,整体创造的价值越多,这是技术对智能商业的一个判断。

   

另外,现在物质越来越丰富,我们从物质时代正在进入网络时代,家是最有温度的地方,也是不变的地方,很多技术和我们所做的事情,最终落脚点在家里。在8月底的时候,马老师在一次会上提出“家”的战略,在这个战略下我们做智慧家庭,家庭的外延是未来社区。未来社区是2019年浙江省提出的顶层设计,在全国率先提出要做22个社区的试点,提出了139战略,“1”是美好生活,“3”是生态化、数字化、人文化,“9”是九大场景。在整个蓝图之下,有很多企业都参与其中了,阿里巴巴是整个浙江未来社区联盟的理事长单位。

   

我们也看到一些东西,第一是这个社区的好处,做未来社区的能让整个IoT产业,一颗心、一盘棋,同时在几个场景中也可以激活在线数据的价值,让智慧服务能够更好地流转起来。

   

针对智慧家庭和未来社区阿里发布了家庭大脑,我们希望能够做未来社区的智慧引擎。整个家庭大脑从结构上看分为几部分,左边部分我们把生态、合作伙伴,无论是硬件,还是内容、服务,都接入到大脑里面,右侧是我们最终落地到智慧家庭和未来社区,面向的九大场景。整个智慧大脑分成了三个部分,第一是AI技术,AI技术主要是进行决策的。第二是终端,终端包括我们自研的终端和生态伙伴的终端。第三是人机交流系统,对外开放合作,我们希望能够实现云端定居,把我们很多生活的东西都放在云端。

       

另外,是几个重点的合作,第一是与平头哥的合作,定制芯片,今年会在天猫精灵音箱上使用。第二是与国家图书馆的合作,我们希望把国家图书馆里的一些典藏、书法家和教育资源能够引入到家庭当中。第三是和酒店民宿行业的合作,去年开始做阿里未来酒店,后来开始向整个行业推广,这次我们和民宿行业合作,把天猫精灵和相关的IoT产品引入。第四是和人民教育出版社的合作,我们先从全国统编教材开始,让这些教材都数字化、AI化,然后在我们的产品上可以使用,未来包括一些名师的资源,我们会逐步引入其中。第五是和一些车企的合作,现在已经上市的是雷诺的车,即将面市的是宝马、沃尔沃、雷诺等,基本上今年年底就会完成升级,支持天猫精灵接入。

 

Q&A


Q:阿里人工智能实验室有三多,牛人多、科学家多、好玩的多,还有两个特质“永远敢于创新”、“懂得多、会的多”。这么多牛人,怎么做好组织管理与组织学习?

   

A:这个应该是阿里组织的魅力,在我看来,马老师在创建这个组织的时候,我们一直对外讲我们的使命愿景是让天下没有难做的生意,对内讲是一群有情有义的人做一件有价值、有意义的事。阿里巴巴其实是靠一种价值认同链接阿里人与阿里做的事。

 

从组织的角度来讲,这群有情有义的人需要有一个链接的东西,阿里巴巴的价值观是整个组织构建的基础。近期我们升级了六脉神剑,六脉神剑是阿里十多年的积累,内核没有变,比如,此时此刻,非我莫属;今天最好的表现,是明天的最低要求等等,用阿里的土话来重新把我们的价值观讲了一遍,这个价值观是阿里能够继续往上走的一个基石。

 

在这个基础上,阿里巴巴的HR体系和整个组织架构通过阿里内部的组织方式,比如我们有很多项目的评审机制、有review机制、包括在组织上自己沉淀下来的一些方法论,结合一些KPI的方法来保证这个组织更高效去做有价值、有意义的事情,这是依赖于整个阿里巴巴的组织能力。

   

如何让这些人能够去团结起来,马老师不仅有一个很好的组织能力、价值观、文化驱动力,也真的给大家带来一个非常好的空间,让大家实现自己的理想。

   

Q:两三年前天猫精灵的的商业模式是卖入口,现在看来商业模式慢慢变成生态了?

  

A:入口与生态同步进行。应该算是一个进化,我们的初心不变,希望能够给用户带来方便,它的这种体验是远超过手机的。那怎么去做这件事情?需要做一个判断,当时的情况下,我们去找合作伙伴说要做这样一个产品,然后把我们的技术落地,跟大家去合作,大家也在探索。我们碰到了一个问题,就是很难把这个东西规模化,那怎么办?我们自己先找了一个空白的领域,其实智能音箱是相对空白的领域,它跟传统音箱不同,所以把这样一个交互技术去落地,然后做到了现在中国第一。

 

阿里巴巴作为一个平台公司不可能靠一个单品去支撑业务,我们团队的使命是让大家都能够用上这样的技术,所以我们要普惠阿里的优势,借助所有合作伙伴的力量一起做这件事情,下一步我们要跟合作伙伴去做这样的事情。

   

慢慢去推广,现在百分之七八十的电器品类都可以接入天猫精灵,但是真正用语音技术的合作伙伴并不是很多,但它还在一个慢慢合作的过程,因为这个场景要打透,要做真正用户需要的,而不是硬往里塞,那没有意义。比如眼睛看不见的需要用语音控制,这个是用户的刚需,我们再慢慢打磨它,就会有用户觉得我们的产品很好、很需要它。

   

Q:这个模组输出多吗?

 

A:现在我们刚起步,模组数据还没有披露,只能说我们刚开始合作。

 

Q:天猫精灵模组用到车联网中,车里面不可能去喊天猫精灵吧?这个可以自定义吗?

   

A:分几种,目前我们基于品牌的统一化,还是用天猫精灵,唤醒用的是天猫精灵。

 

Q:宝马车里也是用天猫精灵?

   

A:对,它的开机屏会显示一个天猫精灵的板块,首次唤醒一定需要,后面可以进行一个自然的连续对话,比如开音乐、开广播、开导航,就不需要再喊“天猫精灵”这四个字了。

   

Q:天猫精灵停止交互后,再唤醒还需要喊天猫精灵?

 

A:对。好多车里面我们用的是双唤醒词,举个例子,比如唤醒词可以设置成“沃尔沃”,它的内容是可以定制的。

 

Q:天猫支持的电器多不多?它和小米生态之间有没有什么业务链接?

 

A:我们已经合作了900多家电品牌,可连接设备超过2.35亿台。

 

天猫精灵是把技术落地到一个产品之中,对我们来说,这个技术并没有边界,但今天在实现的时候,需要有一个过程。首先我们把天猫精灵做成一个控制终端,和所有小家电厂商、灯厂去合作,现在得到的效果是比较好的,获得了非常多中小品牌的认可,我们希望能够帮助中国很多中小品牌、制造业做升级,我觉得中国制造业已经很厉害了,iPhone都是在中国生产的,当我第一次去灯的工厂的时候,我震惊了,居然还有这么落后的工厂,包括小家电工厂,有很多中小企业、中小工厂还是手工作坊,我们今天给他们一个非常牛的模组,他们都不知道怎么用,连把模组放在电路板上都做不到,所以我们要帮助他们升级。

   

小米做的是自有品牌,它在自己的品牌里面做得很好,我们也做过用户调研,当用户家里面有三台以上的小米智能家居设备的时候,他一定会买一个“小爱同学”,这是用户黏性,因为小米就是靠小米粉丝对这个品牌的信任做起来的。但中国市场如此之大,我们相信有用小米品牌的,就肯定也有用美的、格力、华为的,天猫不可能只服务自己的品牌,我们希望服务所有的品牌。所以今天我们和头部商家合作,下一站我们和所有小家电合作,我觉得我们和小米也能合作。

 

今天阿里技术在不断输出,随着我们AI技术的发展,我们一定有一些技术是小米需要的,那么我们就能够去合作了。而且现在小米有很多品牌,比如云米、石头主动跟天猫精灵对接,因为我们是开放的。

   

Q:从用户的角度,家庭里需要场景的娱乐性,但在播放歌的过程中,还没达到一个智能化的水平,所以它的联网升级要怎么完成?第二在语音识别、深度学习上,语境水平的容错率控制在什么水平?

 

A:从两方面来讲,每个人对智能产品的期望和诉求都不太一样,娱乐工作者把我们未来几百年要干的事情全部开出来了,这对我们是最大的挑战。对于智能这件事情,我们有时候的确预期会比较高,举个例子,你随便拉一个人问他一百个问题,基本上他能回答对50个就已经是很厉害的人了,但今天对人工智能的要求是要全部回答正确,这其实是挺难的。

 

第一代天猫精灵刚上市的时候,我认为各项指标还是比较一般的,是中等偏上的水平,智能这块我们在不断升级,一直琢磨怎么样对话能够更自然。

   

所以9月29号我们发布天猫精灵CCL,在这个基础上,后面我们还有更多的功能、技术储备,语音技术会越来越成熟,具备多模态融合交互能力,并实现了全双工自然对话技术,具有一次唤醒、多轮连续自由对话等功能。

   

也就是说它跟人一样,听的时候也在说,其实这个不管是对硬件,还是对算法,还是对语义意图的理解都是一个巨大的挑战,而且我们的挑战其实比同行要难的多,其实语义的理解和意图的领域多少有关系,支持十几个领域它理解一句话,和支持一百多个意图理解的领域完全不一样。比如它如果没有外卖这个环节,只有听歌环节,我想听歌了,这个肯定是落到听歌“部门”里面了,但如果这个人说我想听《饿狼》,但掉了一个“狼”字,如果有外卖,它可能就会落到“饿了么”环节去,可能会给你推荐一个红烧牛肉面。所以每多一个意图领域,我们的识别率难度会增加一倍,其实我们前两年一直在打基础,就是怎么把领域分对,我们今天基于自然语言对话,我觉得我们的难度比同行要高很多的,但如果加了这个领域,你就会比他好做,我相信我们后面会越跑越快。

   

Q:比如听音乐、听新闻,但总是一个新闻源,怎么办?

   

A:这是一个运营策略,其实从理论上来说我们支持多个新闻源。运营策略上,因为听新闻这个事情,我们运营现在在做“早上好”,它首先会给你推荐就近的,比如你在成都,它会推荐本地内容。当然我们后面也会设计,比如我就想听中央人民广播电台的,因为现在刚开始做,所以我们会把这些内容去做一些安排,当然如果你想听别的也可以。未来我们是在做一个平台化的东西,就是谁的内容都可以接,用户想听谁的都可以,我们现在平台开放度已经足够了,就是建议用户如何选,这些需要我们做一些引导和运营的工作。

   

对于新闻源接入,第一个前提就是你要有语音的内容,比如虎嗅有语音内容,接入进来只需要一两周的时间。我们现在给用户端有两种情况,一种是直接放在“早上好”栏目里,比如沈阳人听的就是沈阳的。还有一种,比如我想听虎嗅资讯,可以直接调虎嗅的东西,或者它随机根据你的地点、性别推内容。

   

Q:定位和未来的战略是什么?第二天猫精灵的定位是来自于技术输出,还是最后真正掌握这个入口呢?

 

A:阿里巴巴肯定希望做成一个生态,马老师讲了一个观念,我们从两个H变成三个H,为什么讲home战略,我觉得home战略是依赖于马老师之前提出来的智联化,以前所有的物联网数据是连接,但我们提出连接到哪里?连接到一个AI云端大脑上,所以我们这次提出一个嫁接大脑的概念,它能够做的是控制连接和决策,依赖于数据算法和整个系统下控制的终端,这个终端不是我们的目的,而是一个手段。

   

我们今天做终端,是希望把我们的技术能够通过终端落地到一个入口上,形成互联互通,但未必所有终端都需要我们去做,也未必天猫精灵一定要把所有终端都做了,我们今天只是做了一个入口,用这个技术和大家去合作。

 

Q:最底层你们要做什么?技术出来以后,最后聚焦点在哪?

   

A:我们首先做了一个家庭大脑,通过技术让整个家、整个生活服务更加便捷,让更多人更方便地去享受互联网的服务。举个例子,先说未来社区,从未来社区到家,再到我们现在生活的各个场景,我们通过家庭大脑和未来社区去连,现在我们不仅有天猫精灵的技术,还有机器人,以后你在上班的时候没办法接快递,就可以让快递员送到菜鸟驿站,这时候回到家,给菜鸟驿站打个电话,机器人就可以把快递送到家里面去,这是未来社区可以解决的问题。

   

对于老人来说,老人要上网,父母不会用手机在网上购物的,移动互联网时代让80%的人上网了,但这80%里面有20%的人不会上网,智能音箱是完全能实现互联网的服务。

   

Q:这么多厂家都在做这个,你们为什么能脱颖而出?

   

A:因为阿里A.I.Labs有一个特点,有些业务是可以在阿里平台上生长起来的,我们在做的时候,算法、硬件、软件、系统、销售、市场在一个团队,这个团队开始的时候人并不多,只有几十个人,我们依靠阿里平台的能力把它做起来,这是我们和世界上所有A.I.Labs都不同的一点。开始做的时候,我跟团队说,每一个环节,前端麦克风的设计、硬件的设计、结构的设计到降噪、云端、语义理解、NRU、NLP,最后再回到GTS,每一个环节我们差两个点,整体我们可能就差10%-20%。我们每一个环节比别人只要好0.5%个点,我们整体的体验就会比别人好10%,其实我们就是整体的体验比别人好了10%-20%。

   

Q:怎么看待你们具体的工作跟5G相结合?

   

A:比尔盖茨是这样说的,我们往往会高估未来一到两年技术对我们的影响,而低估未来三到五年技术对我们的影响。其实5G在未来两年对我们基本上没什么影响,但是未来三到五年的确有可能是翻天覆地的变化,变化会非常大,因为它的带宽提升,如果2G到4G是从省道、国道变成高速公路的话,那么4G到5G的提升其实是从高速公路一下提升到飞机的速度,它提升了将近100倍,这个对整个生态的影响会非常大,而且它其实先是对技术影响,然后才会影响整个应用技术。因为它首先得把很多基础设施影响掉,现在的基础设施很多还不足以支撑在5G上带来的变化,移动互联网也是前面三年基础设施到了那个程度之后才发展起来的,甚至经过了五年的时间,iPhone2007年就出来了,但是真正到2012年的时候大家才真正开始用微信,移动互联网的应用才丰富起来。5G,首先我们得有足够多支持5G的设备,然后需要整个平台架构发生翻天覆地的变化,才能够在这上面产生更多的应用,否则现在就只是看个视频什么的。

 

Q:你们现在有什么储备吗?

 

A:其实5G和AI是息息相关的,我觉得最明显的是对AI的提升,比如算力在端上和云在边缘计算,摄像头很多识别的东西,它们在边缘上的算力我们发现总是不够,5G就这一个案例,给所有未来做视觉识别的公司简直就是一个福音。

   

对我们来说,AI技术不止于此,它不仅是算法、识别的问题,它会影响到整个行业。天猫精灵终端到底有多少算力,我们怎么样展示更好的语音交互、视觉交互,有了5G以后,有些算力可以直接用云端去做。

   

我们有一些储备,这个储备不是一天两天的,今天在做天猫精灵的时候提出来一个概念叫云端一体,就是说端上的算法怎么样与云端算法结合,整个框架需要重新构建。我们在做天猫精灵的过程中,怎么样构建一个更好的系统,这个系统未来一定会适合云端协同的,对于5G来说,它相当于让云端协同更加容易。

   

Q:阿里AI一直希望做家庭大脑,如果只有大脑没有手的话,是不是有很多事情做不了呢?

 

A:所以我们做了天猫精灵。对于机器人,这个要借助生态和合作伙伴的能力来做。我们其实有一个原则,一定是做AI能体现我们的算法、能体现数据优势的事情,剩下的都可以融合。

   

Q:大家心里默认智能音箱是一个趋势,但它是吗?为什么我要用智能电器?

 

A:一个新的产品被所有人接受是不太现实的,在它整个被人接受的过程中往往有三个鸿沟,很早的时候我们会对产品有一些尝鲜,尝鲜的这部分人接受了之后,这个产品打磨到一定程度,我们会碰到一个鸿沟,会有一些早期用户接受,第一批占整个市场的5%-10%,发烧友占30%左右,还有30%是用户推荐,前面总共将近占了70%-80%,可能还有20%的人是一直不用这样的产品,这个产品的鸿沟在这里。

   

很多人都能在天猫精灵上找到自己的痛点,我给父母买了之后,我父亲比较开心,因为他看我一直在手机上买东西,他也想买,但他不太会用,后来用了天猫精灵,他可以在手机上买东西,主要是我把支付的问题给他解决了。我母亲用天猫精灵设置定时,比如烧饭需要30分钟,她洗衣服的时候就经常会忘,天猫精灵就会叫她。

 

Q:手机要喷涂、要自动化,喷涂前端有一个输送,输送前端还有一个配比,天猫精灵这种技术怎么赋能呢?是不是5G才可以?

 

A:这个跟5G关系不是特别大,我们跟其他行业合作,需要深入到整个生产车间里面。阿里云有一个产业赋能计划,我们和阿里云搞了一个经营产业带,因为我们讲帮助中小企业合作,企业的确会碰到生产的问题,你把自动化的机器堆上去是一种方式,我们不光有自动化的设备,还有很好的管理系统,阿里云在推工业智能制造的升级,其实就是工厂的升级。我们自己的工厂、自己的产业线这个信息化做好之后,同样会赋能给其他产业带。

   

有一个案例,烟草集团涉及烟叶的挑选,有的是次的烟叶,有的是好的烟叶,他们经过的时候会用高速摄像机把这个东西拍下来,经过后面AI算法会检测出来,专门有一个机器会给它挑。过去都是靠手工的,经过这个之后,整个效率提高了200%,现在整个十大烟草公司的前四大全部上了这个东西,这个东西其实跟你那个一样。飞利浦喷涂也有一个高速摄像机,拍摄完之后处理,不良率可以挑出来,这个都有的。

 

Q:很多音箱开始装上了单屏,它会不会像过去的可视电话一样,看上去有用,但实际没有太大用,如何发挥更好的作用?

 

A:其实音箱加屏幕的场景我们一直在探索,这到底是不是用户的刚需,用户到底需不需要这样的产品,后来产品上市之后也得到了用户的一些认可,我们在数据上也看到了用户对产品使用习惯的一些体现。在视觉这块是我们看到的一个方向,但是探索比较难,我们今天把一个特别牛的AI技术和用户需要的场景去结合起来,这是需要不断去探索体会的。

   

比如我们这次推C位跟随功能,发现用户打视频电话的时候喜欢走来走去,老年人觉得这个东西像小电视,用这个东西打视频电话挺好玩的,父母和子女打视频电话挺好的,有时候他也搞不清楚自己在哪,他看你也看不清楚,这时候就会有用户反馈这件事情。后来我们用算法跟着你,一直把这个人像放在摄像头里,这个测试之后发现很受用户欢迎,这是不断探索的结果。

   

从机器智能发展的角度来讲,一定是像人一样,先有耳朵、嘴巴、眼睛,然后去看。反过来想,其实机器是为了适应人,而不是为了跟人一样,因为人在交互的过程中,眼睛获取的信息量是最大的,基本上90%的信息都是通过眼睛获取的,所以机器人胸口的那块屏幕还是比较合理的,可以更快地把信息透射出来,所以带屏幕的音箱从交互角度来说应该是成立的,在这点上我们还需要不断探索。

 

Q:健康智慧被作为单独的一部分,目前是做一些数据的收集,数据在前期是比较散乱的,那个数据拿来做一些其他条件的设定是非常有价值的,天猫精灵在健康这块有什么样的想法?未来会有什么样的商业模式演变?

 

A:马老师很早就提出来2H战略, Happy我们有阿里文娱,Health有阿里健康,阿里健康跟天猫精灵的合作非常紧密,天猫精灵在健康上面和阿里健康做了很多深度的合作,健康是大家特别关心的场景,不光有老人、孩子,在健康整个领域里面还有很多深层次的问题要解决。

 

阿里健康的使命要解决的问题很广泛,比如问诊、去医院挂号排队的问题都在试图解决,如何让三甲医院的医生能够和社区进行一些联动,它要解决健康的问题。我们在这个基础上,利用AI技术如何帮助阿里健康把问题解决,同时能够把家人和阿里健康提供的服务更好地结合起来。比如这次我们和阿里健康合作了天猫精灵,第一个是可以在上面询医问诊了,一些简单的问题可以去问,可以下单一些肠胃药。这次发布会上,有很多药厂非常主动想跟我们合作。

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声