阿里巴巴跨界挖来的这位世界级音频专家,是要调教AI声优吗?
2017-11-30 15:15

阿里巴巴跨界挖来的这位世界级音频专家,是要调教AI声优吗?

阿里巴巴今天(11月30日)正式宣布世界级音频专家冯津伟入职人工智能团队iDST。冯津伟担任智能语音交互团队研究员,负责语音交互设备端的声学设计和信号处理研究工作。

 

大牛是何许人

 

冯津伟这个名字可能还不在你的输入法词库里,不熟悉这块领域的话,他的履历你可能看起来也没什么亮点,没有很多TOP院校打头,没有很多你听过的名企挂职。但是了解的话还是会深深吸一口气。


                                                                  冯津伟博士


冯津伟博士本科毕业于南京大学电子科学专业,又先后在南京大学声学研究所和南洋理工大学攻读硕士学位,后又赴美深造,于2000 年获得弗吉尼亚理工大学声学博士学位。


南京大学声学研究所是国内顶级的声学研究机构,加上师从音频声学泰斗沙家正先生,冯津伟在就读期间就和导师研制出了全球第一台扬声器纸盆共振频率的自动测试系统,大大提高了国内电声行业的生产效率。而弗吉尼亚理工大学的VAL实验室又在主动降噪领域非常著名。


博士毕业之后的冯津伟,加入了Polycom(宝利通),宝利通公司是语音和视频协作解决方案领域的全球领导者,专业开发、制造和销售高质量音视频会议系统及解决方案,占全球视频会议市场份额的第一。


作为宝利通的声学设计和信号处理首席工程师,冯津伟博士工作了17年,拥有10几项美国专利,大部分都已产品化,成为世界级的音频专家。他曾主持开发创新型的视频跟踪系统,用于多人视频会议时摄像头的精准定位。

 

为了搞事,阿里巴巴把世界级大牛一个个纳入iDST。

 

阿里巴巴的iDST(Institute of Data Science&Technologies)被称为“最神秘的部门”。据一财网介绍,这个“数据科学与技术研究院”的员工大多都具有科学家背景。目前这个部门大约有150名员工,其中大概50人在杭州。在组织架构上,iDST分属于阿里云。iDST要做的就是最前沿的科技与数据研究。今年“双11”卖的火热的“天猫精灵”就是iDST的研发成果。


阿里巴巴集团首席技术官王坚对iDST的定位是,“iDST要做阿里其他部门不愿做、也做不了的事情。”

 

那这些其他部门都做不了的事,冯津伟能做吗?

 

阿里巴巴iDST语音团队负责人鄢志杰表示:“冯博士的入职,是物理学和互联网间的‘跨界’。阿里严肃看待智能语音交互技术全链路,逐步组建世界级专家团队。从源头和信号采集开始,在端上做突破性的智能语音交互体验。”


阿里云的官方说法,此前,iDST语音团队的技术成果已通过阿里云人工智能ET等对外输出,在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景成功应用。全国有近300家法院和超过6000家法庭在使用ET,每年有超过1.2亿次客服电话由ET协助人类接听。

 

在语音交互产品方面,阿里iDST研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,如触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端,如与斑马网络、上汽合作的的荣威互联网汽车、与海尔合作的人工智能电视等。

 

而冯津伟入职后将依托其在声学与信号处理领域的学习工作背景,主持领导语音交互设备端的研究工作。声学是物理学分支学科之一,研究媒质中机械波的产生、传播、接收和效应。以时下最热门的智能音箱为例,如何选择麦克风的材质、摆放位置、结构,就是声学设计要解决的问题。


而且,现在市场上所有已经研发出来的智能音箱产品,也都无一例外的将机器的发声作为卖点之一。作为一个能和人类进行交流的物种,势必要考虑到它的发声给用户带来的感受,就像听声优说话,可能比听新闻联播式的字正腔圆给人带来的愉悦度要高一些。清晰的声音信号转化,比带着杂音的对话更让人舒服。如果你是一个宅男,你一定希望听到一个软萌妹子在说话,而不是生硬死板,还掺杂着噪音的机器识别发音。

 

 “天猫精灵”是阿里巴巴人工智能实验室研发的第一代智能语音终端设备,内置第一代中文人机交流系统AliGenie,可以进行人机交流,听得懂普通话语音指令,目前可实现智能家居控制、语音购物、手机充值、音频音乐播放等功能。因为被阿里整合了支付宝、淘宝、菜鸟物流,“天猫精灵”可以帮你购物,查快递,叫外卖。

 

其中不能不提的一项技术就是它的声纹识别功能,把声信号转化成电信号,再进行计算机识别。而远场语音识别在实际应用中受到噪声、回声、混响的干扰太大,只有尽可能地保证声音的高保真,才能为后续的算法处理提供高质量的数据。所以如何避免因收集到的信号太模糊导致后续的语音识别、合成和同声传译效果不好,就成了现在迄待解决的问题。

 

冯津伟博士的研究领域,正好涉及了类似的问题。加入阿里之后,冯津伟博士在传统行业的声学设计经验可以与阿里的业务完美对接。声学设计与信号处理作为前端信号处理的主要技术,毫无疑问将会为阿里巴巴的整个语音识别系统奠定坚实的数据基础。

 

关于加入阿里巴巴,冯津伟认为是一次全新的机会。他表示:“过去自己的专业知识基本用于会议模式,而未来阿里丰富的智能交互场景将为声学设计与信号处理的发展提供宝贵的实战经验。”


而新兴互联网企业的高速发展,加上阿里巴巴与他在价值观上的契合,也成为了冯津伟选择加入阿里巴巴 iDST 的重要原因。

 

冯津伟博士还对Al科技评论表示,以“达摩院”为代表的研究机构逐步建立,阿里巴巴的研发实力肯定会比以前更上一层楼,并且可能会看到很多与众不同的创新,“现在的智能音箱实际上跟着亚马逊 Echo 走的很多,但阿里巴巴不一定会沿着它的老路,我们甚至可以引领行业。”

 

据阿里巴巴iDST透露,冯津伟已参与一秘密项目开发,项目在全球没有先例。显然外界对冯津伟博士进入阿里的这份神秘“投名状”还是有点期待的。

如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定