去搜搜
头像
虚拟数字人能带来一场交互革命?
2019-12-18 17:00

虚拟数字人能带来一场交互革命?

文章所属专栏 前沿技术情报所

11月22日,特斯拉召开发布会推出了纯电动皮卡,炫酷的外形引发了轰动。在这场发布会上,没有真人做主持人,一直营造科技感的马斯克在发布会上用了虚拟的主持人,做开场和话题引导。

 


在国内,虚拟数字人的开发和应用也逐渐增多,其中以虚拟主持人为主,其他领域的虚拟数字人也在出现。在今年的央视五四青年节晚会上,就用了百度的AI虚拟主持人。7月份的百度开发者大会上,百度与浦发银行联合宣布开发虚拟数字人,内置到浦发APP中,做客户的金融顾问。目前浦发的数字人还未推出。


搜狗在今年年中与北京互联网法院联合推出了虚拟法官,并在多个会议活动场合秀出了AI虚拟主持人。

 

科大讯飞在今年5月的新品发布会上,也是用虚拟主播“小晴”做为主持人。


一些创业公司也瞄准了这一领域。如魔珐科技除了自主推出了虚拟主播等产品外,也在金融领域跟银行业界合作推出了在银行网点与顾客互动的虚拟数字人智能助手。

 

这个行业陆陆续续开始有了一些应用,除了虚拟主持人,还在银行、政务等领域有一些应用出来,一种新的交互方式正在逐渐形成,用一个虚拟的形象,去代替传统的真人,代替APP、网站内的各种功能菜单。这种交互方式看起来还是挺新的,这个行业会火起来成为一个小风口吗?

 

数字人代替人做一些简单重复的交互、沟通工作

 

我们已经接触过不少虚拟助手。微软小冰可能是大家最熟悉的。小冰能够跟用户进行多轮对话,但仅限于闲聊,只要涉及到比较专业的话题,小冰无能无力。

 

虚拟数字人与微软小冰这样的助手相比,有了具体的形象,可以是二维或者三维的;有的形象是合成的,有的则是提取某位真实人物的外形与面貌特征做出来的,往往是超写实的形象。搜狗推出的虚拟法官,就是用的北京互联网法院工作人员的形象,创建的二维虚拟数字人。


搜狗的虚拟法官


魔珐科技的虚拟数字人主打的是实时生成的超写实三维数字人,包括虚拟主播、虚拟老师、银行网点虚拟雇员等,形象比较逼真,场景演绎也比较流畅。三维虚拟数字人,相比于二维虚拟数字人,有两个主要优势。一是能够任意定制和编辑虚拟数字人的外在形象,比如发型,穿着,身材脸型,背景,灯光,动作等等。二是,因为内容是三维的,三维虚拟数字人可以呈现在AR/VR或者全息设备上。

但创建三维虚拟数字人技术比二维数字人的壁垒也更高。


魔珐科技的虚拟主持人


对于超写实技术,魔珐科技创始人柴金祥对虎嗅Pro表示,最主要用的技术是基于三维视觉感知和合成的技术,真人在前面做相应的表情和肢体动作,周围有很多摄像头,会产生三维的数据,后面通过智能化的技术去建模、捕捉、驱动。以前主要是手工做的,现在通过智能化的技术可以把三维的形象雕刻的非常像。除了雕刻本身的几何关系以外,还有表面的纹理,比如颜色,包括皮肤和制作上,整个过程基本是利用了三维视觉的感知和合成技术。除此之外,实时交互的虚拟数字人还需要另外两项关键技术: 基于文本实时生成语音和动画技术和实时语音交互技术。

 

因为智能性的限制,目前虚拟数字人会做一些简单的工作,比如现在银行网点,或者银行APP里,让数字人做类似于客服的工作,引导客户去该去的地方办业务。目前,比较难的工作,虚拟数字人体验还不够好,比如为VIP客户提供专业的理财服务,这通常需要非常强的专业能力。

 

再比如搜狗与北京互联网法院发布的虚拟法官,主要是协助真人法官完成线上诉讼接待等前端重复性的基础工作,引导用户使用网络诉讼平台,专业从业者可以把更多精力放在后期司法审判方面。

 

在线下,虚拟数字人的使用也有一定场景。包括在政府部门,以及医院这样的单位,办事大厅往往显得忙乱,初期去那里办事往往不知道这个部门或者哪个部门在几楼的几房间。安排一个真人专门做这事,对这个员工来讲,其实挺考验爱心和责任心的,在职业上也缺乏成就感。如果在大厅里有虚拟数字人,无论年轻人还是老幼都可以做一些简单的语音交流,就知道办事的流程是怎样的。柴金祥表示,虚拟的政务数字人,也已经开始在做了。

 

在银行网点的应用,也刚刚开始。最近在百信银行参加活动时,大厅的屏幕就可以显示虚拟数字人,与客人进行一些简单互动。魔珐科技也与某银行合作推出了在网点的虚拟助手。


魔珐科技打造的银行虚拟助手


在这些领域,虚拟数字人的作用跟智能客服有点像——我们平时接到的营销电话,有不少是机器打过来的,人跟智能客服交谈,一般就是直接挂掉电话,真正有需求的人可能会多聊几句问问产品的信息,这时候智能客服再把对话交给真人客服,便可提高客服的效率,让真人客服少打不少无效电话。(当然,这也对顾客形成了一定骚扰。)虚拟数字人也是把一些简单重复的问题包揽过来,专业复杂的问题交给真人去处理。

 

在另外一些场景,虚拟数字人试图去取代真人,从而去降低场景中的运营成本。

 

教育是一个场景。在教育行业面临规模不经济的难题,在一对一教学领域更是如此,规模上去了,师资成本使得边际成本不能有效下降。业界有尝试用虚拟数字人来做AI老师,代替真人老师授课。课程往往是录课。在课程中,给学生一个真人形象去传授课程,但可以做到一定程度的个性化。


魔珐科技打造的虚拟老师


魔珐科技与某家国内头部互联网教育公司合作,开发了虚拟老师的产品。通过摄像头的识别后,虚拟老师可以根据学生的一些反应,来调整所讲的内容,比如学生这个问题回答的不对,虚拟老师可以调整内容,再做一些讲解。但AI技术目前还没有达到人类的智能程度,而是把一些环节标准化了。比如这道题做错了,会有几种情况,可以根据某一种情况预设好相关内容。

 

柴金祥表示,虚拟老师是把虚拟化带到教育场景里面,老师已经不是真人老师录播了,变成一个虚拟IP。一定程度的智能化目前也可以满足市场的需求。

 

现在学生跟虚拟老师的互动需要由老师发起,还是单向的,还不能像和真人老师一样进行双向的实时互动。柴金祥认为,到这种程度还有一段时间。要真正多轮互动,今天对全世界所有的研究者来说,都是很难的问题。就像智能音箱目前也都很不智能。今天更多是在垂直领域里面,将自己已有的虚拟数字人技术落地,带来一些有价值的东西。 


数字人在泛娱乐领域也存在应用价值。一家经纪公司非常依赖旗下的签约艺人,直播平台非常依赖头部的主播。如果有虚拟数字人能够受到观众的欢迎,包括虚拟主持人、虚拟主播、虚拟模特等,可以降低泛娱乐平台对明星或者主播的依赖程度,因为这个虚拟数字人是完全受到、平台的控制的,不必担心被高价挖走,也不会因为一些事件出现人设崩塌。

 

魔珐科技首先切入的应用领域就是泛娱乐领域。柴金祥认为,虚拟数字人第一个市场一定是泛娱乐,以数字人为依托生产内容,虚拟直播也好,虚拟短视频也好,虚拟综艺秀也好,所有的内容是导演策划好的,只要能表演就可以了,而且不需要全智能。

 

综合来看,虚拟数字人有线上线下两种场景。


在线上,可以提供一种新的交互方式,以前是人与网站、APP交互,有了数字人之后,人直接跟数字人交互,人提问题或者发出命令,数字人来回答或者执行。或是在泛娱乐或者教育等场景来提供一个拟人的形象,代替真人来表演或者教学;


在线下,虚拟数字人可以在政府部门、医院、银行、消费场所等场景里提供简单的客服功能。就目前的状况来看,虚拟数字人能做的事都比较简单。

 

不过,相比于真人,数字人的好处是可以7乘24小时地服务,按照设定的程序去运行。

 

未来APP都会用虚拟数字人来交互?

 

虚拟数字人现在进入到了应用的初期,市场还没有真正的打开。在未来,虚拟数字人会有多大的应用潜力?

 

由于还没有获得大量应用,部分读者会觉得这样的虚拟数字人在会议论坛、政府办公场所、银行等地方更多是一种噱头或者摆设。

 

对于数字人能不能火起来,从业者的看法更为乐观。


柴金祥认为,判断哪些领域会适合虚拟数字人的应用,可以从三个角度去考量:对交互的需求、对形象的需求、对体验的需求。某些行业特别适合图文并茂地跟用户交互信息的,而且需要的信息量没有那么大,不是10轮、20轮那种的对话,都可以用虚拟数字人来提供服务。



他表示,重内容轻交互的领域是最先应用的一类,像虚拟老师,大部分时间在讲课;泛娱乐领域的虚拟数字人,大部分时间在表演,交互很少,应用起来会更早。另一类是不需要很强的知识库,比如像一家公司,以前介绍自己更多是通过官网的形式,现在可以有这样的虚拟数字人,用户可以问问题,数字人可以图文并茂解释。这不需要很强的知识库。

 

柴金祥甚至认为,将来的APP会升级,今天APP里面有各种功能,将来可能虚拟数字人跟用户交互就可以了。从网页到APP,交互方式会继续演变到虚拟数字人。届时如果在搜索引擎里搜某个银行,出来的不是网页,而是这个银行的虚拟数字人来回答用户提出的各种问题。

 

但是这可能更适用于用户有明确需求的场景,比如用户想了解虎嗅,可以让一个虚拟数字人掌握了虎嗅的全部公开资料后,再根据用户的提问去做回答。但对于一个没有明确阅读需求的用户来讲,面对虎嗅的虚拟数字人,可能没有问题去提。但这个人是可以在漫无目的地在虎嗅上看一些文章的。另外,不是每个用户都喜欢用语音来控制,也不是每个场景都适合用语音,像办公室、会议室等场景,用语音和虚拟数字人进行交互,可能就不太合适。


虚拟数字人的交互应该是多模态的,比如手机端的输入交互可以结合语音,文字,以及触摸,虚拟数字人的输出也不应该仅仅是语音,而应该是语音,图文,视频,和图表等的多模态结合

 

对于专业性比较强的领域,或者通用的领域,虚拟数字人的应用可能会不乐观。柴金祥表示,越是比较专业的,或者越通用的,越强交互的场景,在今天的技术上越不适合做虚拟数字人。有些事情在现实生活当中本来就比较难。比如陪一个人聊天这种通用的场景,或者理财顾问这一个很专业的领域,应用落地都会很往后放,因为要求太高了,对话能力,智能性,对专业能力要求很高。


这有点像智能音箱,要做得特别好,是非常难的,它是陪用户聊天这样一个通用的场景,用户的问题、关注点是千奇百怪的,只要涉及到专业问题,目前的AI很难给出满意的回答。

 

柴金祥表示,而像中介、前台、政务行政大厅办事情等场景,不需要很强的交互和能力,应用会更快落地。在垂直行业里面,在未来几年会一步一步看到有落地的应用出来。当然也是从比较容易做的开始,再做比较难的,它有一个过程。

 

虚拟数字人目前应用中的问题

 

现在来看,已经有一些应用场景了,但在应用中也有一些问题值得探讨。

 

跟真人一样写实有无必要?


虚拟数字人主打真实形象的概念,数字人的形象确实也比一般的动画作品更真实,但跟真人的形象相比还是有差别,真人的眼睛是非常灵动的,而虚拟数字人看起来速率比较慢,面部表情也没有真人那么丰富。其他的肢体动作跟真人比也比较迟缓。

   

柴金祥对此表示,这个事情往前走的话分两个点:一是角色效果会越来越好,它是一个技术加艺术的过程,不是技术做得特别好了,艺术马上就做好了。第二,超写实是不是要跟真人一样,也不一定,取决于应用场景。比如魔珐科技正在合作打造的虚拟模特,是一个有中国风的模特,外国人一看就觉得是东方人,在这方面是来自于现实世界,是高于现实世界的,它会做一些风格化的东西。

 

虚拟数字人在应用中是不是一定要像真人,确实不一定。但如果更像真人,带给用户的感觉可能会更好。比如现在不少会议论坛的主持环节开始用虚拟主持人,而人们看主持人的时候,往往是更喜欢帅哥靓女。如果是一个逼真的数字主持人,带来的效果会比一个动画主持人好。


拥有真人形象的虚拟数字人的另外一个好处是可以和真人世界的IP进行结合,正如车载导航使用林志玲的声音作为导航声音一样, 也可以让虚拟化的明星担任节目主持人。

 

智能性不足,想要达到很高的智能性又很难


另一个困扰人的问题是智能性还不足,数字人还不能解决用户更深入的问题。柴金祥表示,如果有一个知识库或者知识图谱,经过大规模训练,数字人可以基于某一个特定的垂直领域就用户的问题做针对性回答,如果像人这样智能,还需要很长的时间。


不过从应用领域来说,也不是非得做到人的智能化程度,比如泛娱乐行业,包括影视、动画、游戏等,所有决策是导演、编剧预先想好的;直播领域,后面有一个真人,策划好一堆事情,虚拟数字人在前面在直播,这个时候数字人要有一定的智能化,但是不一定要到很牛的程度。

 

在政务、银行等场景,智能化程度有限,能解决的问题也就有限。今年7月份的百度开发者大会上,百度宣布将与浦发银行联合推出虚拟数字人,内置到浦发的APP里,做智能的理财顾问。不过到现在浦发也没有上线数字人。


虚拟的形象可以用现在的技术解决,但背后的专业能力却不容易形成。解答一些简单问题后,再把客户的复杂需求提交给专业人员,让专业人员去解决,是处理这种问题的思路,不过需要在产品上做好引导,形成一个合理的流程。


落地场景一定需要形象吗?

 

即使能做到非常逼真,或者现实中对虚拟数字人的要求没有那么高的逼真度,还是有个问题值得思考:虚拟数字人背后是AI,或者是一套IT系统,真得需要做出一个真人的形象吗?以虚拟老师为例,有一个数字形象来播放课程,跟没有数字形象的视频相比,对教学效果有什么效率提升吗?

 

这就涉及到项目落地的必要性问题。从客户的角度看,你的产品可能对我有一定价值,但我对你的产品没有达到非用不可的程度,这时候落地就比较难,即使能落地,你的产品也卖不上价。

 

柴金祥对此表示,这里面更重要在于交互体验提升。最简单的交互是电话交互,更上一级的交互是图文并茂,再往上会有视频交互。没有一个交互的提升是必须的,当年智能手机是用小键盘,现在也能用,但没有用户回去使用那种交互了。


交互提升的想要真的替代原有方式,必须能做到一旦有了这个交互之后,回到原来的交互方式用户不喜欢。数字人兴起后,最重要的交互是这个数字人怎么跟所有的图文信息、数字答疑、视频结合起来,能让你感到这种提供信息的方式是最方便的。

 

虚拟数字人的交互相比原有的APP交互是否更舒服更顺畅,还有待于市场检验。再过若干年,社会文化发生变迁,当人们越来越接受虚拟形象,或许虚拟数字人在各种交互中会被广泛使用。但至少从现在的情况看,人们对现有的交互方式已经非常熟悉了,想要替换是非常难的。就像人们已经熟悉了二维码支付,现在让人去体验刷脸支付,即使是微信支付宝这样的重量级玩家去推,也显得很难。

 

在线下,数字人应用落地的必要性也需要去验证。比如政府办事大厅或者银行,原来是保安或者大堂经理做一些引导的工作。因为线上化趋势越来越明显,像银行网点这种地方的客流量已经日渐稀少,保安或者大堂经理平时也没多少事做,但为了服务的温度,又不能彻底取消这些岗位。使用数字人的必要性是什么,需要做虚拟数字人的企业去定义。

 

想要替换原有的交互方式,虚拟数字人就要显示出更明显的价值来,吸引客户来付费。这当然要技术的进步,更重要的是产品能够更贴近客户的场景。

 

怎么去做好产品,打造标杆案例


对于应用中的难点,柴金祥认为,最难的是两块,一是行业认知不足,需要你创造出明确的价值来。以前行业没有做过这个事情,今天让他用,你要展现出来它的价值,所以打造应用的标杆特别重要

 

第二就是打造产品。打造标杆的时候,这个标杆是产品的标杆,不是技术的标杆。对于客户来说不管你用了什么技术,客户关注点是你给客户、给用户带来什么价值,降本增效也好,提升体验也好,要有明显的价值。


在这个过程中,首先要切合适的行业,不是所有的行业用今天的技术都能够做这个事情。今天技术可以够得着的,对行业有这个需求的,你要去发掘,发掘之后,再去打造应用。打造一个应用的标杆,可能要半年时间。这个过程中很重要的是产品。

 

比如打造虚拟政务助手,要去了解市政大厅所有东西,包括人、事、流程,以前是怎么运转的。产品要把所有的东西全部结合起来,从技术、行业到产品工程的一个结合,打造出来一个让客户、用户觉得满意的产品,其实这个事情是一个挑战。产品其实是最重要的,这个产品要真的解决了客户的问题,客户才会买单。

 

落地之路道阻且长

 

新技术落地,场景分为几种:


一种是应用领域有明显的痛点与需求,技术公司可以解决,比如提供作业效率、减少人工需求、提高安全程度等,有了标杆案例,并能做规模化推广。这种场景无疑是最好的,像计算机视觉在安防和金融领域,都比较接近这种状态;


第二种是主打应用领域的需求不是很明显,但技术公司的产品能够给用户带来一些价值,也能够实现逐步规模化的推广。这种情况下虽然应用在起量,但盈利是难题,需要让带来的价值增强,以提升议价能力,或者寻找其他的盈利手段,比较考验企业的成本控制能力。智能音箱等产品目前属于这种状态;


第三种是目前市场上有一定需求,企业推出了解决方案,能给客户带来一些增量价值,并找到了有限的标杆客户,但还没能实现规模化的推广。企业需要进一步提升产品的价值,能够更大程度上解决问题,否则落地也面临困境。比如AI医疗影像、AI零售的落地就是这种情况。


第四种是市场需求还不明显,企业推出了解决方案,能带来一些价值,也获得了少量客户,但规模化推广还未展开。这种情况下需要在标杆案例中证明自己的价值。


当然还有一种情况就是市场有需求,但企业推出的方案现在还不能解决需求,典型案例就是无人驾驶。

 

虚拟数字人目前属于哪种情况?现在企业有了这样的技术,可以带来一些不一样的东西,形成特定价值,正处在产品化、工程化的阶段,有待形成几家标杆客户,试验商业价值的成色,去支撑进一步的推广。

 

柴金祥认为,虚拟数字人在泛娱乐领域需求会比较明确。在泛娱乐行业,虚拟数字人解决了存量市场的痛点问题。影视和游戏、虚拟短视频等的内容制作,痛点是效率低、产能底、质量低,属于劳动密集型的手工作坊制作,虚拟数字人技术可以解决这些问题,通过人工智能技术极大提升了内容制作的生产力。其次,关于泛娱乐的增量市场,比如虚拟直播和虚拟偶像,可以连续直播、连续表演,这个事情,泛娱乐领域的大公司都想做。

 

在其他领域,虚拟数字人主要解决降本增效的问题。全智能虚拟数字人不是要去替代人,也不一定要做得比人好,它更多的是解决有限人力,以及人不能24*7工作的问题。另外,全智能虚拟数字人可以把以前的语音客服进行升级,从语音交互升级成多模态交互。

 

不过虎嗅Pro认为,虚拟数字人要实现更大的市场增量,未来还是要往更高的智能化方向走,在垂直行业里去承担更多的职责,比如在银行网点或者APP里的数字人,可以用更丰富的金融知识,去解答用户更多的困惑,这可能是下面商业化道路要走的方向。企业可以自研,也可以做平台与各个垂直行业的知识图谱合作,让数字人更“博学”一些。因为一些政府和企业客户有树立数字化标杆的需求,将一些特定网点打造成技术落地的典范,以展示在技术领域的形象。像建设银行就综合了刷脸、物联网等技术,开了一家无人银行网点。这种情况下去获取一些标杆客户不难,难的是此后怎么去获取规模化的应用落地。标杆客户可能不一定在意技术带来的价值有多大,更在意技术的先进性。而大规模落地,就要技术企业去展示更多的能力出来。

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声