商汤科技徐持衡:AI的核心在于服务好每一个人
2018-11-28 21:08

商汤科技徐持衡:AI的核心在于服务好每一个人

虎嗅注:徐持衡是商汤科技的联合创始人、技术支持总监、001号员工。商汤科技在成立短短4年的时间里,已经获得了数轮大额投融资。其中投资方包括IDG、高通、阿里巴巴、淡马锡、苏宁等知名公司机构。


徐持衡本人是一位90后学霸,高二被清华大学破格签约录取,2012年加入香港中文大学多媒体实验室实习。2014年,商汤科技创始人汤晓鸥教授带领团队开发出深度学习模型DeepID,人脸识别准确率达到98.52%,超越人眼97.53%的识别准确度。计算机人脸识别准确率首次超越人眼,突破工业化红线的契机已经到来。


在11月24日的虎嗅F&M创新节上,徐持衡为大家带来了一场题为《A.I.让数据创造价值》的演讲,着重以AI从业者的身份,为现场观众讲述了AI的过去、现在和未来。尤其是最终AI的作用,徐持衡认为:AI的核心在于服务好每一个人。


以下内容由虎嗅整理自现场速记:

 

大家好。


今天在科大讯飞后面讲压力非常大,因为科大讯飞是一家在人工智能做得非常棒的公司,尤其是在语音和自然语言处理方面。相比之下,商汤科技是专注于计算机视觉领域。但有一点很巧,假如我们把生活中的语音加上文字加上图片加上视频,这就是我们日常生活中最经常接触到的数据形式。


我今天主要想分享的是《A.I.让数据创造价值》。我们可以先来看下历史,回顾到更早的石器时代,铁器时代,到现代的蒸汽时代,电力时代,再到我们当下的信息时代,我们发现每一个时代,它都是以当下最前沿的技术来命名的。


所以我们期待下一个时代能够以A.I.来命名,因为A.I.能够给人类社会带来极大的突破和创新。参考蒸汽时代,解决的是动力的来源问题,人力被替换为了机器的动力,那么电力时代其实解决的是动力的传输和使用,它能够让灯泡发光,能够用来做各种的事情。


而我们现在所在的信息时代,最大的特点是大量的信息数据积累,而且信息数据的传输能力也在不断升级。所以对于A.I.时代,我们要做的、最重要的一件事情就是要让数据产生价值。




要继续聊这个问题之前,我们可以再倒回来看看科技进步到底给我们带来了什么?科技进步跟艺术创作它们之间关联是什么样?在我看来,科技的进步带来的是艺术创作变得更快了!


相信在座的各位都看过斯坦·李老先生的漫威宇宙系列电影,这是一个充满超级英雄、科幻的主题。今时今日,去看3D电影是再正常不过的事情,一部3D电影可能有几万帧的3D特效构成,但是这个事情放在几百年前,绝对是不可想象的。那个时代的“3D大作”,是像罗丹《地狱之门》这样的作品,而罗丹为了这个作品足足花了37年时间。相比之下,最新漫威宇宙中的《毒液》,从开拍到上映只花了不到一年的时间,这两者都是对我们想象力最好的体现、最好的艺术形式的表达,都值得我们去品味和欣赏。


不仅创作更容易了,艺术创作载体也变的更加丰富了,参与的人群更广了。例如摄影技术一开始出现的时候,大家一度认为它将对绘画市场带来巨大的打击,肖像画的需求可能就没有那么旺盛了。但是后来,我们发现数码相机虽然取代了胶卷,但行业在短暂的“衰落”之后,反而参与其中的人更多了。


不仅大家每一个人都会开始拿起手机拍照,诞生了更多的摄影师,在图片拍摄之后还需要处理、也就是PS,所以也需要更多的图片设计师。反过来看,实际上是更多的人参与到了艺术创作当中。


还有一个很有意思的技术——3D打印,现在越来越多的中学生用3D打印技术进行创作,这明显对还在大学念雕塑系的同学们来说不公平,他们正在面临来自中学生的巨大竞争,所以现在可以考虑一下是不是该转计算机系了。


说一个题外话,大家总是在探讨说人工智能是不是会颠覆行业,是不是会替代掉多少的劳动力,让多少人失业。但就过去几百年的经验来看,那些被技术改变、被技术颠覆的行业,最终都获得了更大的动力、更好的活力。


所以我们相信人工智能接下来要颠覆的事情,未来一定也会给各个行业带来更强的动力,更多的职业,甚至更大的繁荣。


当下是一个软件快速发展,反过来推动硬件发展的时代。以苹果为例,一年顶多推出不到10款iOS设备,但Apple Store一年的新应用数量就超过70万个。在经历了几十年快速发展后。摩尔定律已经不再有效了,芯片制程从十纳米到七纳米已经举步维艰,晶体管的密度不再那么容易得到提升。但在这个趋势下,我们可以看到NVIDIA的GPU的出货量开始变高了。


是因为打游戏的人变多了吗?不是,最重要的原因是NVIDIA把GPU的计算能力开放给了软件挖掘,让软件通过迭代最终实现效益的最大化。这个过程也将推动人工智能技术的发展,以及更广泛的技术应用和落地。最终,大量的软件应用将会改变我们的生活。


而事实上,软件的意义就是让人与信息产生关联,除了满足我们的好奇心之外,它们也在改变我们的生活、融入我们的生活,最终改变我们身边所有的事情的发展。最简单的,现在衣食住行都有APP,人们通过APP能够在一个数字化的世界里没有障碍地互相触达。


以共享出行为例,现在我们可以通过APP直接约到一辆车,而且这辆车有可能是路面任意一辆闲置的运营车辆,你还可以和司机直接约定上车地点,并且实时看到车所处的位置。这极大化地降低了人找车和车找人这两个过程的复杂性。


在用户、司机看来,对象有可能是车、也有可能是人,但他们实际上他们分享出来的是数据。背后还有各种算法,能够把路面上闲置的车辆跟你的需求做一个关联和匹配,最后引导着两边形成商业价值。


所以我认为现在推动社会向前发展的就是万物数据化,因为未来的万事万物都必将变成数据。


在这个过程中,有很多数据需要通过计算机视觉的方法来消化和理解。举个例子,我们看的很多视频数据,大多数的消费者还是人。比如我们特别喜欢看运动类的视频,这些运动类的视频,我们能够在里头看到他的竞技,看到它的竞争。


但是对于计算机来讲,它只是帧的画面,每一帧画面每一个像素RGB到底是什么样的值,所以我们需要教会计算机去理解去看到这里面发生的事情,这里面的主体是什么?理解这里面结构化的信息。



最终,我发现,我们要做的事情,非常像小时候赵忠祥老师给我们解说《动物世界》一般,在《动物世界》里面有什么动物,然后发生了什么事情,有什么场景。如果没有这些解说,相信大多数人会看不明白。


而我们现在在教计算机去做的,就是让计算机去理解视频中它的主体是什么,发生了什么事情,这些都赋予了视频新的意义。到今天为止,我们教计算机去理解的视频,包括电视剧,包括运动视频,也包括更广泛的视频书数据和内容,这些视频数据内容可能对大家来讲没有那么吸引,但它们内在都有大量的价值,也就是说有有效信息可以去挖掘。这是顺应了刚刚讲到的万物数据一个趋势,也是人工智能能够得到快速的普及和应用的原因之一。


我们一直讲数据是人工智能非常重要的一环,但在我看来,其实人工智能贯穿了数据的理解,认知,采集到最后决策的整个链条。所以在万物数据化之上,实际就是万物智能化。


到今天为止,我们的物理所有权形态已经发生了很大的转变。以前一个东西在我手上,我可以用它做任何的事情,但到今天我们发现路边停了大量的单车,我可能没有办法骑走它,但我可以通过APP扫码解锁这辆车。这个过程中,现实世界的物理权限和虚拟世界的软件权限管理,实际上已经结合到了一起。


我们再来看手机,你现在随便拿起别人的新手机,你拿起的同时实际上手机也在“看”你,分辨你是不是它的主人,如果你不是真正的主人,那你就只能看到锁屏上的时间信息。只有它认出来你是它的主人,你才能操控所有的功能。这背后的技术基础,就包括了商汤科技的人脸识别技术。


未来很多涉及到权限的场景,都可以通过人脸识别来改变,因为人脸更像是软件中的钥匙,它是多对多的凭证,而且你还会随时把它带在身边。所以大家未来完全不需要在身上带更多的钥匙,因为你自己就是最好的“钥匙”。


既然是多对多的“钥匙”,那么钥匙权限的管理也将变得尤为重要,但我相信这一个概念将会在更广泛的事物中不断涌现,最终让我们和生活中万物的交互变得更加自然。



讲完了人与机器之间的交互,我们来讲一讲机器与环境之间的交互。刚刚百度的同事也讲到了我们无人驾驶技术的发展,这几年无人驾驶技术发展得非常的快。但我们目前还没有完全解决信息传递的问题。


假如车辆本身知道马路上的所有信息,例如前后车如何做决策,即将是要刹车、减速这种程度的信息,我相信自动驾驶的技术迭代将会变得更快,无人驾驶的机会也将很快来到。但我们现有的实际路面情况是真的很复杂,所以我们必须先通过计算机视觉技术,尽可能地去挖掘里面有价值的信息。


我们给自动驾驶车装上一堆RGB摄像头和毫米波雷达、激光雷达,我们可以识别路牌、路灯、识别车道线、识别可行驶区域,前车行人等等,甚至我们在用数据去预测人和车的轨迹,预测他们会不会穿越横线,会不会变道。这些尝试,将会成为未来实现无人驾驶过程中关键性的决策组成。


我在今天之前,的确没有来过751 Park这个场地,说老实话这个场地跟我想象的不太一样,还好我跟着导航走到了正确的位置。但现实中很多用户真的是看不懂导航中地图指示,所以前不久我们联合OPPO、高德地图推出了AR步行导航。你可以让吉祥物小欧出现在街道实景上,这种无缝的融合,最终目的是引导你,指引你前往目的地,把导航过程中的决策和指示变得更加直接。


这种以前不敢想象的事情,都已经实现了,如果我们继续把大量的数据和大量的新技术结合在一起,完全可以构建出一个更加智能化,更加智慧的一个生活空间。就商汤科技自己而言,就是希望我们的技术能力会赋予每一个参与者,让他们体会到技术更新、进步带来的体验升级。


我在这再展示一个例子,有一个女士把包丢了。因为是在公共区域,我们就先来寻找她自己的足迹,把她在监控中的片段都找出来,然后我们再去比对包的特征。我们可以看到某一个时刻之后,她的包就不见了,再经过简单查询我们可以发现,她实际上是自己一个马虎把包忘了。


但包现在的确已经不见了,所以我们把包变成跟踪的对象,很明显能看到一位男士坐在了包旁边,然后被他拎走了。虽然我们不知道这位男士的身份,但是凭借他身体的姿态和形态,再加上人脸的特征,我们就可以继续在这个区域去寻找他的轨迹,找到之后就可以物归原主了。


这个过程,在原来是完全依靠人力的,也就是把所有摄像头的数据调出来几个人一起查看,而现在实际上只需要几台电脑一小会儿就能完成。这其中人力物力的消耗,被极大化地降低了。


这项技术还容易开发出其他一些用途,例如特别关注公共区域的老人和小孩。小孩目前的位置在哪里,他的轨迹是怎么样的,是否有跟家里人走丢?又或者是对公共区域的大型犬类进行监控,在发现有人不栓狗绳的情况下派人去提醒。


所以在最后,我想跟大家探讨一点,人工智能到底给人类带来了什么?我认为人工智能给人类带来的,是给予每一个人应有的关注和关怀,而不只是解放生产力这么宏观的概念。


例如将来的某一天,我们已经不再需要司机了,因为都已经实现自动驾驶了,路上任何一辆车都可以是你的车。上学也将变得更加简单了,我们可以通过人工智能进行教学;医疗也变得更加简单,人工智能会监控你的身体直接给出初步的预警和诊断。正因为人工智能能够实现很多人类才能完成的基础工作,我们现有的社会稀缺资源,将会和机器结合起来,为更广泛的人提供基础服务,同时为更多的人提供高等级服务。


所以最终,人工智能还应该专注于服务在座、以及我们身边每一个人。


这个时候我们倒回来看,人工智能到底给社会带来最大的改变是什么?带来的是更大的、更高的效率,更大的产能吗?不是,我认为,人工智能带来的最重要东西,是人类公平生活的权利。这就是我今天分享的内容,我们是商汤科技,坚持原创,我们相信AI将引领人类前进,谢谢。

 

如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定