人工智能时代,掌握这3类知识才有机遇
2020-01-09 09:08

人工智能时代,掌握这3类知识才有机遇

本文来自微信公众号:领教工坊(ID:ClecChina),作者:王维嘉,硅谷著名高科技专家、《暗知识》作者、硅谷风险投资公司AimTop Ventures创始管理合伙人,题图来自:图虫


AlphaGo的警示


人工智能进入我们的视野,是因为下围棋这件事。我们中国人都知道围棋是最聪明的人才能下,但是AlphaGo居然能够无情地碾压我们人类,这是一个对我们自尊心打击比较大的事情。AlphaGo一开始学人类的残局,大概学了5万盘以后打败了李世石,打败了柯洁。


后来,谷歌的工程师说能不能不学人类的经验,完全靠自己摸索打败原来的AlphaGo?结果7天后就做到了。



这件事说明什么?


人类积累了2000年的围棋经验一钱不值,不仅一钱不值还有害,它成为了我们的束缚。我们过去都说人工智数据越多越好,其实这是个误区。在下围棋这件事上数据多了反而有害,没有数据从零开始反而更好。


这里给我们提出一个很大的问题:会不会真的有一类知识是我们人类的小脑袋瓜根本没法理解的?


我们回来看一下人类的知识都有哪些种类。


第一类知识——数据之间的联系


第一类知识,我给一个非常简单的定义:“知识就是数据之间的关系。”万物万事之间关系就两种,一种叫因果关系,一种叫相关关系。


因果关系就是吃饱了就不饿了,吃饱了是因,不饿了就是果。今天太阳很热,我皮肤晒黑了,冰激凌也化了,但我皮肤晒黑不是冰激凌化了的原因。


它俩是一个同时发生的事情,这叫相关关系。一旦把握了事物之间的关系,你就掌握了一个知识。


人类在这件事情上争论了整整2000年,一派叫做理性主义,一派叫做经验主义。理性主义说万事都有因果,给我一个原点,我就可以推出全世界所有未来要发生的事情。经验主义说,没有因果,只有相关。因为过去的2000年没有人知道人类的大脑是怎么工作的,所以哲学家们基本都是瞎猜。


我们现在知道了,人类大脑里面有800亿~1000亿的神经元,每个神经元有很多突触。每个神经元和其他神经元之间会有连接。人类所有的知识就储存在这些连接里面。


为什么幼儿教育这么重要?


举一个例子,比如教一个孩子认识字母“O“,怎么判断他认识了?


两种办法,你发一个“O” 的音,他在纸上能画个圆圈;或者你在纸上画个圆圈,他能发出“O”的音。他能够把一个声音和图形联系起来,那就说明他掌握这个知识了。经过反复训练,孩子的一个听觉神经元和一个视觉神经元建立起联系了。



目前我们知道所有的知识都隐藏在神经元的连接中,所以儿童教育甚至胎教都非常重要。因为大概在2、3岁前人脑的神经元是高速发展的,它的连接过了2、3岁以后基本上就不怎么变了,所以说“3岁看老”。这时候要逗孩子,带他到外面去玩,让他见识各种东西,让他练各种肌肉动作,让他的大量神经元发生联系。


当然成年人神经元还继续发生连接,但变慢了。像我到美国已经35年了,但现在说英语还有口音。如果一个10岁的孩子到美国两年后英文比我讲得好,就是因为大脑神经元的问题。


人工智能是如何学习的?


大脑神经元这个原理很简单,可不可以用一个电子线路来模仿一个神经元?今天我们看到所有神奇的人工智能,刷人脸也好,下围棋也好,基本就是这个概念,到今天也没有变。


我斯坦福的博士导师1961年做出来了世界上第一个能自动变化系数的神经元,这整个黑盒子就是一个神经元。今天我们的一颗芯片上就可以有几百万个这样的黑盒子,这就是过去50年摩尔定律的功劳。我们现在听到很多东西,什么深度学习、神经网络,其实并不神秘,每一个方块就是刚才那样一个神经元,把很多方块放一堆,把它一层一层摞起来,就是一个多层神经网络,这个网络就叫深度学习。



神经网络目前的主要功能是识别不同的图像,比如想让这台机器认出汽车来,就给它看100张、1000张、10000张不同汽车的图片,然后每看一张图片就去调节旋钮,一个灯亮代表这是个汽车。一开始它认不出来,然后去调这个旋钮把灯调亮。调了几百张以后,再给它看一张从来没见过的汽车照片,不用调旋钮灯自动就亮了。


这就说明这个机器已经训练好了,所以在人工智能领域常听到的“大数据训练”就是这个道理,就是在调这些旋钮。


现在认识汽车了,还想让它认识猫,同样的去调旋钮,一直调到让它认识猫。但一台人工智能机器最多的有1万亿个旋钮,所以不可能手工去调,需要通过偏微分方程求解的方法来计算,这个数学方法在200年前已经非常成熟了。如果以后不管给它看黑猫、白猫都能认出来,说明这个机器已经被训练成功了。


有了这个认识以后,我们就大概知道下围棋为什么机器能超过人。在调这个旋钮过程中,实际是让这个机器的输出和目标的差别变成最小,如果把整个目标差画出来,就像一座山一样,机器一开始可能在半山腰上,现在目的是让机器走到一个山谷里头,也就是说让它的误差变成最小,这在数学上有个非常简单的方法可以计算,叫做“最陡梯度法”。


机器学习下围棋实际上就是这样一个过程:找到一个最优解,就是群山中找到一个最低的地方。


过去2000年,学围棋最有效、最安全的方法就是跟着师父学,因为你自己瞎摸索永远都学不会,本来应该在群山里找到最低的那个地方,但人类从一个偶然的半山腰开始,就在周围2~3里地的地方扎堆找了2000年。


但AlphaGo一秒钟就可以下200局围棋,就像有了几百万台吉普车在群山里横冲直撞,很快找到了比人类找了2000年能找到的更低的地方。是不是最优解完全不知道,但这个解比人类要优。


人工智能的本质是什么?


这个神经网络——人工智能的本质就是:


第一,每个神经元都很简单,但每个网络都有海量的神经元,当把海量超级简单的神经元放在一起的时候,它就会有复杂的行为。就像几百万只蚂蚁,每只蚂蚁的行为都很简单,遵循一种简单的模式,但在一起时社会性的复杂就出来了。


第二,要想分析这个网络是不可能的。从数学的角度看,它是一个高阶非线性方程。非线性就是它是二次方、三次方,高阶就是可以几百次方,没有任何解析表达,所以没法分析出来。


我们普通人可以把这个神经网络理解为一头奶牛,它吃进去的是数据,挤出来的是数据间的相关性。今天的人工智能最本质的功能就是提取数据间的相关性。



现在市场上很多大词:深度学习、神经网络、机器学习、人工智能,其实这些词是一个包含的关系。


人工智能是最大的一个筐,里面有一个小筐叫机器学习,小筐里又有个小筐叫神经网络,神经网络如果有很多层的话就叫深度学习。对于我们普通人来讲,这四者就是一回事,我们不用去区分它。


第二类知识——默会知识


现在我们知道神经网络怎么工作了,回到最初的问题:会不会有一类知识是人类无法理解的?


过去人类认为的知识就是那些可以用文字或者符号、公式或者能用计算机语言表达出来的。比如印第安部落的历史也很长,几十万年来他们的瓦罐还是非常粗糙,但我们宋朝的瓷器就已经非常精美了。


因为没有文字的时候经验是没法记录、没法传承的。一旦有了文字以后,所有的文明都开始突飞猛进。甲骨文也好,楔形文字也好,我们过去几千年来所有的知识就是这样的东西。



直到70年前,我们才发现还有第二类知识叫做默会知识。比如说我们都会骑自行车,但没有一个人是看着手册学会的,都是自己上去歪歪扭扭摔几跤之后学会的。生活中大量的技能,绘画也好,艺术也好,跳舞也好,都是这样只可意会不可言传的。


索罗斯说过一句话:“所有的重大决定都是靠我的胃做出来的。”如果胃疼就说明这个决定不好,身体是有反应的。过去我们否认这些东西,觉得直觉是迷信,因为说不清道不明。实际上是因为我们不理解人类的知识在大脑里形成一种复杂的神经元连接,是我们贫乏的语言没法表达的。


为什么你见个人两分钟就知道靠谱不靠谱,因为你见的人太多了,你在身体里已经积累了大量的因素,从他的举手投足、着装、谈吐、遣词造句,你都能判断出这个人到底有什么问题或者什么优点。


1974年诺贝尔奖获得者哈耶克就是基于默会知识做出了一个非常漂亮的证明——计划经济理论上根本不可行。证明的方式非常简单,因为市场的供需都是默会知识,说不清道不明,既然是默会知识就无法记录下来,既然无法记录就没有办法放在国家计委的中心计算机里,就没法做计划经济,所以计划经济不可行。


第三类知识——暗知识


现在我提出这样的问题,会不会有第三类知识:既不可意会,也不可言传?


我们把人类所有的知识图谱都画出来,横轴是:“是否可言传”,纵轴是:“是否可意会”?


第一类知识就是既可以感受,也可以表达。最典型的就是阿基米德发现浮力定律,躺在浴缸里感觉到了浮力,水溢出来了,他就光着屁股跑出来说我发现了。因为牛顿定律作用力、反作用力的缘故,现在你用拳头敲桌子马上手就疼。凡是和你的经验相关的物理知识,因为有生活经验,马上就能懂。


第二类知识可以表达但是没法感受,最主要的两类:一个是相对论,一个是量子力学。


今天这两门课在全世界所有的理工科大学里都是最难教的课,很难有一个教授能把它教的很明白。比如我们说量子纠缠,一个猫是死的同时又是活的。引力波,我们根本感受不到。当我们无法感受的时候,这种知识就非常难理解,但它的确是通过实验可验证的,它在数学上是非常严格的。


在这个坐标象限上只有一个是空的,这就是今天发现的第三类知识——暗知识。


我们人类的感官实际上能感受到的东西非常有限,比如我们听不到超声波,蝙蝠可以听到。我们看不到红外线、紫外线、无线电波,但是很多动物可以看到。我们闻不出毒品,但是狗可以闻出来。


除了感官是有限的之外,我们脑袋能力也非常有限。比如高速公路上汽车的声音对我们就是噪声,留不下任何印象,在大脑里也形成不了任何连接。但如果放一台仪器去分析的话,可以分析出来现在每秒钟通过的车流量有多少,大概有多少卡车,有多少汽车,有多少大巴。地面的情况,摩擦力怎么样都能分析出来。


过去几十万年的进化过程让我们人类只能处理特别简单的信息,我们是动物中的一种,动物最重要的就两件事,一个是生存,一个是繁殖。我们看到果子红了赶紧吃,看见风吹草动可能是个老虎来了要赶紧逃跑。人类只能处理这种简单的变量,变量一多以后就懵了。


所以跟领导汇报的时候最多不要超过3条,超过3条领导肯定听不进去了。


我们眼睛每秒从外界可以接收1000万比特信息,耳朵可以接收10万比特,但每秒钟只能说最多40比特左右信息,所以人类表达的障碍就是我们的舌头嘟嘟的速度太慢了,而且生命有限。所以伊隆·马斯克说干脆弄个脑机接口,咱俩脑子直接通了,把这么笨的嘴巴绕过去算了。


所以就造成了我们有一类知识是既不可感受,也没法表达的。



这三类知识的关系就像海洋里的一座冰山,可以用文字符号表达出来知识就相当于冰山上水面的一角,默会知识是水面下的冰山,远远大于我们能说出来的,暗知识就是整个海洋。


暗知识带来的机会和伦理困境?


人工智能发掘出来这些机器的暗知识在哲学上很有意思。上海交大的两个教授研究做了一个研究,他们给机器看了1800张人脸,有好人有罪犯,罪犯标记上,然后让机器最后随便看一张它能知道是好人还是罪犯。他们就总结出来,底下这排是好人脸,上面这排是坏人脸。


这个研究在全世界引起了巨大的争议,因为你怎么能够通过看脸就能看出小偷来?比如我是个小偷,我在手伸到人家兜里那一刻金盆洗手了,我这辈子不干小偷了,人是有自由意志的,是可以选择的。


以色列有一家公司做一模一样的事,他们准备用在以色列的海关找恐怖分子,他说他现在的准确率是80%。这时候就遇到一个很大的问题,如果真能以80%准确率抓到恐怖分子,那能拯救很多人的生命,但是会有很多人被冤枉怎么办?所以这件事并不是一个很简单的事情,引起了很重要的伦理讨论。



自动驾驶现在已经遇到这样的问题,软件该怎么设计?比如正高速开车,突然马路上跳出几个小孩,软件现在有两个选择,一个轧过去,保证驾驶人的安全,还有一个一打方向盘撞到墙上,有可能驾驶员死,把小孩救了。你作为一个汽车自动驾驶软件公司该怎么设计?这是一个伦理困境,没有那么简单。


现在谈一下AI的产业生态,这是我们投资人的必须做的功课。我总结出来了一个AI产业的金字塔生态,在金字塔顶端就是算法,也是过去30年最重要的突破。但算法研究目前主要在大学和大公司里,很难商业化,算法下面就是芯片。


在硅谷,大的工业革命大概每10年一次,有意思的是每次创新开始的时候中国和美国的差距是非常大的,不论哪一次都是这样,但是经过10年左右的工夫,中国基本上可以追赶上来。因为技术不是直线前进的,它发展到一定程度后就进入一个平台期,平台期美国不动了,中国还在追赶,就很快追赶上去了。问题是等中国快追上来的时候,美国又启动了新的一轮创新。


新的创新能启动的原因就是因为有像我的斯坦福导师这样的人,他从1959年开始做人工智能,经过了多少起起伏伏,但是这批人非常轴,他们就是喜欢,就觉得这东西对,然后一直做下去。


中国在AI火起来的前几十年中没有一个科学家在做神经网络,因为拿不到国家的钱,拿不到企业的资助,所以没人做。当没有这种纯粹为了追求知识而探索的精神就不可能在基础研究上有任何突破,只能永远追赶。中国一直在追赶就是这个道理,不是没有钱,不是没有市场,也不是没有聪明的人,是因为这种实用文化。


人工智能会控制我们人类吗?


人们对人工智能最主要的恐惧是:人工智能未来会不会能够控制我们人类?


在我看来,这件事要发生的前提是人工智能要产生自我意识,但迄今为止人类依然没有答案的三大问题:宇宙怎么产生的?生命怎么产生的?自我意识怎么产生的?自我意识是把人类和所有其他几百万种动物区别开来的唯一的东西。


我们知道它是演化当中慢慢基因突变造成的,具体怎么造成的,在什么时间都不知道。如果是演化造成的,那它的概率就非常小。因为过去几百万年中基因突变任何一次变错就没有智人了,智人在最少的时候大概整个族群全世界只有2000人,如果那年冬天大雪大家没吃的,整个人类就都饿死了。


这就是为什么今天射电望远镜可以看到上百亿光年远,但找不到任何智慧生物的原因,这的确是个超级小的概率。



如果人类的自我意识是个超级小概率,那机器产生自我意识也是超级小概率。不是不可能,而是概率低得可以忽略。


所以机器不管多能干仍然是我们人类的警犬,它的确比我们人类鼻子要尖,能做出很多事,但仍然为我们所用,是我们的工具。


这个工具可能是人类自从文字或者火的发明以来最重要的工具之一,因为对我们的智力是一个惊人的延伸。


机器能不知疲倦的把我们周围万事万物的相关性都能够挖掘出来。第一,可以用于改进生产,提高效率,降低成本。第二,可以改善我们的生活。比如把你所有的身体的特征指标都能够发到云上,然后能够全世界做对比的话,那我就知道你这样一个心跳、脉搏、血压大概对应着什么样的疾病,这种大量数据的收集就能够大大地改进。


如果我们把环境所有的这些知识都能够收集起来,这个知识的总量会远远超过人类从文字以来到今天积累的所有知识。


本文来自微信公众号:领教工坊(ID:ClecChina),作者:王维嘉,硅谷著名高科技专家、《暗知识》作者、硅谷风险投资公司AimTop Ventures创始管理合伙人

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP