为什么说数学是科学的皇后?读《数学之美》,探究数字和信息的由来
2012-06-06 17:21

为什么说数学是科学的皇后?读《数学之美》,探究数字和信息的由来

前言

数学一词在西方源于古希腊语μαθημα,意思是通过学习获得的知识的意思,因此早期的数学涵盖的范围比我们今天讲的数学要广得多,和人类的生活也更接近些。在古代最重要的知识,除了对世界的认识和了解,就是人之间的互通和交流了,我们把它称为广义上的通信。本书的内容也将从这里开始。

早期的数学远不如今天神秘,它是非常真实的。但是和任何事物一样,数学也在不断地演化,而这个发展过程使得数学变得高深起来。数学演化的过程实际上是将我们生活中遇到的具体物质以及他们运动的规律不断抽象化的过程。经过几千年的抽象化,大家头脑里能想象的数学只剩下数字、符号、公式和定理了。这些东西和我们的生活似乎渐渐疏远了,甚至在表面上毫不相关了。今天,除了初等数学,大家一般对数学尤其是纯粹数学(Pure Mathematics) 的用途甚至产生了怀疑。很多大学生毕业后,在大学所学的数学可能一辈子都没有机会应用,几年后就忘得差不多了。因此,很多人也产生了为什么要学习数学的疑问。更加不幸的是,数学专业的毕业生就连就业也颇为困难,在中国和美国都是如此。在很多人眼里,数学家都是陈景润那样带着厚厚的眼镜、行为木讷的人。因此,无论是这些抽象的数字、符号、公式和定理,还是研究他们的数学家和美也似乎没有联系。

事实上数学的用途远不止人们的想象,甚至可以说在我们生活中是无所不在。且不说那些和我们生活相对联系较少的领域,比如原子能和航天, 那里需要用到大量的数学知识。就说我们天天用的产品和技术,背后都有支持它们的数学基础。作为一名工作了20 多年的科学工作者,我在工作中经常惊叹于数学语言应用于解决实际问题上时的魔力。我也希望把这种神奇讲解给大家听。

从工业社会起,通信占据了人们生活的大量时间。当人类进入电的时代后,通信的扩展不仅拉近了人与人的距离,而且是带动世界经济增长的火车头。今天通信和它相关的产业可能占到我们世界GDP 很大的一部分。今天城市里的人花时间最多无非是在电视机前,互联网上,电话上(不论是固定电话还是手机),这些都是这样或者那样的通信。甚至原本必须人到现场的很多活动比如购物,也被建立在现代通信基础之上的电子商务逐渐取代。而现代通信,追溯到10 0 多年前的莫尔斯电报码和贝尔的电话,再回到今天的电视,手机和互联网,都遵循信息论的规律,而整个信息论的基础就是数学。如果往更远看,我们自然语言和文字的起源背后都受着数学规律的支配。

“信”字作为“通信”一词的50%,表明了信息处理存储、传输、处理和理解的重要性。我们今天每个人都使用的搜索,以及我们都觉得很神奇的语音识别、机器翻译和自然语言处理也被包括在其中。也许大家不相信,数学是解决这些问题的最好工具。它不仅能够非常清晰地用一些通用的模型来描述这些领域的看似不同的实际问题,而且能给出非常漂亮的解决办法。每当人们应用数学工具解决一个个和信息处理有关的问题时,总会感叹数学之美。虽然人类的语言有成百上千种,但处理它们的数学模型却是相同的或者相似的,这种一致性也是数学之美的表现。在这本书中,我们将介绍一些数学工具,看看我们是如何利用这些工具来处理信息,开发我们每天生活中都使用的产品。

数学常常给人一种深奥和复杂的感觉,但是它的本质常常是很简单而直接的。英国哲学家弗朗西斯. 培根在论美德时讲“美德就如同华贵的宝石,在朴素的衬托下最显华丽。”(Virtue is like a rich stone,best plain set.),数学的妙处也恰恰在于一个好的方法,常常是最简单明了的方法。因此,我会将简单即是美的思想贯穿全书。

最后,要说明一下本书为什么花了相当的篇幅介绍很多我所熟知的自然语言处理和通信的世界级专家。他们来自世界不同的国家,属于不同的民族,但是他们都有一个共同的特点就是数学非常好,同时解决了很多实际问题。通过介绍他们日常的工作和生活,希望读者对真正的世界级学者有更多的了解。了解他们凡人的一面,了解他们成功的原因,了解真正懂得数学之美的人的美好人生。

吴军
2012 年4 月于深圳


读点:数学之美的由来


文/吴军
很多朋友问我,为什么我会想起来写这个系列?虽然谷歌黑板报的本意是希望我从一个Google 科学家的角度介绍一下Google 的技术,但是我更希望让做工程的年轻人看到在信息技术行业正确的做事情方法。无论是在美国还是在中国,我经常看到大部分软件工程师在一个未知领域都是从直观感觉出发,用“凑”的方法来解决问题,在中国尤其如此。这样的做法说得不好听,就是山寨。我刚到Google 时,发现Google 早期的一些算法(比如拼写纠错)根本没有系统的模型和理论基础, 就是用的词组或者词的二元组凑出来的。这些方法比没有做任何事情是好一些, 但是几乎没有完善和提高的可能, 而且使得程序的逻辑非常混乱。Google 成长壮大后, 渐渐有实力从世界上最好的大学招理论基础非常好的工程师,工程的正确性得到了很好保证。2006 年后, 我指导了三四个美国名校的研究生, 把Google 的拼写纠错模型用隐含马尔可夫模型的框架统一起来。在那几年里,Google 对几乎所有项目的程序进行了重写,山寨的东西基本上看不到了。但是在其它公司里,包括在美国一些还挂着高科技头衔的二流IT 公司里, 这种情况依然很普遍。在国内, 创业的小公司做事情重量不重质,倒也无可厚非;但是,上了市、有了钱甚至利润成为了在世界上也数得上的公司,做事情依然如此,就让人觉得境界低。另一方面,这些公司在盖大楼和装修高管的办公室上很快超越了世界上的跨国公司。这就像一个人有了钱,穿金戴银,内在的学问和修养却没有提高一样。因此我写这些东西也是希望我们这些IT 公司的工程主管们能够带领自己的部门提高工程的水平。 
   
(无意中)采用错误的模型在特定的场合,或许勉强有效,就比如我们介绍的地心说一样,毕竟也使用了几千年。但是,错误的模型终究是远离真理的,其负面影响会渐渐表现出来。其结果不仅仅在于远离了正确的结果,而且常常把原本简单的事情弄得很复杂,以至于最终要崩溃(地心说对于日心说就是如此)。 
   
正确的理论和方法有一个被认识的过程。任何事物都有它的发展规律,而这些规律都是可以认识的,在信息科学领域也不例外。当我们认识了规律后,就应该自觉地在工作中遵循规律而不要违背规律。香农博士就是揭示了信息科学发展规律的人,它的信息论在很大程度上指出了我们今天信息处理和通信根本的规律性。这里,通信包括人类的一切交流,包括自然语言处理的所有应用。而当初我写这个系列博客,就是要介绍这些信息处理的规律性。 
   
当然,将数学的东西讲清楚让外行都能读懂是一件非常难的事情。我自认为自己是一个能深入浅出的人,但是当我第一次将所写的几章送给非工程专业的读者阅读时,他们还是表示非常费劲。因此,我后来下了很多功夫将这个系列写得浅显易懂,这样很多细节只能省略,我并不满意。离开Google 后,写作起来约束相对少了些,因此这次改写成实体书时,可以多介绍一些细节。同时,由于篇幅不受约束,我也可以多提供一些细节,以照顾一下工程背景较好的、愿意了解细节的读者。当我完成这本实体书时,我发现全书的内容完全重写了一遍。 
   
对于非IT 的从业人员,我也希望这本书能够成为他们茶余饭后消遣的科普读物。透过对IT 规律性的认识,读者可以举一反三地总结、学习、认识和自觉使用自己工作中的规律性,这样有助于将自己的境界提升一个层次。 
   
对我这次写作帮助最大的是两本书和一个节目。我在初中时读了《从1到无穷大》1,介绍宇宙的科普读物。作者G•伽莫夫(George Gamow)是美籍俄裔著名物理学家,他花了很多时间创作科普读物,影响了一代人。第二本书是物理学家霍金的《时间简史》,霍金把深奥的宇宙学原理用最简单的语言讲出来,让这部科普读物称为全球的畅销书。影响我的一个节目是美国主持人摩根•弗里曼的“穿越虫洞”。我的写作大多是在飞机上完成的,写作累了便看看电视节目,一次碰巧找到“穿越虫洞”这个节目。弗里曼把当今最前沿的物理学做成了用每个人都能懂的节目。节目中有包括很多诺贝尔奖在内的一流物理学家和数学家介绍他们的工作,这些人有一个共同的本领,就是把他们自己领域最深奥的道理用很简单的比喻介绍清楚。我想这可能是他们成为世界顶级科学家的原因,他们一方面对自己的领域非常精通,同时他们能把道理讲清楚。世界上最好的学者总是可以深入浅出把大道理讲给外行听,而不是故弄玄虚把简单的问题复杂化。因此,在写这本书的时候,我自己一直以霍金、伽莫夫为榜样,力图将数学之美展现给所有的,而不仅仅是专业的读者。为了方便读者利用茶前饭后的时间阅读,我尽可能地做到每一章之间相对独立自成一体,这样读起来不会太累,我知道让大部分读者从头到尾读一本以数学为主的书是几乎不可能的。 
   
  ——《浪潮之巅》与《数学之美》作者 吴军
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定