机器翻译之父韦弗:科学的疆界在哪里?
2021-03-24 10:49

机器翻译之父韦弗:科学的疆界在哪里?

本文来自微信公众号:集智俱乐部(ID:swarma_org),作者:Warren Weaver,译者:陆怡舟,审校:刘培源,编辑:邓一雪,头图来自:unsplash


导语


1948年,“复杂性科学”的概念尚未被正式提出,而美国数学家沃伦·韦弗(Warren Weaver,1894~1978)以 Science and Complexity 为题在 American Scientist 杂志发表文章,“超前”地讨论科学界未来必将面对的复杂性问题。文章发表至今73年,在这篇文章中你也许会看到,后世一些“新颖”的想法其实只是被“重新发现”。


本文发表在二战结束后不久,受到运筹学、计算机科学等刚刚萌芽学科的影响,韦弗将科学问题按简单性、有序的复杂性和无序的复杂性区分开。韦弗所描述的“有序的复杂性”问题,其变量和相互关系的数量适中,既难以用概率统计充分把握,也不能充分简化为简单公式,这种复杂性正是后来复杂性科学的主要研究对象。韦弗还大胆预测,研究有序的复杂性,需要计算机技术和跨学科合作,如今这已经成为诸多学科的共识。


韦弗在1947~1949年提出了机器翻译的概念和思想,直接启发了50年代的第一波机器翻译研究,因此被认为是机器翻译的先驱。韦弗一生横跨多个学科,首创了分子生物学的概念(1938年),与香农合著了《通信的数学原理》The Mathematical Theory of Communication,在概率论、电磁学等领域均有著作。除此之外,韦弗还在二战期间领导了美国国防研究委员会的应用数学专家组,解决与军事行动有关的数学问题。期间韦弗仅根据日舰照片中的波浪形态,就测算出舰船的航速和转弯能力,进而合理布置水雷,帮助美军获胜,成为“一流数学家胜过10个师”的经典例证。


图1. 沃伦·韦弗(Warren Weaver,1894~1978)和本文初版截图。韦弗不仅是数学家,还是一位科学推动者,他曾领导洛克菲勒基金会自然科学部(1932~1955),支持了大量科学研究。


科学的成就颇多,产出多样,深深影响和改变了人们的生活。科学的产出物中,一些藏身于不起眼之处,为生活带来便利;有许多技术突破,植根于科学,成为现代机械文明的基石;另有不少,尤以生物、医药科技为主,令生活更加舒适和受益。科学在某些方面,深刻的影响了人们的思想乃至理想;而在其他方面,更是彻底的令人惊叹。


我们应当如何看待科学在塑造人类未来过程中的功用?我们又当如何理解科学,它是什么,不是什么,这两者同等重要。当然,我们或许可以从哲学高度谈论科学的的本质。这种形而上的争论,有时是重要而不可或缺的。不过现在,直接而具体的讨论更加可取。正如政治家们常说的,让我们回顾一下历史。不必溯源久远,我们只需要回望过去三个半世纪的科学历史,观其主脉,略其枝节。让我们自物理科学始,至生命科学终,描画科学的轮廓和边界。


图2. 经典力学关注的是简单性问题,能够被简化和清晰描述


一、简单性问题


粗略地说,17~19世纪是现代物理科学成型的重要时期。物理学家通过研究和理解各种运动,为人类社会带来了电话、广播、汽车、飞机、留声机、汽轮机、内燃机、现代水力电站等福利。


生物学、医学方面的进展也令人印象深刻,但有所不同。关于生命组织的重要研究问题,绝少是只用两个变量就能够描述的。生命体的变化中,往往是成十上百个变量在同步变化,变量间又微妙地相互关联。重要且本质的变量要么是非定量的,要么到目前为止还无法识别和测量。因此,生物、医学的问题往往涉及到考虑复杂的组织整体。在1900年之前,生命科学还停留在应用科学方法的初级阶段,主要包括收集、描述、分类和同步观察明显相关的效果。在这个阶段,理论的定量化大胆地开始了个头,几乎还没有开始详细解释生物事件背后的物理和化学机制。


总结一下,1900年以前的物理科学,主要涉及的是两三个变量的简单性问题;而就生物科学来说,简单性问题并不重要,学科还没有高度定量化、分析化。


二、无序的复杂性问题


1900年以来,或者更早些时候,物理科学的英雄先驱如Josiah Willard Gibbs(译注:约西亚·威拉德·吉布斯(1839~1903),统计力学、化学热力学奠基人,美国科学家)等人发展出对自然更加本质而有趣的描述工具。这些有想象力的头脑并不在意研究两个、三个还是四个变量的问题,他们来到另一个极端,“发展那些能够处理两亿个变量的分析工具吧”。这些数学和物理学先驱们,发展出强有力的概率理论和统计机制,用于分析无序的复杂性问题(disorganize complexity)


为了理解什么叫“无序的复杂性问题”,我们首先来看一个简单的例子。假定台球桌上只有一颗台球,用19世纪的经典动力学方程就足以分析和预测台球的运动。关于台球的位置与时间的关系,恰恰就是19世纪科学所研究的简单性问题。台球数量增长到两个、三个,仍然可以用经典动力学方程分析,但难度将迅速上升。台球运动的机制是清晰的,研究极为充分。但只要桌上同时出现十个以上的台球,问题就会变得难以处理。不是由于理论上的困难,而是由于变量过多,处理具体细节的计算量过大,导致问题的解决实际上是不可行的。


图3. 小球数量多到一定程度,就会表现出无序


试想有一张巨大的台球桌,成百万的台球在桌面上滚动,互相碰撞或者与桌沿撞击。这种情况下的问题反倒简单,因为统计工具开始发挥作用。我们难以追踪到单个台球的具体轨迹,却可以相对精确地回答某些重要问题:平均来看,每秒有多少个台球与桌沿相撞?平均每个台球在于另一个台球相撞前滚了多长?平均每个球每秒要撞击几次?


之前曾提及,统计方法适用于无序的复杂性问题。对于巨大台球桌上的大量台球来说,“无序”意味着什么?这意味着,只有当台球的位置、运动参数散落分布、杂乱无序,统计方法才适用。如果有人将台球排成平行于桌沿的一列,而后同时向垂直方向运动,这种情况下台球将永远不会相撞,也不会撞击多个桌沿,不会出现所谓的无序的复杂性,统计方法也就不适用了。


上述例子清晰的展示了无序的复杂性问题。这类问题中的变量数目极大,每个变量的变动缺乏规律,或者我们对其规律仍无所知。不过,即便每个个体变量的行为杂乱无序、毫无规律,他们构成的整体系统仍然体现出某种秩序,可以从平均意义上进行分析。


在应对无序复杂性中,人们积累了广泛的经验。变量数量增加越多,统计方法的精确度越大。在大型电话交换领域,预测平均呼入电话数量,预测忙线概率等方面已经达到实用的程度。统计方法也让保险公司得以稳定财务表现。即便保险公司不了解造成每个个体死亡的具体原因,还是能可靠的得到平均死亡率的数值。


保险公司例子的有趣之处在于,它说明统计技术不仅限于个体行为规律已知的情形。比如在台球桌例子中,台球个体的撞击服从精确而美妙的规律。而对于个体行为规律深陷迷雾的情形,例如保险公司要处理的死亡事件,个人死亡背后可能隐藏着的一系列隐秘而不可知的因果链条,但不要紧,统计技术仍然适用。


电话和保险公司的例子表明,处理无序复杂性的统计技术有着全面的实际应用。然而某种程度上,这两个例子又不完全。它们过于具体,使人们没有注意到这些统计技术在科学上还有更基础的应用:描述原子形成物质、恒星形成星系和宇宙,需要用到这些技术;遗传法则,需要用这些技术进行分析;描述物理系统的基础行为和倾向的热力学,从这些技术推导而来;现代物理学的基本架构、关于自然界的物理观念、与之有关的实验事实,均立足于这些技术。事实上,关于对观测证据的质疑,从观测证据中推断知识的方式,现在看来都依赖于相同的统计思想。可以说,概率概念对于任何知识的理论都是不可或缺的。


图4. 概率统计是解决无序复杂性问题的有效方法


三、有序的复杂性问题


处理无序复杂性的统计工具如此有力,大大超越了早期的处理简单性问题的少数变量方法,却也有未及之地。有人可能简单地以为,科学方法从处理两个变量跃迁到处理亿万变量,未及的,是中间数量的变量问题。这些未及问题的重要性,不仅是因为其涉及的变量个数多于两个,少于恒河沙数。事实上,未及问题涉及的变量个数也不少。它们真正重要的特质在于,这些问题本质上是有序的,与统计方法处理的无序情形不同,还未被科学涉足和解决。这些问题,我们可以称其为有序的复杂性问题(organized complexity)


是什么让报春花夜间开放?为何盐水无法解渴?为什么某种有机物只能在微生物的特定菌株中合成,不能在同种微生物的其他菌株中合成?为什么某种化学物质有毒,而其手性镜像物质却无害?为什么饮食中的锰含量会影响动物母性?衰老过程的生化描述是什么?


还有,如何看待这些问题的意义:病毒有生命吗?基因是什么,在个体成为成体过程中是如何表达的?复杂蛋白质能够“知道”如何自我复制吗,这是否是生物自我复制的关键?


所有这些问题都是复杂问题,但它们无关乎无序的复杂性,无关以统计方法为解题关键的问题。这些问题都需要同时处理数量庞杂的变量,变量与整体间又相互交织关联。用一句话来说,它们都是有序的复杂性问题。


小麦的价格由什么决定?这也是个有序的复杂性问题。这里涉及大量的相关变量,它们都是以复杂的方式相互关联,却并非杂乱无序。


货币币值能否巧妙而有效地稳定住?在什么程度下,可以只由供求因素来决定币值?又在什么程度下,需要进行系统化控制,避免经济从繁荣滑向衰退?这些也都是复杂性问题,系统组成之间密切关联,同时也都需要对整体进行有机分析。


图5. 复杂经济学认为经济是复杂适应性系统,其均衡是一个包含了突变(创新)、适应和自组织的渐进结构


如何来解释有组织人群的行为模式?比如工会、制造商群体、少数民族等。显然有许多因素关联其中,但很明显,这些无法简单用数学平均来解释。又如,当一个国家资源总量有限时,应该采取怎样的战略和战术来赢得战争?对个体利益怎样的牺牲,才能更加有效地带来稳定、像样、和平的新世界?


这些问题,以及生物学、医学、心理学、经济学、政治学等一票相似问题,都无法用19世纪的,在解决少量变量的简单问题上取得巨大成功的技术工具来解决。这些新问题,也无法用新世纪的,在描述无序复杂性系统的平均行为上极为有效的统计工具来解决。


世界的未来取决于如何解决这些新问题,这需要科学的第三次大飞跃。这次科学飞跃进展的程度要大于19世纪时解决简单性问题的飞跃,也要大于20世纪时解决无序复杂性问题的飞跃。在未来的50年间(译注:本文写于1948年),科学必须能够学会处理这些有序的复杂性问题。


科学的进展和飞跃是否终有一天实现?没错,有一般性证据,而且最近还有两个特别有希望的例子。一般性证据植根于以下事实:在世界各地数百名学者看来,在无序复杂性问题上已经取得了稀少却重要的进展。物理科学的定量实验方法和数学分析方法正前所未有地应用于生物、医学甚至社会科学。研究成果虽然稀少分散,却带来很大的希望。对比当前癌症研究与25年前的研究,可以对生命科学的进展窥其一斑。毫无疑问,目前对癌症的研究仅仅触及了表面,但至少目前已经发展了下钻挖掘的工具,并且也定位了值得进一步挖掘的热点。我们知道一些癌症会因某些化学品诱发,也知道某些癌症易感性是可以遗传的。目前已经有了百万电子伏特的射线,原子物理还可能带来更高能量的射线。也有了不少放射性同位素,研究和治疗都成为可能。科学家正在解决机体老化的难以置信的复杂生化问题。已经形成对正常细胞的知识基础,并开始能识别和分析病态细胞。不论目标有多遥远,我们终于走在通往成功解决有序复杂性问题的道路上。


在有序复杂性问题终将被解决的一般性证据之外,还有两个有希望的特殊证据。且不论世界大战的恶,至少在战争过程中出现了两个新进展,对帮助科学地解决这些二十世纪的复杂问题具有重要意义。


第一个证据是关于战时的新型电子计算设备的发展。这些设备在灵活性和容量上更像人脑,而不像过去的传统机械计算设备。它们可以储存大量的信息,可以被“告知”执行非常复杂的计算,并且可以自动执行任务,无需人值守。它们的计算速度惊人,就算是计算两个十位数相乘的计算任务,也将在一瞬间完成,比人类计算速度快上4万倍。这种灵活性、容量和速度的结合,使得这种设备将对科学发展产生巨大的影响。它们将使解决原本过于复杂、难以处理的问题成为可能,更重要的是,它们将激励能够处理有序复杂性问题的新方法的出现,并加以验证。


图6. 二战期间用来破译德军通信密码的巨人计算机(Colossus computer)


第二个发展是关于为战时运筹分析建立的“混合制团队(mixed-team)”工作方式。这个术语对那些关心将数学方法应用于军事事务的人是非常熟悉的,但仍需要解释。


举个例子,考虑跨大西洋的运输兵员和补给的问题。需要分析的因素包括,海军舰艇的数量、有效性,受到的潜艇攻击,以及其他一些想象不到的因素,比如士兵劳累、生病、消极等情况下的目视观测可靠性等。这些因素混合在一起,有些可测量,有些难以捉摸。那么应该通过怎样的进程得到最佳的整体方案,综合平衡速度、安全、成本等目标?运输船队应该大规模还是小规模,应该快速航行还是低速航行?应该之字航行,受攻击风险更大,还是应该高速直线通行?船队应该如何组织,如何配备防卫力量,如何配备瞭望和攻击力量、装备?


关于解决这类广泛的战术问题,以及更加广泛的战略问题的任务,在战时是由运筹分析团队来承担。这类团队首先在英国成立,而后在美国也相继成立,在海军反潜、空军军事活动中均取得显著成绩。这些运筹分析团队,也被称为混合制团队。其中数学家、物理学家、工程师是必须的,最好还要有生理学家、生化学家、心理学家,以及其他一些生化领域、社会领域的学者。在英国混合制团队杰出成员中,还包括了内分泌学家和X射线晶体学家。在战争压力下,这些混编的团队成员将资源汇集在一起,将不同见解集中在共同需要解决的问题上。尽管现代的科学专业化趋势很强,但这种不同群体的成员一起工作,可以形成比单一成员能力之和更强大的团队。这样的团队能够解决某些有序的复杂性问题,得出有用的结论。


在这两个证据之下,免不了令人试图去预测未来50年科学将取得的进展,一定能取得的进展。这些进展将来自自愿形成的混合团队,类似于战时的运筹分析团队。在大容量、灵活、高速的计算设备帮助下,这些混合团队的运作将更加高效。然而,我们不能说混合团队将是未来科学工作的唯一模式,因为智力自由的氛围对科学至关重要。总会,也应当会有那些将智力自由视作禁脔的科学家。深刻且有洞察力、想象力的科学成果必将、应将来自他们的独立工作。多样性的行事方式,不同做法之间的良好竞争,是令美国人自豪的特点。


因此,我无意描绘这样的未来:所有的科学家都按照同样的行为模式被组织起来。我完全没有这样的念头,仅仅是想推测:有一些科学家将自发形成新的合作团队。这些团队将会有来自不同领域的成员,他们的工作将因大型计算机而变得更加有效。在后半个世纪,这些团队将推动解决生物学、社会学中的复杂且本质上有序的问题,为科学取得进展作出更大贡献。


图7. 生物复杂性的螺旋


四、科学的疆界


让我们现在回到第一个问题。科学是什么,又不是什么?科学能带来什么期盼?


科学是解决问题的方法,但不是解决所有问题的方法。它可以处理的是一类重要而实用的问题,是那些主要因素受基本逻辑法则约束的问题,并且绝大多数是可测量的。科学是对关于这些问题的可复制知识的组织,是聚焦和训练想象力的方式,是对证据的权衡、对假设的公平验证,是对不精确、不充分数据的无情扬弃,是对事实的发现、解释和直面,并以自然现实为人之奴仆。


科学的本质不在其外在,不在其物理表现,而在其内禀精神。科学方法即是一丝不苟又振奋人心的探究,对科学尤为重要。科学方法的运用者需要有极高的个人品质,诚实、开放、视野聚焦、热爱真理。这些实实在在的美德,不为科学家所专有。诗人们也拥有这些美德,并从更高层面挥洒运用。


科学在解决逻辑和量化问题上的成就值得称道。事实上,科学的成就如此之多,如此惊人,失败又是如此少为人知。普通人不可避免相信科学是人类有史以来创就的最成功事业。我觉得,这个论断是合理的。


科学进展令人印象深刻,完全没有使自身成为无用之用的担忧。到目前为止,科学解决了眼花缭乱的各种相对简单的问题,而那些改变人类未来前途的难题,依然横亘于前。


因此,我们不应以简单性问题上的辉煌成就来看待科学,不应以小工具来看待科学,也不能将科学当成能解决一切的现代黑魔法。


我想,任何一个明智的科学家都会确信,科学有能力为人类福祉带来巨大贡献。科学将继续胜利前进,战胜自然,学习新规律,获得预测和控制的新力量,为人类所需创造新事物。科学还可以助于我们理解有生命力的自然界,给人类带来新的健康和活力,带来更长更有效的生命,使我们更明智地理解人类行为。事实上,我认为大多数见多识广的科学家会更进一步,期待精确、客观的科学分析技术在社会和政治学科的部分领域得到应用。


对科学和科学方法还能作出更广泛的断言。科学研究的一部分本质特征,是科学家始终坚持的,对术语的精确界定和对问题的清晰分类。当然,在科学领域对术语的准确定义,要比在其他领域容易的多。科学是关于一种明确定义和公认的语言、一套共同的语言、一种共同的传统的几乎完美的例子。这种跨越时空障碍,跨越政治和文化边界的普遍性,对科学尤为重要。科学或许比其他人类建立的理性组织,要更为成功地解决思想沟通的问题,将不可避免地形成兴趣共同体,在世界范围内进行合作。


是的,科学是个强大的工具,有着令人惊叹的成就。但同时,科学家是如此谦卑和通达,并不期望科学能解决一切问题。他记得,科学教导人们尊重特殊能力。他并不相信,如果只有科学家在进行控制,所有的社会、经济、政治紧急事态都能自动消减。他不期待科学提供道德准则、美学基础,除了一些异常例外。他不期待科学提供衡量的准绳、控制的驱动、对真实和美好的热爱、价值感、对信仰的信念。人们生活中丰富而基本的部分是非逻辑的,非物质和非定量的,无法被显微镜放大、被天平称量、被最敏感的麦克风所捕捉。


图8. 复杂性科学地图:多个源流和方向


如果科学处理的是一个纯粹逻辑性的定量问题,如果科学没有意识和关注到价值和目标,现代科技人员如何能够平衡地生活,将逻辑与美相伴,使效率与美德相随?


某种意义下,答案如此简单:我们的道德必须能驾驭机制。这一必要性的陈述不等于这一目标的实现。我们的力量和我们明智地使用力量的能力之间的巨大差距,只能通过巨大的努力才能弥补。必须提高对个人和群体行为的认识,必须改善不同语言、文化的人民之间的交流,改善使用相同语言却有着危险的不同内涵的利益集团之间的交流。我们对经济、政治的理解必须要有革命性的进展。为了给所有人带来长期改善,必须提高牺牲个人或国家的短期私利的意愿。


人们只有理解了科学是什么,才能真正取得这些进展。在一个科学的影响不断扩大、无可躲避的世界中,现代科学的进步必将实现。


本文来自微信公众号:集智俱乐部(ID:swarma_org),作者:Warren Weaver

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定