极大极小原理，教会了我们什么？-虎嗅网

本文来自微信公众号：孤独大脑（ID：lonelybrain），作者：老喻在加，原文标题：《极大极小原理》，题图来自：《心灵捕手》

一

在“假设发生如下事情”之前，祝福我们此生永不发生这类事情。

假设你外出时，遭遇绑架，该怎么办？

有一位（国外的）自卫专家，给出了三个应对原则：

1. 不要跟他去第二个地点。

如果你心怀侥幸，他可能将你带到偏僻的地方，为所欲为，甚至下毒手，然后掩藏他的罪恶痕迹。

2. 记住，他在撒谎。

不管坏人说多好听，别相信。

这位专家的观点是：

从一开始，每个谋杀犯，绑架犯，强奸犯，他们都会用同一句话：“照我说的做，我就不会伤害你。”

然而，一旦你照他们说的做，最后受伤最深的，还是你。

3. 要在原地，用尽一切手段与之搏斗。

这一点似乎有点儿让人疑惑，万一受伤呢？

被人用刀抵住，拼命挣扎要是不幸丢了命，岂非不识时务？

然而，这位专家的洞见是：

如果他们想在原地杀你，你早就已经死了。

所以：

他们不想在原地杀你，他们希望带你去其他地方，或者先干点别的事。
通过打乱他们的计划，你会成为他们最恐怖的噩梦。
如果他们不想被抓，不想把事搞得太麻烦，他们可能就会直接逃跑了。

以上三点原则的所有原因，其实只有一个：如果你进了他的车，或者跟着他们去了某个地方，你死定了。（以上经验仅供参考，不构成本文作者对遇到绑架的具体建议。）

二

以上是一个生动的博弈场景。

由此引出我的一句“大脑碎片”：好的一手棋，是其令对手有不好的下一手，以及自己有好的下下一手棋。

我们姑且不讨论，在第1节里，专家应对绑架的三点原则的适用范围，以及如何根据情境调整策略。

本文的焦点是：极大极小原理。

绑架，是一场零和博弈。

就像下棋，一个人赢，一个人输，即使和棋，也只是暂时的平静。双方没有合作的可能。

对于这类博弈，冯·诺依曼提出了“极小极大原理”。

《囚徒的困境》一书，用我们熟悉的分蛋糕来示例。众所周知，公平的分法是：一个人切，一个人选。

假如两个孩子都不是孔融，并且都想吃更多蛋糕，这其实是一个典型的零和博弈。

第一个孩子（切蛋糕那个）的两个策略是：不均分和尽可能均分。
第二个孩子（挑蛋糕那个）也有两个策略：选较大的那一块或选较小的那一块。

如下图（请注意，表格里的4个结果，都是指切蛋糕的孩子的所得收益）：

切蛋糕的孩子貌似掌握了主动权，但他决策的关键点，取决于“然后呢”，即对手的下一步会怎么做。

显然，挑蛋糕的孩子，会追求让自己的蛋糕最大化，也就是让对手的蛋糕最小化。

对应上面的表格，挑蛋糕的孩子总是会选左边一列，从而导致切蛋糕的得到左边一列的两个较小蛋糕的结果。

于是切蛋糕的孩子要做的事情，就是：让挑蛋糕的孩子将要留给他的量小的那半块蛋糕极大化。

因此，切蛋糕的孩子只能选择尽量均分蛋糕，以保证获得差不多的半块蛋糕。

这个量，是行中极小值的极大值，被称为“极大极小”。

也许有人会说，这么简单的道理，为什么要说这么啰嗦？

德谟克利特早在公元前300-400年前，就创立了“原子论”，认为每一种事物都是由原子所组成的。

然而，这只是一种想法。

对比而言，爱因斯坦对原子的理解，才算是科学。

二者之间的区别在于：后者可实验，可计算，可运用。

作为博弈论的创始人，冯·诺依曼说过：没有极小极大定理，就没有博弈论。

《囚徒的困境》一书对极小极大定理总结道：

在两个利益完全相反的人之间出现的有精确定义的冲突，总存在一种理性的解；
所谓理性的解，就是在给定冲突性质的前提下，双方都确信他们不可能期望有更好的结果了。

三

让我们回到绑架现场。

即使被绑架者非常被动，但这仍然是一场博弈。

要理解这一点，我们需要强调三个名词：

1. 回合；

2. 节点；

3. 选择权。

回合

许多事情，都是连续决策的结果。

而零和博弈，是敌我双方轮流决策，由一个一个的回合叠加起来。

节点

上述每个回合，你都有一个属于自己的决策节点。

然而，很多人要么忽视了节点，要么放弃了节点。

选择权

在每个回合的决策节点，你其实是在做一个选择。

你有选择权，对手也有选择权。

敌我双方都试图让自己的选择收益最大化，让对方的收益最小化。

当你被绑架的时候，对手已经出招，现在轮到你走棋了。

（再次强调，本文不构成对绑架情境的具体实战建议。）

你仍然有选择权：

1. 放弃抵抗，上对方的车；

2. 大声呼救，拼命反抗。

这个时候，大多数人会想，我抵抗的话，会有什么后果：

会受伤吗？
会激怒对方导致生命危险吗？

然而，从博弈思维来看，你仅仅纠结于当下的一步棋去想，毫无意义。

你应该去想：我如果这样做，对手会如何回应呢？再然后我又该如何应对他的回应呢？

也就是说：你要计算下一步，以及下下一步。然后后，再由此倒推，你现在这一步该如何做选择。

我将本文开头那个专家描述下的场景图示如下：

如果“你”乖乖上了绑匪的车，如上图左分支（选择1）所示，可能导致如下结果：

1. 在第四个回合，你已经失去了选择权；

2. 对手可以自由选择让自己利益最大化的做法；

3. 绑架的许多目的是为了钱财，有些歹徒会先撕票再要钱；

4. 未经核实的数据是，撕票比例高达10%；

5. 据某地警方的经验，越是熟人绑架，撕票的可能性越高。

所以，处在第二回合的“我”，要考虑的是，第三回合的对手会怎么做，以及自己会有怎样的第四回合。

《囚徒的困境》引用了卡尔维诺在《寒冬夜行人》一书中的一句话：“你知道，你所能期盼的最好结果就是避免最坏情况。”

这句话，很好地说明了极小极大原理。

还记得本文开头专家的第二条建议吗？

记住，他在撒谎。

从一开始，每个谋杀犯，绑架犯，强奸犯，他们都会用同一句话：“照我说的做，我就不会伤害你。”

可是，如果罪犯真的不会伤害你，那么你反抗的时候他也不会伤害你。而且，即使起初罪犯没有太想伤害你，但是当你失去选择权的时候，他可能会萌发伤害的念头。

回到博弈思维：游戏者决不会从他的最佳策略上偏离到对自己造成威胁的策略上去。尤其是在零和博弈中，对你有利，对绑匪就不利。

请看上面的图，在第三回合，绑匪会极力让你的收益最小化。

所以，你在第二回合要做的，是“极大化”这些自己可选的“极小值”，尤其是要避免最坏结果。

同时，你要“极小化”对手可选的有利于他的“极大值”。

由此倒推，你就会发现，如专家所言，在第二个回合，你应该做的是：

要在原地，用尽一切手段与之搏斗。

四

仅仅明白道理并不够，我们需要定理。

为什么需要定理？因为定理可以形成算法。

冯·诺伊曼对极小极大值定理的证明是复杂的，“它以一种读者难以理解的方式结合了基本概念和拓扑概念”。

约20年后，香农利用 Minimax（极小化极大）算法，提出了解决国际象棋问题的设想。

随后，在AI攻克国际象棋和围棋的过程中，Minimax（极小化极大）算法扮演着基础而重要的角色。

极小化极大算法（Minimax）可被概括为：

对于两个玩家的对抗游戏，其中任何一个玩家的决策会依赖于另外一个玩家之前的决策，且另外一个玩家总是竭尽所能地想要获得胜利。
因此，一方会在所有选项中选择令其自身优势最大的一个，而另一方则会选择令对手优势最小的一个。
通过穷举不同玩家之间的策略，该算法可以构建一棵搜索树，并通过穷举不同的可能，选择其中能得到最佳结果的路径。

请看下图右边的搜索树的最下面一行，3、12、8这一样数字，是“我”期望获得的可能的利益。

对于对手而言，当然会选择让“我”利益最小的走法，所以，在MIN那一行的B节点，对手会选择3、12、8中的最小值3。

同理，在C节点，对手选最小的2；在D节点，选最小的2。

而在MAX行，“我”要选择“3、2、2”这一行极小值当中的极大值“3”。

这就是Minimax（极小化极大）算法。

但是，即使是对于棋类这种完美博弈，该算法的计算复杂度会呈指数级增长。

因此往往需要引入剪枝策略来简化搜索的复杂度。以及，通过多次采样的蒙特卡洛树搜索，以减少计算量。

再往后， UCT 算法将蒙特卡洛树搜索方法与UCB公式结合，有效解决了围棋上的问题。

进而，基于深度强化学习， AlphaGo诞生，惊人地击败了人类，完成了以往被认为还需要20-50年才能实现的任务。

德谟克利特对原子的理解令人赞叹，然而只有基于爱因斯坦的公式，人类才能造出原子弹，以及安全地利用核能。

五

极大极小原理，给我以下七点启发：

启发一：站在对方的角度想问题，然后倒推自己的策略

我们可以广义地来想找个问题，即使不是在零和博弈的环境下。

例如说起某某产品经理很厉害，可以瞬间将自己变成小白，其实就是能彻底地站在对方的角度。

几乎所有厉害的商业公司，核心原则就是“经营顾客”。先想着让顾客价值最大化，然后再从中找寻让自己最大化的策略。

所以芒格说：要诉诸利益，而不是讲道理。

我有时候也会和小伙伴们在一线谈业务。我不是很好的销售，口才也很一般，但每次谈合作效果还不错。

我的方法是：

请问你现在最想要的是什么？
我们可以如何帮助你实现你最想要的？
我们立即可以做的最小化合作是什么？

启发二：不占别人便宜，自己的也要据理力争，不当烂好人

段永平早年经营企业，既不占供应商的便宜，也不给批发商赊货。

不管多好的买家，必须现款现货。

何谓烂好人？就是彻底放弃自己的选择权，试图讨好对方，感动对方。

然而，人性是经不起考验的。所以，很多时候，烂好人不仅招恶人，甚至催生恶人。

启发三：将对手想成一个势均力敌的对手

以我下围棋为例，切忌低估对手。

所谓低估对手，就是对他人抱有幻想。

例如，你发现一手棋，能够让自己的利益最大化。但是如果被对手识破，那么结果就会很糟糕。

有时候，棋手会心存侥幸：要是他看不到，那我就赚了。

然而，这是不对的。

你就该假设对方是一个势均力敌的对手，你能看到，对手也能看到。

当然，如果下让子棋的时候，要适当调整。

以及，在德州扑克等博弈中，或是像剪刀石头布这类首尾相连的游戏，也需要虚张声势。

总之：

别欺负别人，别想着占便宜；
也别因为暂时领先而得意忘形，别耍过头。

启发四：将街上的每个司机都当作潜在凶手

这个想法似乎有些极端，几乎没司机有动机要撞你。但是，理论上，每个司机都有撞你的“可能性”。

对你而言，这个最坏的结果可能性很小，后果很严重。

这正是极大极小原理的灵魂：“你知道，你所能期盼的最好结果就是避免最坏情况。”

启发五：珍惜每一个选择权，并为你的下一个、下下个选择权做好铺垫

人生是一连串决策的总和。

所谓全局观，是指你的每个决策点既是相对独立的，又和过去和未来相关联。

有些人只管当下舒服，而不顾自己的下一手该如何。

如果你在一个球队里，队友总是给你传烂球，或者不给你传球，你一定会骂他烂人。

可是在现实中，现在的“你”，可能经常不顾及未来的“你”，不管未来的“你”是否有好的选择权。

一连串有算法的选择权，就是一个人的“人生算法”。

启发六：所谓仁慈的狮子，是指你要当好人，但保留惩罚坏蛋的权利

如题，这一条启发，反过来也是适用的。

例如，你彻底放弃惩罚对方的权利，以换取对方彻底的信任。

前提是你相信对方是一个珍惜荣誉的人。

启发七：彻底远离损人不利已的人

博弈论的假设是：双方都是理性的。

博弈论只研究对赢感兴趣的、有完善的逻辑思维能力的游戏者参与的博弈。只有你相信你的对手（一个或几个）既是理性的，又是希望赢的，而你自己在玩的时候也始终憋着一股劲儿，要力争为自己取得最好的结果，这样的博弈才是博弈论分析的对象。

对博弈论而言，自私的人并不可怕，可怕的是不理性的人。

为什么呢？

一个自私的人可能做损人利己的事，一个合作的人可能做利人利己的事情。
但是，一个不理性的人可能做损人不利己的事情。
博弈论很强大，但是如果你是在和一个非理性的人“交手”，就很难得出一个解答。

你的最佳选择是：

远离这类人。

举例说吧，经济较发达区域的特点之一是：民众只算自己的帐，而不去算别人赚多赚少。

倘若不如此，就会出现如下局面：我才赚十块，你居然赚一千块，我宁可牺牲自己的十块毁掉你的一千块。

这就是损人不利已。

如此一来，博弈论的均衡就无法出现。因为非对弈情况下的“损人不利己”，也就是理性的失去，会摧毁整个游戏。

（当然，经济是否发达有多方面因素，不发达地区也经常有“只算自己帐”的传统。）

记得中学时有个同学的哥哥当年混社会，他说他们那群20岁上下的青年谁都不怕，最怕十四、五岁的孩子，因为这类混小子可能毫无目的不顾后果地冲上来给他们一刀。

博弈论因为这类人而失效。本文开篇对于绑架者的分析，也是假设他们是理性的。但是，如果绑架者不是理性的人呢？那么，不理性的凶手可能会不顾受害人呼救招来人，在没有利益的情况下毒手。

最后

归根结底，一切在乎“对的人”。

不管是零和博弈，还是双赢博弈，你都要努力令对方是一个理性的人。既要选择对的队友，更要选择对的对手。

关于极大极小原理，我们还可以将其智慧拓展为：

狭路相逢勇者胜，勇者相逢智者胜，智者相逢德者胜，德者相逢道者胜。

最后，祝福你我此生一早避开，不必在狭路上遭遇那些损人不利己的混蛋。

本文来自微信公众号：孤独大脑（ID：lonelybrain），作者：老喻在加