合作4:商业是最大的善



在之前的几期里,我们确认了一报还一报的策略是非常优秀的,它在单场比赛中胜出,在专门针对他的比赛中胜出,在加入了演化机制后依然胜出。

但是,科学家们还是希望研究得更全面一些,既然一报还一报具有如此巨大的优势,为什么现实中背叛他人、拒绝合作的行为还比比皆是呢?

其实,这可能源于可侵入性。

 

可入侵性

可侵入性的定义是基于演化机制而来的。在一个都秉持 A 策略的群体里,引入一个 B 策略的个体,那么一段时间后,这个群体里还有没有 B 呢?

如果 B 消失了,就说明这个群体是不可侵入的。如果过了一段时间后,发现群体内所有成员都是 B 了,就说明这个群体是可侵入的。

当然,还有第三种情况,就是过了足够长的时间之后,发现依然是既有 A 也有 B,而且 A 与 B 的比例甚至会在某两个值之间震荡,这属于比较复杂的情况,这期我们不讨论它。

现实中,我们其实更关心的是以下几种情况:

善良策略被邪恶策略入侵。这就是一个社群整体行为从合作转为背叛的劣质化;

善良策略无法被邪恶策略入侵。这个群体不但充满了合作,还很稳定。

同时,我们还关心:

邪恶策略被善良策略入侵。因为这标志着一个充满了背叛的群体会变得充满合作,这是巨大的进步。

而我们最关心的是:

有没有哪些邪恶策略无法被善良策略入侵?因为生活在这样策略的群体中,形同生活在地狱。

 

一报还一报不可入侵

那么,如果用数学来描述,什么才是“入侵”呢?

其实,就是新来者加入原住民进行博弈后,不但在第一场比赛中得更高分,而且在自己的后代数量不断增加后,依然可以比原住民的策略得到更高分。

阿克塞尔罗德通过大量计算,统计了不同策略的可入侵性。但咱们没法都说完,所以,我用那个最著名的一报还一报策略的可入侵性举个例子。这个例子涉及的计算步骤也是比较简单的。

首先,某一个策略如果能在一报还一报的群体里得分更高,只能靠偷摸一次背叛,才能让那一回合自己多得 5 分。除此之外,别无他法。

但如果就这样偷摸背叛的话,一报还一报也会马上回以背叛。入侵者如果继续以背叛回应的话,一报还一报的原住民接下来还是会背叛,双方都是背叛,于是就进入了每轮互得 1 分的低分陷阱。

入侵者如果和每个原住民都这样搞,最后确实是每场都赢了对手,但都是通过把对手得分拉到很低,让自己比对手多得 5 分的方式赢得比赛的。

可那些发生在原住民之间的比赛,都是原住民双方互相得了高分。于是加和之后,入侵者的总成绩就会非常差,自己的演化优势也会一步步衰减,最后消失。这就是入侵失败了。

而如果入侵者不背叛,就不会得到比原住民更高的分数,于是入侵就永远不会成功。所以,一报还一报策略是不可入侵的。

 

基础设定影响结果

到了现在,很多人会对一报还一报策略更加推崇,没想到它不但有演化上的优势,还有不可入侵性。但可能很多人一直忽略了一个特别基础的前提,那就是得分规则。我这里再重复一下:

1. A 背叛、B 合作时,A 得 5 分,B 得 0 分;

2. A 和 B 都背叛时,双方都得 1 分;

3. A 和 B 都合作时,双方都得 3 分。

这是到现在为止,一切结论的基础。

说得更通俗一些,一方得 5 分、一方得 0 分意味着什么,大约就意味着,那个被对方背叛的嫌疑犯最终判刑 5 年,而那个供出对方的嫌疑犯却无罪释放了。这虽然是个典型的数值,但却是不一定的,也有可能警方不会轻易释放他,而是判了半年。

其他条件也是。比如,A 和 B 都合作时双方各得 3 分,对应真实情况就是,他们都守口如瓶后,分别被判了 1 年而已。但实际情况也可能是,A 和 B 虽然都没有说,但警方已经掌握的证据也足够他们分别判 4 年的,和最高刑期 5 年也没差多少。

这些真实情况里的变动,就严重影响了一报还一报是否还是最优解,是否具有演化优势,是否具有可入侵性了。

而这些数值上的变动其实也是可以计算的。接下里,我说说计算的大致原理:

在阿克塞尔罗德策划的第二场比赛中,会以一个概率来判断什么时候双方比赛终止。这个下一回合就结束比赛的概率是 0.346%。于是对每个参赛者来说,由于我们也不知道到底会在哪一步停止比赛,也许只进行了 2 个回合就结束,也有可能进行了 422 个回合还没结束。

那么,怎么预测两个策略博弈时分别的得分呢?是可以预测的。这其实是一个多项式累加的结果。

首先,根据策略的规则,我们起码能一直不停地推算出无数步骤之后,A 怎么做、B 怎么做,然后根据 A 和 B 是背叛还是合作,算出他们每一次的得分。但这个得分不能直接相加,而是每个回合的得分都要乘以那个回合还没有结束比赛的概率。

对应到阿克塞尔罗德的实验来说,第一个回合没有结束的概率当然是 100%,否则就别比赛了。第二个回合没结束的概率就是 1 – 0.346% 的 1 次方,等于 99.654%;第三个回合还没结束的概率是 99.654% 的 2 次方;第四回合还没结束的概率是99.654% 的 3 次方,以此类推。这样的无穷数列加合,就是双方各自得分的期望值。

我们注意,99.654% 是一个非常接近 100% 的值,也就是说,双方第二回合、第三回合、第四回合、第五回合等的博弈几乎一定会发生。但你可以算算,第 201 次博弈要发生的概率是多少。其实就是 0.99654 的 200 次方,是 0.49997。也就是说,有一半的机会双方比赛会在第 200 回合终止。

为了简便,我们之后就管这个下一回合将要发生的概率叫做 W。有了 W,就能计算不同的博弈分数设置,对一报还一报还是不是不可入侵的影响了。

具体的计算过程比较复杂,我就不展开解释了,结果是这样的:在阿克塞尔罗德的参数设置里,也就是得分分别为 5、0、1、3 时,只有 W 大于等于 2/3,才能保证一报还一报是不可入侵的。

你可以粗糙地理解为,至少要有 3 个回合的博弈,一报还一报才是不可入侵的。

如果 W 小于这个值,那只要采取背叛、合作交替的方式,就能获得比一报还一报更多的得分,于是一报还一报就被成功入侵了。而如果 W 小于 1/2,那么采取一个更加邪恶的策略,也就是总是背叛的策略,都可以成功入侵。

 

预期博弈次数影响行为

分析了半天 W,我们是要说明什么呢?

我要说的是,邪恶不是人性,也不是道德水平上的问题。

在客观条件基本稳定的情况下,人们经过一段时间的磨合或者说演化,最终会出现其乐融融的互相合作呢,还是互相坑害呢?

这取决于双方对今后继续博弈次数的预期,或者说的通俗一些,你们还会不会经常遇到。只要双方都认为还会经常博弈,即便双方是普通人看来注定是道德水平低下的黑帮,或者是战场上你死我活的对手,合作都是势不可挡的。

比如,第一次世界大战中,英军和德军的堑壕战就是合作的好例子。双方僵持了几周后,都知道在什么时间、什么坐标点会有炮弹落下,然后双方都会在对方炮弹射程范围内避开在这些固定投弹点活动。

在互相的射程范围之内,那些插着旗子的地方是双方狙击手不能染指的地方。另外,早上 8 – 9 点是双方都认为的神圣而不可侵犯的私人时间。同时,军需官运送物资时也是不能射击的。

而这样的情况上级也有所了解,这是官员们不能容忍的,咱们这可是战争,怎么能互相配合着打假仗呢?于是上级会反复的下令骚扰对方,还会设置每隔多少天,要求部队换防。这都是希望通过扰乱双方已经达成的默契来促进你死我活的厮杀。

但就是在这样高压的强制手段下,和敌方合作的行为依然像雨后春笋一样不断萌发。为什么呢?因为你开一枪,我要不要也开一枪?你开一炮,我是不是也还一炮?

如果这些都算做一回合博弈的话,那对于双方僵持几个月的堑壕战来说,W 值,也就是下一回合博弈会发生的概率,应该是非常接近于 1 的。也就是说,双方都预期到今后将有无穷多次的博弈机会,于是合作就是这样产生的。

但还有完全相反的例子。比如在几十年前,我们都知道火车站的东西决不能买,买一次上当一次,即便不是假冒伪劣产品,价格也会高出正常价特别多。为什么?

说得文雅一些,就是商贩知道这种情况下的 W 值小于 2/3;说得通俗一些就是,你们这辈子都不太会遇见第三次了。

除此之外,还有一些需要注意的情况。比如,一个人年老力衰的时候,或者有限次交易的最后一次,都很容易遭遇周围人的背叛。这也是因为他周围的人预见到,今后双方还能博弈的次数不多了。于是,老年人需要更多法律保护。这算是依靠法律修正了背叛的惩罚分数,把惩罚分数大大拉高了。

由此,我们也能从另一个角度,理解一个得到用户非常熟悉的俗语——商业是最大的善。为什么?因为商业发达促进了人与人的频繁博弈,导致 W 向数值 1 靠近,于是合作行为才是最有利和不可入侵的。

聯系郵箱:0xniumao@gmail.com