合作3:每次都不赢也能稳坐冠军



今天,我们继续昨天的讨论。

重复囚徒困境的第二场大赛规模一下扩大了很多,参赛策略从之前的 14 种变成了 63 种。如果每种策略都要和所有策略博弈一次的话,一共会有 3969 个配对方式。

由于事先给每个参赛者都发了上一场比赛的分析报告,于是大家普遍针对上一场比赛的第一名——一报还一报策略——做了针对性设计。但这次比赛结果依然清楚地表现出,善良是优质的。

 

“检验者”和“镇定者”

具体来说,在得分前 15 名里,只有一个是邪恶的;在得分后 15 名里,只有一个是善良的。

其中,有两个邪恶的策略和现实中的小人有点类似:

一个被称为“检验者”,它在 63 个参赛者中的总排名是第 46。它会在第一回合博弈中选择背叛,然后等待对方回应。如果对方马上回以背叛,它就会在第二回合合作,相当于主动道歉,然后从第三回合开始,进入一报还一报的策略。而如果对方没有在第一回合给予反击,那它会在第二、第三回合合作,接着每隔一回合背叛一次。

之所以叫它“检验者”,就是因为它会先用一次试探看看对方是否会反击,然后决定今后把哪个策略一以贯之的使用下去。

还有一个策略比检验者更狡猾一些,它被起名为“镇定者”,在 63 个参赛者中的总排名是第 27。它的宗旨是,根据自己当前的平均分决定是否背叛。

我们知道,每回合能得 5 分、3 分、1 分或 0 分,这需要视对方的情况而定。而如果能拿到一个比较不错的基础分,比如 400 分,其实就能保证一个不错的名次。

镇定者会在开头的二十回合里采取合作,然后偶尔背叛。如果背叛后对方依然合作,它就会更频繁地背叛。因为每次它背叛、对方合作时,它都能拿到 5 分。但它的背叛也是有节制的,首先是,它会评估之前自己每回合的平均分,如果低于 2.25 分,它就不会连续背叛 2 次;其次是,背叛次数不会超过总回合数的 1/4。

如果我们回顾检验者和镇定者的话就会发现,这可真是精明的小人啊,一个比一个精明。他们的规则不固定,而是视情况而定,只要发现对方是软弱的或者被占小便宜也不做回应,它们就会更频繁地占小便宜。

但看上去如此精明的策略,在足够多、足够丰富的策略博弈中的表现却不怎么样,总共 63 人,一个排 46,一个排 27。我们身边是不是也有这样精于算计,聪明反被聪明误的人呢?

 

哈林顿策略

但前面说的这二场比赛,依然不足够反映现实。

现实中假如真的有很多种策略,但随着时间推移,演化规律无时不刻地发挥着筛选和淘汰的作用,所以那些不成功的策略是不会一直生存的,所以和现实拟合得比较好的模拟应该加入淘汰机制。这个淘汰不一定是个体生命的消亡,可能只是某个人发现自己这么做太惨,改换了其他策略而已。

这个带有演化机制的重复囚徒困境的模拟是由其他科学家做的。他们是根据阿克塞尔罗德第二场比赛做的调整,也就是 63 种策略的那个实验的改进版。

它进行了相当多场比赛,每场的规模都和阿克塞尔罗德的实验规模差不多。相当多场比赛的意思是说,在下一场比赛开始前,清点一下大家在上一场的分数;下一场比赛中,那些分数低的策略就会以更低频次参与博弈。

到底以多低的频次参与呢?如果上一场比赛结束后它的分数只有第一名的一半,那么第一名平均和 2 种策略过招,它才能和 1 种策略过招。

这个频次高低,实际上也可以理解为,采用此种策略的生物个体数量减少了,而且是根据分数同比例减少的。

那么,到底进行了多少场比赛呢?1000 场。其实,每进行到下一场比赛,都相当于生物繁殖了一代。因为下一代的数量要依据上一代获得资源的多少,也就是分数,做重新分配。

结果是这样的:

到了 1000 代时,只剩 11 种策略还有后代,其他 52 种策略已经消失。如果往前看看,大规模的淘汰在 50 代时就已经发生了,那时候,有 1/3 的策略完全消失;

到了 200 代时,就只剩下 16 种策略了。在第一代中表现最差的 11 种策略,在第 5 代时,各自后代的数量就都剩下不超过一半了。演化机制对淘汰残次品作用是极其明显的。

如果仔细看,其中最有意思的是一个叫作“哈林顿”的策略。它是这期开头说的在第二场比赛得分前 15 名里唯一一个邪恶的策略,排总名次的第 8。这个成绩可以说非常出色。

它的规则比较复杂,仅从程序逻辑上看,并不能预测它比其他邪恶的策略有什么优势,谁也没想到它能拿那么高分。但总的来说,所有邪恶策略都是靠各种方法占便宜拿到分。

哈林顿策略在演化实验的前 200 代中,后代的数量一直在提高,大约提高到最初的 4 倍时,突然开始快速下降。

它是所有邪恶策略中最成功的,也是最具代表性的。因为其他不如哈林顿但也还算精明的邪恶策略也有类似情况——后代数量先增后减,并且减了之后再也升不起来,直至消亡。

为什么会这样呢?

实际上,这些比较精明的邪恶策略在前期的高速增长,主要是靠蚕食剥削其他不太成功的策略实现的。

在比赛只有一场或几十场,或者说生存竞争只限于一代或者几十代的时候,不成功者大有人在。于是从某种程度上说,这些人手握的资源就是给精明又邪恶的策略输血用的。但当不成功者被吸干血后,精明邪恶的策略并不能从成功者那里获得收益,于是就会快速消亡。

精明又邪恶的策略是靠毁灭其他人获得收益的,而成功的策略是靠合作获得的收益。

 

一报还一报的霸主策略

而在这种加入演化机制的大规模实验中,第一名依然是一报还一报策略。它综合了以下几点特征:

首先它是善良的,它从不主动背叛对方,而且首次见面就会合作;

其次它及时报复,这样可以让邪恶的精明的策略及时收手;

同时它还兼具了宽容,因为只要对方重新合作了,它就不计前嫌。

它的规则是清晰的。因为有很多策略都试图分析对手的策略,然后才决定自己如何做,而一报还一报对合作与背叛的反应都做了最快的响应,而且规则简单。对于那些试图猜测对手的选手来说,很容易猜出它是一报还一报。

至此,我们看到了一报还一报在多个场合下的实力:

首先,在大家都没有任何经验的情况下设计博弈策略时,一报还一报策略胜出了;

其次,在所有人都清晰的知道善良的策略占有一定优势,并且也清楚的知道一报还一报是怎么在上一场比赛中胜出的,甚至有很多人专门针对一报还一报设置反制策略的情况下,一报还一报依然可以在第二场比赛胜出;

最后,在带有演化机制的更大规模、更接近现实的博弈比赛中,一报还一报策略依然是第一名。

这些都让我们对这个策略刮目相看,我们可以把一报还一报策略称之为“霸主策略”。

但我们可能全都忽略了一个细节,那就是——一报还一报策略并没有击败那些专门针对一报还一报而设计的反制策略。

你可能觉得这一点不稀奇,因为这是针对性很强的攻击嘛,自然不能赢。但你只要再仔细想一下就知道,一报还一报策略何止是没有击败专门针对它的策略啊,一报还一报策略没有在任何一轮 200 回合左右的博弈中比对手的分数高过。

虽然从整体上来看,最高分来自于一报还一报策略,但具体在每轮 200 回合的博弈中,它要不就是失败者,要不就是和对方的分数一样。

于是,真的存在一种奇特的成功模式——从未在单对单的比赛中胜利过,但即便每次都是输,也只输对手一点点,绝不多输;当博弈次数积累得足够多以后,评估博弈的历史记录,把它们加合在一起,它依然是冠军。

一报还一报策略能多得分的最大原因是,它可以最大限度地激发对手的合作行为。因为合作才有最大收益,哪怕每次都不如对手,但因为在过程中的收益很多,于是积累下来,它竟然稳坐第一名。

到了现在,我们可以看出,一报还一报策略很容易成为具有优势的稳定策略。而只要群体里大家都是这个策略,那从总体上看,这个群体每次博弈时都在合作。

换句话说,对社会制度感兴趣但又缺少科学眼光的人眼里看到的“处处友善、遍地合作”,并不是通过呼吁或者强制人人都要善待其他人、要守信实现的,而是通过人人都采取“首先善良、及时报复、有限宽容”的行为策略实现的。

但世界并不都是这样的,有没有其他策略也是稳定的呢?我们尤其关心,有没有一些邪恶的策略也是稳定的?

因为一旦有的话,就说明我们有可能稳定地陷在一个烂泥塘里出不来。很不幸,是有的。这些我们放在下周继续说。

聯系郵箱:0xniumao@gmail.com