合作2:不要算计好人



昨天,我们从囚徒困境中“困境”的概念入手,解释了为什么在单次囚徒困境的博弈里,选择背叛才是最正确的;而只要变成不定次数的重复囚徒困境后,背叛就会消失。

其实,阿克塞尔罗德这个实验还有更多值得关注的细节,有助于我们理解社会秩序的生成和人际交往的策略。

今天的《科技参考》,我就把这些重要细节给你详细说说。

 

合作会天然涌现

昨天,我们定义了一下重复囚徒困境里什么算善良、什么算邪恶——以我们人类的视角看,越不会首先采取背叛行为的策略就是越善良的,而越倾向于首先背叛的策略就是越邪恶的。

比如,比一报还一报更善良一些的策略就是两报还一报,也就是对方连续背叛两次,自己只会背叛对方一次;而比一报还一报更邪恶一些的策略就是一报还两报,也就是每当对方背叛自己一次时,就连续背叛对方两次。

在第一场比赛的全部 14 种策略中,8 种可以算作善良,6 种可以算作邪恶。

在全场比赛中,每种策略都要进行 2800 次博弈。但如果把策略分成“善/恶”,分别观察它们内部的得分,还会看到有意思的结果。

每种善良策略在和另外 7 种善良策略、以及跟自己同样的策略博弈后,平均得分几乎都是 600 分。而每种邪恶策略在和另外 5 种邪恶策略、以及跟自己同样的策略博弈后,平均得分都没有超过 200 分。

而我们知道,在全部的 2800 次博弈中,也就是既和善良策略博弈,也和邪恶策略博弈的时候,14 种策略中的第一名也仅仅能得到 504 分而已。

于是,这就预示着一个几倍的巨大差异——善良策略和善良策略在一起博弈获得的收获,远远高于邪恶策略和邪恶策略在一起博弈的收益。

所以,数学机制保证了合作行为非常容易在一个有生存竞争和淘汰机制的环境里面涌现出来,因为达成长久的合作带来的好处太大了。

即便博弈的个体低智能,甚至像细菌那样无智能,无法记住对方的样貌,无法做出计算,它们之间也是合作的。只不过这个级别的生物合作行为没有智力因素的参与,全部通过淘汰机制生效。最后剩下来的是那些在客观上达成合作的,没有达成合作的都被淘汰掉了。

 

唐宁和乔斯

而如果细致观察每种策略和全部策略的对局,我们就会发现,虽然总得分榜上 1 – 8 名都是善良的策略,但能决定这 8 种善良策略到底谁分高谁分低的,其实是另外一个邪恶的策略。这个策略就用他的发明者“唐宁”(Downing)来命名。

唐宁的聪明之处在于,他一直在试探。比如相遇的第一次,他会默认用背叛试探一次,看看对方有没有反应;如果对方没有报复的话,唐宁下次还会背叛,以取得单次的最高分 5 分

如果对方报复了,唐宁就要根据此前对方做出报复的概率,决定是要合作,还是要继续背叛。而且,在博弈回合的过程中,他还会时不时的用背叛试探一下。

正是唐宁把 8 种善良策略的得分一下拉开了差距。这里,表现最好的是一报还一报。道理很简单,因为唐宁每次的试探性背叛都会收到明确的回应,也就是被报复,所以唐宁每次试探后,都会在最短的时间确认对方一定会报复,之后回到合作的轨道。

但其他善良的策略就不如一报还一报了,比如那些比一报还一报更宽容的策略,就会被唐宁占更多便宜。

那些比一报还一报更具报复心的策略则会被唐宁点燃,双方回到合作所需要的回合数,总是比一报还一报更多,于是得分也就比一报还一报更低。

此外,还有一个策略是一报还一报的变体,叫做“乔斯”(JOSS)。它在大多数情况下就是一报还一报,但加了一个偷奸耍滑的招数,就是在对方和自己合作的 10 次中,有一次会随机地选择背叛对方。

乔斯策略实际上是属于邪恶组的。尽管它并不是那么邪恶,因为它首先背叛对方的概率并不高,但即便如此,它受到的惩罚也依然是很重的。因为即便它遇到的是一报还一报这样不卑不亢的策略,双方也容易陷入互相背叛的锁死状态。

比如,乔斯只要在一次博弈中偷奸耍滑背叛了对方,一报还一报就会在下一轮背叛它,而它作为回应,采取的行动也是背叛,于是背叛就这样持续下去了。

乔斯想要在和一报还一报的博弈中得高分,只能寄希望于自己随机的背叛行为出现得晚一些。

别看乔斯策略只比一报还一报多了 1/10 的作恶行为,这在逻辑描述上很接近,但在全局得分上却差距很大。正是因为,乔斯策略在有机会得高分的部分,也就是和那 8 组善良策略博弈时,这 1/10 的恶行会引发一长串的报复和反报复,让它永远失去拿高分的机会。

而在和另外 6 组邪恶策略博弈时,前面说过,其实无论是什么策略,都很难得分。但如果不看全局,仅仅看乔斯和一报还一报进行博弈的结果,就会发现,乔斯策略得分略高于一报还一报。高多少呢?高 5 分而已,比如这次实验就是 241 分比 236 分。

当然,如果双方一次比赛比 200 回合更多,比如 2000 回合,也一样只能高 5 分而已,因为它只能多占一次便宜。

这样微弱的优势让乔斯策略胜出,看上去好像反制了一报还一报。但其实,乔斯属于捡了芝麻丢了西瓜,它用尽心思算计了一报还一报,终于以微弱优势把对手超过了,但却在更广泛的对阵其他人的策略中输得一塌糊涂。

有些人可能会把这个规律解读为,不要坑害那些善良的人,哪怕只是极其偶尔地跟他们偷奸耍滑。因为在你的全部可能收获的利益中,绝大部分是善良人贡献的;你在恶人那里,最多只能做到少让他们占便宜而已。这么解读其实也是有道理的,不过还很不完善,我们在之后会分析为什么不完善。

所以,对 14 种不同策略进行细致分析后,能总结出一个得高分的规律——宽容和报复都要适度,才能在几千次鱼龙混杂的博弈中胜出。

什么是“适度宽容”?起码在这个模拟实验中,就是忘记超过 1 回合以上的背叛。什么是“适度报复”?就是一定要对上一轮的背叛做出及时的坚决的报复,且仅对上一轮的背叛进行报复,不能更多。

 

第二次重复囚徒困境实验

上面就是第一场重复囚徒困境大赛的简要分析,一共有 14 种策略参与博弈,而且规定了每种策略都要和剩下的 13 种策略、外加一个和自己同样的策略分别博弈 200 回合。

但 1 年后,阿克塞尔罗德又组织了第二次重复囚徒困境。这次他希望从一个更高的起点开始博弈,因为上一次谁都不知道什么策略能获胜,只是经过模拟后,一报还一报才表现出了巨大的优势。

而第二次实验,其中一个目的就是希望找出一个比一报还一报更好的策略。所以这次的征集范围更广。

最后一共收到 63 套策略,提交人很多都是各领域的佼佼者,比如:计算机科学家、经济学家、物理学家、心理学家、数学家、社会学家、进化生物学家、政治学家、国际象棋选手等等。

而且,阿克塞尔罗德还把上一次模拟实验的分析报告一人发了一份。这份报告里,有全部的博弈得分情况,也有阿克塞尔罗德对每种策略的解读,尤其是对一报还一报策略为什么排第一的详细解读,让大家充分了解全局博弈中有哪些坑。我们刚刚介绍的那些内容就是其中的重点。

而且,第二次模拟实验还做了一点改进,就是把每场互相博弈 200 次的限制去掉了,改成了每一回合后,双方结束游戏的概率为 0.346%。之所以这么做,这是根据统计学规律算出来的,是希望每场比赛回合的中位数的期望值是 200。

如果不加这条修改,参赛者肯定会根据固定的回合数,专门为最后一回合的博弈设定策略。而这个策略往往和整体策略不一样,这就会大大干扰阿克塞尔罗德对策略一般性规律的评估。而有了这个限制后,这个小漏洞就被堵上了。

由于参赛选手多了,结束条件也变了,这次比赛总的回合数接近百万次。结果如何呢?我这里先剧透一下:第一名依然是一报还一报策略。至于为什么,我们明天继续说。

最后我给你留一个问题,你现在是怎么看待“以德报怨”这个说法呢?

聯系郵箱:0xniumao@gmail.com