合作5:总是背叛的策略



我们之前几期谈到了两种和直觉相反的结果:

第一种是,有那么一种策略,也就是一报还一报,在每场比赛都没能赢过对手的情况下,却依然是最后的冠军。

第二种是,还存在一些策略,通过精细算计对方,在每场或者绝大部分对决中都能小胜对方、捞得便宜,但它在总成绩上惨目忍睹。

你想过为什么会这样吗?

 

零和博弈与非零和博弈

其实,根源在于这些博弈是非零和博弈。当我们用零和博弈的惯性去感受的时候,就会感觉反常。

零和博弈的本质是,A 多得了多少分,BCDEF 等人就要相应的少拿多少分。在零和博弈成立的前提下,一个在每场比赛都赢不了对方的人,是绝对得不到冠军的;而一个在绝大部分比赛中都能成功占便宜的人,总成绩绝对非常拔尖。

而非零和博弈并不是这样。资源总量到底有多少呢?是不固定的,要视每个参与个体的行为而定。当那些表现最不好的行为成为主力的时候,也许资源总量只有几十分;当那些表现最好的行为成为主力的时候,也许资源总量能达到 1000 分。

所以,在非零和博弈的对局中,系统奖励的不是输赢,而是在奖励良好行为和激发对方良好行为的策略。

如何激发对方的良好行为呢?有以下几点:

1. 自己绝不首先背叛。

这既包含博弈的第一次,在不掌握对方任何信息的情况下信任对方,也包含在博弈多次后的任何一次中都不偷奸耍滑。

2. 不论对方是与自己合作还是背叛自己,都要立刻予以一次性的回复。

对合作的回复就是合作,对背叛的回复就是报复性背叛。一次性的意思是说,不论是感恩还是报复性背叛,都只进行一次。

如果感恩进行的次数多于一次,就会给偷奸耍滑的人留了空子可钻;或者换一个角度说,你没有把那些打算偷奸耍滑的人的良好行为充分激发出来。

而如果报复性惩罚次数多于一次,就容易陷入双方的连锁性报复。这里说的立刻予以回复的“立刻”,并不是指 5 秒钟之内,而是指在下一回合的时候。下一回合博弈也许真的是 5 秒钟之后,但也有可能是几个月之后。

3. 把博弈次数调整得多一些。

比如,付款方式从一次结清变成多次分期付款,这更有利于达成双方的信任。

4. 改变收益分数。

比如,商业条款中很多内容是双方协定的,那么就尽量把一方不履行承诺的惩罚调高。

5. 增加双方的辨识度。

比如,如果博弈双方都穿着单色整套制服,而且从头蒙到脚,那么除了分辨身高和声音的男女之外,很难分清谁是谁。

在这样的情况下,合作是很难产生的。因为双方不知道这个人上一次和自己博弈时是怎么做的,也无法预判今后和这个人将要有多少次博弈。

 

不可入侵的背叛策略

最后,我介绍一个最恶劣的情况。

之前我们分析了,在很多博弈策略中稳居第一的一报还一报。实际上,还有一个稳居末尾的策略叫总是背叛。即便对方采取合作,甚至是不计前嫌地连续合作多少次,他都背叛。

对方越不计前嫌的与之合作,这种策略就获益越高。当然,如果他遇到的是一报还一报的策略的话,除了第一次能多占 5 分的便宜外,此后双方就陷入了连锁的互相背叛中,直至比赛结束。当然,它遇到其他总是背叛的策略时,表现就更差了,双方一直都是互相背叛,每回合都只得 1 分。

看上去这个策略既坏又蠢,但实际上,这也是一个不可入侵的策略,是群体稳定的策略。

也就是说,当一个群体里的个体们在某些机缘巧合的因素下,真的都转变成了总是背叛的策略后,这个群体今后就会一直这样烂下去,即便有单个善良的策略闯入其中,也会被马上蚕食掉。

那么,这样糟糕的局面是怎样形成的呢?

人与人之间的背叛成为常态,不是因为道德水平如何,而是因为背叛会带来总合最高的收益预期。这是环境条件使然。这就要从博弈的规则设定上找原因了,我们挨个分析:

首先,可以通过把分数设定得不合理来实现。

比如,双方合作了半天,费尽吃奶的力也赚不到什么钱,合作的收益低,背叛就容易出现。或者是背叛后的报复非常轻微,按合同应该赔偿全部损失,但某方通过运作,一分钱不用赔,还浪费被害一方大量时间打官司搜集证据。这些情况都相当于分数设定不合理。

其次,大部分可能的博弈参与者都不能顺利参与博弈,于是博弈频次大幅减少。在双方都预期不会有太多次博弈的比赛中,背叛总是最能保护自己的。

所以,一切阻碍商品、利益的自由买卖与交换的行为,比如必须要求 ABCDEFGH 八个条件都满足才能买某样东西;或者必须通过谁才能卖某样东西;甚至某个东西被事实上垄断了,所有人都得通过一个渠道才能买到,这都是不可取的。

这样的事情涉及到的商品的占比越高,那里的背叛行为就越是普遍。

那么,什么时候会发生分数规则不合理或者阻碍公平博弈的情况呢?一般是出现了一个比所有参与者的力量都要大很多的个体。

 

如何逆转背叛环境?

当听到总是背叛的策略也是稳定和不可入侵的,可能很多人心里一紧。其实情况并不是完全无法挽回。因为只要满足一些特殊条件,总是背叛的群体还是有抢救一下的机会的,它可以在特定情况下被一报还一报入侵。

这个条件甚至不是很苛刻——

当一报还一报的入侵者不是一个人单枪匹马的加入总是背叛的群体中,而是以一个小团体的形式加入其中,并且在随后的博弈中,有一定的机会和其他一报还一报策略的参与者相遇,就能成功入侵。

具体到数字上,这个小团体有多小呢?有一定的机会和一报还一报的参与者接触,这个机会到底有多大呢?

如果依然用我们一直使用的那组收益参数——5 分、3 分、1 分、0 分的话,在每一回合终止比赛的概率都是 0.346% 的情况下,只要一报还一报策略的参与者在所有博弈回合中,有 1‰是和一报还一报博弈的,给足时间,就能实现入侵。

如果一场比赛的回合数没有这么多,而是每个回合后都有 10% 的概率结束比赛,你可以粗糙的理解为,平均只进行 10 个回合的博弈,那么只要入侵的一报还一报策略有 5% 的博弈是和一报还一报策略博弈的,就可以实现入侵。

所以,虽然一个秉持着极其糟糕的策略的群体是不可入侵的,但这个不可入侵指的是单枪匹马的闯入者不可入侵,只要闯入的是一个小群体,哪怕只有 2 个人,他们之间少量的合作所积累的巨大优势,就能在之后的多轮演化中不断积累,最终完成入侵。

而完成入侵就意味着,这个群体后来都改成了一报还一报策略,一个糟糕透顶的环境就这样改变过来了。所以,我们也不要对总是背叛的小环境过于悲观。

合作实在太容易出现了,它萌生的力量是如此之大,以至于要维持一个不合作的社群,反而需要外界持续的破坏力量输入进来才可以。

 

一报还一报的逻辑基础是模仿

最后,我们讨论一下一报还一报策略在生物群体里的执行。为什么生物会对对方的合作给予合作,对对方的背叛给予背叛呢?为什么这个看上去好像是需要靠计算机程序才能能执行得很好的策略,在群体的生物中也能做的很好呢?

对于拥有智能的生物来说,镜像神经元起到了很大作用。什么是镜像神经元?

你一定看过你的同学或者同事在下午 3 点时困得实在受不了,哈气连天的样子。一般来说,当你看到他打第二个哈气之前,你也会忍不住打一个。

孩子不会说话还在咿咿呀呀的时候,你听到他的一个毫无语义的声音后,也会学他的声音和调调,然后突然意识到,我怎么学起婴儿说话来了?

你去野生动物园,摇下车玻璃,看到一只立起上半身向你的车张望的狗熊,你觉得太有意思了,冲着他边摇手边 say hello,结果那只熊也傻乎乎的伸起爪子冲你挥手。

以上三个场景,都是镜像神经元在发挥作用。

一个行为是由神经元驱动肌肉执行出来的,而行为本身被其他个体观察到后,也会在其他个体的脑中激发起对应区域的神经元兴奋,于是模仿行为就这么出现了。

而一报还一报的逻辑基础就是模仿,模仿对方上一次的行为。或者说,对方上一次的行为对你产生的神经刺激经过处理后,会回馈出一个由类似神经刺激激发的行为,这个行为又刚好和对方的行为高度类似。

从之前我们的分析中你可以得出,镜像神经元的机制应该出现在合作行为之后。因为合作不需要智力做前提,那是一个在细菌群体中都会涌现的行为。

所以,先是出现了合作行为,进而镜像神经元作为一个没有被淘汰掉,而且有利于合作的机制被保留了下来。

合作,是复杂系统里的现象,能找到一些方法追溯每个步骤是非常难得的。而这样的模拟背后,又依据的是朴素的假设和简洁的计算。

阿克塞尔罗德的研究今天并没有得到它应有的声望。在我看来,它的地位应该远高于经济学中的边际效应、理性人假设和与之相关的行为经济学里的各种学说。

我用这个系列把它介绍给你,希望你在看待经济、社会的时候,能多一种有力的工具。

好,这就是这个系列的内容。如果你还有疑问和想法,欢迎留言跟我交流。

聯系郵箱:0xniumao@gmail.com