合作1:互信不需要道德做前提



人为什么要和其他人合作?人又为什么会背叛他人?这是因为人性本善还是人性本恶?

这样的问题看似是道德层面没有终局的讨论,但只要使用科学方法去分析,就能摸索出大致原因。其实,善恶都是人在事后对结果的价值判断,而合作和背叛的决策来源于演化过程和边界条件。

也就是说,在某些边界条件成立的情况下,我们完全不需要假设人是善还是恶,也完全不需要假设人们之间是熟悉还是陌生。只要给足演化时间,他们之间就会出现大规模的合作行为,并且这些合作行为还是稳定的,而且越来越稳定。哪怕人群中偶尔出现了一些背叛行为,也不会让人群的整体行为逐渐往大规模背叛和互害的方向演进。

而当一个普通人身处其中,感受到的是什么呢?他会发现,人人互相帮助、面对质疑时说实话。没有法律意义上的合同也能遵守承诺。这样的社会,不正是每个人都向往的社会吗?与此相反,老人摔倒无人扶,谎话连篇、即便法律规定了也绞尽脑汁钻空子,这样的环境让每个人都糟心。

对两种截然相反的社会气氛,普通人是不能理解为什么会如此的。就算是仔细思考后,结论也会落在“人的素质不够,思想意识不足,道德水平不高”等层面。但这样的结论,对现状毫无解释力。

当你了解咱们这个系列用科学方法分析的过程,就会知道,那个人与人互信合作的状态完全不需要假设其中的个体拥有较高素质、较好的道德水平。甚至可以完全反过来,那个人人向往的社会可以由主要是不识字的莽夫组成,而其中的关键就是这个社会是否满足特定的边界条件。

边界条件又是什么呢?那样的社会又是如何形成的呢?

在 20 世纪 70 年代到 80 年代,阿克塞尔罗德在一系列对囚徒困境的杰出研究中已经给出过答案,并综合当时学界同行的其他研究做了补充,写成了《合作的进化》这本书。这个系列,我就来为你解读这个杰出的成果。

这一系列的内容可能会比较复杂,但理解之后你会发现它真的非常深刻。我们开始。

 

囚徒困境

形成社会合作机制的最基础行为是博弈,准确来说是反复博弈。反复博弈中,人们研究得最透彻的是“重复囚徒困境”,它是从“囚徒困境”演变出来的。

囚徒困境有一个这样的假设:

有 2 个罪犯某甲和某乙,他们是同伙,一起被抓了以后分别审讯,在审讯中,某甲和某乙都有 2 种策略,一种是供出对方罪行,一种是守口如瓶。

前者相当于背叛了同伙,后者相当于与同伙合作。而同时,审问也会出现几种不同的结果:

1. 某甲和某乙都守口如瓶,最后的结果是证据不足以判重刑,俩人都被判 1 年;

2. 某甲守口如瓶,某乙背叛了同伙,某甲被判 5 年,某乙释放;

反过来也是:

3. 如果某乙守口如瓶,某甲背叛了同伙,某乙会被判 5 年,某甲释放;

4. 双方都背叛了对方,结果是虽然罪行比警方掌握得多,但双方都有戴罪立功表现,各判 4 年。

囚徒困境中的“困境”指的是什么呢?并不是说某甲和某乙在审讯室很为难,不知道怎么选。

“困境”说的是,只要两个人听懂了判罚的规则,而且运用自己的理性做判断的话,他们都会毫不犹豫地选择背叛对方,最终结局就是各判 4 年。

为什么会有这样的结论呢?你这时候甚至会觉得,我的结论过于莽撞。因为你刚刚就设身处地的把自己假设成了囚徒,而你就不打算背叛对方。这个原因我们随后会解释,我们先说说从理性计算出发得到的结果。

首先,囚徒某甲和某乙都只有 2 个选择,一个是背叛,一个是合作。选哪个呢?

如果假设对方的策略是合作,也就是守口如瓶,那自己选合作,也就是守口如瓶,最后会判 1 年;而对方合作的时候,自己选择背叛,就能无罪释放。所以,当对方的策略是合作的情况下,自己肯定要选背叛。

第二种情况,如果对方的策略是背叛呢?那自己选合作,也就是守口如瓶,自己将遭遇最惨的结局,就是判刑 5 年;而自己也选背叛呢?那就是和同伙一起都判刑 4 年,至少比判 5 年好吧?于是对方如果选背叛,自己的策略依然是背叛更好一些。

综合在一起就是,无论对方选择合作还是背叛,自己选择背叛都是最好的。而且,这样的分析过程,某甲和某乙都会做,于是终局已定,就是俩人都选择背叛,同时被判 4 年。

以上都是基于理性的分析,没有任何错误。

可我们再从全局看看呢?原来理性分析后得出的终局,是一个对双方来说都双输的局面,只比最差的结果少判了 1 年而已。

实际上,从全局看,俩人判刑时间加和最小才是最好的结果。换句话说,其实最好的结果是互相合作,这样双方加起来总共才判 2 年。

但只要他们动用理性仔细分析,就跳不出这个被诅咒的怪圈。这是他们的困境。“囚徒困境”就是从这个逻辑来的。

 

重复囚徒困境

有人听到这里就忍不住问,你刚刚不是说:“人与人互信合作的状态,完全不需要假设其中的个体拥有较好素质、较高的道德水平”吗?怎么分析了半天就先自己打自己脸了?这个例子里不就是双方不合作的典型吗?而且,还跳不出怪圈了。

没错。但你只要留意就知道,我刚刚说的是“囚徒困境”而不是“重复囚徒困境”。这两个是有本质区别的。

在不带“重复”字样的囚徒困境里,得出的理性分析结果是——无论如何都要背叛对方才好。而带“重复”字样的囚徒困境就完全相反了,结论就会变成——无论如何都要与对方合作才是最好的。

这里的本质区别就在于双方是博弈一次,还是博弈多次但却知道精确的次数,又或者是博弈多次但并不知道会有多少次。正是这个区别,让人们从背叛走向合作。

如果博弈是多次的但双方都知道精确的次数,那么从后往前推算,根据上面我们分析的,最后一次不论对方怎么选择,自己都是背叛对方最划算,于是在最后一次结果已定的情况下,倒数第二次其实也是背叛对方才最划算。

于是一步步前推,每次都是背叛对方最划算。于是,囚徒困境博弈即便是多次重复的,但只要双方精确地知道博弈的次数,理性分析的结果依然是次次都背叛。

但只要条件变成不知道还会博弈多少次的时候,运用理性是很难计算出结果的,于是决策就可能受其他因素影响。

 

阿克塞尔罗德实验

具体受到什么因素影响,无关紧要,我们要看看最聪明的人都是怎么博弈的,从他们的经验或者教训里找到窍门。

这方面的研究汗牛充栋,其中一个最常被提起的是阿克塞尔罗德做的大规模分析。他把囚徒困境的四种不同状况里,当事人的收益用分数来表示:

1. 双方都合作的情况下,都得 3 分;

2. 双方都背叛的情况下,都得 1 分;

3. 一方背叛,一方合作时,合作的人得 0 分,背叛的人得 5 分。

然后,他做了一次有奖征集。也就是,在这样的规则下重复不断地博弈,你认为应该采用什么策略,才能获得最高得分呢?

大学里的学生、经济学家、法律学者、计算机科学家都参加了活动,最后从方案中筛选出了 14 种不同的策略,然后再把策略写成计算机程序。这些策略有很复杂的,比如当对方连续背叛几次后,会用百分之多少的概率背叛对方。

然后在计算机里,用每个策略和另外 13 个策略,以及自己这种策略分别对战,每次对战的回合数设为 200 次。因为总共有 14 个策略,在经过总数 2800 次博弈后,再看看每次对战的平均得分中,哪个策略得分最高。

根据上面的分数设定我们可以知道,在 200 回合的博弈中,每次都选择和人合作,而每次都被人背叛的家伙,是最倒霉的,得 0 分,而对方正好可以得 1000 分的满分。但实际上,这只是最极端的结果。就单个策略来说,经过 200 个回合博弈后,大部分策略的得分都分布在 200 分到 600 分之间。

以我们人类的视角看,越不会首先采用背叛行为的策略,我们可以称它是越善良的,而越倾向于首先背叛的策略,可以称它是越邪恶的。

在这场计算机模拟中,有 8 种策略属于善良的,6 种属于邪恶的,邪恶策略的平均得分是 401 分,善良策略的平均得分是 488 分。你看,善良策略的平均得分比邪恶策略的平均分要多。

其中最善良的,相当于每次都选择合作,满分就是 600 分,但这要求对方也是这样的策略才行。而实际上,每种策略都要面对 14 种策略的博弈,于是 600 分的完美情况几乎是不可能出现的。

平均下来,在善良策略里,得分最高的是 504 分。这个策略是最值得注意的,它被总结成“一报还一报策略”。

这个策略的规则是,无论怎样,第一次和对手遇见时都执行合作策略,此后执行对手上一轮的策略。对手背叛我一次,我也会在下一次背叛对手;如果对手一直跟我合作,我也会一直和对手合作。

于是,他们通过程序的模拟,就把行善和行恶的积分计算了出来。如果这些积分就是社会财富或者生存资源,那我问你,一报还一报的人是善是恶呢?

你当然觉得说不准。因为这样的人有时候是在背叛,这是恶事;有的时候又是在合作,这是善事。

但当博弈次数是大规模频繁博弈的时候,当博弈的次数积累得足够久,合作的策略还是更有利于获得生存资源的。相反,背叛的策略会因为收益明显少而受到资源惩罚,采用这样的行为策略的人的后代,整体而言会得到更少的资源,留下更少的后代。

而其中获得资源最多的,就是那个一报还一报的策略。经过足够久的时间,这些人的后代将占据地球上智能生物的绝大部分。

于是,今天我们大都信奉“善有善报,恶有恶报”“以牙还牙”“滴水之恩,涌泉答报”等等说法。你可以把它说成是品德,但实际上,通过刚才的科学分析你就会知道,它们是演化出来的稳定状态。

聯系郵箱:0xniumao@gmail.com