经济学中的人性抉择(下)
序
上一篇分享了公地悲剧、逆向选择和道德风险三类资源无效配置的场景,在这三种场景下,信息不对称助长了“歪风邪气”。
这一篇我们将引入博弈论的基础知识,通过一个简单的模型来重新审视“信息对称”的重要作用,也重新来认识人性的“自私”。
先简单介绍一下博弈论:
博弈论,英文原文为 game theory ,也就是游戏策略。它需要2个或2个以上的参与者,每个参与者都拥有一定量的信息,并能够选择自己的策略,以争夺某种稀缺的资源或收益。
可以看到,博弈论实质上是生活中诸多场景的简化模拟。
先来介绍一个最基础的博弈场景——囚徒困境。
囚徒困境
囚徒困境是一个典型的博弈策略,我们通过一个故事来描述它:
故事的主角是小明和小强,他俩因为从小不好好学习,长大以后没有收入来源,只好合伙入室盗窃为生,结果第一次准备作案就被警方逮个正着。
因为警方怀疑他们作案,但并没有掌握确凿的证据,所以对他俩进行隔离关押、隔离审讯。警方告知他们:如果其中一方供认盗窃之事,则坦白从宽减刑2年,只需要判刑1年,而拒不供认的一方则加以妨碍公务罪加刑两年,共判刑5年;如果两方都供认偷窃之事,则都判刑3年;如果两方都拒不供认,则只能以私入民宅罪判刑1年。
站在局外人的角度考虑,双方只要都拒不供认,就只需要都判1年即可。假设两人可以沟通协定,或是都是“重义之人”,则他们将能够得到这个结果。但作为“理性”的“局中人”,他们不会选择这种策略。
作为小明来思考:如果小强够“义气”,不供认,在此条件下,自己供认则需要判1年,自己不供认也要判1年;如果小强选择了供认,那么在此条件下,自己供认需要判3年,自己不供认需要判5年。因此,无论在哪种条件下,自己选择供认都是占优策略。
同样作为小强,也面临着同样的选择,图表如下:
强\明 | 抵赖 | 招供 |
---|---|---|
抵赖 | 1 \ 1 | 5 \ 1 |
招供 | 1 \ 5 | 3 \ 3 |
从图表中也可以直观的看出,两人的优势策略都是招供,但整体上确是最无效的选择。这种无效性是由于每个人都不知道对方最终的选择,即只具有局部信息,以至于合作无法进行,个人只能在对方选择特定策略的条件下来选择自己的占优策略,这种最终必然被选定的策略可以称作均衡策略,也可以叫做纳什均衡。
官场中的囚徒
我们常常感觉到官场是一个染缸,圣人进去,出来也成了墨色。这又是为什么?同样先来看一个故事:
玉戭(yǎn)生和三乌丛臣是朋友。玉戭生说:“我辈应该自我激励,他日入朝(为官),权势人的门绝不涉足。”三乌丛臣说:“这是我痛恨得咬牙烂心的行为,干吗不对这事发个誓?”玉戭生很高兴,就歃血盟誓道:“二人同心,不徇私利,不为权位所诱,不趋附奸邪献媚的人而改变自己的行为(准则)。如有违背此盟誓,神明杀死他。”
没多久,他们一起在晋国为官。玉戭生重申以前的誓言,三乌丛臣说:“说过的誓言犹如还在耳畔,怎么敢忘记啊!”当时赵宣子在国王前得宠,各位大夫每天奔走于他家。三乌丛臣反悔(当初的誓言),又怕玉戭生知道他反悔,又不能不去(赵宣子家)。鸡一报晓,就前去 侍侯宣子。进得门来,见在正屋前东边的走廊有个端正地坐在那里的人,举灯一照,是玉戭生。各自羞惭退去。
在这个故事中,两人最终都背叛了誓言,选择了巴结权贵,这个模型的图表如下:
玉\三乌 | 巴结权贵 | 不巴结 |
---|---|---|
巴结权贵 | 升官 \ 升官 | 升官 \ 落选 |
不巴结 | 落选 \ 升官 | 落选 \ 落选 |
从图表中可以看出,无论其他人怎么做,自己选择巴结权贵都是占优策略,也就是说,官场上的策略均衡点落在了“巴结权贵”上。因此,在古往今来的所有官场之中,趋炎附势、贪污腐败从来都是常态。
比比皆是的囚徒困境
除了官场之外,囚徒困境的例子在生活中比比皆是,以下举几个常见的例子:
1.职工权益:职员在要求提高福利或拒绝加班时面临典型的囚徒困境。如果所有职员都拒绝加班,那么每个人的收益可能是1;但倘若其中有一个人不拒绝加班,则势必会得到老板的青睐,从而收益可能是5;当每个人都选择加班时,老板就不会只青睐某个人,所有人的收益都变成了-1;如果其他人都选择加班,而某个人拒绝加班,则有可能被穿小鞋或借故辞退,他的收益为-5。那么,策略表如下:
个人\其他人 | 加班 | 不加班 |
---|---|---|
加班 | -1 \ -1 | 5 \ 1 |
不加班 | -5 \ -1 | 1 \ 1 |
从表中我们可以看出,无论其他人选择加班或是不加班,个人选择加班的收益都更大,所以最终的纳什均衡点落在了(加班、加班)上,从而每个员工都只能选择加班。
2.消费者权益:与职工权益类似,团体消费者(比如购买同一个小区住房的业主)在维权时,也存在着同样的囚徒困境,因而所有人都愿意选择等待其他人维权最终自己享受同样的成果。这种做法最终的结果就是维权难以成功,总是便宜了商家。
3.学生时代在操场长跑时涌现的各路bitch,“曾经说好了一起跑,可你却偷偷加了速”。实际上,在跑步之前约定一起慢慢跑就是在制造一个虚假的“共识”,从而形成一个囚徒困境,这时选择背叛的人就能够获得最大的利益。
4.势均力敌的公司之间所进行的价格战:无论对方是否降价,自己降价都是占优策略,均衡点在“双方都降价”。
5.国家之间的关税战:无论别国是否提高关税,自己提高关税都是占优策略,均衡点在“双方都提高关税”。
6.恋爱:无论对方是否付出,为你付出多少,自己选择不付出都是占优策略,均衡点在“双方都不付出”,所以这也是现在谈恋爱走心越来越困难的愿意之一。
7.不忠:无论对方是否对自己忠诚,自己不忠都是占优策略,均衡点即是“双方都不忠”,所以婚姻很难保鲜啊。。。
虽然上面列举了如此多的囚徒困境,均衡点都很阴暗,似乎囚徒困境的均衡点总是“背叛”,以至于让笔者对人生产生了些许绝望之情,,但是尽管如此,社会并没有完全发展到这样负面的境地,为什么?
最后一个小节我们将用来回答这个问题。
囚徒困境的结果为什么并不一定落在均衡策略上?
其中一个原因是人类并非“完全理性”,感性、感情等在决策中占据了一席之地;另一个更重要的原因在于,道德和法律制度的约束改变了矩阵中的收益,从而改变了均衡点。
举个例子,选择对伴侣不忠的人尽管享有了多个伴侣带来的收益,但同时也受到道德的强烈谴责,选择离婚还会失去财产,而重婚则是犯罪行为,,如果一个人足够的重视道德品质或重视财产,那么选择不忠可能就不是一个占优策略,这时的纳什均衡点就落在了“忠诚,忠诚”上。见下表:
对伴侣不忠,而且没有其他外在约束时可能的矩阵收益:
自己\伴侣 | 忠诚 | 不忠 |
---|---|---|
忠诚 | 3 \ 3 | -5 \ 5 |
不忠 | 5 \ -5 | -3 \ -3 |
上述矩阵我们可以理解为,两人都忠诚时,爱情的收益为3;两人都不忠诚时,失去爱情的收益为-3;而当自己忠诚伴侣却不忠诚时,自己不仅需要承担失去爱情的-3,还会产生被欺骗等负面的情绪-2;反之如果自己不忠而伴侣忠诚,则不仅自己享有爱情的收益3,还享有“出轨”的收益2。最终我们发现,无论伴侣是否忠诚,自己选择不忠都是占优策略,所以纳什均衡点落在“不忠,不忠”上。
但如果有其他约束存在,比如选择忠诚可以得到更多的美誉+1,而选择不忠则会身败名裂-2,这时矩阵的收益变化如下:
自己\伴侣 | 忠诚 | 不忠 |
---|---|---|
忠诚 | 3+1 \ 3+1 | -5+1 \ 5-2 |
不忠 | 5-2 \ -5+1 | -3-2 \ -3-2 |
整理如下:
自己\伴侣 | 忠诚 | 不忠 |
---|---|---|
忠诚 | 4 \ 4 | -4 \ 3 |
不忠 | 3 \ -4 | -5 \ -5 |
我们可以看到,此时无论伴侣是否忠诚,自己选择忠诚都是占优策略,因此纳什均衡点又落在了“忠诚,忠诚”上。
但是,一旦外部条件发生变化,纳什均衡点就会再次发生变化,常见的,比如新遇到的“外遇对象”颜值足够高,那么选择“不忠”的收益将扩大,均衡点可能会回落到“不忠,不忠”上。
在上面的例子中,实质上结果始终是落在均衡策略上的,只不过加入了新条件的困境实际上已经不是原来的那个困境了,所以看起来好像是结果发生了变化,实际上只是条件发生了变化而已。
囚徒困境的结果不一定落在均衡策略上,还有第三个最重要的原因——多次博弈。
你是否注意观察过,火车站附近的小饭店做的饭常常十分难吃,而你们家附近的小饭馆做的饭却比较可口且实惠?
在博弈论中这一点非常好解释,因为火车站附近的小饭馆顾客们基本只会来一次,所以偷工减料不用心做将带来更多的收益,我们看下图——火车站附近小饭店的收益矩阵:
饭店\顾客 | 仅一次 |
---|---|
好吃 | 1 \ 3 |
难吃 | 3 \ 1 |
这个矩阵不是标准的囚徒困境矩阵。在这里我们只需要理解核心部分,因为顾客只来一次,所以饭店采取“难吃”的策略将会获得更多的收益。
但在家附近的小饭馆,如果做的不好吃,下一次就不会再来吃了,
饭店\顾客 | 第一次 | 第二次 | 第三次 | 第n次 |
---|---|---|---|---|
好吃 | 1 \ 3 | 1 \ 3 | 1 \ 3 | 1 \ 3 |
难吃 | 3 \ 1 | 0 \ 0 | 0 \ 0 | 0 \ 0 |
观察矩阵我们可以看到,店家做的难吃将会断送以后所有的收益机会,因此店家的占优策略就是做的好吃。
类似的,在第一节中描述的两个囚徒,如果需要做多次博弈,他们必然会在不断的博弈中从背叛走向合作,因为尽管信息无法共享,但每个人都知道,如果自己选择合作赢取对方的信任,那么在下一次的博弈中,对方也会选择合作(如果对方依然选择背叛,自己也可以通过背叛来惩罚他,多次之后双方必然共同选择合作)
在关税问题上的囚徒困境问题就是通过多次博弈来调节的。因为A国增加关税必然引起B国同时增加关税,而这样会对A国也造成不利影响,多次博弈之后两国必然遵守契约同时降低关税。
类似上述的情景在生活中还有很多,比如人们在认识的人中更愿意展现自己优秀的一面,更谦让,而对不认识的人可能会不讲礼貌;又比如人们在生活中可能竭力扮演一个谦和、听话、认真、乐于助人的角色,而在网络上却变得肆无忌惮。
在上一篇中我们说到逆向选择问题,实际上二手车市场也可以看作一个囚徒困境,因为无论车子好不好买家支付更低的价格都是占优策略,因此,拥有好车的卖家只好退出市场。而且二手车交易基本是单次博弈,所以不存在多次博弈的调节机制。
结束语
博弈论是一门宏大的学问,但却不是一门完备的学问。借助这个工具,我们能更好的探索世界,也能更好的了解人性,但它并不是对这个世界最好的描述——最好的描述可能只是世界本身。
囚徒困境产生的其中一个条件是局中人面临不完备的信息。这种信息的不对称性,其一在于信息的获取往往是不对称的,可能是由于成本过高或是其他原因导致的信息闭塞;其二在于人们相互之间的不信任,即便某人说出了自己会采取的策略,别人也无法断定他将会按照自己所说的策略行事(即可能存在欺骗)。
因此,在这个世界上,想要减少类似的困境,真正实现集体资源的有效配置,实现集体价值和个体价值的统一,可能是比探索宇宙起源更难的事情,我们要做的还有很多。
愿天下大同,再无纷争,愿人类相互理解的时代终有一天能够到来。
赞美那天赐的恩宠
使我在人间会相信奇迹
暮色里仍有五彩的长虹