经济学中的人性抉择（下）

序

上一篇分享了公地悲剧、逆向选择和道德风险三类资源无效配置的场景，在这三种场景下，信息不对称助长了“歪风邪气”。

这一篇我们将引入博弈论的基础知识，通过一个简单的模型来重新审视“信息对称”的重要作用，也重新来认识人性的“自私”。

先简单介绍一下博弈论：

博弈论，英文原文为 game theory ，也就是游戏策略。它需要2个或2个以上的参与者，每个参与者都拥有一定量的信息，并能够选择自己的策略，以争夺某种稀缺的资源或收益。

可以看到，博弈论实质上是生活中诸多场景的简化模拟。

先来介绍一个最基础的博弈场景——囚徒困境。

囚徒困境

囚徒困境是一个典型的博弈策略，我们通过一个故事来描述它：

故事的主角是小明和小强，他俩因为从小不好好学习，长大以后没有收入来源，只好合伙入室盗窃为生，结果第一次准备作案就被警方逮个正着。
因为警方怀疑他们作案，但并没有掌握确凿的证据，所以对他俩进行隔离关押、隔离审讯。警方告知他们：如果其中一方供认盗窃之事，则坦白从宽减刑2年，只需要判刑1年，而拒不供认的一方则加以妨碍公务罪加刑两年，共判刑5年；如果两方都供认偷窃之事，则都判刑3年；如果两方都拒不供认，则只能以私入民宅罪判刑1年。

站在局外人的角度考虑，双方只要都拒不供认，就只需要都判1年即可。假设两人可以沟通协定，或是都是“重义之人”，则他们将能够得到这个结果。但作为“理性”的“局中人”，他们不会选择这种策略。

作为小明来思考：如果小强够“义气”，不供认，在此条件下，自己供认则需要判1年，自己不供认也要判1年；如果小强选择了供认，那么在此条件下，自己供认需要判3年，自己不供认需要判5年。因此，无论在哪种条件下，自己选择供认都是占优策略。
同样作为小强，也面临着同样的选择，图表如下：

强\明	抵赖	招供
抵赖	1 \ 1	5 \ 1
招供	1 \ 5	3 \ 3

从图表中也可以直观的看出，两人的优势策略都是招供，但整体上确是最无效的选择。这种无效性是由于每个人都不知道对方最终的选择，即只具有局部信息，以至于合作无法进行，个人只能在对方选择特定策略的条件下来选择自己的占优策略，这种最终必然被选定的策略可以称作均衡策略，也可以叫做纳什均衡。

官场中的囚徒

我们常常感觉到官场是一个染缸，圣人进去，出来也成了墨色。这又是为什么？同样先来看一个故事：

玉戭（yǎn）生和三乌丛臣是朋友。玉戭生说：“我辈应该自我激励，他日入朝（为官），权势人的门绝不涉足。”三乌丛臣说：“这是我痛恨得咬牙烂心的行为，干吗不对这事发个誓？”玉戭生很高兴，就歃血盟誓道：“二人同心，不徇私利，不为权位所诱，不趋附奸邪献媚的人而改变自己的行为（准则）。如有违背此盟誓，神明杀死他。”
没多久，他们一起在晋国为官。玉戭生重申以前的誓言，三乌丛臣说：“说过的誓言犹如还在耳畔，怎么敢忘记啊！”当时赵宣子在国王前得宠，各位大夫每天奔走于他家。三乌丛臣反悔（当初的誓言），又怕玉戭生知道他反悔，又不能不去（赵宣子家）。鸡一报晓，就前去侍侯宣子。进得门来，见在正屋前东边的走廊有个端正地坐在那里的人，举灯一照，是玉戭生。各自羞惭退去。

在这个故事中，两人最终都背叛了誓言，选择了巴结权贵，这个模型的图表如下：

玉\三乌	巴结权贵	不巴结
巴结权贵	升官 \ 升官	升官 \ 落选
不巴结	落选 \ 升官	落选 \ 落选

从图表中可以看出，无论其他人怎么做，自己选择巴结权贵都是占优策略，也就是说，官场上的策略均衡点落在了“巴结权贵”上。因此，在古往今来的所有官场之中，趋炎附势、贪污腐败从来都是常态。

比比皆是的囚徒困境

除了官场之外，囚徒困境的例子在生活中比比皆是，以下举几个常见的例子：

1.职工权益：职员在要求提高福利或拒绝加班时面临典型的囚徒困境。如果所有职员都拒绝加班，那么每个人的收益可能是1；但倘若其中有一个人不拒绝加班，则势必会得到老板的青睐，从而收益可能是5；当每个人都选择加班时，老板就不会只青睐某个人，所有人的收益都变成了-1；如果其他人都选择加班，而某个人拒绝加班，则有可能被穿小鞋或借故辞退，他的收益为-5。那么，策略表如下：

个人\其他人	加班	不加班
加班	-1 \ -1	5 \ 1
不加班	-5 \ -1	1 \ 1

从表中我们可以看出，无论其他人选择加班或是不加班，个人选择加班的收益都更大，所以最终的纳什均衡点落在了（加班、加班）上，从而每个员工都只能选择加班。

2.消费者权益：与职工权益类似，团体消费者（比如购买同一个小区住房的业主）在维权时，也存在着同样的囚徒困境，因而所有人都愿意选择等待其他人维权最终自己享受同样的成果。这种做法最终的结果就是维权难以成功，总是便宜了商家。

3.学生时代在操场长跑时涌现的各路bitch，“曾经说好了一起跑，可你却偷偷加了速”。实际上，在跑步之前约定一起慢慢跑就是在制造一个虚假的“共识”，从而形成一个囚徒困境，这时选择背叛的人就能够获得最大的利益。

4.势均力敌的公司之间所进行的价格战：无论对方是否降价，自己降价都是占优策略，均衡点在“双方都降价”。

5.国家之间的关税战：无论别国是否提高关税，自己提高关税都是占优策略，均衡点在“双方都提高关税”。

6.恋爱：无论对方是否付出，为你付出多少，自己选择不付出都是占优策略，均衡点在“双方都不付出”，所以这也是现在谈恋爱走心越来越困难的愿意之一。

7.不忠：无论对方是否对自己忠诚，自己不忠都是占优策略，均衡点即是“双方都不忠”，所以婚姻很难保鲜啊。。。

虽然上面列举了如此多的囚徒困境，均衡点都很阴暗，似乎囚徒困境的均衡点总是“背叛”，以至于让笔者对人生产生了些许绝望之情，，但是尽管如此，社会并没有完全发展到这样负面的境地，为什么？

最后一个小节我们将用来回答这个问题。

囚徒困境的结果为什么并不一定落在均衡策略上？

其中一个原因是人类并非“完全理性”，感性、感情等在决策中占据了一席之地；另一个更重要的原因在于，道德和法律制度的约束改变了矩阵中的收益，从而改变了均衡点。

举个例子，选择对伴侣不忠的人尽管享有了多个伴侣带来的收益，但同时也受到道德的强烈谴责，选择离婚还会失去财产，而重婚则是犯罪行为，，如果一个人足够的重视道德品质或重视财产，那么选择不忠可能就不是一个占优策略，这时的纳什均衡点就落在了“忠诚，忠诚”上。见下表：

对伴侣不忠，而且没有其他外在约束时可能的矩阵收益：

自己\伴侣	忠诚	不忠
忠诚	3 \ 3	-5 \ 5
不忠	5 \ -5	-3 \ -3

上述矩阵我们可以理解为，两人都忠诚时，爱情的收益为3；两人都不忠诚时，失去爱情的收益为-3；而当自己忠诚伴侣却不忠诚时，自己不仅需要承担失去爱情的-3，还会产生被欺骗等负面的情绪-2；反之如果自己不忠而伴侣忠诚，则不仅自己享有爱情的收益3，还享有“出轨”的收益2。最终我们发现，无论伴侣是否忠诚，自己选择不忠都是占优策略，所以纳什均衡点落在“不忠，不忠”上。

但如果有其他约束存在，比如选择忠诚可以得到更多的美誉+1，而选择不忠则会身败名裂-2，这时矩阵的收益变化如下：

自己\伴侣	忠诚	不忠
忠诚	3+1 \ 3+1	-5+1 \ 5-2
不忠	5-2 \ -5+1	-3-2 \ -3-2

整理如下：

自己\伴侣	忠诚	不忠
忠诚	4 \ 4	-4 \ 3
不忠	3 \ -4	-5 \ -5

我们可以看到，此时无论伴侣是否忠诚，自己选择忠诚都是占优策略，因此纳什均衡点又落在了“忠诚，忠诚”上。

但是，一旦外部条件发生变化，纳什均衡点就会再次发生变化，常见的，比如新遇到的“外遇对象”颜值足够高，那么选择“不忠”的收益将扩大，均衡点可能会回落到“不忠，不忠”上。

在上面的例子中，实质上结果始终是落在均衡策略上的，只不过加入了新条件的困境实际上已经不是原来的那个困境了，所以看起来好像是结果发生了变化，实际上只是条件发生了变化而已。

囚徒困境的结果不一定落在均衡策略上，还有第三个最重要的原因——多次博弈。

你是否注意观察过，火车站附近的小饭店做的饭常常十分难吃，而你们家附近的小饭馆做的饭却比较可口且实惠？

在博弈论中这一点非常好解释，因为火车站附近的小饭馆顾客们基本只会来一次，所以偷工减料不用心做将带来更多的收益，我们看下图——火车站附近小饭店的收益矩阵：

饭店\顾客	仅一次
好吃	1 \ 3
难吃	3 \ 1

这个矩阵不是标准的囚徒困境矩阵。在这里我们只需要理解核心部分，因为顾客只来一次，所以饭店采取“难吃”的策略将会获得更多的收益。

但在家附近的小饭馆，如果做的不好吃，下一次就不会再来吃了，

饭店\顾客	第一次	第二次	第三次	第n次
好吃	1 \ 3	1 \ 3	1 \ 3	1 \ 3
难吃	3 \ 1	0 \ 0	0 \ 0	0 \ 0

观察矩阵我们可以看到，店家做的难吃将会断送以后所有的收益机会，因此店家的占优策略就是做的好吃。

类似的，在第一节中描述的两个囚徒，如果需要做多次博弈，他们必然会在不断的博弈中从背叛走向合作，因为尽管信息无法共享，但每个人都知道，如果自己选择合作赢取对方的信任，那么在下一次的博弈中，对方也会选择合作（如果对方依然选择背叛，自己也可以通过背叛来惩罚他，多次之后双方必然共同选择合作）

在关税问题上的囚徒困境问题就是通过多次博弈来调节的。因为A国增加关税必然引起B国同时增加关税，而这样会对A国也造成不利影响，多次博弈之后两国必然遵守契约同时降低关税。

类似上述的情景在生活中还有很多，比如人们在认识的人中更愿意展现自己优秀的一面，更谦让，而对不认识的人可能会不讲礼貌；又比如人们在生活中可能竭力扮演一个谦和、听话、认真、乐于助人的角色，而在网络上却变得肆无忌惮。

在上一篇中我们说到逆向选择问题，实际上二手车市场也可以看作一个囚徒困境，因为无论车子好不好买家支付更低的价格都是占优策略，因此，拥有好车的卖家只好退出市场。而且二手车交易基本是单次博弈，所以不存在多次博弈的调节机制。

结束语

博弈论是一门宏大的学问，但却不是一门完备的学问。借助这个工具，我们能更好的探索世界，也能更好的了解人性，但它并不是对这个世界最好的描述——最好的描述可能只是世界本身。

囚徒困境产生的其中一个条件是局中人面临不完备的信息。这种信息的不对称性，其一在于信息的获取往往是不对称的，可能是由于成本过高或是其他原因导致的信息闭塞；其二在于人们相互之间的不信任，即便某人说出了自己会采取的策略，别人也无法断定他将会按照自己所说的策略行事（即可能存在欺骗）。

因此，在这个世界上，想要减少类似的困境，真正实现集体资源的有效配置，实现集体价值和个体价值的统一，可能是比探索宇宙起源更难的事情，我们要做的还有很多。

愿天下大同，再无纷争，愿人类相互理解的时代终有一天能够到来。

posted @ 2018-02-21 09:33 AbrahamJiang 阅读(327) 评论(0) 编辑收藏举报

刷新页面返回顶部

AbrahamJiang

为天地立心，为生民立命，为往圣继绝学，为万世开太平

经济学中的人性抉择（下）

序

囚徒困境

官场中的囚徒

比比皆是的囚徒困境

囚徒困境的结果为什么并不一定落在均衡策略上？

结束语

公告