《博弈论》笔记
一、博弈论不是”三十六计“
任何一本讲博弈论的书都会先告诉你博弈论有多重要,不过我想咱们应该先面对现实。现实是博弈论是个奇怪的话题。
人们非常愿意了解博弈论,每个商学院都要给MBA开博弈论课程,几乎每一本流行的讲博弈论的英文书都有中文版,我们经常在媒体看到“博弈”这个词,但是,人们很少真正使用博弈论。你不太容易听到有人说,这件事根据博弈论应该怎么办。
为什么会这样?以我之见,不是博弈论没用,而是人们对博弈论的用法有误解。要想知道博弈论有什么用,我们先来思考一个明摆着、但是从来不被提起的问题。
如果博弈论是讲谋略的,那像“三十六计”这样传统的计谋,跟博弈论是什么关系?博弈论是科学版的三十六计吗?
0x1:计谋和战略
传统中国文化给世界人民的印象,中国是个武术之国;而在我们中国人心目中,中国更是计谋之国。我们有《三国演义》《三十六计》和各种兵法,像诸葛亮、吴用、刘伯温这些军师形象特别深入人心。但是你注意到没有,“计谋”这东西,好像都是民间在谈,计谋不是严肃的学术课题。
战略,好像很高大上。计谋,好像上不了台面。这是为啥呢?
因为计谋不值得被认真对待。
咱们看看《三十六计》里的计谋,
- 瞒天过海
- 声东击西
- 暗度陈仓
- 笑里藏刀
- 欲擒故纵
- 偷梁换柱
- 上屋抽梯
- 美人计
- 空城计
- 反间计
- 等等
这些“计”,本质上都是骗术。自己要做A,就让对手以为自己要做B;不希望对手做C,就吸引对手去做D。《三十六计》在很大程度上是一本阴谋诡计之书。
诡计有三个问题,一个比一个严重。
- 首先,诡计都有巨大的风险。诡计要想成功,你不但必须严密封锁信息,而且还得假设对手是比较愚蠢的。
比如说“空城计”。司马懿领兵来打,诸葛亮手里没有兵,自己故意在城头抚琴,做出一副胸有成竹的样子,让司马懿以为城内有兵,然后就真的被吓跑了。我们想想这可能吗?最起码的一点,司马懿作为一个军事指挥官,带领一支军队去攻打一个城,居然事先对这座城的兵力部署没有丝毫了解吗?你的情报系统呢?反过来说,城里这么多老百姓,诸葛亮就一点都不担心走漏消息吗?
真实历史中诸葛亮并没有对司马懿使用过小说里那个空城计。这个操作风险太大了。诸葛亮不但要假设信息被完全封锁,还得假设司马懿知道自己是个谨慎的人,而且还得假设司马懿不知道自己已经知道司马懿知道自己是个谨慎的人,而且司马懿居然连骚扰一下都不敢就跑了。
- 诡计的第二个问题是不能长期使用。
骗人一次也许真能成功。有些卖假货的人为了应付检查,不会只卖假货,让真货和假货混合,这不就是“瞒天过海”吗?这个手段的确比生硬的欺骗高级,但仍然是欺骗,而欺骗是不能长久的。
当然《三十六计》中也有很多计谋不是骗术,比如围魏救赵、远交近攻、借刀杀人、趁火打劫等等。
- 但即便是这样的计谋,也跟骗术一样,还有一个更大的问题,那就是它们说的都是“零和”游戏。
零和的意思就是我要想赢你就得输,我想要得到什么你就得失去什么,咱俩的得失之和等于零。真实世界中,除了战争,很少有这样你死我活的局面。商业竞争也好,平时人和人相处也好,一般都不是零和游戏。两个集团想要长期共存,就必须得找到一个能够双赢的方法,而不是互相使用计谋。
计谋的故事听多了容易产生幻觉。我们看各种演义故事,因为过分相信计谋的作用,给人感觉好像实力都不重要了。我们动不动就要以弱胜强,要打“聪明仗”,好像以弱胜强是个普遍情况、四两拨千斤是个常规操作一样。
鲁迅先生说《三国演义》“状诸葛之多智而近妖”。其实小说里的诸葛亮之所以那么算无遗策,是被对手的愚蠢衬托出来的。计谋的本质,是一厢情愿。
中国也许是个计谋大国,但真不是战略强国。考察历史,中国对外战略大约是失败的多,成功的少;被意识形态裹挟的多,头脑清醒的少。北宋和辽国因为澶渊之盟长期和平共处,辽国已经几乎被汉化、成了大宋的一个很好的屏障的局面下,看到金国崛起,大宋居然想对辽国来个“趁火打劫”,结果金灭了辽马上就攻打大宋。等北宋变成南宋,好不容易又跟金国和平共处了一段时间,一看蒙古崛起,又对金国来了个趁火打劫。我相信大宋必定有不少明白人,但是一厢情愿的人显然更多,竟然让同样的错误犯了两次!
计谋要是太多,愚蠢的人就不够用了。博弈论研究的是”理性人“之间的博弈。
0x2:什么是理性
因为现在流行“行为经济学”,人们爱说人是非理性的,连有的学经济学的人都不敢理直气壮地说经济学假设人是理性的了。但是地道的经济学必须得假设人是理性的,如果人不是理性的,所有数学模型、包括供求关系之类的基本结论就都灰飞烟灭了。
人的确经常表现得不理性,但经济学的理性人假设并不算错。这是因为人在做熟悉的事情、重要的事情、涉及到钱的事情的时候,通常是相当理性的。
而这些事情恰恰是经济学、也是博弈论的研究对象。博弈论假设人是理性的,表现为三个要求。
- 第一,你得知道你想要什么,并且对你想要的东西有一个明确的排序。
- 第二,你的行动是在一定的规则之下,争取得到你想要的东西。
- 第三,你知道对手也是这么想的,而且对手也知道这些规则。
这三个要求都很简单,但是我们得承认,有些人在有些时候真做不到。比如说之前新闻中的“高铁霸座男”,他是个博士,我觉得你要是问他是个人的形象和声誉重要还是一个座位重要,他会更想要形象和声誉,可是在高铁上那一刻,他的情绪战胜了理智。人有时候会被某种情绪劫持,这种情况不是博弈论的研究内容。
但如果一个人长期这么做事,其中可能就有理性的成分。比如现在一个热门话题是老年人容易上当受骗,买一些不靠谱的保健品。这些老人都是非理性的吗?
不一定。那些推销保健品的人卖的并不仅仅保健品,同时也是一种情感服务,比如认干爹干妈之类。老人未必不知道保健品没啥用,但是老人可能认为反正吃保健品也没什么坏处,他花点钱满足一下情感需求未尝不可。
如果一个现象长期存在,那就有可能是博弈论的研究内容,博弈论称之为“均衡”。
再比如说,像百度、莆田系医院、拼多多APP这些东西,充斥着假货和骗局,为什么能长期存在呢?也许这就是当今中国的博弈格局所决定的,这个结果可能是各方的理性选择。
0x3:博弈论的用处
因为要求各方是充分理性的,有时候博弈论会得出一些非常怪的结论。
比如你可能听说过这个故事。老师让全班所有同学都想一个数字,说谁想的数字最接近全班平均值的2/3,谁就获胜。那如果我们假定所有同学都足够聪明的话,正确答案应该是0。这是因为不管你猜测全班人的共识是多少,你都会把这个共识乘以2/3,但别人也能想到这一点,他们也会把你的数字再乘以2/3……你们的每一步推理都会让共识变得越来越小。而事实上哪个大学的学生都不会得出这么极端的答案来。
生活中绝大多数人不会聪明到那个程度,去做那种极端的推理。那难道说博弈论真的没用吗?博弈论的实际应用,并不是这种数学谜题。
博弈论能帮助我们理解长期存在的各种现象。如果你观察到社会上有很多不合理的现象,而这些现象还长期存在,你会认为这是因为社会上的人都太愚蠢了吗?博弈论会让你考察现象背后的博弈规则。
当然,这绝对不是说可以理解的现象就”应该“长期存在。博弈论更重要的作用,是告诉我们如何改变不好的局面。
可能这个坏局面是因为博弈是单次的,可能其中有信息不完全的问题,可能是因为那个许诺不可信。现在博弈论已经能够提供各种工具,帮我们达成更好的局面。
我认为人们之所以用不上博弈论,是因为缺少识别博弈格局的眼光和改变博弈规则的意识。
对个人来说,最起码的一点,你应该时刻提醒自己要理性。研究博弈论就好像下棋一样,你要考虑你的每一个行动都是有后果的,你要事先想好对方会有什么反应,然后你再怎么应对,然后对方再反应……一直到最后是个什么结果。
而我觉得一个更深层的意识是,你应该首先做一个“player”。
Player,在游戏中叫玩家,在体育比赛中叫选手,在博弈论中叫参与者,其实都是一个意思,博弈论(Game Theory)说的都是 game。有一点参与游戏的精神,你就有权在规则范围内采取对自己最有利的行动,你就是积极主动的,你就会平等对待对手,你就既不是一个浑浑噩噩整天根据别人设定做事的人,也不会有整个世界绕着自己转的幻觉。
二、群鸦的盛宴
博弈论是关于人在社会中如何做理性决策的理论。理性决策常常不是我们喜欢的决策。宋神宗有句话叫“快意事便做不得一件”,说的就是理性决策总是不得已的。在现有的规则之下,考虑到对手的反应,你通常没有太多选择。
面对世间种种无奈,文人总爱感慨说是人心不行或者文化不行。你学了博弈论就会发现,很多事情是这样并不是因为有人喜欢这样,这不是思想品德的问题。哪怕所有人都不喜欢这个局面,所有人却都只能维护这个局面。
有时候人们感觉简直就是身处无间地狱:每个人都在受苦,谁都没办法脱离苦海。只有博弈论能解释这样的现象。陈道明在《无间道3》里有一句话,说“往往都是事情改变人,人改变不了事情。”
往往是博弈改变人。但我们学习博弈论的终极目的,就是要改变博弈。这章咱们讲博弈论的三个基本概念:“帕累托最优”、“压倒性策略”和“纳什均衡”。
0x1:为什么商家总扎堆?
你注意到没有,同一类商家总爱聚集在一起。偏一点的地方什么都没有,热门地段却有好多同样的店,一个十字路口竟然会有两家加油站。新闻媒体也是这样,一有什么重大事件或者热门电视剧,你打开电视所有频道都是这个内容。从消费者的角度,我们希望加油站更分散一点,让所有人都能就近使用。我们希望产品有更多的差异化。那为什么商家非得扎堆呢?
用博弈论思考,这并不是商家都盲从、只知道互相模仿,而是他们不得不这样。
博弈论要求你必须考虑竞争对手会怎么做。
咱们把问题简化一下。设想有一个比较长海滩,你要在海滩上摆个摊卖冰激凌。你应该把摊放在哪里呢?
如果整个海滩只有你一家冰激凌摊,那你摆哪里都可以。但是考虑到可能将来会有竞争对手,你就应该把冰激凌摊摆在中间!这是因为如果你摆的位置比如说偏右,对手来了只要往中间区域一摆,他辐射的势力范围就绝对大于你。
好,现在作为先来者你已经把摊位摆在了中间。那如果新来了一个竞争者,他应该把冰激凌摊摆哪儿呢?如果他的位置靠右,的确能够独占他右边的市场,但是那也就等于把从你俩中间开始算,左边超过一半的海滩都拱手让给你了。所以没办法,他也只能把摊位放在中间,只有这样才能跟你平等竞争。
这就是为什么要扎堆。可是我们想想,如果两家事先商量好,分散开,在海滩上1/4和3/4这两个位置分别摆摊,其实还是两家平等赚钱,而且还能确保消费者买冰激凌的走动距离最短。这样多好呢?
从扎堆到分散的这个改进,两个商家的利益都没有受损,而消费者的境遇更好了,所以可以称得上是“帕累托改进”。帕累托是一位意大利经济学家,帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时,使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了,这个局面就叫“帕累托最优”。
一个理想的、令人快意的世界应该是帕累托最优的。扎堆显然不是帕累托最优,分散才是帕累托最优。那为什么博弈的结果不是帕累托最优的呢?
因为在这场博弈中,帕累托最优是个”不稳定“的局面。就算一开始两家商量好了分散摆摊,将来也会有一家偷偷地转移到中间去!他这么做不是帕累托改进,因为会伤害对手和消费者的利益,但是这么做对他自己很有利。
理想青年喜欢帕累托最优,但是博弈论告诉我们只有稳定的局面才能长久存在。
0x2:囚徒困境
你可能已经非常熟悉“囚徒困境”的故事了,但是因为从这个故事里能得出特别重要的概念,我们值得专门讲一遍。
有两个小偷被警察抓住了,但是警察手里并没有过硬的证据,只能指望口供。警察开出的条件是如果两个人都招供,那就都判刑3年;如果有一个人招供,另一个人不招供,那么招供的人就算立功,可以无罪释放,而不招供的人就要严惩,判刑5年;如果两个人都不招供,因为证据有限,所有两个人都判刑1年。警察不准两人通气,都是单独审讯。
咱们别管什么正义和邪恶,咱们帮这两个囚徒分析一下博弈策略。首先我们要把不同策略和结果画在下面这张矩阵图里。这种画法是美国经济学家托马斯·谢林发明的,谢林曾经开玩笑说发明矩阵图是他对博弈论所做最大的贡献,
矩阵边上是两个人采取的策略,中间是各种策略组合带给两人的回报。你一眼就能看出来,最好的结果是两个人都不招供,然后都被判一年。
但是博弈论要求我们每次做判断都要考虑对方,不是考虑怎么对对方好,而是考虑对方会怎么做,然后你怎么做。
- 对囚徒1来说,如果对方招供了,他就只能招供,因为不招供判5年招供判3年。
- 可是如果对方不招供,他还是应该招供,因为他招供就是立功,可以直接走人。
也就是说,不管对方是招供还是不招供,囚徒1最好的策略都是招供。
这就引出了我们要说的第二个概念,叫做“压倒性策略(Dominant Strategy)”。这个策略压倒其他一切策略,不管对手怎么做,这个策略对你来说都是最好的。
反过来说,不招供,对囚徒1来说则是一个“被压倒性策略(Dominated Strategy)”,也就是不管别人怎么做,你这么做对你都是不好的。
作为理性的人,如果博弈中有压倒性策略,你就一定要选择这个策略。任何情况下都不要选择被压倒性策略。
囚徒1的压倒性策略是招供,囚徒2当然也是如此。结果就是两个人都被判刑3年。这个结果可不是帕累托最优。
但这个结果是”稳定“的。这表现在任何一方都绝对不会单方面改变策略。这就引出了我们要说的最重要概念:纳什均衡。
纳什就是电影《美丽心灵》里说的那个数学家约翰·纳什。纳什均衡的意思就是这么一种局面,在这个策略组合里,没有任何一方愿意单方面改变自己的策略。
换句话说就是不管我们喜不喜欢,这个局面我们认了。关键词是“单方面”。是,如果咱俩都不招供会更好,可是要变必须得一起变,我自己不可能”先“变。因为人人都不愿意先变,结果这个局面就变不了。
诺贝尔经济学奖得主罗杰·梅尔森有句话说,纳什均衡对经济学的意义,就如同发现DNA双螺旋结构对生物学的意义那么重大!我理解这就是因为纳什均衡给了我们一个观察世界的眼光。
前面说的扎堆摆摊就是一个纳什均衡。如果一个现象能够在社会中长期稳定地存在,它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们评价一个局面不能只看它是不是对整体最好,它必须得让每个参与者都不愿意单方面改变才行。
理想青年喜欢帕累托最优,理性青年寻找纳什均衡。
比如你要跟人签个协议,如果你希望这个协议能被各方遵守,那它就必须得是一个纳什均衡。一个制度哪怕再好,如果不是纳什均衡就不会被遵守。一个制度哪怕再不好,如果是纳什均衡就会长久存在。
0x3:秦朝人的游戏
《权力的游戏》这个电视剧使我想起了霍布斯的《利维坦》。铁王座上一旦没了强力人物,维斯特洛大陆就陷入了“一切人对一切人的战争”。我们看现实中不也是这样吗?伊拉克和叙利亚有个独裁者还好,没了独裁者的高压统治各方势力立即互相残杀,老百姓进入想做奴隶而不得的时代。
《利维坦》中的“战争”和“高压统治”这两个局面,都是纳什均衡。
现在很多爱好自由的人向往中国古代的战国时期,那时候百家争鸣、人人争先。可是战国时期的人并不喜欢战国,那其实是一个互相残杀的时代。
我们想想当时的博弈局面。如果你的邻国都在励兵秣马,你应该怎么办?难道你真能像孟子说的那样用王道去感化别人么?你的“压倒性策略”是也只能备战。甚至有时候你还应该先下手为强,主动发动战争。单方面改变策略是不可行的,这是纳什均衡。
这个互相残杀局面的终结不是靠谁改变策略,而是靠秦国把策略用到极致,用最高水平的暴力完成的。中国统一之后,游戏规则就变了,专制强权的策略是臣服于我的都可以安居乐业,然后谁敢反对我我就对他坚决打击。
而被统治者则面临一种多人的囚徒困境,也叫“人质困境”。是,如果大家联合起来就一定能推翻统治者,可问题是谁带头呢?强权会枪打出头鸟,谁带头谁先死。没有人愿意单方面采取行动,这又是一个纳什均衡。
那我们现在回想,秦朝后来之所以失败,可能不是因为什么法律太严厉,而是因为秦朝对自己的统治力过分乐观。博弈论告诉我们专制强权的主要威胁来自内部!可是秦朝把军队主力都部署到外面,居然来不及打击内部的起义军。后世的统治者显然吸取了秦的教训,武装力量重点都是对内的……
理想青年一边赞美百家争鸣一边感叹背叛和杀戮,而你知道此局无关文明与民主,那只是一场权力的游戏。
不知道这一讲会不会让你感到有点悲观。帕累托最优常常不是纳什均衡。那既然有囚徒困境这样局面的存在,是不是就非得有个强权来解决问题呢?不一定。
就拿商家扎堆这个现象来说,以前主流媒体的内容的确是同质化严重,但是后来有了互联网,我们就能看到各种满足细分需求的自媒体。这就相当于有人愿意在海滩的边缘摆摊。这是为什么呢?因为市场的门槛变低了,小成本也可以经营,就没有必要抢主流市场,游戏改变了。
说道这里,我们总结一下摆脱纳什均衡,向帕累托最优转移的思路总共有哪些,
- 使用更高级别的强权,同时改变「两因素系统」里的各个参与方,即所谓的强权控制
- 增加新的竞争维度,创造出一个新的蓝海空间,规避坏的纳什均衡
- 将博弈的形式推广为「重复博弈」,改变单次博弈所在的坏的纳什均衡
- 在players之间构建信息交流通道,改变players之间的「压倒性策略」
三、以和为贵
博弈论研究的一般都是“非合作博弈”,参与者并不是心往一处想劲往一处使齐心合力办大事,而是每个人想的都是怎么让自己赢。那么有些人可能会对博弈论产生误解,说你们这是不是研究怎么自私自利勾心斗角,这算不算搞破坏呢?不是。出发点是非合作的,结果却可以达成合作。
这也是经济学的光荣传统。从亚当·斯密开始,人们就已经知道哪怕每个人都是自私的,各人都是为了自己的利益工作,全社会却能达成高水平合作。
现在我们知道有囚徒困境、公地悲剧、信息不对称、市场失灵这些现象,那是不是说“看不见的手”就不管用了,必须得让看得见的手来强制人们达成合作呢?
这些恰恰是博弈论的课题。任何一门社会科学的终极目的都应该是要促进社会合作。合作对所有人都有好处,不合作只可能带来暂时的利益。但是博弈论研究的合作可不是要搞“思想道德教育”去劝人行善,也不是让一个强权去管制人民,而是寻求能让人自愿合作的机制。
好的合作,一定得是个纳什均衡。
纳什均衡是一个美丽的概念。它能解释很多很多现象,能让我们迅速破解各种博弈局面,更能给我们设计博弈机制提供约束条件。
其实在很多博弈中,人们原本就想合作。
0x1:聚焦点
你觉得世界上最完美的法律是什么?我认为是交通法规,比如说“右侧通行”。首先它是最平等的,有钱没钱有权没权你都得走路,走路就得右侧通行。更好的是,每个人都自觉遵守右侧通行,现在别人都右侧通行,如果你非要左侧通行,你就得撞车,你立即就会伤害你自己。
所以你看,只要马路上有相向而行的车辆,只要这个地方的法律规定了右侧通行,右侧通行就一定是个纳什均衡。没有人愿意单方面违反这条法律。
但是你想过没有,右侧通行的法律可不是通过什么第一性原理推导出来的。没有生理学或者物理学的定律说人就应该靠右侧通行,这只个是任意的规定。
英国人左侧通行,也没有因而产生身体不适。事实上左侧通行也是一个纳什均衡。有些博弈中有多个纳什均衡。
那如果一个博弈中有个多个纳什均衡,人们应该如何做选择呢?
上一章我们说的那个发明了矩阵图的美国经济学家托马斯·谢林(Thomas Schelling),在1960年出了本书叫《冲突的策略》,其中提出一个观点,说你可以根据约定俗成选择。谢林后来靠博弈论的工作拿下了2005年的诺贝尔经济学奖。
谢林说的一个经典例子是这样的。比如说咱俩约定明天要在纽约市见面,可是既没说时间也没说地点,你应该怎么找我呢?
谢林说你应该考虑那些就算事先不说,人们也能想到的选项。一天之中最常用的时间是中午12点,纽约市最常用的地标是中央地铁站,所以你最好的选择,是中午十二点去中央地铁站找我。
这样的选项,谢林称之为“聚焦点(focal point)”。聚焦点就是在众多可能的纳什均衡中最显眼的那一个,人们会自动在这一点上达成合作。聚焦点的作用是协调。
一般博弈论老师讲到聚焦点,都会让学生当场做个实验。比如我们的实验可以是这样的,给你四个数,7、39、481、1342,两个学生各自从中挑选一个,如果两人选的数字一样,就能获得奖励。那请问你选哪个呢?
当然是选7。7是这四个数中最常见的一个,而且还排在第一位。从纯数学的角度每个数都是平等的,选哪个都可以是纳什均衡,但是人总有些约定俗成的偏好,这就是聚焦点。
0x2:生活中的聚焦点
经得起实践考验的概念总是这样的:一旦说破了,你有了这个眼光,你就发现它简直随处可见。
- 有些聚焦点是设计出来的。科技产品的“标准”,就是聚焦点。很多公司要卖DVD光盘,很多厂家在生产DVD影碟机,对所有参与者最有利的局面,是光盘和影碟机有一个统一的标准,让所有影碟机都能放所有的光盘。这个标准具体是什么其实并不那么重要,重要的是必须得有标准。
- 有些聚焦点属于历史路径依赖。像度量衡,用公制就都用公制,用英制就都用英制,你很难说哪个系统更科学。再比如键盘,可能 QWERTY 并不是最科学的布局,但是既然已经成了标准,而且也不是特别不方便,我们干脆就认了。
有了聚焦点思维,我们就应该在没有聚焦点的时候主动提出一个聚焦点,促成合作。
你可以先下手为强。如果DVD是你们公司发明的,那你就应该直接定义DVD的标准,让别人追随你。而如果人人都想制定标准,那让政府出面也不算是对人民的压迫。
比如我觉得,政府在高速公路上搞限速,其实等于是提供了一个聚焦点。开车并不是越慢越安全。如果所有人都开得很快,你要开得慢你就是安全隐患。如果所有人都开得很慢,你开得快也容易出事。只要大家都用同样的速度开,每个速度都是纳什均衡。那到底用哪个速度呢?限速牌就提供了聚焦点。
政府说这个路段限速每小时100公里,司机的理解可不是”最高“100,而是”建议“100,结果所有人的车速就在100到110之间,合作达成。
聚焦点的最大价值就是它的存在本身。
明天公司要开个重要会议,那几点开呢?几点都行,关键是你得先有个点,让大家协调。像每周的例会,就应该在固定时间固定地点进行。
由此说来,传统文化和社会习俗其实也是作为聚焦点起到了协调合作的作用。中国人讲老人要坐在主座,西方讲女士优先,其实这些规范具体是什么没有那么重要,重要的是得有个规范,有了规范就能省下一大堆麻烦。
请注意,聚焦点能这么有用,有一个关键的前提,那就是各方没有根本的利益冲突。我们都希望能促成这次合作,我们需要解决的只是在哪里合作。
遇到这样的博弈局面,我们一定要善于使用聚焦点。
0x3:谈判中的聚焦点
你是一个公司的董事长,你们公司要聘请一位CEO。CEO并不是一种标准化的商品,每个公司每个人的情况都不一样,就好像球星一样,年薪只能一事一议,谈判解决。
其实公司无法科学计算一个CEO值多少钱,而且CEO本人也不知道该要多少钱。你说年薪应该是800万还是1200万,好像对双方来说差别都不是很大。谈判目标有很大的任意性,但是公司和CEO本人都希望达成合作!这是典型的需要聚焦点的博弈。
比如你可以说一家跟你们相似的公司的CEO年薪是多少,你还可以援引市场上相似公司CEO的平均年薪,说我们在这个基础上,给你再提高一点,你看行不行。这样的聚焦点很容易让双方达成一致。
亲戚分割遗产、夫妻分割财产,约定俗成的办法是有争议的部分就平均分配。其实平均分配很多情况下没道理,但是社会约定俗成认为平分是最公平的。
我们看二手房和二手车交易也是这样,装修和车况的细节对成交价格影响很小,人们都是上网查查“指导价”是多少。网上价格相对于具体情况具有压倒性的优势,这也是聚焦点效应。
想要合作的人们需要聚焦点。只要你能找到借口,任何借口都可以是聚焦点。
所以如果你能在谈判中引用一个案例,说最近某某公司跟某某公司谈出来的就是这个条件,你看咱们是不是也这么办,那就是一个强有力的说法。当然对方也可以找个别的借口。但是归根结底,我们知道这些借口其实都是说辞,借口好使的根本原因是大家本来就想促成这次合作。
事实上,即便有一定的利益冲突,只要合作的愿望大于冲突,我们还是可以使用聚焦点。
0x4:实在不行……抽签吧
你和妻子打算晚上去看场电影。你想看《流浪地球》,但你妻子是韩寒的粉丝,她想看《飞驰人生》。这个博弈格局是你俩虽然存异,但是求同,你们都要求一起去看电影,是共识大于分歧。
充分认识到这个局面,你的第一个办法就是先下手为强,把《流浪地球》的票买了再说。对你妻子来说自己一个人去看《飞驰人生》还不如跟你一起看《流浪地球》,所以她只能同意。
如果谈判的时候票还没买,你还可以率先宣布坚决不看《飞驰人生》。不过从博弈论角度,你这个威胁其实是不可信的,因为你也想一起看,你妻子可能早就看透你了,而且你要是敢不谈判就买票她下次可能会剥夺你买票的权利。
博弈论专家给你们提供了两个办法。
一个办法是轮流。这次听她的,下次听你的。但是如果这样的博弈不常发生,那另一个办法,干脆你俩抽签吧。
总而言之,这一章说的是如果各方都有强烈的合作愿望,而博弈存在多个纳什均衡,我们要做的就是找到聚焦点。聚焦点可以是生活习惯,可以是历史传承,可以是传统文化,可以是先下手为强,可以是政府指导,可以是随便找到的什么借口,实在不行还可以抽签。
这个道理如此简单,但是别忘了它可是直到1960年才被提出来。
四、不纵容,但要宽容
囚徒困境在生活中实在是太常见了。凡是合作则两利、背叛则两伤的情况,都可能是囚徒困境。合作对双方都有好处,我们是好人,我们总是希望合作。但是博弈论告诉我们,有时候背叛是理性的。如果有一方合作一方背叛,选择背叛的那一方可能会获得最大的利益,选择合作的那一方会受到最大的伤害。
接下来,我们来重点研究合作与背叛。防止背叛,最直观的办法就是把单次博弈变成重复博弈。
- 为什么旅游景点的饭菜质次价高?因为那是单次博弈。你下次就不来了,他能骗一把是一把。
- 而像麦当劳这样的连锁店,哪怕是开在旅游景点,也会保证质量,因为它要为整个品牌的声誉负责。
- 很多商家说我们要做一百年,有些商店搞会员制,这些都是重复博弈。
重复博弈之所以有效,是因为背叛者会受到惩罚。最直接的惩罚就是下次我也背叛你,让你得不到合作的好处。
0x1:美国往事
以前有些阴谋论者认为这个世界是被某些秘密组织控制的,比如什么“罗斯柴尔德家族”“骷髅会”“共济会”之类,其实都是些无稽之谈。并不是说没有人想秘密控制世界,而是这个世界实在太大也太复杂,你根本就控制不了,更不用说用秘密的方法控制。
但是,美国历史上曾经有过一个非常成功的秘密组织。它的成员都是有钱人,不但有钱而且还对组织无比忠诚。组织成员视彼此为亲人,有生意通常只跟内部的人做,对外甚至根本不透露组织的存在。组织1890年代诞生于纽约,到1920年代就把势力扩大到了全国,而美国社会一直到1940年代才知道它的存在。
这个组织就是……美国的黑手党。
博弈论专家大卫·麦克亚当斯(David McAdams)在《游戏改变者》这本书里说,一群人要想合作,至少要满足下面两个条件中的一个,
- 第一,是合作对自己有好处,人们本来就想合作。
- 第二,是不合作会受到惩罚。
而美国黑手党,同时满足上面这两个条件。黑手党给好处,黑手党有纪律。最关键的一条纪律就是谁敢出卖组织,他就会被杀死,而且还是派他的亲友去杀他。
如果背叛会受到惩罚,那就不是囚徒困境了。博弈论认为有效的惩罚必须得满足几个条件。
- 首先你得能发现背叛行为。
- 然后惩罚必须得是可信的,对方知道他一定会受到惩罚。
- 再者,惩罚的力度得足够。
比如说,世界贸易组织(WTO),就不是一个很善于惩罚的组织。如果哪个成员国没有履行义务,世贸组织可能会发起一个调查。而这个调查会历时几个月,甚至几年。就算调查形成了结论,也不一定能被执行。那你说加入世界贸易组织之后,你的最佳策略是合作还是不合作呢?
我们看电视里的毒品交易,这边出一箱毒品,那边出一箱钱,本来这个交易挺公平为啥说着说着突然火并了呢?那是因为背叛的好处大大超过了惩罚的力度。两边没有组织关系,所谓惩罚无非就是下次这个生意做不成了。可是这笔交易的数额实在太大,干了这一票我们就可以退休了。为了避免这样的情况,你应该把每次交易的额度降低,让对方认为背叛不值当。
而这些对黑手党都不是问题。一直到1963年之前,居然都没有一个人敢于在法庭上承认黑手党这个组织的存在!1970年美国国会通过法案保护黑社会污点证人,但是没用。一直到1991年,因为黑手党内部矛盾爆发,有一位重量级人物反水,美国反黑才取得了重大突破。
胡萝卜加大棒,有好处有惩罚,这样的合作关系是非常稳定的。
0x2:稳定与脆弱
但是一般组织可没有黑手党那么稳定。有句话叫“堡垒最容易从内部攻破”,我们看看这句话在博弈论中怎么用。
有时候几家企业会在市场上联合起来,组成叫做“卡特尔(Cartel)”的垄断组织,去控制某一种产品的产量和价格。这种行为是政府所不允许的,但是很难找到证据。
1993年,美国司法部推出一项政策,保证给第一个承认自己参与了卡特尔的企业免除一切罪责。这个政策收到了奇效,很多企业站出来举报同伙。
那我们对比一下,同样是面对举报免责的条件,为什么黑手党就这么稳定,卡特尔就这么脆弱呢?一个是卡特尔对内部成员没有特别强有力的惩罚措施,另一个原因可能是黑手党是个非常特殊的组织。美国黑手党主要由意大利移民组成,特别强调用家庭和亲缘关系增加互信,而一般的组织没有这样的凝聚力。
利益和惩罚只是硬条件。如果内部没有起码的信任,合作就是脆弱的。
这里我们可以学习一点物理学家的思维。物理学家从来都不是只考察一个情景的可实现性,还要考虑它的稳定性。比如牛顿能算出来地球怎样绕着太阳转,但是牛顿曾经非常担心地球公转轨道的稳定性。如果有个微小的扰动,比如被一个什么小行星撞击一下,地球会不会就脱轨了呢?后来是数学家拉普拉斯证明了行星轨道是稳定的,大家才算放心。
再比如说,爱因斯坦研究给广义相对论的场方程增加了一个宇宙学常数,的确得到了一个宇宙的静态解。但是马上就有数学家证明,说你这个静态解是不稳定的,有点扰动就会坍缩或者膨胀,那么人们就意识到宇宙不可能是静态的。
博弈论里也有这样的思维。我们前面讲了很多帕累托最优的局面是不稳定,所以不可能长久存在。纳什均衡态之所以如此重要,就是因为它是一个稳定的局面。
重复博弈,怎样的机制才是稳定的呢?
0x3:以牙还牙真的好吗?
1980年代,密西根大学的政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)组织了一个博弈竞赛。博弈的内容就是囚徒困境,你要决定什么情况下合作什么情况下背叛。各路学者提交了不同的策略算法,大家两两轮流博弈,看看最后谁的收益大。
出乎意料的是,最后胜出的是一个非常简单的策略,英文叫“Tit for Tat”,一般翻译成“以牙还牙”。这个策略是,
- 1)不管跟谁,第一轮我都选择合作;
- 2)第一轮过后,我就复制对手上一轮的做法。
你上一轮要是跟我合作,我下一轮也跟你合作。你要是背叛了我,我下一轮也背叛你。如果你在哪一轮又选择合作了,那我还继续和你合作。我合作,我报复,我原谅,我只是模仿你上一轮的动作。用咱们中国话说,就是“人不犯我,我不犯人,人若犯我,我必犯人”。
阿克塞尔罗德觉得这也太简单了,肯定有更好的办法!他又组织了第二次竞赛,更多的博弈论专家参与进来,出现了更复杂的算法,结果最后胜出的还是这个以牙还牙。
以牙还牙,简单、粗暴、有效。
我们想想,以牙还牙策略有意思的一点在于它和任何一个对手博弈的时候,都是最多打成平手。双方要么就是合作,要背叛的话对手还可能比他多占一轮的便宜。可就是这样,最后算总账的时候,它的收益超过所有人,因为它既不当冤大头,也不作死。这是一个保守的策略,就好像是个以直报怨的老实人。
但是最后老实人胜出了!这是一个多么令人高兴的发现。
后来阿克塞尔罗德写了一本书叫《合作的进化》,现在已经是名著了。人们从这本书中看到了人类文明的希望,我们终究将会走向合作。
但是你可能不知道的是,以牙还牙其实是一个脆弱的策略。
这个策略对错误很不友好。计算机模拟总是精确的,但真人博弈可能会操作失误。我们设想有两个人都是按照以牙还牙的策略博弈。一开始你俩一直都是合作,但是在某一轮,他操作失误了,或者是你判断失误了,结果你把合作当成了背叛。然后下一轮你就会报复他。而这又导致再下一轮他要报复你……你们就陷入了一个再也无法合作的死循环。
这不就是冤冤相报吗?就像巴勒斯坦和以色列,两边几十年的世仇,旧的伤口还没抹平又添新的仇恨,怎么调解都调解不好。他们都不是坏人,也许他们只是以直报怨的老实人。
我们在生活中有时候也这样。小孩打一架过两天还能和好,可是成年人讲原则,两个好朋友因为一次误会就可能一辈子都不交往了。
所以在真实世界中,以牙还牙并不是最好的策略,它不够宽容。博弈论专家提出一个改进版的以牙还牙:对方背叛我一次,我继续合作;只有当对方连续背叛我两次,我再报复。研究表明,在有可能出错的博弈中,这个办法的效果比以牙还牙更好。
真实生活中别人可能犯无心的错,你可能误判。中国人有句话叫“退一步海阔天空”,强人通常不喜欢这句话,但是其实这句话很有道理,宽容能避免脆弱。不过请注意,这句话的关键词是“一步”。退一步是宽容,退两步就是纵容了。
总是事情改变人,人改变不了事情。人改变不了博弈。
但真的是这样吗?本来是想合作的,怎么就不能合作呢?如果有一方能宽容一点,被冒犯了再给对方一次机会,也许就不会是这样悲剧的结局。
五、装好人的好处
博弈论假设参与者都是理性的人,学习博弈论我们学习的也是理性的决策。理性人的一切行动都是为了自己的利益。但是另一方面,妈妈告诉我们要做个好人。那你说理性的人,还有可能是好人吗?
有的人认为我们生活的这个世界是由弱肉强食的丛林法则主导的,好人都很愚蠢。也有的人在任何情况下都选择做好人。那博弈论是怎么看待好人的呢?
0x1:好人与囚徒困境
以前有个电视节目是这样的。两个人组队答题,题目都很简单,答对一些题之后两人会获得一笔奖金,有好几千美元。节目的最大看点是怎么分这笔钱。规则是每人在一张纸条上写下“朋友”或者“敌人”这两个词中的一个。如果两人写的都是“朋友”,就平分这笔钱。如果一个人写“朋友”一个人写“敌人”,那么写“敌人”的人就拿走所有的钱,写“朋友”的人什么都得不到。如果两个人写的都是敌人,那就是谁也得不到。
这是一个典型的囚徒困境,而且博弈只发生一次。写“敌人”,要么你就拿到所有的钱,要么你就一分钱都拿不到。写“朋友”,要么你就一分钱都拿不到,要么你只能得到一半儿的钱。对吧?显然两个人的压倒性策略都是写“敌人”。
然而节目中的真实情况是53.7%的女性和47.5%的男性都选择了合作,他们写下了“朋友”。
这些人在金钱面前选择了相信一个素昧平生的人。他们宁可被人背叛也不愿背叛别人。他们选择了做好人。类似这样的研究我见过好多个,甚至有经济学家还专门跑到监狱里去,让真正的囚徒玩了囚徒困境的游戏。这些研究的结果高度一致:有一半儿、甚至一半儿以上的人选择做好人。
难道这些人都是非理性的吗?
一个解释是这些人的确有点非理性了,因为他们玩这种游戏都还不够熟练。我们说了,人在做熟悉的事情的时候通常是相当理性的。比如有实验证明,如果让一群人连续跟不同的对手玩过几把囚徒困境游戏,他们的行为就会趋于理性,会更多地选择背叛。这就好像在社会中见识了人性之恶,会把人变得成熟一样。
但有意思的是,如果让固定的两个人连续玩比如说100把囚徒困境游戏,他们会大量地合作,一直到最后几轮才开始互相背叛。
这似乎容易理解,我们在熟人面前总是做好人。但是,简单的博弈论分析并不支持这个做法!这个现象,曾经是一个著名的悖论。
0x2:好人与有限次重复博弈
上一章我们说,重复博弈会促进合作,因为你可以惩罚那些不合作的人。但是请注意,上一章说的重复博弈,其实有个隐含的假设,那就是重复次数是无限的。在有限次的重复博弈中,按理说,你还是不应该合作。
这个结论有点怪,但是逻辑很清楚。比如两个人总共要进行100次囚徒困境博弈。咱们先考虑最后一次博弈。这时候因为后面就没有惩罚的机会了,双方的压倒性策略都是背叛。对吧?
好,那既然如此,第99次博弈的时候你会怎么做?双方都已经算出来了下次对方肯定背叛,那这次还能合作吗?所以第99次博弈必定也是互相背叛。
那同样道理,第98次博弈也应该是互相背叛。……有限次重复博弈中的每一次博弈都应该是互相背叛才对。
可是实验中为什么不是这样呢?两个人直到最后阶段才背叛,前面是连续的合作。是因为他们不会计算吗?对此,我至少听到过两个解释。
- 一个解释认为,真实生活中的博弈次数的确是有限的,但是也是随机的,如果我们不知道互相还会有几次博弈,甚至不知道下次还会不会有博弈,那么为了避免将来”可能的“惩罚,这次还是应该选择合作。正所谓“做人留一线,日后好相见。”
- 一种解释认为,就算我们明确知道未来还会有多少次博弈,理性选择也应该是先合作。这个理论是1982年才被四个经济学家提出来的,叫“四人帮模型”,非常有意思,事关要不要做好人这个重大问题。
“四人帮模型”这个解释的关键在于,对方到底是不是个理性的人,这个信息是”不完全“的,这叫做“不完全信息博弈”。如果双方都明确知道对方是理性的人,那有限次重复博弈就不会有合作。可是社会上有些人就愿意当好人,他就愿意合作。那么当你面对一个好人的时候,你是合作还是背叛呢?你的理性选择是合作。
我们假设博弈双方是A和B两个人。 A是个喜欢合作的好人,B是个自私自利整天坑蒙拐骗的坏人。两人第一次博弈,B发现A没有背叛他,A居然和他合作了。
B就会想,A这个人是不是有点傻呢?那B应该怎么办呢?
如果囚徒困境要进行很多轮的话,合作对双方都有好处。这次A让B占了便宜,但是B知道A但凡有点脑子,也不可能让他永远占便宜。与其把A教育成坏人,还不如陪着他当好人,这样长期下来两个人都有好处。
所以B在下一轮选择了合作。当然我们知道,B之所以这么选,是因为他觉得A有点傻,A肯定会跟他合作,对别人,B可不敢这么干。
这样几轮合作下来,A一看B每次都和他合作,他会认为B也是个好人!就这样,一个可能是真好人,一个是假装的好人,两人就这么一路合作下去了。直到最后的几轮,他们才会露出本来的面目。
这个理论叫做“KMRW定理”,用四个经济学家名字的首字母命名。KMRW定理说,在不完全信息博弈中,参与者不知道对方是好人还是理性人,那么只要博弈重复的次数足够多,合作能带来足够的好处,双方都会愿意维护自己是好人的这样一个声誉,前期尽可能地保持合作,到最后才选择背叛。
0x3:好人与社会
这个A和B的故事你是不是感觉有点熟悉?《射雕英雄传》里,黄蓉和郭靖刚刚相遇的时候,黄蓉本是个理性人,知道江湖险恶,所以坑蒙拐骗。但黄蓉发现郭靖的行为有点傻,居然是个好人。于是黄蓉,在博弈论专家看来是完全理性地也选择做了好人。结果就成了两个好人快乐地生活在一起。
那我们现在回头想想,黄蓉到底是装好人,还是她本来就是个好人呢?更进一步,当初的郭靖到底是真好人,还是装好人呢?
从博弈论角度来说,这些问题已经不重要了。你在大多数情况下无法区分一个好人和一个理性人。
张维迎在《博弈与社会》这本书里讲到,KMRW定理可以解释“大智若愚”。
- “智”,就是人要自私,一切行动都是为了自己的利益。
- “愚”,就是宁可吃亏也不背叛别人。
每一轮都选择背叛,看似自私,其实那是“小智”。而如果宁可吃点亏也要选择合作,你就会建立一个良好的声誉,就会有更多的人跟你合作,从长期来这才是“大智”。
这就使我想起一个笑话。说小镇上有个傻青年,别人都喜欢拿一个游戏逗他玩。在地上摆一张十元和一张二十元的钞票,他每次都捡那张十元的。后来有个外地人来到小镇,慕名找到这个青年玩这个游戏,他果然捡了十元的钞票。外地人就忍不住问这个青年,说你为啥不捡二十元的钞票呢?
青年说,我要是捡二十元的钞票,还会再有人跟我玩这个游戏吗?
0x4:好人与理性人
所以理性人有充分的理由不暴露自己是个理性人,你应该假装自己是个好人。
那装好人要装到哪一步为止呢?有限次重复博弈的实验中,双方通常是到了倒数第二次博弈才暴露自己的理性人面目,选择背叛。生活中有些人的确是这么干的。比如领导干部有个“59岁现象”,老老实实做了一辈子革命工作,临退休捞一把大的。
但是59岁暴露可能还是太早了。人生的博弈并不在退休那一刻终止,你除了工作还有很多别的博弈,好人的声望可以一直有用!
也许你应该装到生命最后一刻。就好像一个著名的段子,说恋爱中的男女,女孩问男孩,你对我那么好是不是在骗我呢?男孩的回答非常符合博弈论精神,说如果我是在骗你,那就让我骗你一辈子吧。
那既然装好人有这么大的好处,我们为什么不做一个真的好人呢?做一个康德式的好人,跟人合作并不是因为合作有好处,而是我单纯认为这么做是对的!这样行不行呢?
博弈论专家绝对不会建议你去做真正的好人。好人经常对世界有一厢情愿的期待。有的好人认为他能感化别人,他觉得如果我这次跟人合作,哪怕吃了亏,下一次别人也会因为不好意思、或者为了回报我而跟我合作。博弈论专家会说这种想法非常危险。事实上,如果你身处一个比较险恶的社会环境,那你不但不应该做好人,而且应该装坏人。
不过话说回来,做真正的好人的确有个重大好处,那就是你会自我感觉很好。为了维持这个良好感觉,你宁可牺牲金钱的利益。这大约就是为什么在开头的那些实验里,有一半的人一上来就选择了合作。
现代社会就是这样,通俗小说、电影和电视剧里一般都是好人取得最后胜利。你被这样的文化熏陶,就不自觉地想要跟好人一伙儿。好人跟好人之间形成了一个想象的共同体。这其实是一个幻觉,但是没办法,想象的共同体是最强大的社会力量。
这种感觉有时候会如此强烈,以至于我们认为物质利益都是不值得的。这其实也是理性的!只要你知道自己心中什么最重要就行。
六、布衣竞争,权贵合谋
前几章我们一直把囚徒困境当做一个不好的东西,但是这里面有个立场问题。
- 站在囚徒的立场来说,你希望促进合作
- 站在警察的立场上,你希望利用囚徒困境。
市场上的企业之间的竞争,就可以说一个好的囚徒困境。作为消费者我们不希望所有公司联合起来抬高价格,我们希望各个公司互相竞争。但公司是非常理性的参与者,他们会想各种办法达成合作。
最常见的办法是通过某种协调机制进行合谋。只要参与者足够少,利益足够大,合谋简直就是必然的。
这不是一个正能量故事。
0x1:钻石故事
2006年的时候,有一部莱昂纳多·迪卡普里奥主演的电影,叫《血钻》,当时很多人看了这个片之后表示再也不喜欢钻石了。采集工付出极大代价却没有得到什么好处,钱都让商人赚了,而钻石不过是一种挺好看的石头而已!
一个公开的秘密是钻石根本就不是什么稀有的东西。天然钻石的储量其实很大,钻石之所以卖那么贵,是因为钻石业务被垄断了。
现在人们都把钻石当做永恒爱情的象征,说什么“钻石恒久远,一颗永流传”,如果你认为这个类比是因为钻石的化学性质特别稳定,我认为你是个特别可爱的人。
事实是把钻石和爱情联系在一起,和把圣诞老人送礼物和圣诞节联系在一起一样,都是商业宣传的结果。结婚戴钻戒的风俗是在19世纪才流行开来。
而就在19世纪,钻石业务出现了一次重大危机。1869年,南非发现了一个巨大的钻石矿,导致钻石的价格直线下降。商人们马上意识到这是囚徒困境,各家竞相压价的结果是大家都得死。
结果钻石商人们做成了一件博弈论意义上的壮举:大家联合起来成立了一个全球范围内的垄断集团。这就是著名的戴比尔斯公司。
戴比尔斯完全不避讳垄断这个事实,而且还引以为豪。戴比尔斯公司说我家垄断,让钻石维持一个高价格,对生产者、销售者和消费者都有好处。
你可能跟我一样不理解这对消费者有啥好处,但是戴比尔斯的逻辑是这样的。所谓“钻石恒久远”,真正的意思是钻石能保值。钻石保值,你们的爱情才能保值。钻石要是贬值,万千消费者的爱情不也贬值了吗?如果没有了昂贵的钻石,你们用什么见证爱情呢?就算你还没买钻石,你也不希望钻石贬值!
说的就好像戴比尔斯是个专门提供爱情服务的公司。总而言之,钻石是一个非常奇怪的商品,它必须价格贵才有人买,“贵”就是它的价值。
戴比尔斯这么多年以来确实做得很好。它让钻石价格始终稳定在同一水平上,不降价,但也不涨价。它小心翼翼地不去刺激美国政府,因为美国有严厉的反垄断法。它会收购潜在的竞争对手,哪里新发现一个钻石矿,戴比尔斯不惜代价也要买下来。它还教育你人工合成的钻石跟天然钻石有着微妙、但绝对是无比重要的差异。它玩的是一个滴水不漏的游戏。
但问题是钻石真不是什么稀有的东西,你戴比尔斯不可能永远一手遮天。比如在1999年和2003年,加拿大的钻石矿就宣布和另外两家珠宝公司合作,其中一家是著名的蒂芙尼(Tiffany)。戴比尔斯的垄断被打破了。
麦克亚当斯在《游戏改变者》这本书里对钻石业的未来表示了悲观。当时是2014年,戴比尔斯的市场占有率已经大大下降。
但是垄断打破之后钻石价格下跌了吗?并没有。
下面这张图是1987年以来戴比尔斯的市场占有率变化,的确是一路下降,
但是钻石的价格并没有下跌,
下面是2013年以后的数据,
可以说,戴比尔斯失去垄断地位之后,钻石价格指数的”波动“的确是变大了,但总体来说,不但没有下跌,反而还上涨了30%。
我们总是听说什么比如俄罗斯发现了一个巨大的天然钻石矿,钻石马上就要不值钱了这样的分析。可是这么多年过去了,钻石还是这么贵,爱情真没贬值。这是为什么呢?
那当然是因为理性。钻石业务的玩家仍然是少数,他们知道钻石这个东西好就好在价格贵,那是绝对不能降价的。他们非常默契地形成了同盟。
那你说政府不是不允许公司联合起来成立卡特尔吗?是不允许。但很多协调是意会,不需要成立什么敏感组织。
0x2:价格匹配
美国有些商店有个叫“价格匹配(price match)”的做法。比如你在我们商店买了个东西,一段时间内,如果你发现另一家店的价格比我们便宜,那你可以回来找我,我给你补足差价。有些商店甚至还会多给你差价的10%作为补偿金。
有多少人买个东西还关心别的店卖多少钱呢?真正动用这条规则的顾客只是少数。但是既然商店敢这么说,顾客就相信它家的价格真的够低,也就没必要继续货比三家了。而从博弈论的角度看来,价格匹配还有一个更重要的作用,那就是避免价格战。
像电子产品这样标准化的商品,消费者从哪个商店买是完全一样的,他们只会关心价格,所以特别容易打价格战。在理论上这是一个囚徒困境,商店应该把价格压低到只比成本略高才对,但事实并不是这样。你会发现各家的价格几乎都是一样的,商店之间有很好的协调。
比如A商店实行了价格匹配。本来,竞争对手B商店之所以要降价,目的是为了能吸引更多的顾客,尤其是要把A的顾客抢过去。但是现在A说了如果B降价,我给顾客补足差价!那也就是说B就算降价也抢不到A的顾客,那B还有必要降价吗?
所以价格匹配是一种不用直接对话的协调。商店之间并没有成立卡特尔组织,你政府很难说这有啥不对。
不过价格匹配主要是在互联网时代之前特别常见。对消费者来说价格匹配是个很麻烦的做法,又要提交证据又要等着退钱。到了互联网时代,消费者可以很方便地查询到各家的价格,那我们直接买一个最低价的就行了。那这回商店没办法了吧?是不是应该竞相压价了呢?
并没有。价格匹配的本质是你要降价我就跟着降价,所以你降价没用。这在互联网时代其实更方便。
0x3:互联网时代的合谋
斯坦福大学胡佛研究所的研究员布鲁斯·布恩诺·德·梅斯奎塔(Bruce BuenoDe Mesquita)是一位应用博弈论专家,他写了本书叫《预测师的博弈论》,其中讲了个买车的方法。在美国买车是可以讨价还价的。布恩诺·德·梅斯奎塔说你要买车先别去车行,你应该给每个车行打电话,告诉他们你今天下午四点之前要买一辆这个型号的车,而且告诉他们你会听取附近所有车行的报价,这样他们就会给你一个最低价格。
这里面的关键=是暗中的竞价。你跟这个车行谈出来的价格别的车行是不知道的。如果车行A知道你跟车行B谈出来的价格,而且车行A确保让车行B知道,它一定会知道车行B给你的报价,并且一定会立即匹配那个价格,你猜车行B会怎么做?它就不会打这个价格战。如果打价格战不能吸引到更多的顾客,背叛没好处,那这就不是囚徒困境了。
所以我们可以看到,打破囚徒困境的一个最好的办法就是:player之间互相进行信息通信,信息,可以将所有player从纳什均衡带到帕累托最优。
互联网时代有很多比价网站,各家的报价一目了然,看上去像是一个为消费者服务的做法。但事实上,比价网站方便了商家之间的价格协调。
商店也在互相盯着各自的报价。如果某一个商店给某个商品降价,其他商店常常会在五分钟之内也降价。特别是亚马逊,有人专门做过研究,使用专门的算法根据别家的报价调整自家的价格。
你降价我也降价,那你降价又怎么能抢走我的顾客,那你何必还降价呢?因为有这样的协调机制,至少在报价这一点上看,消费者面对的其实只有一家店。
当然,如果你真想用降价的方法吸引顾客,其实还是可以操作的。比如你可以搞“满减”之类的活动,商品价格不变,最后结账的时候再给消费者实惠。中国的网店经常这么做,这可能是因为中国的网店仍然处在成长期,还在互相抢地盘。美国的网店已经成熟了,各自承认势力范围,尽量避免囚徒困境式的厮杀。
现在美国连“募捐”这种业务都已经形成垄断集团了。你说你有个慈善项目,比如要搞研究攻克某种罕见病,想要向全国人民募捐,可以。但是你自己去募捐可不行,因为你的行动力太弱。你必须把项目包给一个专门搞募捐的大公司,它会派人挨家挨户打电话敲门帮你募捐,但是你只能得到全部收入的20%。
你说这也太不公平了,但募捐是个囚徒困境,劝说捐款的组织太多老百姓已经不胜其烦,让一家大公司垄断是最合理的办法。大慈善组织全都联合起来,而小慈善项目根本分不到什么。
这个博弈格局是如果利益很大,而参与者很少,这些参与者就会联合起来。只要上了这张桌子,稳稳当当就能瓜分天下,何必斗个你死我活呢?
网上流传一句话叫“上流社会人捧人,中流社会人比人,下流社会人踩人”。这句话说得很难听,但是有几分道理。合作的利益大就不会竞争,背叛的成本低才会背叛。
怎么打破这个局面?
- 一个办法就是扩大市场准入,让更多的参与者进来,让商家的协调没那么容易。
- 另外一个办法就是依靠政府的力量反垄断,相当于全体消费者联合起来去对付那些巨头。
七、有一种解放叫禁止
博弈论这门学问的开山祖师爷是物理学家、数学家和计算机科学家约翰·冯·诺依曼(John von Neumann)。这是一个非常高贵的出身,因为冯·诺依曼是人类历史上绝无仅有的天才。不过现在提起博弈论来,我们经常谈论的是约翰·纳什、托马斯·谢林这些经济学家,那这是为什么呢?
因为冯·诺依曼研究的博弈论还只是一种数学游戏,是后世那些朴实的经济学家们让博弈论落了地,能在日常生活中用上。而到了今天,我们甚至可以说博弈论是一切社会科学的基础。
比如囚徒困境就是个特别有用的思维工具。像经济学中所谓“负的外部性”、“公地悲剧”、价格战,国际政治中的军备竞赛,动物世界中的互助行为,体育比赛中的使用禁药,医学中的抗生素滥用,包括心理学中的上瘾现象,等等等,其实都是囚徒困境。破解囚徒困境的方法可以在各个领域使用,所以博弈论其实是一个更底层的逻辑。
博弈论是人类理性行为的第一性原理。
这一章咱们继续说破解囚徒困境的方法。自由论者可能更喜欢用像重复博弈或者协调这样自发的方式达成合作,但是老百姓有个更直观的解决方案:让政府管。
0x1:我们需要被管
相对于咱们中国人爱看的英式足球,美式足球比赛看起来其实更像是两支军队在作战。教练对球队有更直接的控制,有各种攻防阵型,动不动就打个人仰马翻。你要是觉得美式足球太野蛮,那我想说的是以前更野蛮。
1892年,在一场哈佛大学对耶鲁大学的比赛中,哈佛大学发明了一个非常厉害的进攻阵型,叫“楔形推进队(flying wedge)”。队员排成一个紧密的V字形去冲锋,像一把尖刀插入敌人的心脏。哈佛大学凭借这个阵型取得了碾压式的胜利。
但是在充分交流的项目里是不会有什么独门绝招的,其他球队很快就都学会了这一招。楔形推进队大行其道,人们马上就意识到一个问题。这个打法特别容易导致受伤。
每个球队都想用楔形推进队赢球,但是为了少受伤,最好还是大家都不要用,这是典型的囚徒困境。而这个问题很容易就解决了,大学联盟直接规定,不允许用楔形推进队。
- 比赛规则很容易贯彻执行,因为比赛有裁判员。哪个队犯规,裁判一眼就能看出来,
- 然后立即就能惩罚,简单有效。
从博弈论角度来说,这叫做邀请第三方监管。监管的本质是改变了博弈的报偿(payoff)。有了有效的监管,不合作就不但没有好处,而且还会受到惩罚,那么不合作的行为自然就会大大减少。
举个美国的例子,1967年,美国联邦通讯委员会(FCC)发布规定,说在电视上做烟草广告,必须搭配播出一条“吸烟有害健康”的公益广告。对烟草行业来说这简直是致命一击。不做广告,竞争对手就会抢走你的顾客;大家都做广告,都花钱不说,吸烟的人还在公益广告的教育下变得越来越少。囚徒困境。
结果在1970年,美国国会通过一个法案,干脆禁止了烟草公司在电视上做广告。这个法案出台的第二年,烟草公司的广告费就下降了30%,利润马上上升,已经濒临死亡的烟草业一下子复活了!那你说美国国会办的这是什么事儿呢?这哪里是打击烟草业,这简直是促进烟草业的健康发展啊!
没错。事实上,禁止烟草电视广告的这个法规,是烟草公司自己在国会运作的结果。他们用邀请第三方监管的办法解决了囚徒困境。
有一种困境叫自由,有一种解放叫禁止。
最近的一个例子是中超联赛搞了个限薪令。中国球员的竞技水平在世界范围内是很低的,可是他们的工资水平很高,这是因为球员太少,球队陷入了囚徒困境。现在限薪令规定,国内球员年薪不能超过税前1000万元。
如果你是一个教条主义的拥护自由市场的经济学家,你可能会认为限薪令是政府在干预市场正常运行。但博弈论是比经济学教条更基础的逻辑。从博弈论角度来说这么做完全合理:关键在于,就算工资封顶,球员的踢球积极性也不会下降,因为以当前中国球员能力他们只能在中超踢球。限薪并不会让联赛的水平受损。
在这种被资方完全掌控的市场里搞限薪是非常常见的做法。像NBA有工资帽,最近中国的娱乐明星拍戏也开始限制片酬了。要点就在于就算有限薪,明星们也只能留在这个市场里。西甲联赛要是搞限薪,梅西还可以去英超踢球,而中国这些明星只在中国最赚钱。
像这样的监管真不是统治和被统治的关系,而是玩家们避免恶性竞争的协作手段。
但监管并不是万能的。
0x2:渔民的故事
所谓“公地悲剧”,有些经济学教科书爱用在草地上放牧打比方,但是现实生活中有个特别显眼的例子,那就是渔民捕鱼。我听好几个经济学家讲过捕鱼的故事,有意思的是每一本书给的解题思路都不一样,而且每一本书都没有彻底解决问题。
这个局面是这样的。某一片公共海区有鱼,如果放任渔民去捕鱼,很容易就会把所有鱼都捕光。每个渔民都知道“不涸泽而渔”的道理,可是你不捕别人也会捕,囚徒困境。渔场是个公地,渔场是个悲剧。我们应该怎么办呢?
经济学家对公地悲剧有三个办法。
- 左派经济学家的办法是让政府监管。
- 市场原教旨主义经济学家的办法是把渔场私有化。
- 一个更高级的办法,2009年诺贝尔经济学奖得主埃莉诺·奥斯特罗姆(Elinor Ostrom)提出的观点,是社区可以自己管理自己。
在博弈论看来这三个办法没有本质区别,其实都是监管。问题只不过是由政府监管,由拥有者监管,还是大家互相监管。
而且这三种监管手段都可能不好使。
- 咱们先说最高级的。你说社区自己管理自己是吧?最简单的办法就是休渔。也就是只在每年的某些季节捕鱼,其他时间休养生息,大家互相监督,谁也不许出海。这个办法非常容易执行,毕竟谁家要出海别人一眼就能发现。但是你休渔总有可以捕鱼的时候吧?结果在允许捕鱼的季节,各家渔船都会使用最先进的捕捞技术,还是会把鱼捕光。我听到一个极端的例子是加拿大有一个渔场,最后变成了每年休渔364天,只有一天可以捕捞,可是就在这一天,渔民们还是把鱼给捕光了。
- 第二个办法是私有化。就算搞私有化,你通常不能让一家渔民拥有整个渔场,你只能把渔场分给几家渔民。每家有个年度配额,规定好能捕捞什么鱼、能捕捞多少,包括只能捕捞大鱼,不能捕捞小鱼等等。……可是谁来监管各家对配额的执行情况呢?
- 所以捕鱼问题最后总要落实到第三个办法,也就是最让自由论者反感的政府监管。但政府监管也很难。中国有句话叫“上有政策,下有对策”。政府没有能力监督每一条船,一般也就是让各家自己报个数而已,而我们可想而知,渔民会谎报捕捞数量。
我听到一个比较新颖的办法,是让渔民和政府之外的“第四方”参与监管。这个第四方就是没有执法权的统计机构。比如美国政府要搞人口普查,但是担心非法移民躲避普查,就干脆规定统计部门只负责统计而不执法,而且也不会把信息跟移民局共享。
这样至少你能得到一个真实的总数。就算不知道哪家违规捕捞了,只要监管者知道捕捞的总数,就对这片海区能做到心里有数,感觉实在不行至少还可以强制休渔。
监管也许是很多人心目中没有办法的办法,但是监管也可以玩的很高级。
0x3:宽严皆误
美国政府的环保部门在过去几十年有个新思路,是监管要与企业合作。
过去环保部门要看各家企业的污染排放情况,都得亲自使用技术手段检测。政府没有足够的人力物力,只能搞抽检,而抽检的比例连1%都不到,可以说是高成本低效率。不但如此,环保部门和企业之间还是尖锐对立的关系,动不动就要打各种官司,苦不堪言。
这个新思维要求政府干脆放权给企业,让企业自查,自己排污多少,是否违反了规定,自己向政府报告,自己主动整改。而作为回报,对企业自己上报的违规行为,政府就不对其进行处罚。
但是请注意,这可是一个政府和企业之间的囚徒困境。理想的局面是企业自觉、政府宽松,双方合作;现实的局面是企业想作弊,政府想严惩,双方都有不合作的冲动。
那怎么才能合作呢?我们可以设法破解这个囚徒困境。
比如你可以搞重复博弈。监管是长期的。表现好的企业,政府可以对它有更高的信任度,干脆免检,企业踏踏实实生产,政府也轻松了。
还可以搞承诺。政府可以单方面承诺,说凡是企业主动报告的违规行为,一律都不处罚。企业也可以联合起来给政府一个承诺,说我们自愿加入这个自我监管计划,我们在工厂内部设立专门的环保管理者,我们自己管理自己。
而美国环保部门的实践证明,监管者和被监管者的合作关系还是有可能达成的。
经济学家和老百姓对“政府”有截然不同的情绪。老百姓心目中的政府是个本来应该“万能”,可是常常“不能”的东西,什么都想指望政府,又常常指望不上。而经济学家最拥护的力量不是政府,而是市场。有些市场原教旨主义经济学家甚至认为任何政府监管都是不好的。
可是从博弈论的角度,我们并不认为政府是一个什么特殊的存在。根据不同的具体情况,政府只是几个可能的监管者中的一个。而且因为执法有成本,政府的监管力量很有限。
最高级的看法是,你应该把政府也当做一个 player。而且政府也应该把自己视为一个 player。既然是参加博弈的 player,政府也需要博弈论。
八、先下手为强
前面这几章我们一直在说如何达成合作,但博弈的出发点可不是合作,而是争夺。你学习博弈论不是为了树立什么“合作意识”,变成爱好和平的小白兔,而是为了研究怎么”迫使“别人……“合作”。说白了,博弈的目标是让别人按照你的意志行事。
这一讲我们进入“动态博弈”。动态博弈的特点是参与者出手有个先后次序,我走一步你走一步,就好像下棋一样。一般博弈论的教科书讲到动态博弈都要画个“决策树”,你走每一步都要先想好对方会怎么应对,想想为了得到想要的结果你最初应该怎么办,这叫“向前展望,向后推导”。
在我看来,动态博弈的本质不是轮流出招,而是你可以改变游戏的规则。
你每次行动之后,留给对方的都是一个不一样的博弈局面,都是一个新的游戏。有出手权,这是十分难得、而且可能稍纵即逝的机会。
0x1:既成的事实
有个经典的博弈局面,英文叫“chicken”,是“小鸡”的意思,意思是比比谁胆小。在一条笔直的公路上,甲乙两个人各自开一辆车相向而行,眼看就要撞在一起了。游戏规则是谁先打方向盘靠边谁就胆小,谁就是小鸡。
当然两边首先都肯定不想死,转方向盘是必然的,问题就在于谁先转。
博弈论专家不是靠胆大工作的,我们的建议是你可以当着对手的面,把自己这辆车的方向盘给卸了。你这个动作明确告诉对方自己肯定不会转方向盘,因为你的车已经没有方向盘了,你只能走直线。那么现在两辆车会不会相撞就完全取决于对方。只要对方不想死,你知道他肯定不想死,他就只能转方向盘,这样你就赢了。
你改变了游戏规则。本来游戏规则是两个人都可以选择是做小鸡还是死,而你把规则改成了只有对手能选择做小鸡还是死。你放弃了自己的选项,但把做小鸡的唯一可能性交给了对方。
小鸡博弈是个非常常见的局面。只要你能确定对手的底线,那么先发制人,造成既成事实,就能逼迫对手就范。
举个简单例子。一对青年男女想结婚,可是父母坚决反对,怎么办呢?他们可以强行结婚,既成事实,甚至女方已经怀孕了。面对这个既成事实,哪怕父母再不满意,他们的理性选择也只能是接受,而不能再去拆散这对夫妇。就算当时不接受,过段时间找个台阶也就接受了。
英文中有句格言叫“it's better to ask forgiveness than permission”,与其事先请求允许,不如事后请求原谅。如果你算准了你做了这件事对方也没办法,那你就应该直接做。
比如说朝鲜核试验。国际社会号称坚决反对朝鲜进行核试验,但是朝鲜根本没把警告当回事,不但堂而皇之地搞了核试验,而且搞了好几次。每次核试验之后国际社会都要指责朝鲜,但是又能怎么样呢?美国正在求着朝鲜“弃核”,等待朝鲜的将是一大笔国际援助。现在谁是小鸡?
所以先发真能制人。那如果对方先发了,我们就一点办法都没有了吗?也不是没办法,但是这个办法非常非常危险。
0x2:危险的边缘
古巴导弹危机就是个典型的例子。1959年,美国在意大利和土耳其部署了携带核弹头的中程导弹瞄准苏联。1962年,赫鲁晓夫下令在古巴部署更大规模的携带核弹头的中程导弹,等于是直接在家门口威胁美国。肯尼迪不当chicken,选择了硬碰硬。10月22日,肯尼迪宣布对古巴进行海上封锁。
接下来,双方的做法是让危机不断升级。你说封锁,我非得派舰队进出。你敢派舰船我就要登船检查。那我派攻击型核潜艇!那我逼迫你的核潜艇上浮!双方你来我往,苏联的一个核潜艇指挥官甚至已经决定发射核武器。
我们前面说过的博弈论专家托马斯·谢林把这个策略叫做“Brinkmanship”,一般翻译为“边缘政策”。在我看来这应该叫“悬崖策略”,意思是咱俩都站在悬崖边上,你不服,我就把你再往前推一步。我推你的过程中你也拉着我,等于要死一起死。我们脚下的土质已经疏松了,还打滑,可能再进一步咱俩都得摔下去,但是接下来我们又往前走了一步。
悬崖策略是动态进行的小鸡游戏。你敢拆方向盘,那我这边就敢加速,直到有一方让步为止。层层加码比一步到位好,一上来就越过心理底线会让人觉得你的威胁不可信,而有时候你不试探就不知道对方的心理底线在哪里。
比如咱俩是两个黑帮的老大,在一个餐馆里吃饭。你提个建议我说不行,你就突然拿枪指着我。我的手下马上行动,有五把枪指向了你。下一秒钟,从外面进来20个你的人,拿枪指着我和我的手下。
那你说这有什么意义呢?既然大家都不想死为什么不一开始就服软呢?答案是先升级再服软就不算是小鸡了。我们都已经证明了自己的勇敢,双方都推动了危机升级,这时候只要有个台阶,我们谈判解决,各退一步,不算丢脸。
当然古巴导弹危机最终还是和平解决了。苏联撤了放在古巴的导弹,美国也撤了放在土耳其和意大利的导弹。双方都坚持了原则,保全了颜面,双方都可以宣称下次对方再也不敢了。
事实上也真不敢了。悬崖策略是非常危险的,它很容易因为出错而变成真的灾难。就比如刚才那个例子,房间里那么多人都举着枪,万一哪个心理素质差的小弟手一抖走火了,马上就是一场枪战,大家都得死。
特朗普认知期间,美国总统特朗普和众议院议长佩洛西就在玩这个边缘游戏。 特朗普说我一定要修边境墙,佩洛西说我一定不给你修墙的预算。特朗普说你不给,我干脆就不批准整个预算,让联邦政府干脆停摆。佩洛西说停摆就停摆。结果真停摆了。双方你来我往,接下来特朗普一看政府停摆真是不行,批了预算,但是留了个后手:宣布国家进入紧急状态,动用其他政府资金修墙。然后特朗普将面临反对者向最高法院提出的起诉。
不管这件事怎么结局,双方都没有示弱,他们在选民面前的形象都保住了。
当然,边缘游戏其实是很不好玩的,危险实在太大。其实你让对方先出手,你就已经错了。最好的办法给对方一个威慑,让他根本不敢出手。
0x3:什么是威慑
我以前听过中国著名战略专家金一南的一个报告。金一南说他在国防大学研究核战略的时候,读过中国学者写的关于核威慑的书,可是厚厚一本书都没说明白什么是威慑。后来他听到基辛格讲的威慑,基辛格一句话就说明白了。
基辛格说:“威慑有三个要素:实力、决心和让对手知道。”
- 第一,我有实力摧毁你。
- 第二,我有决心摧毁你。
- 第三,你得知道我有实力和决心摧毁你。
从博弈论的角度,还有特别重要的一点,那就是双方都不想被摧毁,双方都得是充分理性的才行。
美国和苏联在冷战期间的核平衡就是这样的威慑。核平衡的机制叫做“相互保证毁灭(Mutual assured destruction)”。
不管是我先动手还是你先动手,只要动手我就一定会摧毁你。当然,我也知道你能摧毁我。打核战争咱俩都得被毁灭,所以干脆就别动手。这就是核威慑。
这个机制可不是说说这么简单。什么叫有实力?有实力的意思就是我必须拥有而且部署足够多的战略导弹,哪怕对手先动手,我也能确保在遭受第一轮打击过后手里还有足够多的反击力量,仍然能把对方的国家毁灭。
但是只有实力没有决心也不行。苏联完全可以这么想:我先发制人,先用核武器摧毁美军的一个舰队,那难道美国就会对我进行全面的核攻击吗?那个情况下美国的理性选择仍然是不要打灭国战争,没必要因为损失了一支舰队就搭上整个人类文明啊?
所谓有决心,就是美国绝对不能允许苏联这么想。所以美国制定了一个极其武断的核战争政策,发动核战争不需要经过国会讨论批准。总统随身携带核按钮,只要总统和国防部长两个人同意,立即就可以动手。
这是一个非常不稳定的政策,但只有这样才能让对手相信你的决心。所以核威慑真是恐怖平衡啊。
但威慑在日常生活中也有应用。我们前面讲了怎样避免价格战,说你降价我立即就降价,甚至我提前把价格匹配的政策公布出去,这其实就是威慑。有能力,有决心,让对手知道,对手就真的不会降价。
博弈通常都不是温情脉脉的,你出手就等于露出了獠牙。不过更常见的做法是不要把局面搞那么僵,给对手一个口头上的威胁或者承诺,效果会更好。
九、其身不正,虽令不从
博弈的出发点是做一个 player,是每个参与者竞相采取对自己最有利的行动。生活中有些人自以为有权力别人就应该听他的,他就应该令行禁止说一不二,这就是没把别人当 player。殊不知,就算你名义上的权力再大,别人听不听你的那也看博弈的情况。
你想让你的孩子做一份课外的数学练习题。因为这不是老师布置的作业不属于分内的任务,孩子不想做,那你怎么办呢?也许你可以给他一个许诺,说他做完练习可以打一会儿游戏。这个条件似乎公平合理,但是很多时候孩子仍然不乐意。因为他不知道该不该相信你这个许诺,毕竟你以前说的话经常不算数。
类似这样的事情非常常见。每个商店可以说绝对没有假货,每个考生都可以说绝不作弊,每对情侣都可以说永不变心,而每个人都知道这些誓言根本不能当真。
说话要是好使还要枪干什么?但是,反过来说,如果我们能找到一些办法让说话真的好使,那又能省下多少麻烦呢?怎么样才能让你说的话真好使呢?
这可是诺贝尔奖得主托马斯·谢林的招牌工作。
0x1:威胁和承诺
动态博弈有两个基本概念,
- 一个叫威胁
- 一个叫承诺
人类自古以来就有威胁和承诺的手段,但是要说逻辑清晰地把这两个手段说清楚,还得是托马斯·谢林1960年出版的《冲突的策略》这本书。
威胁和承诺都是在博弈双方都没有采取实质性行动之前,一方通知另一方的声明。
- 所谓威胁,就是我要求你不要去做某件事,我说如果你做了,我就会对你进行惩罚。
- 所谓承诺,就是我要求你去做某件事,如果你做了,我就会给你一个奖励。
威胁和承诺在本质上是一样的,都是我事先说好,会根据你下一步的行动采取一个相应的行动。
这听起来跟老百姓说的威胁和承诺是一个意思,但是托马斯·谢林提出一个关键的概念,叫做“可信性”。博弈论专家首要考虑的是你这个威胁或者承诺,是不是可信的。
张维迎在《博弈与社会》这本书里说了一个这样的例子。大学里的一次考试,教授发现一个学生的成绩,按理说应该给不及格。但是这个学生私下找到教授,说你能不能网开一面让我及格,你要是给我不及格,我就要报复你,我什么事情都可能做得出来!这显然就是一个威胁。那请问教授应该怎么办呢?
博弈论要求我们考察这个威胁的可信性。如果教授给他不及格,那么当这个学生面对不及格这个既成事实的时候,会怎么做呢?难道他真的会来报复教授吗?不报复,只不过就是一门课不及格而已。敢报复老师,那就是严重违纪,轻则被学校开除,重则被法律惩处。如果这个学生是理性的,他怎么可能因为一门课不及格就敢报复老师呢?
所以他那个威胁是不可信的。
博弈论说的可信不可信可不是说分析学生的人品、或者他说话的语气像不像说谎什么的,博弈论要做的是设身处地的利弊分析。不可信,是因为“事前最优”和“事后最优”的不一致。
教授打分之前,学生说你要给我不及格我就报复你,他也许真的很想这么做,但这只是事前最优。等到分数已经确定了,不及格是既成事实的情况下,学生的最优选择是接受,不报复,因为报复不符合学生在那个情况下的自身利益。
对头脑清醒的人来说,只有可信的威胁和承诺才有意义。
咱们再举个例子。有个老头,他的女儿想要嫁给一位男青年,但是老头不同意,所以威胁女儿说要敢和这个人结婚,他就要断绝父女关系。
这个威胁可信吗?女儿完全可以分析,父亲和女婿之间并没有什么根本性的冲突,如果结婚已经既成事实,断绝父女关系并不符合父亲的利益。所以这个威胁是不可信的。
那你说老头应该怎么办呢?难道去买一本叫《如何说孩子才会听》的畅销书吗?当然没用。所谓“说服力”、“影响力”,一般都是动之以情,只在听不听都对自身利益影响不大的情况下才有用。
- 百事可乐和可口可乐的味道差不多
- 共和党和民主党谁上台对中间选民来说都无所谓。
博弈论研究的决策选择不是这种情绪化的东西,而是由利益格局决定的。
为了吸引一个很有潜力的年轻球员签约,俱乐部表示,只要你加入我们队,我们保证你的出场时间!如果球员的头脑清醒,他就不应该相信这个承诺。因为保证他上场并不符合球队的利益。球队的利益只可能是谁状态好谁上场。
不可信的威胁和承诺说了也是白说,只会让人觉得你这个人不靠谱。但是可信的威胁和承诺则是非常有用的。
0x2:如何说别人才会听
可信不可信,取决于事后的利益格局。只有你事后别无选择,履行自己的威胁或者承诺符合你在那个时候的利益,事前最优和事后最优一致,那才是可信的。
可信 = 别无选择
为了发出可信的威胁或者承诺,你必须主动束缚自己的手脚。我大概总结了一下,有三种办法。
- 第一个办法是给别人惩罚你的权力。
商业往来中最常见的办法是签个合同。你给我供货,我承诺给你货款。那你怎么能相信我收到货之后一定给钱呢?因为有合同。如果违约,我面临的将是更大的罚款,所以即便是事后,履行承诺也符合我的最优利益。
锻炼身体这件事,本质上是现在的你和将来的你之间的一个博弈。现在的你立志说我从此之后每天都要锻炼身体,一定要把体重降下来!可是将来的你会找到各种借口不锻炼。
想要让锻炼的承诺可信,你可以找一个朋友,甚至找一个什么机构,把一大笔钱交给他。你说如果半年之后我的体重没有减掉10斤,这笔钱就归你了。这笔钱会大大增加你锻炼的动力。曾经有一位经济学家和他的同事有过这样的协议,两人说好按体重增加的斤两算钱,他真的收了朋友一万五千美元。
对爱情最好的承诺是结婚。现代婚姻具有法律效力,离婚那是要分割财产的。
- 第二个办法是主动取消自己的选项。
中国人的说法叫破釜沉舟,英文世界的说法是“烧掉你身后的桥”,我取消了撤退这个选项,现在我们只能前进。这比什么动员演说都有用。
反过来说,你减少自己一方选项的同时,还可以给对手一方增加选项。《孙子兵法》中有一句话叫“围师必阙”,说包围了敌人最好要留个出口,让敌人有逃跑的选项。这个不是阴谋,而是阳谋。有逃跑的选项,敌人就不会拼死做困兽犹斗,我方就能用最小的代价取得胜利。
- 带兵在外的将领主动切断跟总部的联络
- 商店宣布价格匹配政策
- 厂家发行限量版的产品
- 乃至于结婚要送钻戒、尤其过去结婚还要送彩礼、婚礼要广邀亲朋大办特办
这些都可以说是用取消自己未来选项的方式提供可信性。
张维迎还说过一个有意思的现象。为什么一个画家死了,他的作品就会升值呢?这是一个最有力的承诺:他将来不会再出新作品去跟他现有的作品竞争了。
- 第三个办法是建立声望。
如果你是个有信誉的人,那你就算不提供任何附加的动作,你说的话也是可信的。这是因为如果你说话不算数,你的名声会受损。
孔子说“其身正,不令而行;其身不正,虽令不从。”声望最大的好处就是它允许你无需花费任何成本就能提出可信的威胁和承诺。损害声望,就是对你失信最大的惩罚。
而声望是需要积累的,积累声望的过程是一个处处受限、不自由的过程。如果你没有声望,那就只能用前面说的那些办法。
0x3:博弈论的游戏
总而言之,所有这些方法都是通过自我限制,来提升自己的可信性。可信的人非常有力量,他说话别人就会听,可以说自由来自自律,有一种击败叫放任,有一种赋能叫失能。
其实这是一个有点违反人的本性的做法,人在直觉上都是想增加自己的选项,不愿意给自己带个紧箍。如果我现在要权有权要钱有钱,为什么主动找一帮人管着我呢?
实行民主的政府,其实有更大的力量。比如说发行公债。只有你这个制度能保证在政府如果违约就会受到惩罚,人民才愿意借钱给政府。政府可能受到的惩罚越大,它的融资能力就越强。英国在光荣革命之后的国债规模就是越来越大,这才保证了英国打赢历次战争。
可是我忍不住就想,像沙特这样的政府,对人民一贯都是“不问你信不信就问你服不服”,为啥好像力量也很大呢?
按照博弈论的逻辑,答案也许是这样的,
- 政府之所以要自缚手脚,是为了取信于民。
- 政府之所以要取信于民,是因为它把自己当做是个 player,在跟民众玩一个博弈的游戏。
- 政府之所以要玩这个游戏,是因为民众有想法有力量,是可以独立自主地决定自己采取什么行动的 player。
- 沙特政府的收入来源是对石油的掌控,沙特政府并不强烈依赖沙特人民。沙特的民众是一盘散沙,沙特没有什么王室之外的、强有力的公司和组织,不具备那种能跟政府对等博弈的力量。
所以归根结底,博弈论是属于 player 的理论。
十、后发优势的逻辑
前面我们讲了先发制人的好处,但是生活中也经常有“后发优势”的说法。那到底什么时候应该先发,什么时候应该后发呢?
人们通常都是力争先发的。你首先采取行动,造成既成事实,会让对手很被动。
我记得我小的时候,大家把所有的易拉罐饮料都叫“健力宝”。健力宝率先占领了人们对易拉罐饮料的认知,以至于会让你犯语法错误。先发的品牌可以统治甚至定义一种产品。以前人们曾经管所有随身听音乐的设备叫“Walkman”。现在在机场过安检,工作人员不会说让你把“平板电脑”从包里拿出来,而是说把“iPad”拿出来。
你统治了这个领域,让后来的人情何以堪。也许现在就有很多人,用手机看短视频不叫看短视频,叫“看抖音”;听课不叫听课,叫“听得到”……
九十年代,春晚刚刚有小品的时候,活跃的小品演员有赵本山、潘长江、蔡明、宋丹丹……现在的春晚舞台几乎还是他们的。难道二十多年来就没有新的好演员了吗?如果这个地方的资源就只有这么多,那显然是先到先得。先发者抢占技术专利和标准,抢占市场份额,甚至抢占消费者的观念。
如果先发有这么大的优势,别人又怎么能后来居上呢?特别是中国在过去几十年的进步,很多人都说这是中国有“后发优势”。那后发优势又是什么呢?
0x1:后发者优势的博弈
咱们先说一个最简单的博弈游戏。甲乙两人手里各自拿个硬币,轮流把硬币摆在桌子上。游戏规则是如果两个硬币同一面朝上,甲取胜;如果两个硬币相反,乙取胜。那这个游戏应该怎么玩呢?
显然是谁后出手谁赢。甲要是先出手,不管甲摆正面还是反面,乙总可以摆个跟他相反的。如果乙先出手,甲总可以摆个跟他一样的。后出手稳赢。
像五子棋和不贴目的围棋比赛中,先走的一方有很大的优势,但是也有一些项目是后走的一方优势。比如,德扑是个典型的后发优势项目。
在一把牌的每一轮,都是从发牌的人开始,按照逆时针的顺序每个人依次决定是否下注。玩家对自己的位置非常敏感。先加注的位置是不好的,因为你完全不知道别人手里牌的好坏,你面临很大的不确定性。后下注的位置则具有信息优势。如果前面有人加注,那很有可能他手里是好牌。甚至前面的人感觉自己的牌不好还可能直接就把牌合上放弃这一把,你坐着不动就赢了。
先下注的打法是防守,后下注的打法是进攻。同样的两张牌,如果你的位置靠前就不一定是好牌,你可能应该选择合上牌退出;而如果你的位置靠后,就可能应该主动加注。
德州扑克是个关于信息的游戏。这个道理跟硬币博弈是一致的。
先发者暴露信息,后发者利用信息。
0x2:领先者应该模仿
我们这里说的先发和后发,是说面对同一个局面谁先采取新动作。有时候局面的领先者反而会选择后发。一个著名的例子是美洲杯帆船赛上真实发生过的故事。比赛总是在两条船之间竞争,要比很多轮。有一轮的一开始是美国队领先,它的对手澳大利亚队决定冒个险。
帆船比赛非常受风的影响,而海上同样一个航道,左侧和右侧的风就可能不一样。澳大利亚队从航道右侧换到了左侧,希望能遇到更有利的风。
帆船界的标准操作,是领先者模仿落后者。落后者要变到航道的哪一侧去,领先者应该跟着过去,这样你是什么风向我也什么风向,本来我就领先于你,现在保证我仍然领先于你。落后者不得不先采取行动,领先者要后发跟随。
可是美国队的队长也不知道是怎么想的,竟然没有下令跟过去,结果澳大利亚队的运气果然好,左侧的风帮他们后来居上,美国队痛失比赛。
这个道理是如果你已经领先,就不要主动冒险了。应该让落后者先发起不确定性。落后者不改变打法就一点机会都没有,他想赢就必须冒险,而领先者只需跟随就行。
占据市场主导地位的大公司通常不愿意首先做一些特别激进的创新。我们现在做得很好还折腾什么?激进的创新往往是小公司发起的。而面对激进的小公司,大公司如果觉得它的新打法可能会威胁到自己,其实也很容易应对。
- 一个办法是干脆收购这个小公司。Facebook 就是这么干的。Instagram 是个新打法吗?Whatsapp 是下一个 Facebook 吗?那我收购你们不就完了吗。
- 一个办法是直接模仿小公司。如果这个新打法这么好,那我为什么不能做呢?我是大公司,我有更多的人力、财力和忠实顾客,我出手还有你们的事儿吗?
这是一个让小公司非常难受的博弈局面。不创新就一点机会都没有。其实生活中也是这样,如果一家有两个孩子,其中老大通常比较稳重,而老二常常比较叛逆。老大是既得利益的领先者,无需创新。可老二要是不激进一点就没有存在感,就得生活在老大的阴影之下。
可是小公司创新,又可能被大公司模仿。反而是领先者具有后发优势。如果把网上的段子放进小品里也算是一种创新,那蔡明为什么不能也学着讲段子?
要这么说的话,领先者岂不是稳赢了吗?落后者怎么才能后来居上呢?
0x3:模仿和创新
落后者作为上一轮的后发者,也有模仿的方便条件。
主动创新是有风险的。你根本不知道这个技术可不可行,你不知道产品做出来会是什么样,你不知道到时候消费者能不能接受这样的服务,你面对太多的不确定性。创新本质上是一场赌博。投入巨大的人力物力,最后可能什么都得不到。
上世纪九十年代初活跃的那些第一代互联网公司,现在基本上都死了。Facebook 不是第一个社交网站,亚马逊不是第一个在网上卖书的,Google 不是第一个搜索引擎。先发者要是占不住市场,它的唯一价值就是给后发者提供了宝贵的信息。
先发者暴露信息,后发者利用信息。这些信息包括成功的经验和失败的教训。现在后发者至少知道哪条路肯定不通,哪个方向有可能是正确的。后发者不必再做那么多尝试了,先发者已经替他们教了学费。模仿一个技术比直接研发一个新技术要便宜得多。哪怕你有专利保护,那我借鉴你的思路总行吧?
但是落后者不能这么一直模仿下去,光靠模仿是不可能让自己领先的。现在有些人认为中国经济的高速增长完全是因为模仿了西方,可这怎么可能呢?如果说华为一开始是模仿思科,那它后来是怎么”超过“思科的呢?
模仿的确是落后者的方便条件,你可以少走弯路。但是从逻辑上讲,模仿,最多只能让你做到和别人一样而已。想要超越别人,你必须得有一个领先者没有的东西才行。
咱们再来看看后发优势到底是什么。
前面说的硬币博弈中,你仅仅”知道“先发者摆的是哪一面,那还是不行的。关键在于到了这一轮,你有权选择摆出相同或相反的一面,你有这个主动权,而先发者没有。
德州扑克也是如此。后发者不但比先发者更了解场上的形式,而且在后发者还有出手权的时候,先发者已经没有出手权了。
后发优势 = 先发者的信息 + 后发者的出手权
信息是模仿机会,出手权是创新机会。
那我们看看中国在经济增长中的出手权是怎么用的。
- 首先,中国有一个巨大的市场,而外国公司无法轻易进入这个市场。哪怕中国加入了WTO,在很大程度上开放了市场,外国公司也不容易进入。这是因为中国有自己独特的文化和消费习惯。在适应中国市场、了解中国消费者方面,中国公司占据了天生优势。这是中国公司的一个出手权。
- 再者,中国有大量聪明而又勤奋的劳动者,还有很好的基础设施,而很多发达国家没有。这是中国的另一个出手权。
- 还有,中国政府还喜欢搞“产业政策”,也就是由政府出面,重点扶持某个产业。产业政策是张维迎和林毅夫争论的焦点,但是我们从后发优势这个视角看来,产业政策好不好,其实跟你在国际竞争中的相对位置有关。如果你现在是技术领先者,根本不知道下一个技术进步的方向在哪里,那产业政策就是政府在乱花钱。但如果你现在是个技术落后者,明确知道先进技术的方向在哪,产业政策就是最快速的模仿方法。产业政策是有中国特色的模仿。
也许这些才是中国少走弯路、甚至形成弯道超车的真正后发优势。那发达国家作为领先者,为什么不主动模仿中国特色的打法?答案当然是想模仿也模仿不了。有些出手权只有中国才有。
甚至在很多情况下,领先者就算有出手权也不用。我们在讲麦肯锡报告《超越曲棍球杆的战略》的时候说过,成功的大公司是非常非常不愿意做出战略改变的。他们会假装那些新冒出来的小公司都成不了气候。改变战略是很难受的事情。他们宁可眼睁睁地、但是是舒服地,让出航道。
总结一下,先发优势在于占领,后发优势在于信息和这时候才有的出手权。如果先发者能占住,后发者只能被迫创新,那么这时候先发者的正确做法是模仿后发者,可是因为各种原因,先发者常常做不到。
学习前人经验可以让你少走弯路。但是如果你想赢,想超过前人,那你就必须得有一个前人没有的超车动作才行。
正是因为这个先发和后发的博弈,谁也不能保证一直领先。这个世界的剧情才是你追我赶,能让竞争永远进行下去。
十一、真正的”诡道“是随机性
《孙子兵法》确实是一本实实在在的用兵战略总结。但《孙子兵法》并不神秘,它的思想,比如像“知己知彼”、“国之大事”、“多算胜,少算不胜”、“君命有所不受”,在今天都已经是常识性的东西。《孙子兵法》中包含了一些朴素的博弈思想,比如说像“围师必阙”,就是我们前面说过的增加敌人的选项,削弱敌人发出威胁的程度。
那为什么说它是朴素的呢?因为现代博弈论比《孙子兵法》要高级得多。
我给你举个例子。《孙子兵法》里有一句叫“兵者,诡道也。故能而示之不能,用而示之不用……”,你看这句话有没有什么问题?
这句话的意思很简单,就是说不能让敌人知道你的战术意图,你得迷惑对手。这个道理固然没错,但迷惑对手,就得是说反话吗?
0x1:诡道的悖论
道罚点球的时候,球到达球门只需要不到0.3秒,守门员不可能在这么短的时间内反应过来,所以只能事先赌一个方向。点球,是守门员和射手之间的博弈。
罚点球是一个可以欺骗对手的游戏。这种博弈也是博弈论的祖师爷冯·诺依曼当年研究的东西,不过他研究的是打扑克。
在德州扑克最基本的操作,如果你手里的牌好,你就应该加注;如果你的牌不好,那你就应该不跟了,合上牌退出。对吧?
但打牌这么老实可不行。牌好就加注,牌不好就退出,那对手一看你加注,不就知道你手里拿着好牌了吗?那他不就不跟了吗?那你又怎么能赢很多钱呢?你必须得迷惑对手才行。
打牌,一定要善于虚张声势。中文大概叫“诈”,英文术语叫“bluff”。有时候你手中的牌明明不好,也要假装牌好,选择加注。可能对手被你吓住就不跟了,你就赢了。但更重要的是,只有让对手知道你在牌不好的情况下也会加注,他才会不知道你加注代表牌好还是牌不好,他才可能在你因为牌好加注的时候也跟。有时候你的牌特别好,还得假装牌一般,谨慎地加个小注。
想踢左边,故意往右边看;明明不能,但是让对手以为你能,这不就是“能而示之不能”的《孙子兵法》吗?
但是冯·诺依曼比《孙子兵法》多了一个洞见。冯·诺依曼说,你既不能有好牌就加注,也不能有坏牌就加注。你既不能往左边踢就往左边看,也不能往左边踢就往右边看。
只说谎话就等于只说实话,对手只要反着听就行了!
冯·诺依曼说,想要真的迷惑对手,你必须把谎话和实话混合起来。
0x2:混合策略
我们前面讲的各种博弈,你最终总是选择确定的一招,这种情况叫做“纯策略(pure strategies)”。我们讲过纯策略的纳什均衡。
但是现在咱们考察一下这个点球博弈。比如说,你往守门员的左侧踢,守门员也往左侧扑,这个局面是纳什均衡吗?不是。在这个情况下你会想改变策略,往右侧踢。同样道理,如果你往左踢,他往右扑,他又会想要改变策略。不论是哪一个组合,你们两个之中总有一个人想要单方面改变自己的策略……所以点球博弈里没有纳什均衡。
严格地说,是“没有纯策略的纳什均衡”。因为没有纯策略的纳什均衡,所以博弈论不能告诉你应该怎么踢才能赢这一把。但是,如果你要参加很多次罚点球,博弈论就可以给你一个指导,帮助你用一个”系统“取胜。博弈论要求你使用“混合策略(mixed strategies)”。
所谓混合策略,就是说你不能一直都往一个方向踢,你应该按照一定的概率,有时候往左边踢,有时候往右边踢。
那你说这不是显然的吗?这还用得着博弈论吗?但是请注意,这里面有个大学问。
请问,你应该以多大的概率往左踢,多大的概率往右踢呢?
咱们假设你往守门员的左侧踢有时候容易打偏,你更喜欢往右踢。那你能不能以一半的几率往右踢,以一半的几率往左踢呢?不行。如果你这么踢,守门员就会坚决扑向右侧!因为左边更值得交给运气。一半一半这么踢,虽然你的每一脚都不可预测,但是你有一个非常明显的统计趋势可以被对手利用。
那到底应该怎么办呢?首先你要考察自己往左踢和往右踢进球的概率分别是多少,然后你应该合理搭配往左踢和往右踢的几率,以至于让守门员不管是扑左边还是扑右边,你进球的概率都是一样的。
也就是说,你的混合概率选择,应该把对手能得到的最大报偿给最小化。在这种情况下,因为守门员往左往右都一样,他就没有什么确定的好办法。冯·诺依曼证明,这是对你最有利的混合策略。这个结论,叫做“最小最大值定理(Minimax theorem)”。
这是博弈论的一个基本定理,它涉及到非常复杂的数学,
- 第一,你要按照一定的概率,混合自己的打法。
- 第二,你混合打法的这个规律,必须是让对手无法利用的。
只说实话不行,只说谎话也不行。在90%的情况下说实话,10%的情况下说谎话,也不一定行,因为对手还是可能根据听实话和听谎话的实际报偿,决定一个最佳应对策略。你必须用最小最大值定理计算出来一个实话和谎话的最佳配比才行。
后来约翰·纳什进一步证明,所有的博弈,不管有多少参与者,都至少存在一个纳什均衡,或者是纯策略纳什均衡,或者是混合策略纳什均衡。不管你玩的是什么游戏,博弈论总能给你帮助。
一个理性的守门员和一个理性的射手玩的点球游戏,必定是双方各自使用自己的最佳混合策略。谁不用这个混合策略,谁就会被对手抓住破绽。
《三国演义》里的“煮酒论英雄”这一段,曹操给刘备说了一番“龙之变化”。曹操说“龙能大能小,能升能隐;大则兴云吐雾,小则隐介藏形;升则飞腾于宇宙之间,隐则潜伏于波涛之内……龙之为物,可比世之英雄。”
我感觉曹操说的有点像最小最大值定理。英雄做事,必须完全没有可以被敌人利用的规律。
0x3:真随机的好处
那你说这要求也太高了,难道罚点球之前还要做个计算不成?是的。如果你要罚的这些点球都价值千金,计算就是值得的。事实上有人统计了1995到2012年间的职业足球比赛中的9017个点球,发现这些真实比赛中的点球结果,和最小最大值定理要求的混合策略纳什均衡,高度一致。
我们大约可以说,职业球员有一种很好的比赛感觉,他们知道怎么样才能最大限度地迷惑对手。而且近年以来,有很多球队已经在使用专门的软件工具来分析对手和计算自己的策略。比如我们在世界杯期间经常听到这样的报道,点球决胜的时候守门员手里有个纸条,上面写着对方射手最可能的射门方向。我敢打赌纸条上的建议绝对不是对方射手最擅长的方向,而是一个全面考虑的混合策略。
更了不起的是,同样的研究还表明,职业球员还执行了相当不错的随机性。
人类非常不擅长执行随机性。比如我要求你以左、右分别是40%和60%的概率踢点球,你会怎么安排呢?
先踢4个左再踢6个右吗?还是按照“左右左右左右”交替,再给中间多几个右吗?从统计角度看,这些安排都太整齐了,非常容易被人利用。一般人想到随机性,会强烈地以为应该交替进行。比如你前两次罚点球都踢向了左侧,这一次就可能非常想踢右边,而如果你有这个心理,对手就可能会利用,他就可能会重点防守右边。
唯一正确的做法,是执行真的随机性。比如你可以随身带一本书,每次罚点球之前随便翻开一页,如果页码的个位数是0到3之间你就踢左边,如果是4到9之间你就踢右边。
有人考察了都是业余选手参加的“石头剪子布”比赛,真有这样的比赛,发现业余选手的特点恰恰就是出手不够随机。他们在原则上可以被人用概率论系统性地打败。
不是真随机,就会被破解,这个道理和密码学是一样的。随机性,才是真正的“诡道”。这个原理有很多应用。
- 比如打网球。如果你知道对方的反手比较弱,是不是就应该一直给他回反手呢?不行,那样的话他就能预测你的回球了。就算你知道他喜欢正手,也得按一定的比例给他回正手,你必须使用混合策略。而职业网球选手真的做到了随机性非常好的混合策略。他们当然不会随身携带一个随机数发生器,但是他们比业余选手更随机。
- 再比如足球和篮球中,如果你们队中有个球星特别能得分,那是不是应该一到前场就把球交给球星呢?不行,那样的话你的战术就是可预测的,对方防守球员就会重点盯住你们的球星。球星再好使,你也必须以一定的概率传球给别的球员。事实上球星在前场很大程度上是起到一个牵制对方防守兵力的作用。
- 工商局检查产品质量也好,交警查违章停车也好,一般都是抽查。而你这个抽查可不能有规律。你要是固定在每天下午两点查停车,别人就会躲过你这个点。最好的办法是随机抽查。
- 我听说慈禧太后吃饭从来都不是可着一盘菜猛吃,都是面对几百盘菜随机地选择,每样大概只吃一口,以至于那么多年人们愣是不知道她爱吃什么,这样别人就不容易在她的饭菜里下毒了。
- 还有,在“田忌赛马”中,想要避免被田忌坑,齐威王的最佳策略,也是随机安排出场顺序。
混合策略不是阴谋而是阳谋。专门说谎话是搞阴谋,可是阴谋是能够被识破的。使用混合策略,你就算把决策方式告诉对手他也没办法。阳谋不怕被识破……归根结底,大家都是纳什均衡的奴隶。
十二、怎样筛选信号
“学而时习之,不亦说乎”中的“习”,一般理解成复习和练习,我觉得不太对。我们知道刻意练习并不好玩。你必须在枯燥、孤独和挫折中提高。我赞赏的一个解释是“习”应该代表实践,是学以致用。你本来谁都打不过,学了几个绝招之后出去指哪打哪大杀四方,这才叫不亦说乎。
博弈论是一门可以学而时习之的学问。我们学习了一个博弈局面之后得举一反三,要像使用成语典故一样,在各个领域发现它的影子。有时候看起来非常不一样的几个事情,背后可能是同一个博弈原理。比如我给你说几个事儿。
- 一个是广告。新品牌要推广完全可以理解,可是像奔驰、宝马这样的品牌,可以说早就妇孺皆知了,那为什么这些公司还要年年都花那么多钱去做广告呢?
- 一个是上大学。我们在工作中真正用到的知识,大部分都是在工作现场学。大学里大部分课程你根本用不上,但是难度还挺大。事实上很多人就算不上大学也能把他现在的工作做得很好。那人们为什么非得上大学呢?
- 一个是吹捧文化。有些明明挺体面的人,为什么要在公开场合那么肉麻地去吹捧领导呢?难道说他们不知道那个样子很可笑吗?
这三件事的共同特点是都很贵,但又都没什么直接的用处。
- 或者花的是金钱
- 或者花的是时间
- 或者花的是脸面
在博弈论看来,人们做这样的事情,都是为了解决信息不对称。
0x1:怎样让信息可信
一种常见的博弈局面是有一方参与者知道一个关键信息,而另外一方不知道。一方强烈地想让另一方知道他的信息,但是又怕对方不信。一方强烈地想知道对方的信息,但是又怕对方说谎。这就叫“信息不对称”。
你有一个产品,你知道这个产品绝对是好东西,可是你跟消费者说这是好东西没用,因为所有商家都说自己卖的是好东西。在另一头,消费者也很想买个好东西,可又不知道该相信谁。明明都想相爱,但是因为不信任,结果只能是互相伤害。
经济学家乔治·阿克洛夫(George Akerlof)就因为用数学语言说明了信息不对称会导致旧车交易市场的失灵而获得了2001年的诺贝尔经济学奖。但是你可千万别以为诺贝尔经济学奖是个挺容易的奖,要知道那一年的经济学奖的主题虽然是“信息不对称”,但可是发给了三个人,同时得奖的还有约瑟夫·斯蒂格利茨(Joseph Stiglitz)和迈克尔·斯彭斯(Michael Spence)。
斯蒂格利茨认为既然市场失灵,就应该指望政府,必须让政府检查产品的质量,惩罚质量差的商家。但是斯彭斯则提出,其实市场也有自己的办法。
斯彭斯的学说叫“发信号(signaling)”。你光说,别人可能不信,但是你可以采取一些行动啊。
比如说,为了让人相信你卖的这个二手车是好车,你可以提供一个保修合同。这个动作的特点是只有在这辆车是好车的情况下,你这么做才对自己有利。车好,这个合同完全不会让你受损失。要是车不好,你承诺保修就等于自己害自己,将来要花很多钱给人家修车。
像这样的动作就是发信号。信号不是说的,得是做的,而且必须是只有在你的信息是真的的情况下,你这么做才是合理的才行。
为什么名优产品也要花很多钱做广告?关键词是很多钱。莆田系医院也要做广告,但是它只能花小钱在百度做,可不敢花大钱上央视做。首先消费者上一次当就不来了,一次广告费就只管这一次。更重要的是劣质服务的要点在于既要有一定的知名度,又不能让知名度太高。稍微高调一点就可能成了恶名。
而一个品牌既然敢花那么多钱做那么高调的广告,就说明它做的是长期的生意,口碑经得起考验,所以虽然是广告,却是一个可信的信号。
- 为什么要上大学?因为没有足够才能的人上不了大学。
- 为什么要公开吹捧领导?因为只有公开吹捧到个人形象已经不可挽回的程度,才能证明你的忠诚。
当然,还有一种叫“反信号”,特别厉害的人,因为无需证明自己,会刻意地保持低调。这些套路相信你可能已经比较熟悉了,这里我们重点说说斯彭斯从发信号引申出来的一个学说。
这个学说研究的是如果别人没主动发信号,你怎么让他发一个信号。
0x2:逆向选择和正向选择
保险业有个根本性的困境。
- 来投保的,按理说是最需要保险的人
- 而最需要保险的人,恰恰是保险公司最不想要的人。
比如说医疗保险。如果我非常健康,我认为我未来这一年几乎不可能得病,我很可能就不想买这一年的医保。只有那些身体弱甚至本来就有病的人才会愿意买保险。
那既然买保险的大都是病人,保险公司就不得不提高保险费用。
可是保险费用提高了,健康的人就更不愿意买保险了。这个恶性循环叫做“逆向选择”,你选出来的,都是你不想要的。
要解决这个问题,一个思路是把保险变成强制性的。奥巴马的意图就是要在美国搞全国所有人必须参加的医疗保险。但特朗普说这个不合理,因为这不符合自由市场的精神,你怎么能强迫一个人去买保险呢?
另一个思路,就只能是对患病的人多收点钱,对健康的人少收点钱。可是如果你明文规定这么干就等于是歧视病人,会有道德上的麻烦,而且你很难判断每个投保的人是不是真的健康。
但是有一个办法,可以让客户自己向你暴露他的健康状况。这一招就叫做“信号筛选(screening)”。
美国私人公司提供的医保计划通常有好几个选项,这些选项基本上可以分成两类。
- 第一类,每个月要交的保费低,每年你看病总共需要自己掏的钱的上限也低,但是你每次看病要自己花的钱比较高。
- 第二类则是每个月的保费比较高,每年自己花钱的上限也高,但是每次看病要花的钱比较少。
如果你是个很健康的人,根本就没打算去医院,显然你会选第一类。保费低不说,万一得了大病自己出的钱还少。可是平时身体不太好的人却会选择第二类,因为他们会经常去医院,更在意每次看病花的钱少。当然,保险公司对第二类投保者的惩罚是他们要交更高的保费,而且万一得了大病自己要出更多的钱,可是第二类投保者自愿接受了。
这就是信号筛选。保险公司没有直接询问谁是病人,每个人自己通过对选项的选择发出了信号,然后还被自动区别对待了。
0x3:信号筛选种种
只要你有这个博弈的眼光,信号筛选简直到处都是。
信用卡公司有个手段叫“余额代偿”。比如你在其他信用卡公司欠了钱,你可以把这笔余额转移到我们公司来,我们公司给你一个更低的利率,甚至可能前几个月你先不还。这一招并不仅仅是吸引新顾客,更是筛选有价值的顾客。
信用卡公司的顾客可以分成三种。
- 第一种顾客是量入为出,每个月用信用卡花多少钱,月底出账单的时候就按时给还上,信用卡对他们来说只是一个方便的支付手段而已。信用卡公司在这些人身上基本上是赚不到钱的,从商家收的一点手续费可能也就够管理费用。
- 第二种是把信用卡当做一个分期付款手段的人。他们会有一笔很大的支出,以后慢慢还。
- 还有第三种,是把自己的信用一次性花光,刷了卡就没打算还钱的人。
只有第二种顾客能让信用卡公司赚到钱。那谁会使用这项余额代偿服务呢?恰恰也是第二种顾客。第一种顾客没有余额,第三种顾客没打算还钱。余额代偿是一个正向信号筛选的有力手段,能把别人最优质的顾客抢过来。
为什么申请美国大学要填一个那么复杂的申请表、弄那么多麻烦的手续?因为这样才能把真的认为自己有机会、同时又有诚意的学生筛选出来。事实上,我听说美国就有不少高中生,明明符合一个大学的助学金条件,但是居然就没有申请这个大学,因为他们懒得填表!
当然,最普遍的信息筛选手段是价格歧视。买同样一个商品,如果你能让商家赚20块钱,商家很乐意;但是如果有人能让商家赚5块钱,商家其实也乐意。可是商家总不能明目张胆地看谁钱多就要高价吧?
解决办法就是区别定价。咖啡要分成中杯、大杯和特大杯,软件要分学生版、家庭版、专业版和企业版,其实你考虑到地段、人工和研发费用,不同杯不同版的成本几乎是一样、或者就是完全一样的,只是想卖给有不同付费意愿的人而已。
只要你掌握这个眼光,你会发现信号筛选简直到处都是。而没有这个眼光的人可能很难理解这一切。
- 花那么多钱请明星做广告难道不是社会资源的浪费吗?
- 大学为什么不教点实用的东西?
- 商店搞那么多花样干什么?
- 他很爱思考,但是全都没说到点子上。
市场信号理论是1970年代才出来的东西,“纳什均衡”是1950年代才被明确提出的概念,难道此前的人类社会中就没有均衡态和发信号的现象吗?当然不是。
身为一个局面的参与者,未必能洞察这个局面。身处一个时代,未必能理解这个时代。你不得不做了理性的选择可是又充满困惑,你觉得社会不对可是又说不明白哪里不对。学而时习之不亦说乎,人不学习行吗?
十三、博弈设计者
中国有句话叫“劳心者治人,劳力者治于人”。如果这就是曾经的社会现实,我认为这样的社会不但残酷,而且不合理。我们学习博弈论最起码底线就是不能“治于人”,要做一个独立自主的 player,识别各种博弈局面,自己决定如何应对,我们拒绝被人安排。
当然我们也不想“治人”,人不能压迫人,player 跟 player 之间是平等的关系。不过学习博弈论的确有一个比做 player 更高级的视角。那就是做为规则的制定者,去给人设计博弈局面。
- 一般人遵守规则
- 少数人违反规则
- 极少人人制定规则
设计一个博弈,比参加一个博弈要难得多,这是管理者的学问。
绝大多数博弈局面是自然形成的,有的是社会千锤百炼的结果。你非要自己设计一个,那就得非常非常小心才行。
咱们先从简单的说起。
0x1:薪酬的结构
有些人认为凡是存在的社会现象就都是合理的,我认为不是这样。我给你说一个明显不合理的现象。
私人要卖房子,通常要找一个房产经纪人帮你卖。一般约定的经纪人佣金大约是房产成交价的1.5%。这听起来是一个很好的正向激励。经纪人肯定会想法设法把你的房子打扮得漂漂亮亮,帮你做广告,热情地向买方推销,他希望你的房子卖得越贵越好,这样他自己的收入也高,对吧?
房产经纪人有时候也卖自己家的房子。经济学家通过美国的数据分析发现,经纪人卖的如果是自己家的房子,相对于卖别人的房子,他会让这套房子在市场上平均多待10天。他卖自己家房子会有更多的耐心去等待一个更好的价格,而卖别人的房子则很快就出手。这是什么道理呢?难道他不是也希望把你的房子卖个高价吗?
这就是激励机制的问题。比如你的房子按行情能卖100万元。如果多等几天,说不定能卖出102万,这2万元对你来说是一笔挺好的收入,你肯定愿意等。可是对经纪人来说,多卖2万元,他只多挣了300块钱。
经纪人没必要为了300块钱再多花好几天的精力。他希望赶紧了结你这单业务,好再去做别的业务。
你在乎的是能比一般行情多卖出多少钱,经纪人在乎的是赶紧做成这一单。100万是你应得的,你最在意的是能不能多卖2万元,而那恰恰是经纪人最不在意的部分。你们的聚焦点不在同一个地方,无法形成一个帕累托最优。所以博弈论专家主张设计一个更合理的经纪人薪酬规则,一个阶跃式的薪酬。
比如你可以规定,在成交价的头100万元,经纪人可以拿到1.5%,也就是15000元;超过100万的部分,经纪人可以拿到15%,多卖2万,经纪人可以多得3千元。这样一来,经纪人就有充分的干劲去把你的房子卖到一个更高的价格。
这个“基本收入 + 销售分成”的模式是一种很常见的薪酬设计。
- 没有基本收入,员工就没有安全感
- 而如果员工的努力能直接反映在公司的利润上,分成是很好的激励。
我们看电影明星的薪酬结构也是这样的,是谈好的固定片酬 + 影片票房分成。
- 如果明星觉得这个电影意思不大,他会要一个很高的固定片酬,不选我无所谓,选我我就当是为了挣钱
- 如果明星认为这个电影很好,他会要一个比较低的固定片酬以利于自己入选,然后等着拿分成。起作用的分成,一定得让双方都在意才行。
但目前为止,多数房产经纪人的分成方案通常仍然是固定的1.5%。为什么不改进呢?也许是因为不值得为个房子像电影明星那样谈判,也许是因为不懂博弈论。
0x2:拍卖故事
设计博弈规则有时候很不容易,咱们再举个例子,拍卖。
最简单的拍卖就像我们在电视中看到的那样,拍卖师喊价,不停地有人举牌,最后出价最高的人获得拍卖品。这叫英式拍卖。英式拍卖的特点是明标,你出的价格所有人都能看到。
你马上就能看出来拍卖对竞拍者来说是个囚徒困境:就算所有人都不积极竞价,最后也是这些人拿走这几件东西。所以竞拍者会互相串通压价。而要避免串通,似乎应该让竞拍者看不到各自的出价。可如果搞暗标,竞拍者又有可能会比较保守,不愿意贸然出高价。
1961年, 经济学家威廉·维克里(William Vickery)提出一种竞拍方法,可以让竞拍者放心大胆地出价,现在被称为“维克里拍卖(Vickrey auction)”,也叫“次价密封投标拍卖(Second-price sealed-bid auction)”。这个拍卖方法是暗标,每个竞拍者只出价一次,放在信封里不让别人看到。出价最高的人中标,但是,他最后付钱不是出自己竞标的价格,而是出第二名竞标报价。
这听起来有点反直觉,但正因为这样,竞标者才可以放心大胆地报出自己所能出的最高价,而不用担心因为不懂行情而吃亏!维克里靠对拍卖的研究获得了1996年的诺贝尔经济学奖。现在我们在 eBay 之类的网站拍卖物品,可以选择让机器人替你拍,那个方法本质上就是维克里拍卖。
那既然维克里拍卖这么好,以后所有的拍卖就都改成维克里拍卖呗?
真实的博弈远没那么简单。1996年,新西兰政府拍卖电信运营牌照,就用了维克里拍卖法,结果成交价格差强人意,还落下一身埋怨。公众不理解博弈论,说明明电信公司已经愿意出更高的价格,政府为什么只收一个次高的价格呢?
一场拍卖博弈的性质跟要拍的东西有关。暗标拍卖的缺点在于竞标者有时候不知道这个东西到底应该值多少钱。不知道值多少钱,出价就会偏保守。明标虽然有时候会让竞拍者互相串通,但明标很热闹,大家互相确认,更容易认可高价。
2000年英国政府对3G电信牌照的拍卖,可以说史上最成功的一次拍卖。这回博弈论专家进行了精心的布置。
首先,本来政府只想拍卖四块电信牌照,但是博弈论专家的第一个提议就是能不能想办法再多弄一块牌照,总共拍五块。这是因为英国正好有四大电信公司,如果拍四块,人们就会认为必然是这四家公司拿到,别的公司就不会参与,那就没有竞争了。
多提供一块牌照,反而还能促进竞争。英国政府果然挤出了第五块牌照,结果在四大电信公司之外,又有9家公司也来参与竞拍。
其次,这次拍卖使用了“日本式”的拍卖方法。这个方法是明标,但竞拍者不喊价,只能被动接受拍卖者的一轮比一轮高的报价。规则规定,只要是留在拍卖会场里的竞拍者,就必须接受当前的报价,如果你退场,就再也不能回来。
这样做的好处是让竞拍者不但无法做动作串通,而且还自动互相鼓励。只要你看见场内还有别的公司在,你就知道当前这个价格是被人认可的。那既然别的公司花这个价格买牌照能赚钱,我为什么不能呢?
再者,组织者还事先进行了大肆宣传,让每个竞拍者充分认识到这次竞拍的价值。
拍卖一共持续了两个月,进行了一百多轮提价,最后五个牌照总共卖出了225亿英镑,而政府最初的估计才30亿英镑。更好的是,拿到牌照的电信公司把3G服务搞得很好,因为互相竞争,英国手机用户也没有多花服务费。
所以博弈设计是真有用。但是博弈设计也有边界。
0x3:理性与数学
1727年,英国女王卡洛琳访问了格林威治皇家天文台。皇家天文台有个相当于首席的“皇家天文学家”,当年担任这个职位的是爱德蒙·哈雷,也就是“哈雷彗星”那个哈雷。女王发现哈雷的工资不高,就说应该涨工资。
但是哈雷马上请求女王不要给他涨工资。哈雷说,如果这个职位的工资很高,将来在这里工作的可能就不是天文学家了。
不过女王还是给涨了工资,而且皇家天文学家的位子此后也没有被不是天文学家的人抢走。今天恐怕不会有哪个科学家会拒绝涨工资,但这个故事仍然能说明问题:现实中就是有很多人,比如科学家和政客,为了自己喜爱的工作,宁可拿一份不高的收入。
那我们应该怎样给科学家和政客设计薪酬体系呢?据我所知,博弈论目前没有很好的答案。
我了解的一些薪酬设计理论,哪怕都是有名有姓的、还使用了数学,也都有一些并不怎么靠谱的假定,
- 第一,人们工作只是为了钱。
- 第二,只要你监管不到,这个人就肯定就会偷懒,甚至会腐败。
- 第三,监督者总是有办法可以抓到偷懒者
基于这两点,为了防止工人偷懒,你就必须用一个更高的工资去收买他。只有这份工作的工资足够高,他才会担心偷懒被抓住,他才会为了保住工作而不偷懒。要给多高的工资呢?你得考虑社会基本收入水平和工人偷懒被抓住的概率,越容易偷懒的岗位,工资就得越高。
对官员高薪养廉也是这个道理。有人计算过一个非常复杂的高薪养廉公式,说官员工资应该由社会基本收入、贪腐被发现的可能性、对贪腐的惩罚力度和官员权力的大小决定。
我看到这些一本正经的理论,就想起维克里得了诺贝尔奖的拍卖法。拍卖规则那么简单那么直观,实际应用都有可能出问题,那高薪养廉公式对真实世界做了那么多近似,它还可能有实际应用价值吗?
把博弈论用于制度设计,我看通常有两个默认的前提。
- 一个是激励必须是基于可见的表现才行,这个人卖了多少东西,这个人写出几篇论文,不可见就没法操作。
- 一个是参与各方得是为了一个单一的目标进行博弈。
但现实生活并不总是这样的。科学家和政客并不仅仅是为了工资而工作。他们也想要工资,但是对他们来说,荣誉,地位和权力比工资更值得追求,而你没法量化。人是理性的,但理性不等于一门心思挣钱。
以前凯恩斯有个感慨。他说经济学家能不能别总做事后诸葛亮,只知道解释世界,我们能不能也像牙医一样,开个诊所,谁有问题我们就帮他设计一个解决方案。
怎么才能设计一个完美的制度,让官员不腐败,让科学家不偷懒呢?目前来说,博弈论可能还没成熟到到能开这种诊所的程度。
十四、冥冥之中有定数
这一章我们要讨论一个比做参与者和设计者更高级的博弈论视角,上帝视角。
博弈论的出发点是自由。你首先得是一个自由的 player,能够独立自主地选择博弈策略,才谈得上使用博弈论。但博弈论的结局通常是不自由。作为一个理性的人,你的策略总是纳什均衡中的一个,如果纳什均衡只有一个,你就只有这一个选择。所幸的是纳什均衡常常并不只有一个,而且我们会参加各种不同的博弈。
生活中有各种各样的人,有好人有坏人,有的人谨慎有的人爱冒险,有的人重感情有的人重物质,他们的策略选择都有道理。正因为如此,社会才是多样的。
但是,即便纳什均衡并不只有一种,冥冥之中仍然存在着一些规律,在限制我们选择策略的自由。这些规律决定了社会的演化。
咱们从一个求偶故事开始说。
0x1:三种求偶策略
美国和墨西哥的沙漠里有一种蜥蜴叫侧斑蜥蜴。它们的体型大概有十几厘米长,雌性长得都差不多,而雄性根据喉咙区域的颜色,分为三种,分别是橙色、蓝色和黄色。侧斑蜥蜴最有意思的一点在于,你可以从一个雄性的外表精确判断他的求偶策略。是居家好男人还是花花公子,看喉咙颜色就知道。
- 橙喉的体型比较大,力量比较强,它的求偶策略是一夫多妻。它会占领一大片领地,把领地内所有雌性收为后宫。
- 蓝喉的特点是专一,它只有一个妻子。它总是守着自己的妻子,不容别人挑战。
- 黄喉的长相有点雌性化,它的策略是偷情。它自己没有自己固定的伴侣,专门和别人的妻子发生婚外性行为,偷偷留下后代。
雄侧斑蜥蜴的长相和交配策略都是遗传决定的。雌蜥蜴选择和那种雄蜥蜴交配,就等于选择了自己的后代。那你说,哪种雄性最有遗传优势呢?
答案是这三种求偶策略是互相克制的关系。
- 首先橙喉克制蓝喉。蓝喉的问题是太保守了,只守着一个妻子和一亩三分地,等于把大量的资源拱手让给了橙喉。
- 但是黄喉克制橙喉。橙喉的后宫太大,根本看管不过来,这就给了黄喉可乘之机。黄喉会和橙喉后宫中的雌性偷情,用橙喉的资源传播自己的基因。
- 而蓝喉又克制黄喉。蓝喉是防守型的打法,而且蓝喉之间还会形成联盟,它们把自己的妻子看得很好,让黄喉完全占不了便宜。多一个蓝喉找到妻子,黄喉就少一个机会。
橙喉、蓝喉、黄喉,等价于石头、剪刀、布。像这样的博弈局面,我们前面说了,结果应该是混合策略的纳什均衡,参与者应该随机选择做哪种蜥蜴。
当然蜥蜴没有选择的自由,一出生就没法变了。生物学家发现,三种雄性蜥蜴在族群中的分布比例,是循环演进的。
如果橙喉占多数,因为黄喉会和他们的妻子们偷情,下一代中就将是黄喉占多数。可是黄喉占多数的时候,蓝喉就有了竞争配偶的优势,那么接下来一代中蓝喉会占多数。蓝喉一多,橙喉的优势又出现了。雄性蜥蜴的主导类型总是按照橙喉->黄喉->蓝喉这个顺序循环……
咱们想想这个蜥蜴故事是不是有点发人深省。按现代人的道德标准来说,我们肯定是同情对爱情专一的蓝喉。可是对蜥蜴来说,那只是一个求偶策略而已。石头剪子布,你说哪个好哪个不好?
一个更深道理是,策略的优劣不是永恒的。你必须考虑当前社会的博弈格局,特别是其他人都在使用什么策略,才知道自己的最佳策略是什么。
从上帝视角来看,策略可以演化。
0x2:策略的演化
就好像生物演化是基因的竞争,文化演化是“模因(Meme)”的竞争一样,博弈的演化,是策略的竞争。如果使用一个策略能带来好的报偿,人们就会模仿这个策略,这个策略就会流行开来。“演化博弈论”就是专门研究策略的流行规律的学问。
一个最简单的例子是左撇子和右撇子的博弈。如果社会上大部分人都惯用右手,你的最佳选择是让你的小孩也尽量用右手,不然大家围着圆桌吃饭,他要左手拿筷子就容易跟身边的人冲突。在这个博弈里你应该选择跟多数人一致的策略。
事实上,哪怕在某一时刻,社会上左撇子和右撇子的人数正好一样多,这个平衡也是不稳定的,只要来个扰动,有一方的人数稍微多一点,其他人的最佳选择就是都跟着变过来。这不是盲从,这仅仅是因为这么做有好处。
但是到底要在什么比例的情况下随大流,甚至要不要随大流,都取决于具体的博弈格局。
比如咱们说一个简化版的人类的求偶故事。我们假设世界上只有两种婚姻观。
- 一种人结婚纯粹是为了感情
- 一种人结婚纯粹是为了物质
现在,大家的博弈格局如下,
- 一个物质男和一个物质女结婚,两人有共同语言两正好是一对,我们假设他们从婚姻中获得的报偿都是1。
- 感情男和感情女在一起理应享受更好的婚姻生活,我们假设他们的报偿高一点,都是2。
- 如果夫妻双方一个是物质型一个是感情型,这个婚姻就毫无乐趣可言了,假设他们的报偿都是0。
我们再进一步假设结婚配对是随机的。
那请问,在这样的情况下,你应该选择做个物质型的人呢,还是感情型的人呢?
这其实是一道数学题,答案和当前社会上这不同类型的人的人数比例有关系。我们假设物质型的人占比是 p,那么感情型的人占比就是 1-p。
- 如果你是一个物质型的人,随机配对结婚,你预期报偿的数据期望值,应该是 p×1+(1-p)×0 = p
- 如果你是一个感情型的人,你预期报偿则是 p×0+(1-p)×2 = 2-2p
这两个数值哪个大呢?
- 答案是如果 p>2/3,物质型的人报偿会更高
- 如果 p<2/3,你就应该选择做做感情型的人
前面讲的蜥蜴求偶博弈是个真实的故事,但人比蜥蜴复杂得多,我们这里只能考虑一个非常理想化的模型,而且还用了一点数学,但是我们得出的这个道理是非常直观的,
- 如果社会上大部分人都是物质型,你就更可能跟物质型的人结婚,所以你最好也做一个物质型的人。
- 反过来说,如果社会上有很多感情型的人,那你也应该做感情型的人。
什么叫“大部分”人呢?我们这个模型给的标准是在人群中占比分界线是 2/3 比 1/3。这个数值是博弈的报偿决定的。
那你可能会说,不对啊,在现实生活中虽然大部分人都惯用右手,可也有很多左撇子顽强地存在。哪怕周围人都很物质,也有很多注重感情的人拥有很好的婚姻生活。确实如此。这是因为在现实生活中做个左撇子,虽然会在社交中有一些不便,但也不至于影响生存和生育;现实生活中的婚姻配对不是随机的,感情型会尽量找感情型的人结婚。我们说的,仅仅是数学模型。
但即便是这么简单的数学模型,也能解释一些社会现象。我们的社会中的的确确就是绝大多数人是右撇子,人们的的确确会根据周围人的策略类型选择自己的策略,社会“风气”,是有规律可循的。
0x3:鹰鸽博弈
咱们再说一个社会现象。职场中的人,按照随和性,大约可以分成两种。
- 第一种人容易听从别人的意见,不喜欢跟人发生冲突,处处忍让,你总可以想办法说服他,我们称之为“鸽派”。
- 第二种人总是想让别人听从他的意见,不怕冲突,处处跟人针锋相对,你越让他往东他越往西,我们称之为“鹰派”。
可想而知,鹰派和鸽派相处,总是鹰派占便宜。那既然如此,这个世界上为什么还有那么多鸽派呢?
这是因为鸽派的策略也有合理之处。我们来分析一个叫做“鹰鸽博弈”的模型。
- 鹰派对鸽派,鹰派占便宜,我们假定鹰派得到的报偿是1;但鸽派本来就愿意跟人合作,所以也不算吃亏,鸽派得到的报偿是0
- 两个鹰派在一起互不相让两败俱伤,我们假定报偿都是 -1
- 两个鸽派在一起相处融洽,我们假定报偿都是0.5
还是假设大家随机配对相处。那么在这个局面中,你是应该做鹰派,还是鸽派呢?
这也是一道数学题,需要计算各自的报偿的数学期望。我们假设鹰派的人占比是 p,那么鸽派的人占比就是 1-p。
- 如果你是一个鹰派,随机配对相处,你预期报偿的数据期望值,应该是 p×-1+(1-p)×1 = 1 - 2p
- 如果你是一个鸽派,你预期报偿则是 p×0+(1-p)×0.5 = 0.5-0.5p
这两个数值哪个大呢?平衡公式为:0.5 - 0.5p = 1 - 2p
- 答案是如果现在鹰派占人口的比例少于1/3,做鹰派更合适
- 如果鹰派比例大于1/3,你就应该做鸽派。
换句话说,在鹰鸽博弈里,你应该加入“少数派”。
- 鸽派是会被鹰派占便宜,但鹰派的问题是没朋友。如果这地方的鹰派人数太多,鸽派就不够用了,做鹰派只会互相伤害,不如做鸽派抱团取暖。
- 而如果这地方大部分人都是鸽派,你做鹰派就有利可图。
更有意思的是,根据这个理论模型,社会上鹰派和鸽派的人数之比将维持在一个1:2的平衡。这个平衡是”稳定“的,哪一方的占比低于平衡,就会自动有人加入哪一方。
你看这个模型也是非常简单,各种报偿的数值,计算出来的人口比例都可能不符合实际情况,但是,它的结论具有普遍意义。为什么社会上总是有少数鹰派和多数鸽派?我们抓住了这个现象背后的数学机制。这就是抽象推理的力量。
更复杂的模型还能解释更精细的现象。比如说,如果考虑随着人口密集度增加,人们可以自由选择跟什么人相处,那么鸽派可能就有更大的优势。而这样的模型就能解释为什么现代人相对于原始人变得更温顺了……
我们年轻时候的雄心壮志变成了对社会的低头,我们感慨世风日下人心不古,我们嘱咐子女不要锋芒毕露,可我们又暗自期望他们能走一条少有人走的路。一切都仿佛是个性和现实之间的对抗,殊不知一切的背后……都是数学。
0x4:选择做一个什么样的人,你需要审时度势
从前面婚姻配对和鹰鸽模型的两个例子中,我们得到以下几点洞见,
- 是「随大流」还是「特立独行」,并没有一成不变的黄金原则,这两种策略也仅仅是策略而已,并不存在高下之分
- 决定博弈策略的优劣的核心因素是「博弈报偿矩阵」,我们对身处的局势和环境要经常审时度势,敏锐把握各个players之间的博弈报偿,从而动态地决定自己的博弈策略
十五、永无休止的博弈
这一章,我们来假象一个思维游戏。
你是一个聪明又善良的青年,有一天突然继承了一个遥远王国的王位。你没受过执政的训练,但你决心挑起这副重担,做个贤明的君主。
你受到臣民的热烈欢迎。他们告诉你,王国的城外是一片广博而又富饶的土地,你应该开疆拓土。你兴致勃勃地带着部队前往野外探测。
你们遇到一队弓箭手,你派人上前问话,弓箭手一听说是你,竟然主动要求加入你的部队。你们在路上发现了一个宝箱,里面有1500个金币。你的王国很需要这笔钱,但是你认为贫苦的农民更需要钱,你决定把金币全部分给农民。你的威望大涨。你们兵不血刃就占领了一个矿山和一片森林。
城里传来消息,说现在王国的建设迫切需要硫磺。你知道有一处硫磺矿,可是那个矿有一队祭司把守,他们拒绝臣服于你。你考虑再三,为了王国臣民的利益,不得不做出了艰难的决定。你带兵杀死了祭司,占领了硫磺矿。谋士宽慰你说,现在是战争时期,不用暴力是不行的。
城里的建设规模越来越大,还有情报说邻国正在大力扩军,可能要侵略你的王国。为了尽快取得建设和招兵的资源,你不得不越来越多地诉诸暴力。你们抢了两个水银矿、一个宝石矿和一个金矿。你捡到宝箱也不再分给农民了。你们甚至攻击了一个矮人的小屋,为了4000个金币杀死了几十个无辜的矮人!你甚至霸占了农民的风车和水车,要求他们必须每周向你纳税。
有一天半夜醒来,你忍不住问自己,我还是以前那个善良的我吗?我这么做对吗?而你知道这么做是对的。现在是战争时期,为了臣民的幸福,你必须做最理性的决策。
第二天,敌人打过来了。因为战斗力不足,你的王城陷落了。你失败了。
这是一个叫《魔法门英雄无敌》的老游戏。打游戏可以陶冶情操,会让你成为更理性的人。
“游戏”和“博弈”,在英文里是同一个词,都叫 game。新手容易动感情,老手都是理性的。而且光有理性还远远不够,你必须选择正确的策略才行。
- 如果游戏里的对手比较弱,你还可以尝试各种各样的玩法,享受任性
- 游戏难度增加,你就没有太多选择
- 要打最高难度,很多时候只有一种正确的打法。
- 而如果对手跟你一样也是个人类玩家,那你就算把什么都做对了也不一定能赢。
我们这篇文章一直在谈论决策的学问,那博弈论有什么特殊之处呢?博弈论专门研究有对手情况下的决策。
最根本的博弈思维,就是你必须考虑对手对你的策略做出的反应。然后你还得考虑你怎么对他的反应做出反应,他怎么再反应……博弈论要求你要站在两个、甚至更多个立场思考问题。
对手的存在,使你不得不陷入竞争之中。
我听过一个说法。高空跳伞是一个让新手非常紧张的运动。你会很担心自己在半空中打不开降落伞,你感觉这简直是玩命。但是你最多紧张三次。跳过三次之后,你就觉得这是一项平常的运动。
对比之下,比如说交谊舞,是一个绝对安全的运动,但如果你是参加交谊舞比赛,你也会感到很紧张。交谊舞比赛和高空跳伞运动最根本的区别在于,不管已经参加过多少次比赛,你下一次比赛还是会感到紧张。
这就是有对手和没有对手的区别。你能想到的对手也能想到,你会做的对手也会做,那你怎么办。
“纳什均衡”是博弈论里最重要的思想,也是祛除妄念的清醒剂。纳什均衡的意思是说如果博弈各方都是足够聪明的人,大家最终的策略选择一定是这么一个局面:在这个局面里大家都认命了,谁也无法单方面改变策略去谋求一个对自己更好的结局。
纳什均衡是谋略计算的终点。我们讲了好几种典型的博弈局面,你应该像学习成语典故和围棋定式一样记住它们、识别它们、并且举一反三地应用它们。
- 如果各方有强烈的合作意愿,而博弈有不止一个纳什均衡,那我们就需要一个”聚焦点“。
- 如果合作对所有人都有好处,但背叛对背叛者有直接的好处,那就是”囚徒困境“。
- 为了解脱囚徒困境,如果博弈是可重复的,我们应该寻求对背叛者进行惩罚。”以牙还牙“是最经典的做法,但适当的宽容更能促成合作。
- 在残酷世界里选择做好人表面上看是非理性的,但只要博弈有比较多、哪怕只是”有限次的重复“,做好人其实是有利的。
- 如果参加博弈的人数比较少,合作的利益比较大,各方就会形成串通和”合谋“,尽管这么做不一定对社会有好处。
- 有时候主动放弃一部分自由、让第三方”监管“,反而能促进自由,而监管者也应该把自己当做博弈的一方。
- 如果能迅速占领某种资源或者造成既成事实,那就”先下手为强“;如果先出手的一方守不住,那”后发“者反而会因为得到了关键信息和出手权而获得优势。
- 想要让别人按照你的意志行事,最好的办法是给他一个”可信的威胁或者承诺“。
- 有些博弈只有”混合策略的纳什均衡“,最高级的玩法不是欺骗对手,而是随机选择策略。
- 如果双方信息不对称,传达信息最好的办法是”发信号“,这意味着你要用行动去证明自己。
- 纳什均衡是博弈的结局,可是真实世界从来都没有结局,这是因为博弈局面总在变化,我们甚至可以主动改变博弈。
- 博弈论的最高级应用是”设计博弈“,比如说制定一场拍卖的规则,但这非常不容易。
- 而博弈论的最高视角,则是观察不同博弈策略在人群中的演化。我们看到的是,博弈永无休止。
博弈会把人变得更理性和更精明。
- 上世纪八十年代,中国早就恢复了高考,但是那时候并没有什么课外补习班。
- 上世纪九十年代,数学竞赛已经是中国中小学的常规赛事,竞赛成绩好已经可以给大学加分甚至直接保送大学,但是那时候的奥数训练都是针对尖子生的免费项目,并没有全民学奥数。
- 2010年以前,互联网、移动支付等新兴概念和事物刚刚兴起,在最开始的几年从业者和相应的公司可以获得超额利润,行业还处于半蓝海
难道当时的人不知道上大学很重要吗?知道。但是从知道一个博弈,到参加一个博弈,到把一个博弈玩坏、以至于演变出新的博弈,是需要时间的。这是一个逐渐演化的水涨船高。
美国对标中国高考的考试叫SAT。最初SAT只是一个私人公司运营的小规模考试,政府从来没有规定上大学必须考SAT。后来学生们发现SAT成绩是个很有力的信号,考SAT的人才越来越多。
逐渐地,SAT成了申请大学必备的项目。接下来,《美国新闻与世界报道》杂志把入学SAT成绩当做了评定大学排名的一个重要指标。
等到全民都考SAT的时候,有些大学又把SAT成绩变成了不做硬性要求的“可选项”。而这样做的一个重大好处是只有SAT考得好的学生才会向大学报告成绩,大学用于排名分的SAT指标提高了。
SAT越来越凉,人们又发明了“大学先修课程(AP)”这个新信号。
然后现在这个信号也快要被玩坏了。就好像中国禁止了奥数一样。
只要社会还需要把人才识别出来的信号,这样的博弈就会永远进行下去。但这不是一个每次都回到起点的无间道,在这个演化的过程中,每个参与者都变的更精明更理性了。
这永无休止的博弈,还能把我们变成更好的人。
- 从整个社会的角度来看,因为竞争的加剧导致整体的平均水平在提高。
- 从微观个体的角度来看,个体更容易陷入局部的内卷局势中,个人不是比以前更加精明和理性,不断扩展自己新的维度,突破到另一个新的蓝海中
再回到阿克塞尔罗德组织的那个博弈策略竞赛。我们知道,当个只合作不惩罚的烂好人是肯定不行的,以牙还牙的策略最终会在比赛中胜出,而宽容版的以牙还牙,也就是被别人背叛两次再报复,还有更好的合作稳定性。我们不妨把这两种以牙还牙策略称为“正义策略”。
演化博弈论的研究发现,正义策略在一个社会胜出的速度,跟重复博弈的次数非常有关系。
- 如果大家都是陌生人,互相之间最多只博弈一次,那背叛策略其实是最优的。
- 但只要博弈能重复哪怕两次、三次,正义策略的优势就会越来越大,以至于所有人都学会了正义策略,以至于到那个时候,连专门做好人的策略都能生存。
这难道不正是中国社会发展的缩影吗?
- 古代是“乡土中国”,绝大部分人一辈子都生活在本乡本土,周围都是亲戚朋友,大家抬头不见低头见,博弈的重复次数非常之多。演化博弈论说这样的熟人社会里正义策略应该是主流,而事实上的确如此,古代中国是礼仪之邦。
- 到了近代中国,人口流动起来了,人们在陌生的城市里举目无亲,就发生了很多尔虞我诈的事情。是中国人跟外国人学坏了吗?是因为政府忽视了思想道德教育吗?根本原因其实是大多数博弈变成了一次性的。
- 但这只是暂时的。市场经济越来越发达,人们会越来越依赖重复博弈。中国会慢慢变成一个巨大的熟人社会。不管你是一个公司还是个人,你的品牌、信誉和名声都是高度可见的,正义策略终将再次胜出。
韩非子有句话说“上古竞于道德,中世逐于智谋,当今争于气力”,现在我们可以这么理解这句话,
- 所有人都意识不到博弈的时候,可能你诗情画意都能赢。
- 少数人意识到博弈的时候,谁意识到博弈谁赢。
- 大家都意识到博弈了,那就只能比执行力,或者看谁能意识到新的博弈。
也许你有足够的前瞻思维能预期未来的博弈局面,也许你能举一反三熟练应对各种博弈局面,或者,现在你至少是个敢于博弈的 player。
最后,理论都只是理论。真正的智慧,来自于永无休止的博弈。
十六、Player作风
这一讲咱们说一点精神层面的东西。
博弈的首要精神是做个“player”。这个词没有特别传神的对应中文,一般翻译成参与者、玩家或者运动员,我们干脆就叫 player。所谓 player,是能独立自主地参与博弈的人。Player 这个身份,不太符合中国传统的身份认同。我们更熟悉的自我认同都是作为整体的一部分,我们是某个学校的学生,是家庭的人、单位的人乃至国家的人。
博弈论研究的是人与人合作、竞争、特别是对抗的学问,这些都不是我们日常干的事儿。我们日常不博弈,都是做些循规蹈矩的事儿。这就使得我们一旦面对真正的博弈,会表现得很不专业,可能有一些很土的行为。所以我想分析一下 player 的自我修养。
一个合格的 player,应该拥有四个作风
- 有限
- 务实
- 慎重
- 客观
这四个词非常简单,但是一般人根本做不到。
0x1:有限
你可能终生都会参加各种博弈,但每一次具体的博弈,都不是决定终生的。博弈是有限的游戏。这一局不论是赢是输,既不会影响你是谁,也不会影响你会成为谁,你还是你。
传统的社会规范是一说对抗就是了不得的大事,就好像造反一样,赢了就要当皇帝,输了就是谋逆的死罪。现代社会的博弈其实更像是体育比赛,场上是对手,场下还可以交朋友。这个订单你拿到了我没拿到,没关系咱俩不用互删微信,以后该怎么交往还怎么交往。
哪怕咱俩是竞选美国总统,我强烈反对你的政治理念,但是你当选也就当四年,我可以接受。我甚至还要打电话向你承认我竞选失败,对你表示祝贺。我甚至会在未来四年听从你这个总统的指挥。文明社会都是有限战,不是超限战。
Player 身份只是我们众多身份中的一个,博弈不是人生的全部。能接受失败的人,才有资格争取胜利。
幼儿园老师教小孩玩游戏,首先应该教的不是怎么赢,而是在发现自己要输了的情况下不掀桌子,继续玩下去。三个人下跳棋,你掀桌子别人就没法玩了,那下次谁还愿意跟你玩呢?不但要玩下去,最好还要跟对手复盘切磋。赢了就忘乎所以,输了就哭天抢地,那是最土的行为。
参加博弈不一定非得赢不可。如果对手不犯错误,纳什均衡的本质是平局。遵守规则,接受失败,尊重对手,这样的人才敢于多参加博弈,才能在每次博弈之中保全自己,才有可能成为优秀的 player。
0x2:务实
我们中国流行文化中有个特别不好的东西,就是喜欢比“境界”。人们总爱幻想,赢还不行,还得赢出高境界才行。
《孙子兵法》有一句叫“百战百胜,非善之善也;不战而屈人之兵,善之善者也”,这句话本来说的没问题,但是因为被后世文人过度发挥,现在可以说已经成了中国文化的糟粕。历来打仗没有不靠硬军事实力的,但是就有很多文人,认为自己的三寸不烂之舌能抵得上百万大军。
博弈的最高境界……不是“不博弈”。幻想不战而屈人之兵、什么以德服人,本质上是把对抗变成了文人比美。
怎么打才算美呢?靠武器好取胜肯定是不美,你看人家东方不败是“飞花摘叶皆可伤人”,人家独孤求败是“草木竹石皆可为剑”。甚至最高境界还要做到“无剑”、“以神驭剑”……真实世界里有哪位高手是这么打仗的,梅西能不能用眼神射门?又或者梅西并不是天下最厉害的球员,天下最厉害的球员其实是在巴萨俱乐部扫地的一位老人?
你辛辛苦苦地正在备战,他给你来一句还有一种更高的境界,这不荒唐吗?把最不可能变成可能,是很有戏剧性的幻想,但参加博弈你得尊重比赛。
博弈论不是研究把不可能变成可能,而是怎么实现最可能。真实世界里的高手都需要给合作者正确的预期,哪有刻意隐瞒高手身份的?
新手常常有不切实际的幻想。曾经有很多数学家和物理学家成立了投资公司,在华尔街炒股。如果你认为你连理论物理都能玩转,炒股等于是降维打击,你会遭到惨痛的失败。
“降维打击”是个幻想。任何成熟的领域都根本没有给你降维打击的机会。如果你以为你知道华尔街不知道的,那最大的可能是你不知道自己不知道。现在大多数去华尔街的数学和物理学博士是给别人做量化分析打工的。
0x3:慎重
Player 是利益攸关的人。如果你的言行会牵扯到利益,你的作风就会是慎重的。
中国有句话叫“文人相轻”,美国其实也不例外。我们看那些公共知识分子、大学里的教授,经常互相攻击,有时候能吵得很难看。中国人民的老朋友亨利·基辛格,对这种现象有个精准的评论,
“学术界的政治斗争之所以这么恶劣,恰恰是因为涉及到的利益太小了。”
说白了就是文人相争都是打嘴仗而已,谁胜谁负不值得严肃对待。基辛格这句话可能是受到了美国政治学家华莱士·塞尔(Wallace Sayre)的启发,现在这个说法被总结成了“赛尔定律”,
任何争论中,感情的强烈程度和所涉及到利益的价值成反比。
作为 player,你不能轻易挑起争端,不能轻易表态,不能轻易透露相关信息。你要是有影响,就得注意影响。而且你最好时刻都注意言行,平时也把谨慎做成一个范儿。
0x4:客观
你注意到没有,中国运动员接受记者采访,几乎从来都不用“我”这个词,他们都是用“自己”这个词来指代自己。比如说“今天教练的安排如何如何,上场之后自己如何如何,自己今天也比较有信心吧……”
很可能平时训练的时候教练就不用“你”来指代队员,“自己”是个特指的词。“自己”是个第三人称。与“自己”相对的是对手、队友、裁判和教练,“自己”是这些 players 中的一个。这是一个跳出自我看自我的客观视角。这是把作为 player 的自我和其他自我区分开来。这是“无我”。
参加博弈,其实就是老老实实地考虑这些因素,
- 1. 这个博弈是什么,我想要什么;
- 2. 我现在有什么,我可以放弃什么;
- 3. 对手的情况
你输入相关的条件,寻求一个限制条件下的最优解。这就好像是做一道数学题。而人们平常的思维习惯,是顺着自己的感情波动,从情感最强烈的地方开始浮想联翩,渴望这个担心那个,根本就不是分析问题。
具体问题具体分析,其实是个非常高的要求,一般人总是从自己的“人设”出发做事。比如我们假设有一个中国的高科技公司,因为被外国怀疑不当使用了技术,而受到调查,现在国际舆论对我们不利。那么在这种情况下如果我们要在国外搞媒体公关,应该怎么做呢?
人的本能是从自己的视角说话:我们是一个了不起的中国公司,我们的员工付出过艰苦的努力,我们公司现在无比强大,你们服不服吧……,你这么想当然可以,但问题是你想从这次公关中得到什么呢?你想得到的是公司在国外的核心利益不受侵害,是对方的市场,是对方的认可,哪怕对方的同情都行。
正确的应对是考虑对方怎么想。管用的公关必须站在对方视角说话,先同步,才能领导。
善为士者不武,善战者不怒,善胜敌者不与,善用人者为之下。Player,那是有气质的。