《噪声:人类判断力的一个缺陷》笔记
一、精确理解你的判断
卡尼曼作为一个心理学家,拿到了 2002 年的诺贝尔经济学奖。他的《思考,快与慢》2011 年一出版就是经典,被无数的书籍和文章引用。他提出的「系统一」和「系统二」这两个概念已经成了主流文化的一部分。那么时隔十年之后,卡尼曼已经 87 岁了,他是廉颇老矣、还是宝刀不老呢?
卡尼曼的研究领域是人的决策和判断。《快与慢》已经把人在决策判断中的各种思维偏误给说得很全面了,而且这十年来有很多别的书都在讲类似的话题。那这本新书又能讲出什么不一样的东西呢?
这本《噪声》不但讲了一个系统性的新东西,而且讲出了一个绝对的高度,它的历史地位将会跟《快与慢》并列。这本书卡尼曼找了两个共同作者帮忙一起写,但是延续了他自己的风格。《噪声》的难度比《快与慢》还要高,它稍微用了一点点数学,要想精确理解,裴波那契难度系数大约是 13。
这本书的另外两个作者也不一般。奥利维尔·西伯尼(Olivier Sibony)是巴黎高等商学院的战略和商业政策教授,同时还是麦肯锡的高级合伙人。卡斯·桑斯坦(Cass Sunstein)是哈佛大学教授和哈佛行为经济学和公共政策项目的创始人和主任,还曾经担任过奥巴马时期的白宫信息和监管事务办公室主任。这两人都跟卡尼曼有过合作研究,而且都真的把决策科学用在了实际工作之中,而且他们都出版过相关领域的畅销书。
每个人都会遇到大大小小的决策判断。平时购物选择、语文老师给学生作文打分、找工作面试这些都需要判断。但是在这个系列中,我想邀请你暂时抛开寻常老百姓的思维,想象自己是一个企业的高管、甚至是一位国家领导人,你要非常郑重地思考。如果你的思维拉胯了,你让上不了台面的小情绪和业余认知影响了判断,做出错误的决策,你就对不起合作者、对不起员工、对不起国家。
我故意说这么严重,是因为卡尼曼提出了一套极为郑重的判断思维方法。这套方法其实不复杂,它的难处就在于使用者必须有个郑重的心态,有个仪式感。
郑重到什么程度呢?卡尼曼提出一个特别好的说法,叫「决策卫生(Decision Hygiene)」。这就好像医生给人做手术之前必须先仔仔细细洗手一样,我们做判断也要有一个卫生的流程。如果你胡乱考虑各种信息、没有套路、稀里糊涂说不清、凭直觉就做了决策,你就是不讲卫生。
那这本书到底讲了什么呢?简单说,《快与慢》说的是人类判断中的「偏差」,而《噪声》说的是人类判断中的……「噪声」。
这一章咱们先把这几个概念辨析一番。你会发现,思维要想变得锋利,首先就得把各种概念精确化。
- 什么叫「判断(judge)」呢?
这里的精确含义是大脑对事物的测量,并且必须形成一个客观结论,并且这个结论未来是可以验证的。
- 比如公司招聘,这个人我们该不该录取,这就是判断。该,或者不该,你给个准话。
- 又比如说全球新冠疫情有多大可能性在未来一年之内结束,你给个概率,也行。
- 再比如说保险公司的一个经理给人评估一个项目的保费是多少,要形成一个数字,这也是判断。
判断的关键特点是要客观。张艺谋新片《悬崖之上》上映了,小王看完特别喜欢,给了五个星;小张看完不怎么喜欢,给了三个星 —— 这些”不是“判断。人们对电影的评价是非常主观的,你喜不喜欢都有理,没法论个输赢。但是,《悬崖之上》这部电影最终的票房能达到多少,这个是一道判断题。你可以不喜欢它但是判断它的票房会很高,也可以很喜欢它但是判断它的票房会很低,判断跟喜好无关,而你的判断,至少在理论上,将来是可以验证的。
所以判断不是寻常的观点,而是不带个人立场的、客观的结论,应该建立在事实和逻辑之上。能理解这一点其实就已经很不容易了。我们看人们日常的议论,微博上那些言论,大多数根本分不清自己是在做判断还是在表达喜好。我们要做一个“士”,一个稳重的成年人,最好多研究怎么拿主意少表态,多琢磨判断少抒发情绪。
判断的目标不是为了打动人,不是为了表明立场,不是为了说服人,而是为了接近事实真相,避免错误。
卡尼曼把判断又分为两种。
- 一种叫「预测性判断(predictive judgment)」
- 一种叫「评价性判断(evaluative judgement)」
预测性判断说的完全是客观事实,比如说这位 CEO 在未来两年之内能坐稳位置呢,还是会被赶下台?这在理论上是可以检测的。
评价性判断似乎带有一些主观的成分,比如老师给作文打分、评审委员会决定是否给一个项目拨款等等。评价性判断貌似跟判断者的价值观有关系,也许这个项目并不能盈利,但是考虑到社会效益,我们还是决定批准它。但是卡尼曼有一个关键的洞见,
评价性判断,必须是建立在预测性判断的基础之上。你应该先有预测性判断,再做评价性判断。
也就是说,这个项目上不上,我必须先知道它的盈利前景怎么样,完了再考虑公司的价值观。我价值观是为人民服务,也不能不问价钱盲目上马。我的价值观是鼓励学生写好作文,也得先分清楚谁写的好一些谁写的差一些。如果次序颠倒了,遇事先考虑价值观再做预测判断,那你就是胡乱决策。
而且就算考虑价值观,那个价值观也必须是全公司的共同价值观、或者你自己决策体系的恒定价值观。你不能变来变去,应该当做一个客观的限制条件。
所以我们重点考虑预测性判断。而卡尼曼的一个关键要求是不同的人做出的判断应该尽量是一致的。这道数学题到底等于几,答案不应该跟你的性格、经历或者星座血型有关系。如果大家的判断差别非常大,那就有噪声问题。
- 下一对要辨析的概念是「偏差(bias)」和「噪声(noise)」
看图比较容易理解,下面这张图表现的是四支射击队打靶的成绩,
- A 队五发全都命中靶心,我们说它整体的误差都很小。
- B 队的五发全都打偏了,但是偏的方式是一样的,全都达到了靶子的左下方,我们说它的偏差比较大,但是噪声很低。
- C 队打的靶子上哪都有,但是整体上、平均而言是以靶心为中心均匀分布,我们说它的偏差很小,但是噪声很大。
- D 队,打得又偏又分散,我们说它的偏差和噪声都很大。
用一个公式来说,
错误(Error)= 偏差(bias)+ 噪声(noise)
其中,
- 偏差,是”系统性“的错误。是都往一个方向偏。是全队的判断普遍高估或者普遍的偏左,是一致的行为。
- 噪声,则是判断的分散,是互相之间都不一致。
再简单点说,以射击而论,偏差是这把枪有问题,打出去子弹总往一个方向偏;噪声是打枪的人手不稳,哆哆嗦嗦有时候往这边偏有时候往那边偏。
真实世界中的判断往往不能马上知道结果,相当于下面这样,我们只看到了子弹的落点,不知道靶心的位置,
但是仅凭这张图,你也能看出来 A 队和 B 队的噪声小,C 队和 D 队的噪声大。
而卡尼曼全书最重要的一个结论,就是对错误来说,偏差和噪声的贡献是一样大的。这就是全书唯一用到的数学。简单说,统计学上通常使用「均方误差」表示整体的错误,而这个数学公式是,
均方误差(MSE) = 偏差^2 + 噪声^2
你减少噪声和减少偏差一样,都能减少整个的错误。
这个说法稍微有点反直觉,我得解释几句。我们回到带靶子的那张图,
D 队的偏差跟 B 队是一样的,只是 D 队的噪声更大。减少噪声,就是要把 D 队变成 B 队。你可能会说,这真的好吗?D 队虽然手不稳,可是毕竟有一发命中靶心,这不挺好吗?不是的。D 队虽然有一发偶然命中,但是其他几发距离靶心更远了,”总体而言“,D 队的成绩比 B 队差得多。
减少噪声,哪怕结果都是偏的,也比既是偏的又有噪声好一倍。哪怕你不知道偏差有多大,也应该减少噪声。
可能有人又会说,有噪声的话只要取个平均值不就行了吗?也不行。卡尼曼列举了几个真实的例子,你看看现实生活中什么叫噪声,
- 两起相似的挪用公款案,一个人只被判了 117 天监禁,另一个人却被判了 20 年;
- 同样的贩毒,落在这个法官手里就是十年,落在那个法官手里就是一年;
- 当地足球队周末比赛输了,周一的法官可能会给更严厉的判决;
- 如果当天正好赶上被告过生日,法官常常会从轻发落;
- 如果当时快到午饭时间了法官感到很饿,判决通常会更严厉……
这合理吗?这种判决都是一事一议,不会有五个法官对一个案子分别判决给你取平均值的机会。一个过宽一个过严,两次不公正的判决,不会平均成两次公正的判决。保险经理评估保费也是这样,估低了公司拿不到利润,估高了公司拿不到订单,结果都是损失。
偏差和噪声同样重要。哪怕你平时不怎么需要做什么决策判断,读一读、深刻理解此书,也能让你的思维水平上一个台阶。这本书更大的教训可能是你应该养成精确思考的习惯。
在讲怎么减少噪声之前,咱们下一章先回顾一下《思考,快与慢》,看看偏差是怎么来的。
二、三类偏差
一个系统的判断错误是由两部分组成的,
- 一个是偏差,代表同一个方向上的错误
- 一个是噪音,代表各个判断之间的分歧
偏差是因为枪是歪的,噪声是因为手不稳。《噪声》这本书要解决的是噪声问题,但是这一章咱们先回顾一下偏差是怎么回事儿。
这是一个细思恐极的现象。你以为你是在清醒冷静地根据一定的信息作出决定,其实你已经跑偏了。这是我们大脑的特性。不克服这个特性你就会一直受害而不自知。
举个例子。比如你是个风险投资人,你想从一堆商业计划书中选几个给机会深入研究。按理说,你应该专注于这些计划书的实质内容,但是你可能会或者有意识、或者无意识地对那些使用了更精致的印刷纸张、更漂亮的字体的计划书给了更高的评价。如果别人给你指出来,你可能还会辩解,说计划书做的漂亮才能彰显创业者的认真态度啊……但是研究者会用统计数字告诉你,计划书的精美程度跟项目成功概率之间其实没关系,这个最不重要的因素大大影响了你的判断。
这就是一种思维偏误,我们这里统称为「偏差」。卡尼曼 2011 年出版的《思考,快与慢》就是专门讲偏差的。他的经典模型把大脑思维分成了「系统一」和「系统二」。系统一是快速的、直觉的判断,系统二是慢速的、费力的、更尊重事实和逻辑的判断。我们平时习惯于使用系统一,而系统一容易带来偏差。
偏差的概念现在已经深入人心,很多人一提到有什么判断错误、什么“非理性”就说是偏差,卡尼曼在新书中特别强调,这是不对的。这个观念你一定要搞清楚:偏差不是毫无规律的错误,而是“可预测的非理性”,是大脑中的思维定势。
我们把一个效应叫偏差,是因为很多人在这里会犯”同样的“错误:
- 精美的计划书和漂亮的人会得到一些不该有的好感,这叫「光环效应」。对比之下,我从来没听说过有人非得喜欢挑选制作拙劣的计划书或者长相丑陋的应聘者。偏差有个一致的方向。
- 资本家和企业家都是贪婪的,他们都靠剥削工人的剩余劳动力获得超额利润,这叫「以偏概全」,也许确实是存在某一些工厂主存在不道德的用工行为,但是总体来说,企业环境和企业家圈子是积极向上的,否则市场经济会自动淘汰掉他们。
现在各种偏差科学家已经了解得差不多了,都列举出来大概超过两百种。卡尼曼把对判断力最重要的偏差分为了三大类。
- 第一类叫「替代偏差(Substitution)」,也叫「判断启发式」。
这个偏差是说,为了回答一个比较难的问题,我们选择了一个简单的问题来替代它,并且把这个简单问题的答案,当做那个难的问题的答案。
比如你在街头采访一个路人,说请问你对 2021 年的中国经济怎么看?他说,啊,我觉得今年经济还是不算太好,我家小店的生意明显不如 2019 年。他的错误就是替代偏差。
你问他的是”中国“经济怎么样,这个问题他其实回答不了,他根本不了解全国经济形势,但是他没有放弃,他不自觉地用“自己家的生意状况”替代了你的问题。我们常说的“以偏概全”,其实就是一种替代偏差。
替代偏差有各种形式。再比如说,你是清华大学的毕业生,你表弟小明是个高中生。你舅妈问你,你看小明能考上清华吗?要科学回答这个问题,你必须预测小明的高考成绩,并且和预测的清华大学录取分数线对比,这些信息你不掌握,这个问题对你太难了。但是你觉得小明的气质和行为模式跟你在清华的一个同学很像,于是你就说,啊,小明一看就是清华的料。你回答的其实是个替代问题。
每当空难、恐怖袭击之类的不常见灾难发生之后,人们就会高估这样的灾难再次发生的可能性,这也是替代偏差。评估一件事发生的概率是个难的问题,所以人们会用“我是否容易想到这样的事情?”这个简单问题来替代它。
这也叫「可得性启发式」。用统计语言来说,在评估频率的时候,最近发生的事件被赋予了过高的权重。你对人生满意吗?人们会优先参考自己最近一段时间的心情好不好。
还有一种情况,请听题,
已知李明今年三十三岁,人很聪明,但是没有想象力,平时不爱动,还有强迫症。他上学的时候数学成绩很好,但是文科很弱。那么请问,在下面两种情况之中,哪一种情况的可能性更大?
- A)李明的爱好是演奏爵士乐。
- B)李明是个会计,他的爱好是演奏爵士乐。
很多人选 B。会计这个职业非常符合李明的人设,而爵士乐距离李明感觉太遥远了。但是选 B 肯定是错的!A 的可能性明显大于 B,因为从逻辑上讲,“爱好爵士乐”的人,一定包括了“既爱好爵士乐又是会计”的人!
为什么那么多人选错呢?因为他们用“谁像李明”这个简单问题替代了“哪种可能性大”这个难的问题。
- 第二类偏差叫「结论偏差(Conclusion biases)」。
这可能是你非常熟悉的一类偏差,是先有了结论,再去寻找能证明这个结论的证据,同时对不符合结论的证据视而不见。我们常说的「确认偏误」就是一种结论偏差。结论偏差是预先的判断,是拒绝思考。
卡尼曼新书中有个有意思的例子。乔治·卢卡斯写星球大战《绝地归来》这一部电影剧本的时候,合作者劳伦斯·卡斯丹(Lawrence Kasdan)建议他让主人公卢克死掉。卢卡斯说不行啊!卢克怎么能死呢?卡斯丹说那你就让另一个主要角色死掉。卡斯丹的理由是这段旅程中必须死一个观众所爱的人,才能让它更有影响力。但是卢卡斯再次表示拒绝,他说拍电影哪能到处杀人呢?
卢卡斯这就是结论偏差。他不想杀死主要角色是因为他在感情上不喜欢这么做,而不是因为电影不应该这么拍。事实上我们看《权力的游戏》《黑道家族》,包括《罗密欧与朱丽叶》这些影视剧,都恰恰是因为有人死才让人感到深刻。
结论偏差里的结论往往是情感决定的。学生喜欢这门课的教授,往往连带给课程的教材也打高分,下一年同样的教材,只是不是这个教授了,教材也跟着得了个低分。爱屋及乌恨屋及乌也是结论偏差。这就是为什么大公司一定要拼命维护品牌的良好形象。
卡尼曼把「锚定效应」也归于一种结论偏差。有一个著名但是不一定特别可靠的实验是这样的。研究者让一群受试者先写下自己的社会安全号码的后两位数字,然后估计一瓶红酒的价格。按理说社会安全号码和红酒完全是两码事,结果却发现,那些社会安全号码的后两位数字比较大的人,往往给出了更高的估价。
我们专栏提到过罗伯特·西奥迪尼近年提出的“先发影响力(Pre-Suasion)”,先给你营造一个什么气氛去影响你的决策,也是结论偏差。
- 第三类偏差叫「过度的连贯性(Excessive Coherence)」。
它说的是你看到信息的顺序会影响你的决策。我们假设你要招聘一位行政管理人员,现在这个应聘者的性格特点可以用四个词概括:聪明、执着、狡猾、无原则。这四个形容词放一起,我估计这人就是个马基雅维利主义者,他会很善于弄权,但是他对公司不一定有什么好处。但是现在我们不这么看,我们假设这四个词是分别写在四张卡片上,你按照一个随机的顺序依次打开卡片。
- 实验表明,如果你先看到的两个词是聪明、执着,你就会对他有个好印象,以至于后来看到狡猾、无原则也只能稍微修正你的印象。你会更愿意录用这个人。
- 反过来说,如果你先看到无原则、狡猾,后看到聪明、执着,你就会更不愿意录用他,你觉得这是一个坏人。
出现这种偏差是因为大脑试图给自己讲一个连贯的故事。我们能很自然地接受“这是一个好人,尽管他也有若干缺陷”这样的故事,而无法接受“这个人既好又坏”这种说法。
所以信息的出场顺序能影响判断,陌生人的第一印象无比重要。「光环效应」就是一个过度的连贯性偏差,无数的研究表明这个效应在招聘中的危害实在太大了。
过度的连贯性偏差有明确的实践证据。现在你买个什么食物,上面一般都会注明它所含的热量是多少卡路里。而研究发现,如果这个热量标签是写在食品包装的左边而不是右边,消费者会更容易受到影响。有个例外是希伯来语,希伯来语地区的食品是热量标签在右边作用更大,为啥呢?因为希伯来文是从右往左读。
总结来说,这三大类偏差都是因为我们处理信息的方式有问题,
- 替代偏差是给了某些容易获得的信息过高的权重,给自己不了解的信息过低的权重。
- 结论偏差是只采纳自己喜欢的信息,忽略或者扭曲了自己不喜欢的信息。
- 过度的一致性是让判断受到接收信息次序的影响,放大了初始印象。
我要强调的是所有人面对同样的局面,会有同样的倾向,被这些偏差往同一个方向引导。你让不同的研究者找不同的受试者做实验,大家的结果应该差不多,这就是为什么心理学是一门科学。如果你应聘的这家公司今天会有五个人面试你,你打扮得整洁漂亮一点会对这五个人都有正面的影响,这会导致他们对你的评价有个系统性的偏差。
当然,每个人受到影响的大小会不一样。有的意志坚定的人坚决使用系统二做判断,可能完全没受到影响;更有可能有的人因为今天还遇到了别的事情,受到了其他的心理偏差的影响。所以偏差也是噪声的一个来源。但是统计而论,如果你把所有噪声平均掉,最后的偏差就是系统性的。
- 那怎么避免偏差呢?
一个办法是事后纠正。比如你的团队说他们三个月能完成这个项目,你考虑到人们常常会低估项目完成的时间,在给上级的报告中就可以留一点富余量,说四个月完成。
一个办法是事前影响,也就是「助推(nudge)」。比如你知道人们做决定常常随大流,采用系统默认设置,那么你就可以把默认设置改成最有利的选项。
但是这些方法的作用都是有限的。卡尼曼的关键洞见在于,消除偏差的根本办法,是了解偏差。
现在有证据表明学习过决策科学和统计学、理解各种偏差的人,能在实践中避免一些偏差。为此卡尼曼建议每个决策团队都专门安排一个人,让他观察团队的决策过程,对照着一个《常见偏差检查表》看看是否有人正在犯偏差错误。
这听起来有点麻烦,但重大决策就得这样才行。我们这个世界现在的特点是像报销个出差花费这种小事儿往往需要极其繁琐的层层审批,可是像公司收购这样的重大决策却往往是高层领导拍脑袋就决定了。
决策是一门科学。这就好像医学一样,你得知道这个病的存在,才能事先打上疫苗。决策者不仅要学习所在领域的专业知识,更要学习有关决策的知识。
三、稳定发挥出来的波动决策
这一章我们说说噪声的三种类型。判断的噪声导致决策的不确定,决策的不确定就可能给人带来命运的波动。我们要说到导致决策波动的一个最重要因素。为此咱们先假想一段故事。
上世纪八十年代初,待业青年小张因为打架斗殴导致对方受伤,被抓起来了,法庭即将判决。小张一家忐忑不安,正好有个朋友老李在法院工作,时不时过来透露一点消息。
- 第一天,老李说小张很危险。现在全国正在严打,像这种案子都是从重处理,搞不好得判很多年。
- 第二天老李又说,不幸中的万幸啊,负责小张案子的是季法官。季法官是个宽厚的人,我很了解他,他判的一般比较轻。
- 第三天老李又来了,说糟糕糟糕!季法官最近不知道遇到什么事儿了,情绪不对,昨天和今天的几个案子都判得很重。
- 第四天开庭。季法官问了小张几个问题,小张回答的很有条理,还表示自己一直在准备考大学。季法官给了他从轻发落。
如果没有老李,小张可能根本不知道自己的命运有那么多可能的波折。那决定小张命运的到底是什么呢?季法官的最终判断是怎么形成的呢?
我们还是先做精确的概念辨析。
我们把当时全国法官对各种案件的判断当做一个大系统。那么像八十年代的特殊情况,就是这个系统的「偏差」。而在这个时期内,尽管所有法官都会尽量严判,法官跟法官的判法还是会有所不同,这些就是系统的「噪声」。前面讲了,
均方误差 = 系统偏差^2 + 系统噪声^2
偏差我们已经理解,这里专讲噪声。噪声又分为几个部分。
美国有个真实的研究是这样的。研究者弄了 16 个案件,交给全国 208 名现任联邦法官,让他们各自对这 16 个案件作出假想的判决。因为这些法官的判决是独立的,我们可以假设这项研究中没有系统偏差。结果法官们表现出很大的噪声。所有案件被所有法官判决的平均刑期是 7 年,而刑期的标准差则高达 3.4 年。这意味着同一个案子,你随机找两名法官,平均而言他们大约一个判 5 年,一个判 9 年。这些全都是噪声。
你马上就能想到,是不是有些法官就喜欢严判,有些法官就更倾向于轻判呢?的确如此。我们可以通过各个法官对 16 个案件的平均判决刑期来看出来他们之间的差异,这个叫做「水平噪声(Level Noise)」。
水平噪声说的是不同判断者的”人“的区别。为什么有的法官更严厉、有的法官更宽松呢?也许跟他们的背景、生活经历、政治观点、对世界的偏见都有关系,可能每个人有不同偏差。比如美国南方社会更讲规矩,来自南方的法官通常判得更严。对于整个系统来说,这些是噪声。
但是水平噪声不能解释所有的噪声。一个整体风格判得严的法官,可能对某一类罪犯会判得特别轻,这是什么原因呢?
法官这个研究中,系统噪声是 3.4 年,水平噪声只有 2.4 年。卡尼曼把水平噪声之外的系统噪声,称之为「模式噪声(Pattern Noise)」:
系统噪声^2 = 水平噪声^2 + 模式噪声^2
你可以算出来这个研究中的模式噪声也有 2.4 年。模式噪声代表法官面对不同案件时候的不同表现。可能有个法官对一般人都很严厉,唯独对白领判得很轻。另一个法官整体上判得很轻,但是对惯犯会特别加重处罚。
模式噪声代表法官与案件的相互作用。而这个相互作用有时候是稳定发挥,有时候还会受到偶然因素的影响。比如这个法官本来是优待白领的,但是今天正好胃疼,情绪不好,就给了严判。所以卡尼曼又把模式噪声分成「稳定模式噪声(Stable Pattern Noise)」和「偶然噪声(Occasion Noise)」两部分,
模式噪声^2 = 稳定模式噪声^2 + 偶然噪声^2
法官的那个研究中没有偶然噪声,因为所有法官都是把 16 个案件放在一起集中判决的,他们不太可能中途突然有什么心情变化。真实世界中会有各种偶然噪声。判断者的情绪有可能会因为遇到什么事情而变好或者变差,判断者可能会受到第一印象的影响,可能会感到压力或者疲劳……甚至有研究发现天气都会影响判断:如果天很热,司法判决往往更加严厉;如果天气很好,大学招生人员会更关注学生在考试成绩以外的属性。
而更多的偶然噪声是无法解释的。有个研究极尽所能地考察了所有可预测的、能影响判断的偶然因素,结果这些因素加起来也只能解释 11% 的偶然噪声变化。事实是人的行为有个内在的偶然机制。我们的大脑有时候想起来这个有时候想起来那个,你无法控制。这就如同篮球运动员,每一次投篮的动作不可能完全一样。
你让红酒专家给一种红酒打分,他尝了一口,打了个分数,过半个小时又尝了一口还是这个酒,他给出同样分数的可能性只有 18%。更令人吃惊的是,让同一个医生给同一个病例诊断两次,他给的结果也可能不一样。
偶然噪声都是临时发生的,是你自己跟你自己的争论。消除偶然噪声的最简单办法就是自己过一段时间再做一次判断,然后自己跟自己取个平均值。
总而言之,噪声是由三个部分组成的,
系统噪声^2 = 水平噪声^2 + 稳定模式噪声^2 + 偶然噪声^2
那么就我们开头讲的那个小张的故事而言,
- 赶上特定时期是系统偏差
- 季法官一般判得轻是水平噪声
- 季法官最近心情不好是偶然噪声
- 季法官喜欢爱读书的年轻人是稳定模式噪声
你体会一下这个公式。我们大约可以说它表现了任何一个决策结果的波动性来源。充分理解这些来源,知道其中哪一项可控哪一项不可控,哪一项重要哪一项不重要,你就可以搞搞斯多葛哲学,搞搞课题分离。
比如说,如果你打算影响一个判断,你应该从哪一项入手呢?我感到吃惊的是,这个问题是有答案的。卡尼曼有一个洞见。
答案是稳定模式噪声。
卡尼曼列举了好几项研究,各自对比了三种噪声来源的贡献大小,结果肯定是有大有小,但是有个一致的规律是,稳定模式噪声总是其中贡献最大的一项。
水平噪声的贡献并不算大。对一个保险公司的研究表明,不同承保人的平均保费差异只占到系统总噪声的 20%。对真实法庭判决的研究、对人事决定的研究都发现水平噪声占比不到 40%。
而偶然噪声的贡献其实很小。法官的心情的确有可能影响判决,但是总体而言,那个效应的作用并不大。成熟的决策者毕竟还是比较专业的,不至于今天这样明天那样。像红酒那是个特例,是出了名的难以判断。今天的你不完全是昨天的你,但是昨天的你跟今天的你还是很像的,肯定比其他任何人都像你。
卡尼曼说,综合而论,稳定模式噪声是最重要的噪声来源。
小张是季法官喜欢读书人的这个稳定模式噪声的受益者。
稳定模式噪声是判断者跟事物之间的相互作用。可能因为你的日常习惯,可能因为你从小的经历,可能因为你的知识、你思考问题的角度,你对某些事情的判断就是不一样。你可能因为自己是南京大学的毕业生而更喜欢聘请南京大学的毕业生。你可能因为自己认为体能最重要而最爱招体能好的球员进国家队。你可能因为自己曾经错失了治疗一个肺炎患者的机会而更倾向于让肺炎患者住院。你可能因为你本人喜欢从事研究型工作就倾向于招聘有研究背景的学生。
你的稳定模式噪声,代表立体的、全面的、你独一无二的思维习惯。
所以如果你想影响一个人的判断,你要问的不是他这个”人“是宽还是严,你应该问的是他在”什么情况下“宽,”什么情况下“严。
你是否觉得这个说法有点似曾相识呢?
这其实是个普遍的结论。我们专栏讲过托德·罗斯的《平均的终结》,我们知道人的“性格”也是这样的。传统的认知是性格是个简单概括:你是个外向的人就什么时候都外向,你是内向的人就什么时候都内向。但是新一代心理学家发现,人的性格其实是个跟场景有关的东西。有的人在同辈人面前特别外向,在长辈面前特别内向,有的人正好相反。
所以最新的认识是你不能简单说这人是什么性格,你应该列举他在各种不同场合中有什么不同的性格。这不是说这个人喜怒无常,他的行为模式非常有规律,他的性格非常稳定,他遇到那样的情况几乎永远都是那样的反应,但是他的模式不是一个词就能概括的。了解到这个程度,才算了解一个人。
再比如说,我们讲过格拉德威尔的《与陌生人交谈》,我们知道一个现象叫「人与环境的耦合」。一个有自杀倾向的人并不是什么时候都想自杀。他可能会用煤气自杀但绝不会用刀,他可能会跳金门大桥自杀但不会跳楼,如果这些场景不方便,他就不自杀了。
同样道理,有犯罪倾向的人也不是在哪里都爱犯罪。他们只在某些街区容易犯罪。换个街区,哪怕就在隔壁,他们也不会犯罪。
我们还讲过浪漫关系是怎么回事儿。决定一对儿情侣关系好坏的,并不是这两个人各自是”什么人“,而是他们二人之间的互动方式。好关系不是好人加好人凑出来的,而是双方共同构建出来的。
所有这些研究都告诉我们,人的行为和判断,是跟外界互动的产物。不是这个人如何如何,而是这个人面对那样的情况会如何如何。
所以如果你想让一个人做出对你有利的决定,你应该研究她在什么情况下会做那样的决定。
偶然噪声可以用多次测量取平均值的方法消除,水平噪声可以用多找几个人互相平衡的方法消除,可是稳定模式噪声更难消除。而且我们还没考虑各个判断者之间的互动。
这使得人们大大低估了噪声问题的严重性。
四、判断力的边界
噪声和偏差都是大脑判断中的错误,都应该尽力避免。那你能不能设想一下,如果现在有一个判断系统,它已经考虑到了心理学家关于偏差和噪声的所有知识,能做出既没有偏差、也没有噪声的判断,这样一个系统将会是什么样的呢?它的判断都会是正确的吗?
当然不会。我听说过很多人研究股市心理学,我从来没听说过有心理学家靠判断力炒股赚钱的。因为总有一些事情是不确定的、有一些信息是你做判断的时候理论上可以知道但是偏偏不知道的,你根本不可能给出100%正确的判断。最好的判断力,也有个边界。
卡尼曼把那些未来不确定的变化和我们现在不知道的信息,称为「客观无知(Objective Ignorance)」。客观无知不是错误,不是偏差也不是噪声,而是判断力的边界。一个最好的判断系统可以把偏差和噪声都降低到 0,但是你不可能消灭客观无知。
理想的判断差不多应该是这样的:
- 你认为这个剧本能火吗?
- 啊,我判断电影如果完成的好,票房过十亿的可能性大约有 60%;不过另一个剧本更好,我判断过十亿的可能性是 65%。
然而很少有人这么说话。现实是人们大大低估了客观无知。而这就使得相当一部分客观无知变成了判断中的偏差和噪声。
咱们来一个演习,请听题,
我们公司打算从外面聘请一位CEO,现在有个候选人叫李志国。作为董事会成员,请你根据以下信息,判断李志国当我们CEO能不能成功,我们对成功的定义很简单,就是他两年之后,是不是还能保住这个职位:
- 李志国 37 岁,毕业于哈佛商学院;
- 他曾经是两个初创公司的创始人和投资者,但是那两个公司都因为没有吸引到很多资金支持失败了;
- 他后来加入了一家大型保险公司,并迅速升至欧洲区域首席运营官的位置;
- 他发起并管理了一个在及时解决索赔方面的重要改进,同事和下属都说他很有效率;
- 然而人们也认为李志国很跋扈和粗暴,他任期内有大量的高管更替;
- 不过大家都认为他是个正直的人,能承担责任;
- 过去两年中,李志国担任了一家中型金融公司的CEO,把该公司从面临倒闭带到了稳定局面;
- 不过那家公司的人都觉得很难与之共事……
这是一个优点非常突出,缺点也非常突出的人。你要说他不行吧,他可能正是我们最需要的人;你要说他行吧,他好像在哪都很难干长。那你该怎么判断呢?
这道题的真实性就在于其中信息的复杂性,有的支持这个方向,有的支持那个方向。老百姓面对这样的情况往往会选择其中一方面的信息,弱化或者忽略另一方面的信息,给自己讲一个自洽的、连贯的故事。我们讲过尼克·查特的《思维是平的》,大脑会因为一些自己都不一定注意到的因素选定一个判断,就好像波函数坍缩一样坚定这个判断,剩下的剧情全是脑补。这样的判断过程恰恰是噪声的来源。
而老百姓做这种判断,其实并不是真的在追求精确性。他的大脑其实是在追求一个“我得出结论了”的愉悦感。结论是对大脑思考的奖励。一个连贯的故事有个结局,这种思考很舒服。但是这是系统一的思考。这是一种情感体验。这就是为什么人们那么相信自己的「直觉」:我跟你说不清我是怎么判断的,但是我知道判断让我感觉很爽。
这样的判断完全没考虑客观无知,往往是过度自信。
那你说全面考察两方面的信息行吗?还是不行。这一章最重要的洞见就是,做判断千万不能只考虑眼前这些信息,你必须考虑眼前没有的、外部的信息。
- 我们是个什么公司?
- 我们公司最需要什么样的人?
- 我们的企业文化跟李志国合拍吗?这些你得问啊。
- 其实这些还不是最基本的。最基本、最简单也是最重要的一个问题是,现在市场上”一般的“CEO,都能在位多少年?有了这个数字你才能知道“在位两年”到底是个什么水平。
这也是我们以前讲过的,也是卡尼曼提出来的,叫做「基础比率(base rate)」。要强调的是基础比率是个外部信息,你光考虑眼前这件事儿是不行的,你必须同时考虑其他类似的事情才行。
基础比率能帮你消除一点无知,但是你仍然会低估自己的客观无知。
比如说,我们知道“原生家庭”往往对孩子的成长有重大影响,各路科学家对此做过极多的研究。这个影响到底有多大呢?你可以想见,学者们已经知道各种基础比率了。那他们的预测水平怎么样呢?
2020年有个大规模研究是这样的。有一个包括五千名儿童的家庭详细信息的数据库,其中大部分都是条件比较差的“脆弱家庭”。数据库中有每个孩子从出生到 15 岁的各种跟踪信息,比如家庭收入情况、父母乃至祖父母的教育和就业情况、健康信息等等。之前,社会学家已经用这个数据库写过很多篇论文,可以说是非常熟悉了。
普林斯顿大学用这个数据库组织了一个预测比赛。题目是根据一个孩子 15 岁之前的所有详细信息,你们能不能预测到他在 15 岁这一年的学习成绩怎么样、家庭环境怎么样,比如会不会因为家里交不起房租而被房东驱逐?
有 160 个高水平团队参赛,其中有社会心理学家,也有的团队用的是大数据和机器学习算法。这个比赛可以说代表了现代科学对“原生家庭”这个话题的最高水平认知,它的预测结果代表了判断力的边界。
结果是准确率很低。
关于全家被房东驱逐的预测,最好的模型跟真实结局的相关度也只有 0.22。关于学习成绩(GPA)的预测,相关系数只有 0.44,关于过去一年是否遭遇物质困难的预测,相关系数也只有 0.48。
0.44 的相关系数是个什么水平呢?这就相当于给你提供这个孩子之前包括学习成绩在内的所有信息,现在问你他 15 岁这一年的学习成绩如何,而你说对的可能性只有 65%。
而这个研究可不是孤立的,这是一个普遍现象。社会科学家自己报告,社会心理学效应对人命运的影响,总的来说,那个相关系数只有 0.21。也就比纯随机稍微高一点而已。
所以好消息是“原生家庭”对人命运的影响远没有人们想象的那么大。你千万不要因为一个人的原生家庭条件差而小看他,正所谓“莫欺少年穷”。但坏消息是社会心理学并不能准确预测人的命运。
剩下的都是客观无知。
这个道理是事情总是充满不可知的变数。
这孩子父母本来收入就低,父亲又刚刚失业了,母亲的工资根本不够交房租的。你的模型合理预测他家很有可能会被房东驱逐,他的学习成绩会变得更差。可是谁知道,他父亲又找到了工作。又或者房东是个好心人,破例允许他家继续先住着。又或者有个亲友出手帮忙。又或者这孩子遇到一位好老师。
事后看,每一个可能性都非常合理,你能完美解释所发生的一切,你一点都不感到困惑。但是你事先可不敢这么预测。
这就是命运。命运充满岔路口,那些岔路跟社会心理学、跟任何理论都没关系,那些是我们必须面对的客观无知。
很少有人能充分意识到这个无知。比如让你负责一个岗位的招聘工作。你面前有两个候选人 A 和 B,你判断 A 比 B 好。那请问,如果 A 和 B 都进了公司,他们的实际表现也是 A 比 B 好的可能性大概是多大呢?有个调查发现,一般高管认为可能性应该在75%-85%之间。
但是真实的可能性只有 59%。而你要知道就算抛硬币选人,都有 50% 的准确度。
这些人高估自己判断的准确度,是因为低估了客观无知。新人进公司后什么事情都可能发生。她可能能力强又善于处理同事关系,可是偏偏遇到一位特别差劲的主管。他可能在工作中什么问题都没有,但是家庭拖累很重。你不知道会发生什么。
客观无知是一种统计思维。我们平时使用的、系统一爱用的,是因果思维。
因果思维善于解释。为什么 A 同事能力那么强却没表现好?是因为她的主管没有带好她。为什么那个贫困家庭最终还是挺过来了?因为遇到了好心人。这些解释没毛病,都非常准确,但是你只能在事后解释。
而卡尼曼说,正因为几乎每次事后我们都能解释,我们会误以为我们对这个世界非常有把握。我们只有遇到事后感觉无法解释的事件,才会调动系统二去努力寻找别的原因。我们平时并不觉得自己漏掉了什么东西。
而这就使得我们过高估计了自己的预测能力。遇到一个不好的主管,遇到一个好心的房东,这些事后听起来并不意外,所以我们会低估意外,我们没考虑到那些是无知。
事后解释的难度远远小于事前预测。比如现在出了个大新闻,是有关宏观经济的坏消息。那么不管股市接下来怎么走,股评家都能找到合理的解释:如果股市果然跌了,那就是“紧张的投资者对新闻感到担忧!”如果股市涨了,那就是“乐观的投资者保持乐观!”
可是你能事先给我预测一下股市的反应吗?哪怕事先判断者的脑子里感到了一点不确定性,他在事后也能自动解释,然后忘掉之前的那个无知感。
因果思维是自动的,统计思维却是需要努力的。因果思维可以是内部的,统计思维必须是外部的。
因果思维容易在事后理解判断的错误。出错了,人们总能找到一个什么解释,现在通常的解释都是“你当初的判断里有思维偏差!”但是因果思维不能理解噪声。噪声是一种统计思维。你必须观察过好几个判断,才能看出来其中有噪声。
这一章最关键的概念是客观无知。客观无知是判断力的边界,它限制了你这次判断”可能“好到什么程度,超过那个程度就别指望了。
要充分考虑客观无知,我们必须使用统计思维,有一个外部视角。做判断一定不能只看眼前这一件事,一定要向外看,看看跟这件事类似的事情,都有什么样的结果。不懂得外部的事物,没有类似事情的经验或者知识,你就不配做这个判断。不了解历史、不了解外国的,不能判断现代中国。
理解了偏差和噪声,明确了客观无知,我们就已经做到了「诚意正心」。那么下一步就可以「格物致知了」。
五、为什么流程比人强
这一章咱们说一个最基本、最简单而且也是能最有效减少噪声、提高准确率的判断方法,「机械预测(mechanical prediction)」。你会被它的简单性和有效性所震惊,你会很奇怪为什么大家没有普遍这么做。然后你会意识到,这背后有个值得深思的处世哲学。
假设我们公司有两位新来的女高管,一个叫李薇一个叫于丽娜。她们都是搞行政的,岗位职责一样。她们都刚刚接受了一家咨询公司的评估,已知她们在五个能力维度上的得分是下面这样的,
请你判断,两年后,她俩谁的工作表现会更好?
王总说这很简单, 直接看平均分啊。李薇的平均分是 7.2 分,于丽娜是 6.8 分,那么显然是李薇更强。
孙总觉得不能这么算。李薇的各项指标比较平衡,但是于丽娜的表达能力非常突出,那可是满分 10 分啊!她俩担任的是行政管理职位,表达能力难道不应该比技术能力重要得多吗?我支持于丽娜。
而赵总则说,老孙你说的也不一定对。表达能力更重要,那只是你的直觉,不一定符合事实。我的建议是咱们能不能用个统计方法,拿以往的数据搞个线性回归分析,看看到底哪些指标更重要,然后来个加权平均值,重要的指标我们就多算一点,不重要的指标就少算一点。
- 这里孙总使用的基于个人经验和直觉的综合判断方法,卡尼曼称之为「临床判断(Clinical Judgement)」
- 而王总和赵总建议的、用一个公式计算的方法,就是机械预测
王总用的是简单模型,赵总用的是稍微复杂一点的模型。
你猜哪个方法好。
卡尼曼介绍了好几项相关的研究,结论是高度一致的,这里面有个普遍的规律,
- 临床判断明显不如机械预测,而复杂的机械预测往往并不比简单的机械预测好多少。
先说临床判断不如机械预测。前面那个例子是一项真实的研究。到底李薇强还是于丽娜强?研究者请一群专业心理学家,调动各种他们认为有效的理论,做了综合的临床判断……结果专家的预测结果和实际绩效结果之间的相关系数只有 0.15。这意味着他们的判断也就比投硬币稍微好一点。
而有人用回归模型做数据分析,搞了一个计算加权平均值的机械预测公式,结果的相关系数则有 0.32。
这个研究不是孤立的。2000 年,有人综合调查分析了 136 项研究,其中包括各种主题,什么黄疸病的诊断、服兵役的适应性、婚姻满意度等等,结果是其中 63 项是机械预测更准确,65 项是机械预测和临床判断一样好,只有 8 项是临床判断比机械预测好。
而且别忘了机械预测比临床判断快得多,而且根本不需要相关领域的专家,可以说是省事省力省钱。
可是为啥呢?专家不是会具体问题具体分析吗?怎么还不如一个公式的水平高呢?卡尼曼说,原因就在于专家的噪声太大。
我们还是回到开头那个关于李薇和于丽娜的判断。机械预测直接用公式计算得分,这听起来确实很生硬。也许有的人某一项素质就是特别好,就应该得到特别的关注。我们不都听说过吗?有的数学天才就是从小专攻数学,你总不能说因为他英语没学好就抹杀了一个天才吧?上大学不还有个保送渠道吗?专家具体问题具体分析,就是要识别这样的特例,进行复杂判断。
这个逻辑听起来没错,毕竟每个人的成长模式都不一样,不应该一刀切。
但是这种复杂判断的有效性被高估了。于丽娜的表达得分是 10 分,这能说明她是一个表达天才吗?你要知道天才是非常、非常罕见的。也许得 10 分的人很多,也许她那个 10 分纯属侥幸。孙总看见于丽娜的一个 10 分就押注给她,这是一个冒险的、不靠谱的判断。
你所以为的特殊情况,往往就是一般情况。这就是我们常说的,你不单要考察目标对象个体的情况,还需要进行横向参考,参考业内平均的情况,以此评估目标对象在整个行业的水位。
如果有一个比如说“渣男模型”说凡是这几个指标得高分的男生都很有可能是渣男,最好不要找他们做男朋友,我相信每一个找到这种类型男朋友的女生,都会发自内心地认为自己那个男朋友是特例,说不是啊!我男朋友给我送过饭!他就是跟别人不一样!
其实你高估了“不一样”。你见过的人太少。你心目中的不一样正是模型眼中的一样。
这个高估可能来自自己的经历和记忆,比如觉得于丽娜特别像小时候看的某个电视剧里的女强人……而这恰恰是稳定模式噪声。
机械预测抹杀了所有这些“特殊情况”和“微妙考虑”,这可能会带来一些判断损失,但是,机械预测没有噪声。
那么卡尼曼说,这些研究结果表明,那些所谓微妙考虑的收益,比不上噪声带来的破坏力。
再换句话说,就是“想太多”弊大于利:想太多会大大增加你的判断噪声,通常不如按照几个简单指标、几条简单规则走标准化判断流程。
机械预测有多好使呢?我们前面不是讲过每个法官有自己的判断风格吗?有人就根据每个法官的判决风格给他们定制了一个线性预测模型。比如这个法官爱对惯犯重判,那他的模型就会给“是不是惯犯”这个指标更高的权重。研究者做了假想的判决:让法官的模型代替法官做判决,结果如果你跟踪那些判决五十年,你会发现这些模型的判决比法官本人的判决更合理。
你的模型,都比你本人好。因为模型没有喜怒哀乐。
一个更有意思的研究对 847 名行政职位的候选人进行评估,就如同这一章开头那样分成几项打分。结果发现,哪怕用非常简单的模型,比如直接取平均,也比专家的临床判断好。
而且研究者甚至发现,哪怕用简单到不合理的模型,也就是“随机”决定几项指标的权重,预测结果中也有 77%的模型表现比人类专家好。
用卡尼曼的话说就是“你几乎不可能制造一个比专家表现更差的模型。”
机械化操作就有这么大的好处。人的判断噪声就有那么大的坏处。
但是要特别注意的一点是,这里说,机械判断比主观特例判断要好,噪音要小,都是建立在一个大前提下,那就是同类事件在此前已经有过大量的先例,有大量的历史和同行数据可供参考。如果你面临的是一个完全全新的局面和对象,没有任何历史经验和数据可供参考,这个时候机械判断就不好使了,需要专家介入,使用所谓的专家经验进行启发式、模糊式地判断。
- 另一个规律是复杂的模型未必更好。
有人给的建议是不用把预测算法弄那么复杂,你就弄几个指标,每个指标分别打分,然后也不用考虑什么权重,直接算个总分就好。
为什么呢?因为这可以避免过度拟合。我们以前讲过过度拟合。你是可以搞个“多元回归分析”,利用现有的数据发现每个指标的最佳权重,但是你对现有数据拟合得太好,反而会伤害这个模型的预测能力。你会放大数据里的误差,你会高估或者低估一些指标的权重。
当然还有个办法是用“人工智能”,也就是“机器学习”。这次我们不是考察几个指标,而是考察几百个指标,用”大”数据,能不能提升预测水平呢?
如果数据量足够大,这个的确可以。有研究表明机器学习预测犯人再犯罪率,比法官要准得多。
机器学习的预测表现也的确比简单模型好,但是并不会好很多。这是因为机器学习的预测能力也有个上限,那就是我们上一章说的「客观无知」,也即所谓的未知的未知。
好,现在我们可以总结一套机械预测方法了。不管你是在银行决定发放贷款也好,还是作为医生给人诊断病情也好,都可以使用这个方法。
- 第一步,是确定若干个评分指标。卡尼曼的建议是最好不要超过五个。
我们举个例子,「阿普加评分(Apgar Scale)」。这是麻醉学家阿普加1953年设计的一个判断新生儿是否健康的模型。他一共考虑了五个指标,分别是 ——
肤色
心率
表情反应
肌肉张力
呼吸
- 第二步,打分。给每个指标设定一个整数分数区间。
比如阿普加评分中每个指标可以打 0、1 或者 2 分。像肤色,全身粉红色就是 2 分;四肢是青紫色就是 1 分;如果全身青紫就是 0 分。
- 第三步,计算总分。也不用加权平均了,简单相加就行。
阿普加评分的满分是 10 分。那么这个判断系统规定,总分在 7 分以上就是健康;4 到 6 分就不太健康;0 到 3 分就是需要立即采取急救措施。
简单吧?现在医学界有些别的诊断,比如一些癌症的筛查,都是使用类似的打分系统。这个方法把复杂的决定分解成了几个维度上的简单判断。它容易操作,不怎么受医生经验和水平的影响,而且因为大大减少了噪声,准确性很高。
比如我要决定博客文章的选题,也可以搞一个类似的判断系统。我只需要三个指标 ——
- 这个内容够不够新
- 对我们读者有多大帮助
- 我自己喜欢不喜欢
每项指标也是取值 0、1、和 2 分。一个题目总分达到 4 分就入选。
那你说这个方法既然这么简单又有效,为什么没有普及开来呢?事实上现代医疗诊断中也没有完全使用算法,还是以医生自己的临床判断为主。更不用说像招聘、决定一个电影项目能不能上马之类的决策,都是应该用、而没有大规模使用这个打分法。
以前的研究者觉得这是因为决策者反感算法。现在最新的研究认为不是这样。
其实决策者能接受用算法判断,但是决策者对算法的容忍度特别低。
如果人类判断错了,我们会说这很正常,人本来就经常犯错。但是如果算法判断错了,我们就会很恼火,我们就倾向于再也不信任它了。
这就好比说自动驾驶汽车。将来某一天,自动驾驶出事故的概率将会比人类司机要低,但是我们能容忍人类司机出事故,我们不太能容忍自动驾驶汽车出事故。
我们认为犯错是人类的特权,机器没有权利犯错。
卡尼曼不打算向这个思想偏误宣战。卡尼曼的态度是我们无需把判断彻底交给算法,我们可以还是自己判断,但是我们模仿算法。
今天这一章更大的教训是做判断应该“走程序”,你应该关注判断的过程,而不是判断的结果。
其实结果对错往往是不能立即知道的,甚至可能永远都不知道。你说当初大学选专业,你选的对吗?你现在也未必知道。你能做的,是每次判断的时候,使用最好的判断方法。
你要的是程序正义。只要你这个程序科学合理,你判断正确的可能性就会提高。所有关于决策判断的研究都是在改善程序,而不是在保证某一次判断的结果正确。
相信过程,走流程,是决策卫生的关键。其实日常做事也是这样。
六、有谱才靠谱
精准而低噪声的判断力能让你成为一个“靠谱”的人。这一章咱们说说什么叫靠谱,以我读卡尼曼这本书的心得,所谓靠谱,就是能够以一个客观的尺度,做出量化的、合适的判断。
多年前有个社会新闻是这样的。某公司办公楼的正面是一块大草坪,公司领导强调不要踩踏草坪,可是员工们总爱抄近路踩着草坪进出大楼。有一天,公司总经理在办公室的窗前看到,一个负责保洁的员工居然没有走直线,选择了绕过草坪进门。总经理非常高兴,立即宣布,奖励该员工一千元!
这就叫不靠谱。一千元相对于那个员工的工资来说不是小数。不让踩草坪这种规定如何愚蠢咱们暂且不说,如果一个人因为这点小事儿就能得到重奖,那那些兢兢业业工作,做出实质贡献的员工又该怎么奖励呢?一惊一乍重奖重罚是非常土的管理方式,与其说是为了管理还不如说是老板在享受权力的乐趣。
当我们要把自己的认识、感受、情绪冲动转化为行动的时候,我们常常要决定这个行动的力度应该有多大。而我们非常不善于做这样的量化。
再举个例子。一个 79 岁的美国老太太到麦当劳吃饭,不小心把咖啡洒在了自己的脚上,烫了几个泡,被诊断为三度烫伤。老太太起诉了麦当劳,因为根据规定,麦当劳的咖啡温度应该是 65 摄氏度左右,而那天服务员没调好,达到了 87 度。
结果法庭判决麦当劳赔偿 270 万美元。
很多人看到这样的新闻会赞美美国的司法制度,说就应该罚这么狠,所以商家才必须好好服务、没有假货。但是你想过没有,如果犯个这么小的错误都会随时被罚那么多钱,这生意还能做了吗?其实“天价赔偿”在美国也是罕见的,这就是为什么它是新闻。
事实是天价赔偿不但不代表司法制度的优点,而且反映了司法制度的缺陷。这是噪声。
人的大脑能非常自然地、直觉地给判断分配数值。卡尼曼把这种操作称为「匹配(Matching)」。比如说,此时此刻,如果满分是 10 分,请问你的心情是多少分呢?你马上就能给个分数。你觉得现今中国思想界的活跃程度,相当于一年四季中的哪个温度呢?你大概张嘴就来。
而匹配有很大的噪声。卡尼曼举了一个非常重要的例子,每个企业管理人员都应该深思。
现在很多公司会使用一个叫做“360度绩效评估”的系统去评价员工的表现。这个系统把个人绩效分解成了很多方面,包括沟通技巧、人际关系、领导能力、行政能力……等等,员工周围的人,比如同事、上司、下属、包括员工自己、甚至可能还包括公司的顾客,都要在这些维度上给他打分,每一项最高 5 分。
你觉得这种评估合理吗?能真实体现一个员工的表现吗?
有人对360度绩效评估做过严格的研究,结论是悲观的。两个员工得分的差异,只有 20% 到 30% 可以归因于这两个人的表现差异,剩下 70%-80%,都是噪声。
四分之一的信号,四分之三的噪声。这就等于说信号几乎都被噪声掩盖了,有极大的可能性表现比你差的同事得分比你高。
- 你能想见这里面有「水平噪声」。每个人的评分标准不一样,有的人认为 3 分代表“不错”,有的人认为 4 分都是低分
- 有的人对同事就是比较刻薄,有的人给谁都打 5 分。这里肯定有「稳定模式噪声」,一个严厉的上司可能偏偏就欣赏有一技之长的人,并且容忍他所有的缺点。
- 这里面当然还会有「偶然噪声」,有个同事刚刚拿到奖金,看谁都是好人。
这个现象是大多数绩效评级都不能准确反映绩效。凭印象打分这种形式非常不靠谱。
不过打分毕竟还有个固定度数,5 分就是满分,不可能出现离奇的分数。
而美国法庭判决的罚款,则是没有度数的。刑事法庭判罚的刑期由法官决定,民事法庭判罚的罚款由陪审团决定,二者都有很大的任意性。像前面说的那种案子,罚款会由两部分组成,一个是赔偿性的,一个是惩罚性的,天价罚金,就是来自惩罚性罚款。
这个思维是,啊,这件事儿实在太伤天害理了,我们必须给你一个惩罚。研究表明惩罚的冲动来自陪审团的愤怒。如果你让人用 0-6 分给自己的愤怒和想要惩罚的意愿打分,两个分数之间的相关系数高达 0.98,几乎就是完美的。也就是说,陪审团越愤怒,想要给出的惩罚就越严重。
至少从噪声角度来说,这个愤怒和惩罚严重性之间的联系其实没问题。问题出在怎么“具体量化”惩罚的严重性上。
如果陪审团想要“严惩”,那请问到底罚多少钱才算是“严惩”呢?
这里面没有任何标尺。你可以罚一百万也可以罚一百亿,你说罚多少就罚多少。
这可不是法律人的疏忽,这是美国法律的规定。法律不但不给陪审团提供罚款尺度指导,而且明确禁止向陪审团传达其他案件中惩罚性赔偿金的数额,不让陪审团有参考。这就等于说让陪审团完全凭着自己的正义感设定罚款。
而卡尼曼说,这种法律假设了一种人类不具备的能力。
在咱们中国,一般的罚款都有个指导尺度,比如罚涉案金额的多少倍,罚公司年利润的百分之多少等等,大家都有个合理预期。美国没尺度。陪审团有时候真不知道该怎么罚,所以有时候真的能罚出一个不可思议的天价来。
怎么对待量化噪声呢?
- 第一个办法当然就是给一个尺度 —— 也可以说是给一个「锚」。
有研究表明,你只要跟陪审团说一句,不久前有个类似的案子,判的惩罚性赔偿是 150 万美元,陪审团立即就有数了。他们仍然是绝对自由的,他们可以判罚任意的数字,但是他们会以 150 万美元为基准上下浮动,不至于弄个 1.5 亿美元。
所以你跟人谈判,如果涉及到要量化什么东西,一定要先下手为强,给对方报一个对自己有利的数字,作为尺度参考。对方会被你影响的,而且是很大的影响。
反过来说,如果对方先报了数字,你要尽力避免被他影响。
- 第二个办法是寻求外部观点,找一找基础比率。
如果你对陪审团说,像这样的案子,过去两年中平均的罚款金额是 150 万美元,这就是一个非常有力的说辞,可以算的上是客观判断。
卡尼曼有个例子是这样的。朱莉是个女大学生,已知她四岁的时候就已经识字了,你能不能预测一下,朱莉在大学的 GPA(平均学籍点) 是多少?
正确的预测方法是先看一般大学生的平均 GPA 是多少,比如大约是 3.2。再看一般大学生最高的 GPA 是多少,大约是 3.8。朱莉四岁识字,说明比一般孩子聪明,但是并不算“天才”那种级别的聪明,所以我们大约可以认为她的 GPA 会比平均水平高,比最高水平低。
这样你可以猜一个 3.2 到 3.8 之间的数字,比如说 3.6。这就是有章法的、靠谱的判断。
- 第三个办法是排序。应该把你要判断的事物先都放在一起,从高到低排列,然后再打分。
老张的技术水平到底应该给 3 分还是 4 分,你不一定能说准。但是老张和小王他俩谁的水平高,你容易看出来。相对判断总是比绝对判断的噪声小。
我们以前讲巴拉巴西《成功公式》的时候说过这个问题。音乐比赛中选手的出场顺序对评分影响实在太大了,先出场有极大的劣势。科学的办法应该是让评委按照随机顺序看录像打分,而且一定要先把所有选手录像看完再统一打分。
比如你要给同事评分,噪声最小的办法是先把所有人从高到低排列,然后统一给比如说排在前 20%的人 5 分,后 15%的人 1 分……
有的公司就是这么干的。这样的确更公平,更能看出来到底哪些员工强、哪些员工弱。可是这个强制排名的做法也有很多弊端。
最大的问题是也许大家的表现差异并不像排名显示的那么大。也许这就是一个优秀的团队,每个人都不错。最差的老王也不比最好的小李差多少,那你凭什么给小李 5 分,给老王只有 1 分呢?这不太“狼性”了吗?这不影响团结吗?
所以一般的公司不会使用强制排名。强制排名又不好,主观打分又噪声太大,这就是为什么调查表明 90%的公司都认为绩效评估没啥用。那还有什么办法呢?
- 第四个办法是给一个「共同的参考框架(Common Frame of Reference)」。这个方法既避免了排名,又尽可能地让打分客观。
办法是这样的。还是在每一项评分上打 1 到 5 分,但是这回我们要详细规定,到底什么情况给什么分数。
比如一个评估餐馆服务员表现的共同参考框架是这么规定的:面对顾客时,
- 5 分,是哪怕顾客提出了不寻常的要求,也能尽量提供帮助;
- 4 分,是当顾客点的菜没有的时候,能够愉快地提供建议;
- 3 分,是听顾客只说一遍,就能准确记下来点了什么;
- 2 分,是跟顾客说话不够有礼貌;
- 1 分,是对顾客视而不见,跟别人聊天
你看有了这个框架,打分是不是就会精确很多,不同的人打出来的分数也会更加一致。
这个办法的缺点在于它对判断者的要求比较高。你必须仔细学习打分的规则,才能做出可靠的判断。对很多公司来说,让人花这么大工夫搞绩效评估未必值得。
总结来说,量化判断容易产生很大的噪声,最关键的就是一定要有一个参考尺度。这个尺度可以是主动设定的,可以是类似事物的基础比率,可以是排名决定的,也可以使用一个共同的参考框架。如果没有尺度,判断就会盲目。
那我们考察一下日常生活中的种种判断,就有问题了。人们常说要「加大力度」干什么什么,对什么什么行为要「严惩不贷」,要「大力推进」什么什么……这些都是什么意思?「你放手去做吧」是说要钱给钱吗?又或者「组织是你的坚强后盾」是给钱又给人吗?
当然,一定的模糊性往往能给说话的人保留更多的主动性。不过我们自己做判断做决定还是应该尽可能地精确量化。什么叫靠谱,关键是得有个谱。
孔子说「以德报怨,何以报德?」意思就是君子做事千万别就考虑眼前这一件事儿,你得考虑这件事儿会让别人对你有个什么样的预期。为此你必须把一些其他的事情、发生在别人身上的事情跟这件事儿放在一起考虑,给一个不大不小恰到好处的反应力度。如果张三伤害了你你还对他好,李四帮助你你反而抱怨他,那你的噪声就太大了。
七、集体决策必须讲卫生
个人判断的噪声可以用走机械化流程和设定参考尺度的方法消除,这一章咱们说说集体判断。现在很多公司或者政府机构的重大决策都不会搞领导的“一言堂”,都要有一个集体决策的程序。比如说成立一个委员会,做好科学论证,充分听取各方的意见,然后再形成共识。
按理说,集体判断的噪声应该比个人判断小,因为毕竟你还可以取个平均值。我们讲过科特·佩奇的《多样性红利》,我们知道只要群体中每个人能贡献自己独特的思考视角,每个人独立做判断,那么群体意见的平均值往往就是一个非常好的判断,可以称之为「群体智慧」。
然而关键就在于「独立性」是非常难以保证的。卡尼曼列举了很多研究,他本人还专门参与了集体判断的研究,他发现集体判断实在太容易出毛病了。
集体判断的质量高度依赖判断过程。人还是这拨人,用这个过程判断,就可能是三个臭皮匠顶个诸葛亮;用另一个过程,就可能是三人成虎、结果弄成了“羊群的共识”。
咱们还是先讲个故事。
我们公司 CEO 的人选最终落在了两个候选人身上。一个是咱们第4章说过的李志国,他的优点比较突出缺点也比较突出;另一个是徐一梅,她各方面素质都很好,履历完整,但是似乎缺少了一点特色。董事会开会做决定,规则是十个董事依次表态。孙总首先发言。
孙总说,我的选择是李志国。李志国的闯劲和能力有目共睹,是难得的领军人物。至于说他不善于搞关系,我们公司本来就不是一个喜欢搞关系的公司。
接下来轮到王总。王总其实没有很强烈的倾向,他根本就没下功夫研究两位候选人。但是王总特别信任孙总,现在既然孙总那么强烈地倾向李志国,王总就也表示选李志国。
第三个发言的是赵总,他心目中的人选,是徐一梅。但是现在孙总和王总都选的李志国,赵总就有点不敢说了。
并不是说赵总为人懦弱、很怕孙总和王总,如果他掌握足够强烈的证据能说明徐一梅是更合适的人选,他会毫不犹豫地说出来。可问题是赵总觉得自己的论据并不是很强。他认为徐一梅也就比李志国好一点点,可是现在孙总和王总那么坚决,也许他们有更充分的理由,他们做的调查研究应该比我深刻。
赵总隐藏了自己原本的观点,选择支持孙总和王总的判断。剩下的董事一看局面这么明显,也就都随大流了。
这个集体判断过程,发生了所谓「信息级联(informational cascades)」。开始的几个人直接影响了后面的人。后发言的人大大高估了前人判断的可信程度,在群体的压力下,更多地是在模仿别人,而不是做好自己的判断。
信息级联导致集体判断的偶然噪声。如果先发言的是赵总呢?可能结局会非常不一样。你参加这种会议如果想左右别的观点,“带节奏”,那就一定要争取先发言。但是不只是发言的顺序容易,像谁坐在谁的旁边,谁的表现更自信,谁有一个什么表情手势,都可能影响会议结果。
这种偶然噪声比你想象的可能严重得多。人们实在太容易被周围的人影响了。
有个著名的下载音乐的实验,我以前讲过。研究者搞了几十首歌曲,让上万个受试者随意选择下载。每首歌的下载量被实时显示,还有个排名。整个实验分成几个组独立进行。
结果发现,一首歌初期的下载量,能在很大程度上决定它此后的总下载量。人们就是更愿意下载那些已经被很多人下载过的歌曲,哪怕最初的下载量是实验人员做过手脚的。当然特别好的歌曲总是能脱颖而出,特别差的歌曲你怎么捧都没用,但是总体而言,「人气」有个自我强化的机制。
还有个研究是给网上的评论投票。你可以投赞成或者反对票。研究者发现,如果收到的第一票是赞成票,那么第二票也是赞成票的可能性会提高 32%。而且哪怕五个月之后,最初的那个赞成票的总效果,也能让平均得分增加 25%。
还有,假设你在一个网络小组中发表了一个政治观点。如果第一个支持你的是民主党人,那么接下来就会有很多民主党人支持你。反过来说同样的观点,如果第一个支持你的是共和党人,那么接下来就会有很多民主党人反对你。
这还不是最严重的问题。最严重的问题叫「群体极化(group polarization)」。
群体极化是说,一群人坐在一起讨论事儿,可能会越说越激动,互相鼓励之下,做出一个非常极端的决定。
卡尼曼专门研究过陪审团的群体极化现象。比如现在有个案子,陪审团成员个个义愤填膺,都认为应该罚个惩罚性赔偿。研究者先让每个人写下他心目中打算罚多少钱。比如写出来数额排在中间的人认为应该罚 100 万,排第一的人要求的是罚 300 万。
如果就按照这些数字做决策,比如取个平均数,那么表决结果应该在 100 万左右,对吧?可是陪审团还没讨论完。
他们报出数字之后继续讨论。大家一看原来每个人都这么有正义感,看来我之前的判断有点保守了。于是每个人被其他人的情绪感染之下,大家等于是在互相鼓励。于是人们开始增加罚款数额。
研究者统计表明,这样讨论的结果,最终确定的罚款数额不但比之前排中间的那个数额高,而且有 27%的陪审团,最终数额比一开始报的最高数额还高。
这就叫「极化」。越说越激动,越讨论越极端。这也是一个普遍现象。可能一开始大家都觉得去法国开个分公司是个“不错的主意”,结果讨论之下,一看人人叫好,最后每个人认为这何止是不错的主意,简直是势在必行、是最了不起的策略!
在职场也有类似的现象,有一个人心血来潮,从自己的视角提出了一个项目动议,然后另一个人也刚好有类似的经历,所以就积极相应和支持。接着,在他两的感染下,更多人开始认可这个动议,后来加入的人可能并没有经过深思熟虑,而只是跟风附和。这样,一个动议就被全票通过了。若干年后事后复盘才发现这个动议是一个槽糕的决策。
讨论,有时候会加大噪声。
我读书读到这里,就想起了 1900 年大清向列强宣战的事情。你说按理说,慈禧虽然文化程度低,但也是执政多年,可以说有丰富的政治经验,她怎么就能做出这么荒唐的决策呢?现在看,这很可能就是一次群体极化。
最初,义和团在山东和直隶活动,中央政府并没有一个统一的态度。是 1900 年初,慈禧想要废掉光绪,重新建储,导致各方不满,特别是洋人强烈反对,慈禧才迫切想要利用义和团对付洋人。但一开始慈禧也只是一个想法,一个愿望,并没有下决心。
慈禧派了两拨人去现场考察义和团,看看能不能用。一个是保守派强硬分子刚毅,他是绝对主张利用义和团灭洋;另一拨是比较理性的赵舒翘和何乃莹。特别赵舒翘,一开始就知道义和团是乌合之众,到现场看了一天就确定了根本没有战斗力。
但是赵舒翘没有据实上报。他考虑了慈禧的愿望,特别是刚毅的态度。不过他也没敢谎报,他搞了个文字游戏,很含糊地说我看见义和团有种种法术。
而慈禧这一听,就成了既然连赵舒翘都这么说,那就说明义和团真有东西。领导意图已经如此明显,再加上此时总理衙门完全被保守派占据,理性派就很难发声了。
于是义和团被允许进入北京。于是义和团开始打洋人。而既然打都打起来了,慈禧宣战就成了顺理成章的事情。其实即便到了这个时候,仍然有许景澄、袁昶、徐用仪、立山和联元五个大臣公开表示反对开战,可是他们都被慈禧处死了。最终义和团果然不堪一战,慈禧仓皇出逃,当初的主战派大部被清廷诛杀。
你看,慈禧的初心,可真不是要独断专行。她也想充分听取意见,她也尊重了集体决策……她的问题在于不讲「决策卫生」。
什么样的决策过程才算是讲卫生呢?卡尼曼举了一个例子,指纹比对。
指纹是非常有力的证据,但是你可能不知道,法医的指纹比对,也可能出错。一般警方在犯罪现场采集到指纹,指纹专家做判断要走一个分四步的程序。首先是「分析」,看看这个指纹的质量怎么样,有哪些突出的特征;然后是「比较」,跟数据库里的指纹作比对;然后是「评估」,作出判断,两个指纹到底是不是属于同一个人;最后还要「验证」,也就是再找一位专家,看看能不能得出同样的结论。
你想到了,第四步容易出问题。第二位专家如果听说了第一位专家的意见,他很可能会受到影响。特别是如果你听说第一位专家是个资深专家,你就不太愿意推翻他的看法。
但是信息级联也可以发生第一位专家身上。比如给你指纹的警察随口告诉你,“这个嫌疑人有不在场的证明”,或者“那把枪肯定是他的”,请问你会不会受影响?又或者你已经知道现场有目击证人,或者罪犯已经招供了,你会不会受影响?
你肯定会的。现场指纹有时候非常模糊,答案并不是显然的。如果你事先告诉一个专家这次鉴定的方向,这位专家关注到指纹中的细节就会更少,他会陷入确认偏差,只采纳定向的证据。研究者做实验发现,指纹鉴定专家如果得到一个强有力的背景信息,有五分之四的可能性会改变自己的判断;另一个研究认为是六分之一,但是这个比率也不小。
这大概就是为什么,在美国 350 个后来翻案成功的案例中,有 45% 都是因为法医的判断错误导致的。
那么据此,决策研究者提出了三项建议。
- 第一,给判断者提供信息,必须严格按照一定的顺序进行,千万不能给早了。比如你要让这位专家比对一个指纹,那你就把指纹给他 —— 别的什么都别说。他要做的唯一判断就是这个指纹是不是那个人的。至于说那个人是不是嫌疑人、有多少其他证据指向那个人,与指纹判断无关,他根本就不应该知道。
- 第二,专家应该详细记录自己每一步的判断,严格按照程序顺序进行。比如第一步是分析指纹,这时候你先不要看要对比的那个指纹。你就把眼前这个指纹看清楚,它有哪些关键特征都写下来。完了再去作对比。这也就是把调研和决策分开。这样就能降低你“只看自己想看的”的风险。
- 第三,第二位专家做判断的时候,不应该知道第一个专家的判断结论。
这些建议显然对所有集体决策都有意义。
这一章中决策卫生的关键就是信息披露的顺序。做判断并不是知道的越多越好,不该你知道的你不知道,反而能做出更客观的判断。有些信息应该在判断做出之后再给,否则就有可能引发信息级联,导致偶然噪声。
有个著名的集体判断方法叫「德尔菲法(Delphi method)」,是把决策进行很多轮。每一轮中每个人独立判断,匿名提交判断结果,然后一起公开,大家充分列举自己的判断理由,然后再来下一轮匿名判断。
卡尼曼把这个方法简化成了「评估 — 讨论 — 再评估」三步。
八、怎样做好重大决策
这一章我们集合前面的知识,讲一个卡尼曼参与发明的、系统性的决策过程。我们来看看什么叫讲卫生的决策判断。
咱们先讲一个观念,决策和判断最好分开。
- 判断是我建议我们应该这么做
- 决策是拍板了,就这么做
生活中的小事儿,小公司的负责人,一般决策者就是判断者,自己琢磨自己决定。而事情如果比较大,决策者一般都会找人帮着拿主意,就比如评书里那些“主公”都至少有一个“军师”。
你的事情当然最终应该你自己拍板,所以最终决策者必须是利益攸关者。但是你的事儿你不一定就特别懂;又或者你关心则乱、不能冷静判断,所以你需要专业人士帮你判断。现代军队打仗没有用军师的,都是用一个非常专业化、分工很细、水平很高但是权力不大的参谋团队。参谋团队提供建议,拍板的还是最高指挥官。
我们这里要说的就是这样的决策应该怎么做。咱们还是从招聘说起,这个领域因为数据多,被研究得最为透彻。
正规公司招聘都有一个面试环节,毕竟百闻不如一见,没见到真人你不太敢发 offer。但是用卡尼曼的话说,大多数面试,都是「非结构化」的。
应聘者来到公司,跟这个聊聊跟那个聊聊,有时候跟好几个面试官一起聊,有时候要当场考试,可能还要做个报告什么的。面试官聊完后有的说行有的说不行,大家都给打个分,很多都是凭直觉。这种判断的准确度有多高呢?
大量的研究汇总在一起,这种普通面试评分和应聘人入职之后实际的工作表现评分之间的相关系数,是在 0.20 到 0.33 之间。这就意味着两个候选人 A 和 B,如果 A 的面试得分比 B 高,他的实际工作得分也比 B 高的可能性,在 56% 到 61% 之间。
我还是那句话,你抛硬币也有 50% 的准确率。这就意味着面试几乎是没用的。
当然,我们前面讲了,一个最重要的原因是客观无知。应聘者未来可能遇到各种情况,你就是很难预测他们。但是这并不意味着我们不能把招聘工作给改进一下。我们可以减少偏差和噪声。
- 面试有心理偏差。研究表明第一印象对面试影响非常大,这里面有光环效应。人们喜欢跟自己背景相似的人,可能会歧视某一些人。
- 面试有噪声。哪怕是几个面试官同时对一个应聘者面试,他们看到的表现一模一样,他们的打分也可能很不相同。而最大的噪声是来自面试官和应聘者之间的互动。
比如这位应聘者给你的感觉好像有点内向,有点拘谨。你觉得这可能是个问题,为了进一步考察,你就故意让他“内向 - 外向”这个维度上表现。于是你就问他以前跟同事有没有出过问题啊?你作为团队的一员,有没有感觉交流不畅啊?这些问题挺合理,对吧,交流能力确实很重要。
但是你想过没有,你对别人可不会问这样的问题。你问的恰恰是他的弱项,而因为你把宝贵的面试时间用在了这些问题上,你就没有给他表现自己强项的机会。这场面试从一开始就跑偏了。这是巨大的偶然噪声。
而面试官意识不到这些。事实上面试官几乎什么都意识不到。有研究者派出一批学生假装应聘人员,他们的任务是在面试官面前“随机”回答问题,完全胡说八道,你猜结果怎么样?所有,不是几乎,是所有面试官都没有发现自己正在经历假面试。他们都认为自己发现了应聘者的素质。
这不纯属儿戏吗?
Google 公司,本身就是做数据研究的,他们意识到了自家的面试也没用。他们重新设计了面试流程。这个方法给卡尼曼带来重大启发。
这个方法叫做「结构化判断(structuring judgment)」。它总共分三步,各自对应一个原则。
- 第一步是分解。公司先想好,到底应聘者的哪些指标对我们是重要的。原则是指标的总数应该少,各个指标应该考察不一样的东西、尽量避免重复。
Google 最终设定的只有四个指标 ,
- 一般认知能力,也就是智力水平
- 领导力;
- “googleyness”,也就是这个人能不能适应我们公司的文化,像不像 Google 的人
- 专业角色相关知识
应聘者只需要做四次面试,每次就考察一项指标。以前 Google 曾经让每个候选人最多经历 25 次面试,结果发现根本没必要。
更重要的是,你要注意,这四个指标中“没有”哪些信息。比如说这个人的外表、谈吐、有什么业余爱好之类,Google 不但不在乎,而且确保不考虑。面试只考虑跟四项指标有关的东西。这就能降低面试官的判断噪声。
- 第二步是打分。每个面试官只负责一项指标,给一个分数。这一步的原则是独立性。每个面试官只管自己这一摊,在最终决定之前绝对不能知道候选人其他指标的得分。
面试官的任务不是决定自己喜不喜欢这个候选人,而是要通过搜集各种信息,尽可能客观准确地给这个人打分。比如你要考察智商或者专业技能,你可以考试,可以看他的学历之类;如果你要考察领导力和文化适应度,你就要问他很多很多问题。
不但要提问,而且要记录答案,而且要根据一个统一的评分表、按照之前设定的评分标准打分。
有人评价说这根本就不像面试,更像是考试,甚至是审讯。在我看来,这是调查取证。
- 第三步是整体判断。现在候选人四个指标的分数已经摆在桌子上了,要还是不要,我们得拍板了。这一步的原则是“延迟的直觉”。
Google 并没有用一个生硬的公式直接根据四个分数做决定,决定还是人做的,人可以用直觉。但是,你的直觉必须发生在四个分数出来之后。你要真能眼睁睁地看着这个人分数很低还要,随你,但是你得看分数,而且那个分数是用最客观的方式得到的:你得尊重分数。
最终的录取决定是一个委员会共同做出的。分数就摆在面前,委员会成员通常不至于弄出一个大惊喜来,他们比较容易达成共识。
我总结来说,这套方法的特点是基于流程,但是不拘于流程,不只看分数,但是尊重分数。
而卡尼曼说,大量的证据都表明这种结构化判断在招聘中有优势。所以他跟合作者据此发明了一套能用于任何重要决策判断的方法。
这个方法叫做「调解评估规程(Mediating Assessments Protocol)」,跟Google 招聘的方法差不多,但是值得我们再讲一遍。
李志国顺利成为公司新任CEO,他的第一把火是要董事会决定是否收购一家叫“金星”的公司。为此,董事会总共召开了三次会议。
- 第一次会议上,李志国介绍了收购的意向。
然后他说:“你们选择 CEO 的决策程序根本不科学,但是你们很幸运,你们的判断结果是对的。不过这一次我们必须使用科学判断。我们要使用一个叫做调解评估规程的方法,它的特点是结构化。”
董事们一看,李志国果然不善于搞关系啊。孙总立即提出质疑,说:“你这个规程听着就很怪异,是不是搞形式主义官僚主义啊?”赵总也说:“金星公司现在有很多人在抢,我们得快速决定啊。”
李志国说你们放心,我这绝对不是搞官僚主义。恰恰相反,我这个方法能保证每个人都敢说话,而且我们判断时间不会拖延。现在我先给你们培训一下科学决策的知识……
- 第二次会议的主题是确定结构化评估指标。
李志国说我们做出准确判断的前提是充分了解金星公司,而了解和决策应该分开。现在我们要设定若干个指标去考核金星公司。我要求这些指标要少、要全面、要互相不重复。凡是你们能想到的对收购决策重要的信息,都应该包含在这些指标里。
大家讨论了一番,最终定下了七个指标,包括财务状况、研发能力、管理水平、与我们公司能否顺利对接、监管部门能否批准等等。
李志国说,我会组织成立七个小组,每个小组负责一项指标的调研。各小组人员必须严格独立,在下一次会议之前,任何人不得打听其他小组的调研结果。
李志国要求每个小组给该项指标打一个分数。而这个分数必须是绝对基于事实的,而且必须参考外部观点,给出合理的量化结论。
比如说,你要评估监管部门能否批准,就要找出近年来类似的交易,看看其中被批准的概率有多大。
再比如说你要考察研发能力,单单说“金星公司研发水平很高”是没用的,你必须像“该公司最近发布的产品,技术水平在全行业的前 20%”这样说。
为了得到更独立的意见,李志国甚至专门从外边请了一个人负责评估金星公司的管理水平。
李志国要求把看似矛盾的信息也写到报告里。
- 第三次会议就是拍板决策。
全部七份报告被同时摆在了每一个董事面前,董事们在会前仔细阅读了报告。但是李志国要求董事们先不要考虑最终决定。董事们先要一份一份地分别评估各个指标。
轮到评估哪个指标,负责这个指标的小组就上台,给董事会做讲解。然后,李志国要求所有董事同时掏出手机,在手机上同时给这一项评估打分。你的打分可以跟评估小组的分数一样,也可以不一样。
打分结果被立即投影在会议室屏幕上,但是打分是匿名的,只有分数,不显示是谁打的分。这样就最大限度保证了每个董事的独立性,避免信息级联。
这时候你会看到各个董事的打分可能会有比较大的分歧。那么李志国要求大家现场讨论,但是必须用事实说话。讨论之后,再来一轮投票打分,然后取平均值。这个分数就是金星公司在这项指标上的最终得分。
这就叫「评估 — 讨论 — 评估」。
就这样,最终七项指标的分数都被显示在了屏幕上。这时候王总表达了他对这套方法的叹服:“有几个指标,我一开始想的非常不一样,但是经过这些讨论,现在的分数我很赞同。”
那么这就到了决断时刻。屏幕上七个指标,七个分数,怎么决策呢?
李志国说,我这里没有什么硬性的分数线。现在是你们使用直觉的时刻。这是你作为公司董事的权力。分数就是这些分数,我们大家已经对这些分数充分讨论了,该挑战的也挑战了,该辩论的也辩论了。现在怎么决定,你看着办。
我相信董事会可以做出一个好决定。
总结来说,调解评估规程的三个原则是,
- 1. 设定几个结构化指标;
- 2. 各指标独立判断;
- 3. 根据最终分数使用直觉决策。
要点是我们关心的是过程,不是结果。好的判断不是来自伟大领导人的灵光一现,而是参谋团队兢兢业业的专业工作。
这不是形式主义也不是繁文缛节。这是像做数学题一样,必要的、卫生的解题步骤。
九、判断力批判
卡尼曼说要想降低判断噪声,要想保证「决策卫生」,就得走流程,就得按照固定的标准量化,就得遵循严格的信息披露纪律。这些都是对判断者的管理。那你可能会觉得这是不是太死板了、太不自由了,难道真正的重大决策不应该具体问题具体分析吗?难道伟大的发现不都是神来之笔吗?
我首先得澄清的是卡尼曼这里说的是“判断”,不是生活,也不是创造。你的生活当然可以多姿多彩,创造当然可以天马行空,但是这里的忠告是,那些自由行动,最好是建立在合理判断的基础之上。
你说我周末就不去健身房,我非得一个人去无人区爬山,可以,但是你最好先判断一下安全性。你说我就不跟主流一样,我非得投资一部非主流电影,那你也应该先判断一下成本。总是先有预测性判断,再做评价性判断。
接下来更大的问题是关于判断本身的。为什么做判断非得有这么强的“机械味儿”,判断者为什么不能多点“思考自由”呢?
这里面有哲学。要说清楚这个问题,我们先要辨析三个概念:「自由裁量权」「标准」和「规则」。
- 「自由裁量权」
你想要的那个思考自由,应该叫「自由裁量权」,英文是「Discretion」。它的意思是在一定的范围内,你有权自行选择该怎么做。Discretion 是一个权力,所以它有一个所有者。比如师父带着徒弟去做一个项目,那你说做事过程中具体的某一个选择,到底是师父说了算,还是徒弟可以自行决定,这就是“谁的 discretion”的问题,应该事先说好。
你对这个事儿拥有 discretion,意思就是这个事儿你不必听别人的,可以自由判断。但是 discretion 的核心可不是“自由”,而是“判断”。比如我们有时候看个什么片,片头打出一个警告信息,
「本片内容可能会引起不适或者争议,建议观看者使用自由裁量权。」
注意,这句话的意思可不是说你“爱看不看”,而是说你要“想好了再决定看不看”。你这个自由不是胡作非为的自由,而是自己掌舵自己承担后果的自由。
那什么情况下判断者有自由裁量权呢?这就涉及到标准和规则。
- 「标准」
「标准(Standard)」是个常用词,但是在卡尼曼这本书里,它有一个特别的含义,意思是关于做一件事情的“指引”。「标准」的特点是它说的比较含糊,你需要在其中使用自由裁量权。
- 「规则」
对比之下,「规则(Rule)」则是严格的,是什么就是什么,你没有自由裁量权。
举个例子。所有国家的政府都不提倡青少年饮酒,但是中美两国的做法很不一样。
- 在中国,青少年饮酒的问题是一个标准。你最好不要喝,但是你要非得喝两口也行,你要去超市买酒人家也卖给你,你自己的事儿自己看着办。
- 在美国,则有严格的法律规定,任何商家不能向 21 岁以下的人卖酒。这就是一条规则,它得到了很好的执行,以至于四五十岁的人买个酒也得给人看驾照。
再比如说,
- “请小心驾驶”是个标准
- “限速120公里”就是规则
再比如,
- “反对职场性骚扰”是标准
- “禁止任何身体接触”是规则
再比如,
- “企业必须在可行的范围内给员工提供安全的工作场所”是标准
- “消防设施必须经过检查批准”是规则
很多场合同时有标准和规则,
- 比如管理一个网上论坛,“禁止攻击性言论”是标准
- 而“禁止出现裸体图片”则是规则
可能有人马上会说,规则不合理,什么事情都有特例,应该使用标准。没错,在一个人人都是优秀的判断者、都能很好地使用自由裁量权的世界里,应该只有标准而没有规则。然而那是不现实的,而标准最大的问题,就是自由裁量权的判断噪声太大。
我们讲了法官的例子。如果一个案子落在这个法官手里就是有期徒刑一年缓刑两年,落在那个法官手里就是有期徒刑六年,人们就会认为这太不公平了,人们就会呼吁把标准改成规则。
规则没有噪声,因为根本不需要判断。但是规则可能会有偏差,而且容易僵化。
刘晗在《想点大事》这本书中就讲,法律会故意保留一些“模糊性”。比如“公司应当为本公司工会提供必要的活动条件”,什么叫“必要”?“一般的公司要设立监事会,但股东人数较少或者规模较小的有限责任公司,可以设一至二名监事,不设监事会”,什么叫“规模较小”?刘晗说:
「立法者用类型化的语言作出规定,然后把解释权和判断权一级一级地下放给行政机关,让这些机关出台相应细则,或者让司法机构在具体的案件中行使自由裁量权进行解释和判断,这样才能真正解决问题,也才能让法律适应未来的社会变迁,而不至于频繁修改。」
你看,到底使用标准还是规则,其实是个成本问题。规则因为不需要判断,使用时的决策成本低,可是它必须频繁修改,制定规则这个决策的成本高。标准需要判断,使用时的决策成本高,但是制定标准的决策成本低。
但是比决策成本更重要的则是犯错成本。给你自由裁量权,你万一判断错了,我们受得了吗?给规则还是给标准,本质上是自由裁量权在谁手里的问题:到底应该在“上级”或者“立法者”手里,还是应该在“下级”或者“办事人”手里?
卡尼曼的洞见在于,你的判断力有多好,以至于我们有多信任你,你就有多大的自由裁量权。
所以你到底想要什么判断自由?是不管不顾为所欲为吗?是不讲公平、今天重奖这个明天重罚那个吗?是胡乱给患者开药吗?当然不是。
你自己的判断有章法,我们才能放心不给你制定强制的章法。
什么样的人判断力强,以至于配得上自由裁量权呢?卡尼曼说,这样的人有三个特点。
- 第一,他们有专业知识。
知识不是用来推翻的。专家之所以是专家,是因为他们掌握行业规范,他们知道深浅的微妙拿捏,他们的判断是建立在真实场景的经验之上。
所有专业知识都有一定的模糊性,留下了解释的空间。而在那个空间内怎么运用自由裁量权,很大程度上取决于经验。
我们听说过有数学神童有音乐神童、体育神童,但是我们从来没听说过有“神童医生”、“神童法官”。没人敢让一个十二岁的孩子给自己制定手术方案。你再神,没经验也做不了这种专业判断。
- 第二,判断力强的人智力水平往往比较高。
卡尼曼这本书最让我感到意外的一个结论就是智商对判断力的作用。你要预测一个人的职业表现,特别是高难度复杂工作中的表现,智商,心理学家更现代的指标是「一般心智能力(General Mental Ability,GMA)」,比性格、比工作经验、比任何其他指标都重要。
智力水平和高难度工作表现之间的相关系数高达 0.50。这大概是《噪声》全书最大的一个相关系数。卡尼曼说,像律师、化学家和工程师这样的高地位职业,其从业者的智力得分没有一个低于平均水平的。
你可能记得格拉德威尔在 2008 年出版的《异类》这本书中有个说法,说智商之于成就就如同身高之于篮球:打篮球你肯定需要一个很高的身高,但是这里面有个上限,身高到一定程度就够了,再高反而有反作用。
然而卡尼曼引用 2013 年的研究说,智商的作用其实没有上限。哪怕是 GMA 处于前 1%的人之间互相比较,也是 GMA 得分越高成就越高。当今那些财富五百强公司的 CEO、那些亿万富翁们,他们不但比普通人聪明,而且比聪明人聪明。
那么如此说来,智力超高的人其实并不是像“雨人”那样的怪人。事实上“雨人”的智力并不高,只是特殊而已。真正智力高的人判断力也高,这是因为他们更能避免偏差和噪声。
不过要想成为最好的判断者,你还需要另一项能力。
- 优秀判断者的第三个特点是谦逊的认知风格。
我们以前讲过「智识的谦逊」。卡尼曼介绍说,现在心理学家已经发明了好几项标准化测试,来测量人的认知风格。
有个测试叫「认知反思测试(Cognitive Reflection Test,CRT)」,它测量的是你做出一个判断之后,能不能迅速反思一下,看看自己有没有错误,你能不能遏制自己匆忙下结论的冲动。比如有个问题是“假设你在赛跑,你超过了第二名,请问你现在是第几名?”
一般人脱口而出是“第一名”,那你就错了。正确答案是超过第二名,你就是现在的第二名。如果你在回答这个问题的时候能多想一步,遏制住自己脱口而出的冲动,你就有认知反思能力。
心理学家发现,认知反思能力越弱的人,越容易相信鬼魂、占星术那些东西,越容易信假新闻。
还有一个测试叫「认知需求」,是看你愿不愿意自己思考寻找答案,而不是吃现成的答案。比如如果你看电影很不喜欢被“剧透”,你喜欢自己破解悬念,那你的认知需求就比较高。
而对预测来说,更重要的风格是「开放性」。开放性是说你愿不愿意寻找跟自己的假设矛盾的信息,你能不能考虑别人的不同意见,考虑新的证据,你是否允许自己被相反的论点说服。开放性高的人能随着新信息积极修改自己的预测。
说白了,高水平判断者绝对不能是那种死板的、一根筋的人,可是他们也绝对不是没有章法、胡乱说话的人。
所以我们要的“自由裁量权”中的“自由”到底是什么呢?
- 是探索的自由
- 是调动一切有用信息的自由
- 是学习相关知识的自由
- 是直接运用逻辑而不必接受生硬命令的自由
“自由裁量权”不是什么呢?
- 不是自由放任的自由
- 自由裁量权不是“我心中想是什么就是什么”,而是“我发现世界是什么就是什么”。
如果你的判断力强,你就配得上拥有标准;如果你的判断力弱,你就只能拥有规则。可是什么叫判断力强呢?恰恰是善于运用判断规则。
这样说来,“判断者”有个悖论,
- 如果你尊重规则,你就可以不遵守规则
- 如果你不尊重规则,你就必须遵守规则。
再厉害的人,也得认这个命。要不怎么连宋神宗都说,「快意事便做不得一件」。