宣明栋·数据思维课 note
01 | 导论:数据思维的误解
我们要处理一个最重要的问题——数据思维究竟是什么? 数据思维是使用数据来提出问题和解决问题的能力。
计算中国城市居民的平均收入,这是一个问题定义非常明确的任务,你只需要调动自己的知识和技能去完成这个任务就好。而数据思维,是针对问题的。设想一下,如果我们面临的任务并不明确,不是直接让你计算平均收入,而是一个大领导,就在电梯里问你:“咱们国家去年城市居民的收入状况什么样啊?”
这是一个具体的问题,而且在电梯里,你肯定不能长篇大论,最好的方法就是用一个指标明晰地回答问题。
一个有数据思维的人就应该这么思考:
平均值反映的是一组数字的集中情况。但是收入这件事,各人之间的差别太大了。有人年收入过一亿,有人年收入还不到一万。过亿的人少,不到一万的人多,所以用平均值就不能反映全貌。如果要反映全貌,中位数就更合适。中位数是指一组数字的中间位置。比如中位数是2万元,那就意味着中国城市居民有一半年收入比2万高,有一半比2万低。所以,如果你能脱口而出“用中位数表示”,那就是一个特别有数据思维的回答。
这才是数据思维,使用数据来提出问题和解决问题。
高水平的数据思维什么样?
美国佛罗里达州的一个县有一家报纸,名字叫《太阳哨兵报》,发行量不足23万份。报社里有个小记者,叫萨莉·克斯汀。在2011年的时候,萨莉注意到一个新闻——当地一名退休警察超速行驶,造成了恶性交通事故。萨莉查阅了近10年的记录,发现这样的事情不少。于是她意识到,警察超速行驶这件事,很可能是一个非常值得关注的社会问题。但是,怎么证实这件事呢?
采访?不可能。就算有些警察愿意告诉你一些情况,那也只是个例。抓现行?也不可能。萨莉真的尝试过跟踪警车,但很快发现,这根本行不通。第一,超速的不一定是警车,追了半天,发现不是警车就白追了。第二,就算运气好,抓到了警车,你也无权截停,仅仅有影像证据,并不充分,也不能服人。
萨莉最后想到了解决办法——申请数据公开。这些数据是当地警车通过不同高速公路收费站的原始记录。这就好办了。警车通过收费站都有时间记录,这段路程的行驶时间就知道了。而收费站之间的距离是已知的,两个数据一除,速度就出来了。她发现,在13个月里,当地3900辆警车一共有5100宗超速事件,也就是说,警车超速天天发生。而且时间记录表明,绝大部分超速都发生在上下班时间和上下班途中,这说明警察超速并不是为了执行公务。
2012年2月,萨莉发表了系列报道。在大量数据和调查访谈的基础上,萨莉得出结论,因为工作需要和警察的特权意识,开快车成了警察群体的普遍习惯,即使下班后身着便服,车速也没能降下来。萨莉也因为这个系列报道,获得了2013年度的普利策新闻奖。这是美国新闻传播界最重要的奖项。
这个故事告诉我们什么呢?
第一,数据思维不同于数据知识和数据技能,数据思维是用数据提出问题和找到解决问题的办法。
萨莉建立了数据分析的框架,知道怎么利用数据产生她需要的结果,并且这些结果能完美地契合她要讲述的新闻故事。这就是数据思维。
第二,数据思维发挥作用,需要与其他能力组合。
萨莉的新闻敏感度、问题意识、行动能力,都不能归结为数据思维,这些都是与数据思维不同的能力和品质。它们与数据思维组合起来,才能完成一次高水平的新闻报道。
第三,数据思维是对数据知识和数据技能的认知。
数据思维是使用数据来提出问题和解决问题的能力,它与数据知识和数据技能不是一回事。但是,聪明的你一定会问:思考和解决问题,肯定又离不开知识和技能,这三者之间是什么关系呢?
这是一个好问题。答案是,我们对掌握的数据知识和技能形成一些认知,这些认知就是数据思维,然后我们以这些认知为工具来思考问题、解决问题。
我们是依据我们的认知来思考的。这些认知来自我们对自己掌握的数据知识和数据技能的理解,我们会在不知不觉中被这些或明或暗的观念所限制。当然,如果认知升级,观念更新,就会发现新天地,也会产生解决问题的创意。
请注意,数据知识和数据技能看起来好像是客观的,但对它们的理解、认知却是因人而异的。这就是每个人的数据思维水平相差很大的重要原因。
02 | 转型:如何培养数据敏感度?
整个模块的基本任务,就是培养咱们的数据感。这一讲,咱们先说数据感的一个重要方面——如何提高自己对数据的敏感度?
对一样东西有超乎一般人的敏感度,是思维形成的基础。比如,摄影师就对光线有很高的敏感度,木工对木头的性质有很高的敏感度。这一讲,我来介绍三个方法,分别是量转型、量定义和对应值。
方法一:量转型
量,就是数量的量。量转型的意思就是,你要把过去用定性的方式思考、谈论和使用一个东西的习惯,有意识地转变为用定量的方式思考、谈论和使用。
举个例子,看见一个小姐姐远远地走来,你就不要说,“小姐姐好漂亮”,而要说“小姐姐颜值好高”。为什么呢?用“漂亮”这个词,就是在用定性的方式思考;而用“颜值”,就是用数量的方式思考。漂亮,只有漂亮和不漂亮两种可能;而颜值,空间就大了,可以是10分制,也可以用百分制。这就是“量转型”。
思考问题的时候要量转型,社会交往中也要量转型。
比如,八卦咱们课程的编辑老耿同学的时候,建议你调整自己,不要说“老耿这个人还行”,而要说“我对老耿啊,三七开”。
这就从行还是不行这样定性的评价,变成了比例组合的定量评价。
其实,日常生活里的任何东西,只要你想,就都可以量转型。比如,你买一盏台灯,就不要买只有一个开关的,而是买那种亮度可以调节的。这样,就从“照亮”这个概念转型成了“亮度”这个定量的概念。
方法二:量定义
也就是说,我们要用量来定义质,从量的方面抓住事物的本质。
这个世界上所有的东西都可以用量来定义。举个例子,你听见老耿说,“我买了一台标准钢琴”,那你就会反应出,老耿买的钢琴有88个琴键。只有有88个琴键的钢琴才叫标准钢琴。量定义就是这个意思。
再比如离婚率。我看一个报道说:现在的离婚率高得吓人,刚公布了2019年的数据,天津市离婚率最高,排名第一,达到了71.28%!意思就是说,“每100人里面,竟然达到了71人离婚的比例。” 报道给出了图表,说明数据来源是权威的。但是仔细一看,这里的数据是当年的离婚对数和结婚对数之比,意思是说,一年内,如果把所有结婚的看成是100对,那么离婚的相应就有71对。但是请注意,离婚的这些对,并不都是当年结婚的呀。也许会有那么几对是当年结、当年离,但这样的情况比较少,大部分都是往年结的。所以,分子和分母对应的不是一群人,“每100人就有71人离婚”这样的推论当然就是大错特错的。
简单总结一下:这里说的“量定义”,是为了让你理解事物在质和量上的关系。我们一定可以找到一个关键量,这个量抓住了事物的本质,使这个事物得以与其他事物区别开来。这个信念就是数据思维最基本的认知之一。
但是回到现实世界,我们会面临一个具体问题:有些概念在观念世界里很清楚,但是要在现实世界里抓住它、看到它,就需要一个重要的方法,用量来定义这个概念。这就是“量定义”的高级阶段。你知道,在现实世界,我们就是用测量的方式,逼进一个观念世界里的概念的。
举个例子,说一个人老了,那含义很清楚,60岁以上就是老了。这里说的是生理年龄,不是心态,也不是活力等。但是说一个社会老了,怎么定义呢?一个社会,生生不息,怎么确定标准呢?
这就需要一个像生理年龄一样的标准去测量它。因此,我们就把老年人口占全体人口的比例看成是测量一个社会“生理上”老化程度的指标。刚才我们说了,定义一个老年人的标准是60岁以上,那么老年人口就是所有60岁及以上的群体。这样一来,通过老年人口占全体人口的比例,我们就能测量一个社会的老化程度了。
方法三:对应值
接着社会的老龄化问题。量定义清楚了,使用老年人口占全体人口的比例来测量。那么,这个比例要达到多少才是一个老龄社会呢?
这里,对应值就出场了。根据人口学家的共识,老年人口,也就是60岁以上的人口所占的比例超过10%,就是老龄社会。这个10%就是对应值。
老龄社会的对应值比较有共识,但是还有很多情况,对应值并没有共识,需要你来研究确定。
比如,讨论科研领域的性别平等状况,中国是平等的,还是不平等的呢?
性别平等状况的量定义比较清楚,把所有的科学家看成是100人,计算女性科学家在其中所占的比例就可以了。但是,哪个比例对应性别平等,哪个比例对应性别不平等呢?
这个对应值就很难有共识。有人说,女性科学家必须占50%及以上,才是平等的。也有人说,40%及以上就可以。还有的人说,在纯自然科学领域,超过30%就算平等,因为女性对探讨大自然兴趣不大,30%就说明没有社会障碍了。
到底谁的对应值是对的呢?这里我们不讨论,我们是数据思维课,不是社会学通识课。我只是通过这个例子让你明白,在很多情景下,对应值反映的是你对事物性质和原因的理解,理解不同,选择的值就可能不一样。但从数据思维的角度来说,你必须确定一个对应值,才能定义清楚你对事物的理解。
有了对应值这个概念,我们就开辟了一个思考问题的新角度。
举个例子,什么是微笑呢?你就不一定非从心理上定义,而是可以找到一个量来定义它。比如,露出三分之一的牙,在观察者看来就是微笑。
这个方式就是银行、证监会、支付宝和微信支付等金融机构监控异常情况的逻辑。通过记录客户行为,形成一个客户支付行为的模式。这样,设计者就能找到一个对应值,在这个对应值以内,就是正常的;超过这个对应值,系统就会报警,认为这个客户有异常。
03 | 背景:为什么孤立的数据没有意义?
上一讲,我们介绍了如何提高数据的敏感度,就是强迫我们的大脑从定性方式的思考转变成定量方式的思考,强迫我们从数量的维度理解现实世界。
完成了这个任务之后,我们进入下一步——怎么通过寻找数据的背景来理解数据的意义?
背景不同,意义不同
为什么要寻找数据的背景呢?原因很简单,因为不考虑背景,你就不能准确理解数据的意义。
我们先看一个案例:2016年,我国出生人口性别比是108.27。那么,怎么理解108.27这个数据的意义呢?出生人口性别比是指在自然状态下,活产男婴的数量除以活产女婴的数量,然后再乘以100之后的值。之所以乘以100,是为了方便理解。假如2016年出生了10000个女婴的话,对应的男婴就是10827个。
上面说的是这个数据本身的含义,但一个孤立的数据能说明什么呢?很明显,它的意义指向并不清楚。也就是说,只有给这个数据一个背景,才能明确它的意义。
我们先找找标准。出生人口性别比,有没有正常范围呢?人口学家说:我们研究很久了,这个数值是由生物学规律决定的,相对稳定在一个范围,联合国也给了范围的标准——103到107之间。这就明确了。108.27比107大,说明我国的出生人口性别比不在正常范围内,偏高。
但这只是背景之一,如果纵向比较一下呢?也就是说,与我国近些年出生人口性别比的历史情况相比,它又说明了什么呢?查阅资料,数据是这样的:1982年,我国的出生性别比是108;2004年是121,为近年来的最高值。之后逐年下降,到2016年,出生人口性别比已经连续下降了12年,回到了1982年,也就是计划生育政策开始时的水平。这就说明,出生人口性别比虽然还是不正常,但是有一个逐渐好转的趋势,而且非常接近正常范围了。
你看,单看2016年这一个数据,只会感觉出生人口性别比这个指标不正常。但是加上历史演化的背景,感觉一下子就变了,数据指向的意义也变了。所以,背景不同,意义不同。
在不同的视角下,数据可以有无限多的背景,也就有无限多的意义。那么,怎么通过背景来理解数据的意义呢?我们讨论数据的意义,大致有三个方向。一是涉及理解事情的属性,也就是“是什么”这类问题。二是涉及理解事情的相对情况,比如上下、左右、快慢、轻重、大小、远近,这类事情都是相对的。三是涉及理解当事人的真实意图。
这三类方向基本覆盖了日常生活绝大部分的情况。我们一一来说。
方向一:理解事情的属性
理解事情的属性,也就是“是什么”这类问题,或者说是分类问题、定性问题。一件事情,是健康的,还是病态的;是合法的,还是非法的;是雄性的,还是雌性的等。这类问题都指向一个确定的基准,比如一个临界点、一个里程碑、一个正常范围、一个关键门槛等。
举个例子,体脂率,指脂肪重量在总体重中所占的比例,反映了人体内脂肪含量的多少。如果你的体脂率是21%,这是正常还是不正常呢?
首先要看性别和年龄。成年人的体脂率正常范围,你在网上一搜就能搜到结果——女性为20%-25%,男性为15%-18%。所以,21%的体脂率,你要是女性就是正常的,是男性就超过正常范围了。
但如果换一个基准,这个数据的意义就会跟着改变。比如,如果你是搞体操的、搞健美的,21%的体脂率肯定就超标了。
有些问题的基准相对容易找,比如体脂率这样的科学问题,已经研究得很深入了。而有些问题没有现成的基准,就需要你创制一个,只要你的理由可以让大家接受就行。当然,也有些前人的经验可以借鉴。
比如,在「得到」顾衡的专栏里有这么一个案例:
在日本的水俣这个地方,因为化学污染,大量的民众汞中毒,当地把这个病叫“水俣病”。事情被揭露出来后,肇事公司一次性赔偿给水俣渔业协会2000万日元。那么,2000万日元是多是少呢?这个没有参照,没有现成的基准,只能创制一个。一般来说,把总量转换成人均,可以更准确地理解这个数量是多还是少。所以,我们就计算一下人均可以获得的赔偿额。对于损害这么严重的水俣病,一个受害者能分到多少钱呢?人均12500日元。
当时,12500日元正好等于一盎司黄金,用金价折算的话,相当于今天的人民币11600元。这样,你对这笔赔偿是多还是少,就有了自己的判断吧。
除了用人均寻找基准,水俣病案例还使用了另一种常见的确定基准的方法。你可能也注意到了,就是把钱数转化成黄金价格,以此为中介来了解赔偿额大致价值多少。
这个方法非常常见,比如你经常会听到“以1980年不变价格计算”“扣除通货膨胀因素”“同比如何如何”“环比如何如何”,都是使用的寻找基准点的方法。
方向二:理解事情的相对情况
你注意到没有,一件事情是快是慢、是轻是重、是大是小、是远是近,都是相对的。所以,理解这类问题,就要找参照系、找对比值。
比如中国的老龄化程度,2019年的数据是15.37%。那问题来了,15.37%这个数据怎么样呢?中国的老龄化问题严重不严重呢?
要问答这个问题,咱们就得看看其他国家。日本的情况怎么样呢?60岁以上的比例是32.79%,高出中国好多,是世界各国人口老龄化排行榜的第一名。第二名是意大利,28.59%。第三名是德国,27.35%。中国排多少呢?第65位。所以在世界范围内,中国的老龄化程度不是最严重的。
但这是不是就说明中国的老龄化问题不严重呢?这就不是一个排行榜的数据能回答的了。
方向三:理解当事人的意图
虽然说人心是最难理解的,但是数据会泄露线索。好的数据思维,可以帮助我们快速提出正确问题,接近正确答案。
我们来听一个故事。这个故事来自「得到」课程刘松博的《公司治理30讲》:
1994年,四个年轻人筹集8000块钱开了一家火锅店,各占25%的股权。后来,四个年轻人成了两对夫妇,每家占50%的股权。这就是著名的海底捞。两对夫妇分别是张勇夫妇和施永宏夫妇。刚开始,四个老板有活一起干。慢慢的,就由领导力最强的张勇掌控全局了。到2007年,海底捞已经发展成了国内顶级的餐饮公司。这时候,张勇很强势地提出,让施永宏夫妇转让给自己18%的股权。问题来了,为什么张勇要夺走的股权不多不少,正好是18个点呢?
刘松博老师是这么解释的:《公司法》规定,不同比例的股权之下,股东拥有的权限是不同的。如果你拥有三分之二以上的股权,就有了对公司的绝对控制权,公司所有的重大事项你都可以表决通过。张勇原来有50个点,现在又要走18个点,这样一共是68个点,正好比三分之二,也就是66.7%多一点点,他就拥有了公司的绝对控制权。
你看,知道了公司治理的制度背景,就能准确理解18%这个数据,也就更能准确理解当事人的行动依据。
再举一个例子,《假如迪士尼运营医院》这本书里讲过一个故事:
作者来到迪士尼乐园的后台,发现墙上有大大的海报,写着好几个顾客满意度。作者注意到,所有的满意率都在75%到80%之间。这让作者很诧异。因为每一个人肯定都有感觉,很少有人对迪士尼乐园不满意,怎么满意率这么低呢?
我们得看看这个满意度调查是怎么做的。顾客是在“很满意、比较满意、满意、比较不满意和很不满意”这5种选项中选择,那么,满意率是不是既包括选择很满意的,也包括选择比较满意的和满意的呢?
其实不是。
迪士尼的管理者告诉作者:我们只计算很满意的那部分。如果三种满意都计算,数字会特别好看,都是99%以上,这会让员工觉得没有提升空间,没有什么可以做得更好。为什么要只计算很满意呢?因为我们发现,选择很满意的顾客的忠诚度是选择比较满意的顾客的6倍。
重点来了,你以为迪士尼调查的是顾客满意度,其实人家调查的顾客忠诚度,也就是来了一次之后还会再回来玩儿的那些人,而不是来了一次下次就不来了的那些人。
04 | 推理:怎么发现数据隐藏的信息?
数据不是孤立的,它是一个信号,一个线索,除了它本身之外,还隐藏着很多信息。发现已知数据背后隐藏的信息,是一个重要的能力,也是数据思维的一部分。因此这一讲,我们就学习一下如何让数据说话,发掘数据背后隐藏的信息。
注意,这一讲的焦点是对数据本身含义的挖掘,而不是以此为线索,一路追击,发现更多的数据。比如,从一个街头犯罪一路追踪,最后发现他背后有一个保护伞,就不是这一讲的任务。这一讲有点像福尔摩斯的推理,是从华生身上的特征推论他去过阿富汗。
挖掘隐藏信息的经典案例
我们先看一个例子,欣赏一下有了数据思维,能通过一个数据做出怎样的思考。
这是一个真实的故事。第二次世界大战期间,盟军需要知道德国人一个月生产多少辆坦克。当时,德国人每生产一辆坦克,就在坦克上刻一个序列号。现在我们假设,德国人每个月生产的坦克序列号是从1到N。N就是一个月总的产量。因为我们不知道是多少,所以就用N来表示。我们的任务就是估计这个N到底有多大。
这里只讨论最简单的情况。某一个月内,盟军只发现了一辆德国坦克,序列号为60。如何估计这个月德国人的坦克产量呢?你是不是会说,这怎么可能?就一个数据,能用什么方法?只能瞎猜。好吧。让你看看统计学家能用这一个数据推理出什么结果——
首先,凭什么一下就缴获了序列号最大的那一辆呢?这个概率太小了,所以N的值起码大于60。
其次,假设这个月生产的任何一辆坦克都有可能被缴获,我们就要公平地对待每一个样本。用统计学的术语,就叫“样本的无偏性”,就是说对数据没有偏心眼。而最符合这个无偏性条件的,就是把缴获的这辆坦克的序列号看成中间的那个。既然60是中间点,那生产总量就可以估计为120辆。
数据隐藏的信息特别多,只要善于发现,就能找到很多有价值的信息。可问题是怎么做,用什么方法才能挖掘出数据背后的隐藏信息呢?这里介绍三个常用的方法。
方法一:数学推断
先利用数学知识做出假设,然后再进行推断。当任务很容易定位成数学任务的时候,就像估计德军坦克产量这样,我们会很自然地调动已知的数学知识去解决,高手和低手之间的差别就在数学知识的掌握和使用上。但是,当任务看起来跟数学没有关联的时候,我们常常会忘记调用数学知识。
还是继续上一讲离婚率这个话题。当媒体报告,离婚对数与结婚对数的比值这个指标今年又上升了。你觉得这个消息值得重视吗?这时候,你就可以反过来把媒体的思路拆解,先看看它的假设是什么,然后再判断这个消息靠不靠谱。
从离婚率的定义上看,是离婚对数与结婚对数的比值越来越大,但是,有三种可能会导致这个变化:一种是主要原因在分子,也就是离婚的越来越多;另一种是主要原因在分母,也就是结婚的越来越少;第三种是相对情况,比如分子分母同步变化,但是分子的变化幅度更大。
所以,要真正读懂离婚率,我们要找到主要因素。先看分子——当年的离婚对数。但是,谁能离婚呢?必须要先结婚才能离婚吧?所以这么些年下来,已婚的人数会逐渐累积增多。已婚人数多了,离婚的自然也就会多,即使离婚率没有变化,离婚对数也会增长。所以,分子逐渐变大是正常的,关键在于变大的速度是不是加快了。
再看分母——当年的结婚对数。这个数字与进入婚龄的人口数量相关,也就是受到20年前新生人口数的影响。20年前新生人口数越多,现在结婚的自然就越多。查阅近20年的数据,我们看到的是:离婚对数在20年内慢慢上升,坡度很缓。而结婚对数的曲线是一个大鼓包,20年间,前14年在快速上升,在2013年达到高峰,随后快速下降,到2019年回到了2001年的规模。
这样看来,近年来的离婚对数与结婚对数比值的上升,主要是结婚人数下降导致的。如果今年这个数据上升,隐含的信息不是婚姻幸福的人越来越少了,越来越多的新婚夫妇都离婚了,而是结婚人数在不断下降。
方法二:逻辑推理
具体的推理过程与各个领域的规则和限制条件相关。
比如斗地主,这是一种扑克游戏,三个人打一副牌,分成两边对战。如果你手里有4个5,没有4,现在上家出了2个4,那么,牌面上的2个4还隐藏了什么信息呢?答案是,下家还有2个4。
推理过程是这样的:
首先,上家不可能有4个4。因为4个4是一个炸弹,价值很高,他不会傻到不要炸弹而把4个4拆开。其次,上家会不会有3个4呢?如果他有3个4,还要只出2个4,必定是手里有顺子,比如45678之类的。但是,你手里有4个5,所以上家不可能有顺子。结论,另外2个4在下家。
这里没有复杂的数学,但要充分理解游戏规则,把这些规则作为限制条件来进行推理。
这个推理训练要经常做,对数据思维的养成很有用。这里介绍一款个人玩儿的小游戏——数独。
数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出剩余空格里的数字,并满足每一行、每一列、每一个小九宫格内均含有1-9,不重复。这种游戏只需要逻辑思维能力,与数字运算无关。虽然玩法简单,但又千变万化,是个锻炼推理能力的好方法。
方法三:切换视角
先举一个简单的例子:一场瘟疫死了2万人。有人说,不对,这是“一场瘟疫导致一个人死亡”这件事,发生了2万次。这就是典型的切换视角。
再说一个比较复杂的,有一个故事是这样的:
我们的课程编辑老耿找到小杨,问小杨,如果给你1万元,让你一次吃6个巨无霸汉堡包,你吃不吃?小杨想了想,1万元挺多的,虽然6个汉堡一次吃完很难受,但是很值,所以我吃。老耿接着问小杨,我不给你1万元了,给你9999元,你吃不吃?小杨想,9999元与1万元相比,就差1块钱,差别不大,吃!老耿接着再问小杨,我不给你9999元了,给你9998元,你吃不吃?小杨想,9998元与9999元相比,还是只差1块钱,差别不大,吃!
于是老耿就做出了推理——要是这么一直问下去,我只给你1块钱,你就会去吃。
问题来了,老耿的推理正确吗?如果不正确,问题在哪里呢?凭直觉,你应该也会觉得不正确,但问题在于,你能说清楚哪里不正确吗?
实际上,老耿的游戏启动了两个心理账户:一个是可变的锚定点,每次都只比上一次少1块钱,这个差别不大;另一个是不变的锚定点,就是1万元那个起点。老耿的每一个提议,钱数与可变锚定点确实变化不大,只比上一次少一块钱,但是与不变锚定点的距离越来越大。大到一定的程度,突破了小杨的心理底线,这个游戏就玩不下去了。
这个故事用一个关系,也就是新报价与前一个报价的对比来看,说明报价的差异很小,证明只给1块钱也会答应。但是用另一个关系,也就是新报价与第一次报价的关系来看,差异就不是很小,而是很大,因此推理说1块钱也会答应是荒谬的。
通过不同的视角观察数据,数据就会在不同的关系下发出不同的隐含信息。
05 | 差异:为什么同样的数据感受不一样?
如果从人的这一端来看,由于人的生物性和人与人之间的差异,就会导致我们对数据感知的不同。由于这个原因,提高数据的敏感度就有了人这一端的角度。
那么,人这一端具体有哪些差异会导致我们对数据的感知不同呢?这一讲,我们介绍三个方向。
方向一:人的生理倾向不同
生理倾向,指的是人类的生物性因素。这些生物性因素有的来自生理结构,有的来自大脑特征,有的来自个体生理差异。这些就会导致,数据是一回事,人的感知是另一回事;或者数据是一回事,一部分人的感知与另一部分人的感知完全不同。
科学家解释说,这是因为人的大脑本来就是用来做社会题的。你看,同样的数学结构的问题,换个外壳,我们感知到的也完全不一样。
另外,基因和发育过程也都会给人带来大脑特征上的差异。比如,有些人的空间知觉和旋转能力就特别好,有些人可以把挖掘机开得像绣花针一样,做拧瓶盖这样非常精细的操作,而另一些人就完全不行。
这些差异可以拉一个长长的清单,这里不能一一列举。如果我们要建立数据思维,就要意识到这些差异,不要把自己的特点当成全人类的特点,大家对数据的感知可能不太一样。
方向二:人的文化属性不同
泛指因为历史、经济、社会等文化因素的不同而导致的群体性差异,表现为文化差异。这些差异就导致同样的数据在不同的群体那里有了不同的感知。
我们看几个例子:
给你一组全球经济增长数据。为了方便理解,这里用一些虚拟的数字。比如,2018年是3%,2019年是2%,2020年是1%。这是一个增长得越来越慢的趋势。现在问你,2021年的经济增长会是上升、下降还是保持原来的水平呢?
答案取决于你问的是哪里的人。如果你问美国人,他们大概率会做出经济继续下降的预测。但是如果问中国人,他们大概率会做出经济转为上升趋势的预测。研究人员说,美国人更相信线性的发展路径,而中国人更相信物极必反的道理。
你看,面对同一组数据,不同文化属性的人的感知是如此的不同。
方向三:人的价值立场不同
斯皮尔伯格有一部电影,叫《间谍之桥》,其中有一段很有意思的场景:两位律师见面谈判,一方是保险公司的律师,代表交通事故的肇事方,另一方代表受害方。
受害方律师说:事实很清楚,你的客户在高速公路上撞了5个人,这是5件事,是5个意外伤害事故,所以你要分别赔偿他们。
而肇事方律师说:等等,不对,这怎么是5件事,这是一件事。我给你举个例子,如果我打保龄球打出了全中,一个球击倒了10只瓶子,这是一件事,不是10件事。
我们跳出电影梳理一下。双方对同样的事实——一个人开车撞了5个人,产生了不同的认知。一方认为,不管受害方有几个人,都应该是一次事故。另一方认为,你开车撞的是5辆摩托车,不是一辆车里有5个人,所以是分别撞了5个人,应该是5件事。
之所以出现这样的不同,在于双方的价值立场不同。一方认为责任事故赔偿要有上限,这也是保险公司的利益所在。另一方认为,争取每位受害者的最大利益是自己的责任。
你看,价值立场不同,对同一件事的感知就不同。
三个因素互相纠缠
最后想提醒你的是,虽然上面分开讲了人在三个方向上的差异,但真实世界的挑战会来自上面三个因素的复杂纠缠,很难梳理。
举个例子:男性认为女性什么样的身材最有魅力呢?
从生活经验、各种各样的广告和科学研究中,我们能得出一个大致相同的结论——男性喜欢低腰臀比的女性,也就是细腰肥臀、丰满大腿的类型。要是用对应值,男性最喜欢的腰臀比的数字是0.7左右。
对于这样一个数据,大家的认知差异太大了。有的认为这是基因决定的,有的认为这是文化建构的,还有人认为这是男权社会歧视女性、物化女性的产物。
0.7这个数据,虽然是事实,但只是一个单一的事实。如果多看一些事实,或许就会有不一样的感觉。
比如,有人调查了天生失明的男性,让他们触摸各种体型的塑料人体模特,结果发现,这些天生失明的男性也更加偏爱低腰臀比的塑料模特。这意味着,男性对低腰臀比的偏好在完全没有视觉输入的情况下也同样出现了。知道了这个事实,你是更相信基因决定论,还是更相信文化建构论呢?
再比如,研究发现:传统社会女性的平均腰臀比,要比现代西方女性的腰臀比更高。知道了这个数据,你是更相信基因决定论,还是更相信文化建构论呢?
再比如,研究还发现,如果男性采取短期择偶策略,你可以粗略理解为喜欢拈花惹草吧,通常更喜欢搭讪低腰臀比的女性。知道了这个数据,你是更相信基因决定论,还是更相信文化建构论呢?
当然,我们不能仅仅围着基因还是文化打转,还可以看看其他的视角,比如进化的视角。进化论理解腰臀比这件事,是遗传与环境的相互作用,而不是单一的基因作用。遗传与环境的相互作用,才导致了男性对腰臀比偏好的差异。
注意,这里不是介绍哪种理论是正确的,我们只是说:
面对同一个现实问题,面对同一个数据,生理属性、文化属性、价值观属性等各方面的差异都会导致我们感知到不同的东西,得到不同的结论。不了解这层意思,数据再多也很难为我所用,甚至数据反而会限制我们的进步。
06 | 估算:为什么要敢于不精确?
估算,你肯定不陌生,就是对事物的数量做大概估计或者推断。
这一讲说的估算,是一个数据思维的议题,我们得回到现实生活和工作的场景中。
现实中,数据经常被看成是严谨的代表。但你注意到没有,把精度玩儿到极致,是一个极度消耗时间和金钱的事情。
一个典型的例子就是,被称为人类有史以来极限精度的制造成果——詹姆斯·韦伯太空望远镜项目。这是美国宇航局史上最复杂的项目之一,任务是观测宇宙的初期状态。据报道,这个望远镜的镜面加工精度是10纳米,也就是几十个原子的宽度。到现在,这个项目已经花了100亿美元以上,最近消息说它将在2021年3月发射。
当然,花这么大的代价一定是值得的。但我要说的是,我们不能因为数据精确有好处,就对数据精度过于痴迷,不惜代价地追求越精确越好。这并不是数据思维。数据思维的真正含义是,目的决定精度。
什么意思呢?就是先决定怎么解决问题、设定好我们解决问题的目的,再匹配相应的精度的数据。
请问:一家星巴克咖啡店一年能卖出去多少杯咖啡?需要你在5分钟之内给出答案。怎么办呢?
5分钟给出答案,很明显,这个问题只是让你对一家咖啡店的规模有个大致的认识,而不是要精确到个位数。所以,靠估算就能解决。虽然是大致估计,但很多同学说,还是不知道怎么入手。还有人说,这个问题不会有答案。因为城市不同,地区不同,规模不同,档次不同,这么多不确定的条件,怎么可能有答案呢?
别着急,我们试着估算一下。要知道一家星巴克店一年能卖出去多少咖啡,我们先要知道,如果每一分钟都火力全开,一家店一年能做出多少杯咖啡呢?也就是从供给端看它的最大供应量,然后考虑平时、周末这些调整因素,最后就能得出结果。
思路确定了,接下来就是计算。
我们按一年有400天计算。有位同学说了,等等,一年不是只有365天吗?我当然知道一年有365天,我还知道每4年就会有一年是366天呢。但是,5分钟要估计出来,你是用400好算,还是用365好算呢?这里敲黑板强调一下——要敢于不精确。
好,一年有400天,接下来就是估计每一天的最大供应量。一天一家店营业15个小时。有位同学又说了,等等,我们家附近的星巴克不是一天营业15个小时。你看,刚说完就忘了,要敢于不精确!
好,一天营业15个小时,那一个小时能做出多少杯咖啡呢?
星巴克的运作方式是这样的,做一杯咖啡,要有三个环节——点单、收银、制作。点单加收银,平均时间算1分钟,制作咖啡平均算2分钟。假如店员不缺,那么瓶颈就在咖啡机上。一般的星巴克单店会配备2台咖啡机,一台咖啡机能同时做2杯咖啡。这样2分钟的极限生产量就是4杯。
这样就能心算了。2分钟4杯,一个小时就是120杯,十个小时就是1200杯。5个小时就是600杯。营业15个小时,1200加600,就是1800杯。
现实中,这个极限一般不会出现,那就打个折。大致来看,平日量少,周末量大,一天内忙的时候少,闲的时候多。这样里里外外算下来,就打四折吧。一折是180杯,算200杯,四折就是二四得八,800杯。
800杯乘以400天。800杯有2个0,400天有2个0,一共4个0,所以乘起来就是万。这样就好算了,四八三十二,一共32万杯。
交卷。一家星巴克单店,一年大约能卖出32万杯咖啡。
从这个案例中,我们能有什么收获呢?收获就是一句话——敢于不精确,但不能太离谱。
上半句“敢于不精确”说的是,答案要是精确,就需要付出资源、时间和金钱。但是大多数问题不需要那么精确,够用就好。问,从北京飞新加坡多长时间?答,6小时。问,东方明珠塔有多高?答,500米。这些答案足够用了,不必那么精确。
下半句“不能太离谱”说的是,数据虽然是估算的,但是要有依据。只要估算结果在准确值的10倍范围内,就是合理的。
为什么是10倍?因为这是同一个量级的。“量级”是什么意思?在「得到」课程《傅骏·美食鉴赏15讲》中有一个例子,说的是大黄鱼,以一斤为标准:普通养殖10-20元,深海养殖(半野生)100-200元,纯正野生1000-2000元。每高一个等级,价格差一个零。这就是量级的意思。
当然,要保证外推估计的结果不会太离谱,还有一个要注意的点——条件不能有重大变化。
比如,一段高速公路上有100辆车的时候,车的时速可以达到120千米;有1000辆车的时候呢?估计时速达到120也大差不差。但是到了10000辆车的时候,你就不能估计时速还能达到120了,拥堵才是最可能的情况。
芯片也是这样。一个指甲大小的芯片上,你不能无限制地估计晶体管的数量会以指数级的增加。到后来,散热、功耗、量子效应等问题都会登场,导致你估算失败。
两点额外收获
从星巴克这个例子,我们还能有什么收获呢?至少有两点。
第一,我们可以知道解决这类问题的通用套路。这个套路就是,把大问题分解成小问题,把小问题一个一个解决,再把这些小问题组合起来,就解决了大问题。
星巴克这样的题型是一些大公司的面试官特别爱出的,目的不是要知道正确答案,而是要看你在答题中展现了什么样的解决问题的思维方式。
第二,星巴克的问题是一个典型的询问市场规模的问题。现在这个解答,方向是从供给端进行推理。聪明的你肯定会意识到,从需求端也可以是一个方向。
比如,我们可以算算这道题:北京市一年用过的快餐盒,一件一件地铺在地上,能铺多大的地方呢?
有了之前的铺垫,现在听见这道题,也没有那么恐惧了吧?这道题的关键点就在于,怎么估计北京市人口一天的快餐消费量。这就是典型的从需求角度解决问题的案例。这也是我们这一讲的作业,你可以算一下,把思考过程贴在留言区,大家一起讨论。
具体的估算方法还有很多,这里再介绍两个常见的。
技巧一:二八法则
这个法则很有名,你肯定听说过。这次提到它,是要理解它是一个非常好的估算法则,特别是在非线性的情况下。非线性,就是很少的东西会产生很大效果的那些事情。比如,传媒业产值的80%来自设备,只有20%来自内容。而在内容这一块,产值的80%来自娱乐内容,只有20%来自新闻。
如果公司80%的利润来自20%的客户,那么找到这20%的客户并且理解他们、服务好他们就很重要。如果20%的公司占有80%的市场份额,那么盯住这20%的公司,就会让你省很多力气。
技巧二:1%法则
它说的是,你进行决策分析的花费应该约为决策价值的1%。比如,如果你要买一幢价值1000万的房子,那就花10万左右去研究它。
如果价值和花费不能用价格衡量,那就用时间。
如果10万元没有感觉,那就算一下你工作一个小时的税后收入,然后用10万去除,得出的结果就是你应该在这件事情上花的时间。再比如,要是你接受了一个工作,将花费你50个小时的时间,你就用50小时的1%,也就是半个小时,思考一下这件事值得不值得做。
理解了数据因人而异、目标决定精度,知道了从不同背景中挖掘不同的信息之后,我们就可以面对这一模块最重要也最本质的问题了——究竟什么是数据? 不把这个问题搞清楚,我们前面所有对数据的感知就都是空中楼阁。所以下一讲,我就试着正本清源,带你真正把它梳理明白。
如果你觉得从实际值推算的结果和估算结果差距很大的话,至少有三个方向可以复盘。
第一个方向:估算模型的复盘,是因素数量少了,还是因素的参数不合适呢?因素数量是指相关影响因素多了还是少了。因素的参数是指某一个影响因素的参数值选择不合适。比如营业时间是按15个小时,还是10个小时选取。
第二个方向:实际值推算转换的方式。用实际销售额来转换咖啡杯数,考虑的因素和因素的参数选择的合适吗?对应估算设定的假设条件吗?
第三个方向:实际值的来源和可信度。实际值就是真实可靠的吗?实际值究竟指代什么意思?比如销售额的定义是什么。
应该有意识地训练,如果知道更多的信息之后,如何调整估算的模型和参数,让下次估算的精度提高。
别忘了,在5分钟之内出一个估算结果,连上大众点评核实营业时间的机会都没有。不能用知道了较多信息之后的计算结果来否定没有这些信息之前的估算的价值。
正是因为缺少相关信息,所以才需要估算,精度不可能很高。用费米估计钢琴调音师的案例,暗示估算可以精准,多少有点误导,高估了估算的精度。
4,网上是可以查询到比较新近的数据的。
网上资料显示,2020年10月30日,星巴克公布了2020年财年Q4(7月到9月)财报。星巴克Q4全球营收62.03亿美元,同比降低8.1%。目前在中国的店铺总数达到了4700家。
上面数字显然受到疫情影响,如果用2020财年Q1数据(即2019年10月到12月),也就是疫情爆发之前最近的数据,Q1中国市场营收7.45亿美元,门店总数4292家,去除汇率影响同比增长13%。
这些数据可以帮助我们复盘课程中的估算模型和参数选择是否合适。
07 | 映射:数据究竟是什么?
数据是对现实世界的映射
首先,从数据和实体的关系来看,数据是对现实世界实体的映射。
比如你照镜子,镜子里出现了你美丽的脸庞,镜子中的脸跟你的脸是一种一一对应的关系。这就叫“映射”。
不过,镜子中的脸仅仅是光的虚像,既不是实体,也不是数据。但如果用手机拍照,那就不一样了。手机中的摄影系统会记录你的长相,并且转换成数字,最终变成一份文件。这份文件中的数据与你的脸是一一对应的。数据的来源就是这样的。
但是我们再进一步,这些数据真的映射了你的脸的全部吗?仔细想想,并没有。这份数据文件记录的是在当初的拍照条件下你的脸的信息。如果拍照的条件变了,记录下来的数据当然就不一样了。
我们再进一步,限定了条件,就在拍摄的那一刻,照片记录的就是你脸的全部吗?还不是。你的脸是由细胞组成的,细胞是由分子组成的,分子又是由原子组成的。这些组织又是有活性的,细胞在进行新陈代谢,血液系统在有条不紊地工作。所有这一切,这份数据文件中都没有。
所以,这些数据是映射实体而来的,但它们仅仅代表了实体的一部分信息。如果你想知道其他的信息,就要做其他的映射。比如,看冠心病就要用CT,看心功能要用超声,检查心肌病变要用核磁。这里,CT、超声、核磁,都是映射实体的方式,都能得到同一个实体不同维度的信息。
这也就说明,获取数据的方法决定了我们能获取什么数据。现实世界和数字世界是两个不同的世界,它们之间通过映射建立关联。
以上,就是关于“数据是什么”这个问题的第一点认知——从实体和数据的关系来看,数据是在某种方法之下对实体的数字化表达。
数据需要元数据来说明
接下来,我们说第二点,我们需要元数据来说明数据。
我们来看一下数字音乐。它看起来就是一个音频文档,用播放器一播放,我们就能听到一段美妙的声音。
这里的问题是,除了声音本身,你还能知道什么呢?这是你婚礼上的伴奏?还是女儿的第一次演出?还是肖邦的亲自弹奏?不知道。音频本身并不能说明自己是谁、自已从哪里来。
这时候,我们就需要用到一个新的概念——元数据。简单地说,元数据就是对某个对象做出的陈述。
比如,这段音乐是我女儿2020年11月在北京国家大剧院演出的实况,她弹奏的是钢琴。这就是陈述。当然,这种自然语言式的备注不便于处理和交流,实际生活中大家使用的元数据是按照国际规则生成的,看起来很结构化。比如,“时间:2020年10月;地点:北京国家大剧院;人物:女儿;乐器:钢琴……”
我再举一个真实的例子你感受一下。咱们平时都听音乐,请问描写一段音乐各个特征的元数据是怎么生成的呢?
美国有一款音乐软件潘多拉(Pandora),相当于我们的QQ音乐。它是这么做的:有些特征客观性很强,比如音调、速度、每分钟节拍数、歌手性别等,这些很容易确定;而另一些特征,比如声音特点、乐器失真程度等,主观性特别强,这些特征怎么确定呢?请一组音乐家,让他们对这些特征进行评估,然后再处理合成。潘多拉用了多少元数据来描写一首音乐呢?大约450个。
这还不是最惊讶的,据说,Google描述一张照片的元数据多达2万多个。
元数据听起来挺普通的,但实际上非常厉害。
不知道你还记得吗?2013年,美国出了一件大事。有个叫斯诺登的前美国中情局工作人员,爆料说美国有一个“棱镜计划”在收集所有的通话记录。这还了得!这让高度关注个人隐私的美国人大惊失色,异常愤怒。结果查下来,发现美国情报部门并没有收集通话的内容,收集的只是通话的元数据,就是说明通话在何时、何地、通了多少时间那些记录。
正当美国人长舒一口气,美国媒体又跑出来吓唬人,说别看这些元数据本身看起来人畜无害,但其实它们能得出各种信息。这下,美国人又不淡定了。
举个例子:如果你是一个公众人物,那我就在公开媒体上记录你的行踪。一旦我收集到了你去过的4个地方和4个时间,我就能知道你的手机号码。知道了你的手机号码,在网上跟你手机号码绑定的所有信息就都知道了。你说元数据厉害不厉害?
当然,这个前提是可以动用各种数据库,有这样权限的人并不多,所以你也不用担心。
要把数据、数据容器和数据蕴含的信息分开
接下来,我们说第三点,要把数据、数据容器和数据蕴含的信息分开。
为了理解这一点,你需要记住一个模型——葡萄酒模型。葡萄酒这个东西,其实可以分成四件事:第一,酒本身;第二,酒瓶;第三,酒标,就是贴在酒瓶上的标签;第四,喝进去的感觉。
做个类比的话,酒本身就是数据,酒瓶就是数据容器,酒标就相当于元数据。为什么这么说呢?咱们拆解一下这句话。
首先,酒就是数据,这很好理解吧?不多说了。
其次,酒标上面有品牌名字、年份、产地等,都是在说明这个酒某一方面的特征,所以它就相当于元数据。
最后,我们要重点说一下数据容器。和很多东西一样,数据也需要一个载体来存放。音频文档是一种载体,Excel电子表格是另一种载体。听起来很简单,但很多时候我们往往会把载体,也就是数据容器,当成数据本身。比如书本,那些纸张是数据吗?其实不是,纸张只是数据容器,纸上的文字才是数据。
混淆数据和数据容器,在口语表达中当然没有问题,但是知道它们的区别才是数据思维好的表现。
数据就好比是葡萄酒;元数据记录了数据的各种关键信息,好比是葡萄酒的酒标;而数据容器是用来装数据的,好比是酒瓶。这个对应关系明白了,那么一瓶葡萄酒的第四部分——喝下去的感觉,又应该怎么理解呢?它对应数据的什么呢?我把它比喻成数据里蕴含的信息。
举个例子。我在网上看到,有位数据分析师分析了华语唱作人的相关数据,发表了一篇文章叫《华语唱作人词汇量大赏》。什么是唱作人呢?就是指那些创作型歌手,演唱之外,还要自己作曲、填词和制作的人。
这位数据分析师对55位著名华语唱作人自己写的歌词进行了用词的频率统计,然后做了一个排行榜。为了公平,每位唱作人都抽取1万字,去除重复的词汇之后再进行统计。这样就知道每一位唱作人常用的词汇是什么了。比如周杰伦,他的常用词汇前三名是“爱”“走”和“我会”。
这还没有结束。分析师还训练了一个模型来感知歌词的情绪。比如,“拆开,我的心随你看,满满的都是爱”,被认为是积极情绪;“如果以后和好了,看到你朋友不是很尴尬”,就被定性为消极情绪。
问题来了,词汇量最高的歌手是谁呢?
第一名是周延。在一万个字里,他不重复地用了2282个词。他的常用词汇前三名是“万岁”“喊”和“做”。歌词的情绪67%是积极的,33%是消极的。
我们熟悉的总上不了头条的汪峰老师呢?词汇量是1039个,在55位唱作人里属于很低的那一档。常用词汇的前三名是“爱”“妈妈”和“孤独”。歌词的情绪呢?63%是积极的,37%是消极的。
我想说的是,这些信息都是被人挖掘的、被人发现的,这些唱作人的创作数据就在那里,并没有自动说“我有这些信息,来使用我吧”,没有。这些数据中蕴含什么信息,是数据使用者的创造,甚至可以说,是在数据使用者与数据之间的互动中出现的。
换句话说,数据仅仅是潜在的信息提供者,处于一种未经处理的原始状态。只有找到各种描写它们特征的办法,你才能让数据开口说话。