如何用数据说谎 How to lie with data

 
不管是前几年流行的手机安兔兔跑分,还是每年双11各家电商晒成绩——人们大概就像希望自己银行卡上的余额那样——越大越好——对“大”数字总是持乐观态度——数据出品方大概也知道大众不会关心这些数字是怎么计算出来的,输出的数字要成为大家的谈资才是更重要的。

 

用数据说话——数据思维在企业日常沟通中越显重要,大有“Talk is cheap, show me the DATA”之势,但实际上,某些场合下,数字成了装点门面的“饰品”,不管对不对、有没有用,放进报告里就能增强自信,更有甚者,明目张胆地耍数字把戏来误导大众。
 
通常来说,用数据说谎基本有如下套路:
  1. 样本选择,选择不具有代表性(不能代表总体)的特殊样本,样本应该在空间上和时间上都要有代表性;
  2. 数据采集,数据来源不靠谱,例如不是专业的人员采集、采集工具不对、方式不对,诱导他人等;
  3. 指标选择,滥用均值,虚荣指标等;
  4. 结论呈现,过度延伸结论,相关和因果不分,选择性展示结果,或者改变图表scale(让不显著的趋势看起来很显著);
 

1 样本选择

“如果想获得赞同,那就找到那些会赞同你的人”——拿不具有代表性的样本来说事通常都是耍流氓。
 
最常见的有偏样本是商业广告,其次是“幸存者偏差”。商业广告永远只展示好的那一面,“幸存者偏差”则只让我们看到经过层层筛选后剩下的优秀选手,而误以为他们身上的品质都是成功的必要条件(那些“沉默的被淘汰者”却常常被忽视)。
e.g. 高考状元代言补脑产品;
e.g. “你看人家那谁谁,长年烟酒不离,照样活了90多岁”;
e.g. 公众号文章下大多时候只放出对文章观点有利的留言;
e.g. 战争时期,军队的死亡率低于城市居民,所以参军更安全?军队都是年轻力壮的年轻人呢,剩下的人群中的老弱病残则是拉升死亡率的主要因素;
e.g. 问题的暴露性,打车遇到安全事件的概率整体是保持稳定的,只不过现在网络平台上更容易暴露出来,就像以前说农村得癌症的人少,就认为农村是很健康的,其实不是,过去的农村医疗条件和健康意识缺乏,很多人得了癌症但是没有去医院或者被当做普通疾病,后来医疗条件好了暴露就更多了;
 
破解方法:
  • 看样本占总体比例,少数不能代表大多数;
  • 看事件发生的概率,警惕美好而不可控的小概率事件(不要一厢情愿和自欺欺人);
  • 找事件的反例,然后找正例和反例的相似性,e.g.成功的人喜欢吹牛(例如马云),不过失败的的人也吹(贾布斯),可见吹牛和成功的关系并不大;
  • 如果涉及到对比,要看抽样的时间点、人群能不能匹配上,有没有可比性;
 
这里还要另外提一下,局部不能代表整体,整体也不能代表局部。
e.g. 辛普森悖论
e.g. 偏态分布(例如收入)中,“拖后腿”的弱势群体经常“被代表”(整体的数据),经济增长可能代表收入处于top5%的那群人增加了,实际上剩下的95%的收入都有下降,只不过整体看起来是增长了。
 

2 数据采集

关于具身认知的“吊桥试验”告诉我们,心跳的感觉不一定是因为对方令人心动,而是当时的情境真的是让人心跳加速(吓死个人啊)。

身处环境、社交面具(社会认同、社交礼貌等)、利益诱导等,都会让人变得不客观,所以这时给到的回答往往也不可信。
 
当然,做调研时可能人员都没经过培训、提的问题可能也经不起推敲。
“你觉得自己是个好人吗?”
“填完这个问卷,将获得50元超市购物券”
破解方法:
  • 数据来源是哪?谁采集的?
  • 用的什么工具?靠谱么?
  • 怎么开展的调研?会不会引导调研对象?
 

3 指标选择

指标选择上常出现的Trick有:
  • 滥用均值,无视数据分布及28法则;
  • 绝对量和比例的误导;
  • 虚荣指标,有量无质;
 

滥用均值

样本中混入极端值,那就不能用均值(否则应该提出极端值)。
e.g. 如果富豪们都是农村户口,那么农村人均收入应该能上升很多。
e.g. 人均收入,不管是算行业、城市、应届生等,总会有大部分的人发现自己“拖后腿”了,因为收入是符合28法则的;
 

绝对量和比例的误导

e.g. 公众号关注人数,昨天有10人,今天新增10人,如果看增长率那就是100%,看着很好,其实一般。
如果基数很小的时候,报绝对量通常是更好的选择。一般基数很大的时候使用比例,e.g. 企业的销售额,去年1000亿,今年1200亿,说同比增加20%是可以的。
涉及到比例的时候还需要注意分子和分母各自的限定范围。
 

虚荣指标

虚荣指标通常的特征就是越大越好(满足虚荣心),然并卵,大都是有“量”无“质”,其背后往往都是“自定义的口径”,而不是行业公认的准确计算口径。
e.g. 没有一支球队能够在世界杯上击败中国队两次以上;
e.g. 双11电商晒成绩,预付、预热、退款前的都可能在里面;
e.g. app下载量、存量用户数,历史访问UV(甚至爬虫、刷量也在里面)等;
e.g. 营业额中有很大一块是在经销商的库存中,实际卖到消费者手中的产品并没有那么多;
 
破解方法:
  • 怎么算的?计算口径(公式)是啥?口径为什么这么定义?
  • 价值是什么?反应了什么问题,有何启示?
 

4 结论呈现

 
第一层次是选择性展示结果以及在数据可视化上动手脚
e.g. 只展示对自己有利或者符合预期的结果、改变坐标轴尺度、截断坐标轴起点等;
 
第二层次是混淆相关和因果
e.g.我和一条狗都往同一个方向走,但不能说明狗子就是我的,我们只是顺路而已;
共变背后都有第三方的潜在因素,“时间”是最容易被忽视的潜变量之一。
区分因果和相关需要注意,归因的时候要注意区分充分必要条件,此外,大部分的因果关系是在“试验对比”下发现并验证的(没有对比就下结论的通常是在耍流氓)。
 
第三层次是过度延伸结论
e.g. 有个妹子表示对某男生有好感,但不能说这个妹子愿意和这个男生结婚,可能妹子只是想让这个男生帮忙辅导她某门功课,简而言之,“想多了”。
大众媒体并不是那么专业,毕竟粉丝数量不代表其发文的质量
更多参考果壳问答 
 
破解方法:
  • 相信常识,不为“怪、力、乱、神”所扰,大部分想“颠覆”常识的事情都是哗众取宠;
  • 找反例,理清楚充分条件和必要条件,吹?可能是成功的充分条件,但不是必要条件(马云和贾布斯);
  • 扩展视野,发现被忽略的因素,当信息被人别有用心地选择性展示的时候,一定要非常小心,没有展示出来的东西可能更重要;
 
更多参考:
posted @ 2020-03-23 15:23  dataxon  阅读(373)  评论(0编辑  收藏  举报