辛普森悖论

不要轻易相信统计得到的数据所推出的结论,要看其统计的方法,如果过于简单,就得注意了。假设学校的专业A与B总体的招生情况如下:

 

可以看到,录取率女生高很多,但分别看专业A与B的情况分别为:

由表可知,男生在两个专业上的录取率都高于女生,可是为什么总体的情况却相反,这是著名的“辛普森悖论”,简单点说,这是典型的单因素与多因素关系的例子。单因素的情况下,考虑的情况太少如只考虑性别对录取率的影响,有些情况下就能发生“辛普森悖论”,为什么要做多因素分析,除了性别还有单独的专业类别等,因为它能更好地帮助我们认清事物的本质,如“录取率到底更偏向谁?”这类问题,可以帮助我们排除混杂因素的干扰,透过现象认识本质,不被表面的数据结果所迷惑,抓住隐藏在其背后的真实的结论。

相应的例子还有,上图X变量与Y变量是负相关的,数据的整体分布是随着X的增加,Y减小。

如果做如下划分:

可以看到,X变量与Y变量在Group A与 Group B 中都是正相关的,是什么导致这样不同的结论?原因是数据之间存在着内在分组的特性,例如X变量表示户外锻炼时长(h),Y变量表示体格强健程度,如果分析整体的数据,会得到随着锻炼时长的增加,体格强健程度减小的结论;可是如果Group A表示年轻人的统计数据,Group B表示的是老年人的统计数据,结论就发生了变化,符合随着锻炼时长的增加,体格强健程度增加的常识。因此,不能囫囵吞枣式的把统计的数据一下子全部计算,得出X、Y是正相关或负相关的结论,应该考虑到数据的内在分组才有意义。在充斥着大数据的时代,切记大数据分析的基础还是统计分析,不要像盲人摸象似的做分析和解读,因为得出的结论可能就是类似“辛普森悖论”的结论。

 

posted @ 2017-09-28 09:48  对方正在输入中  阅读(891)  评论(0编辑  收藏  举报