辛普森悖论

不要轻易相信统计得到的数据所推出的结论，要看其统计的方法，如果过于简单，就得注意了。假设学校的专业A与B总体的招生情况如下：

可以看到，录取率女生高很多，但分别看专业A与B的情况分别为：

由表可知，男生在两个专业上的录取率都高于女生，可是为什么总体的情况却相反，这是著名的“辛普森悖论”，简单点说，这是典型的单因素与多因素关系的例子。单因素的情况下，考虑的情况太少如只考虑性别对录取率的影响，有些情况下就能发生“辛普森悖论”，为什么要做多因素分析，除了性别还有单独的专业类别等，因为它能更好地帮助我们认清事物的本质，如“录取率到底更偏向谁?”这类问题，可以帮助我们排除混杂因素的干扰，透过现象认识本质，不被表面的数据结果所迷惑，抓住隐藏在其背后的真实的结论。

相应的例子还有，上图X变量与Y变量是负相关的，数据的整体分布是随着X的增加，Y减小。

如果做如下划分：

可以看到，X变量与Y变量在Group A与 Group B 中都是正相关的，是什么导致这样不同的结论?原因是数据之间存在着内在分组的特性，例如X变量表示户外锻炼时长(h),Y变量表示体格强健程度，如果分析整体的数据，会得到随着锻炼时长的增加，体格强健程度减小的结论；可是如果Group A表示年轻人的统计数据，Group B表示的是老年人的统计数据，结论就发生了变化，符合随着锻炼时长的增加，体格强健程度增加的常识。因此，不能囫囵吞枣式的把统计的数据一下子全部计算，得出X、Y是正相关或负相关的结论，应该考虑到数据的内在分组才有意义。在充斥着大数据的时代，切记大数据分析的基础还是统计分析，不要像盲人摸象似的做分析和解读，因为得出的结论可能就是类似“辛普森悖论”的结论。

posted @ 2017-09-28 09:48 对方正在输入中阅读(891) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

对方正在输入中

辛普森悖论

公告