与传统的逻辑推理研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或者两个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度和兴趣度等参数反映相关性。两个数据A和B有相关性,只反映A和B在去取值时相互有影响,并不能告诉我们有A就一定有B,或者反过来有B就一定有A。
严格来讲,统计学无法检验逻辑上的因果关系。例如,根据统计结果:可以说“吸烟的人群肺癌发病率会比不吸烟的人群高几倍”,但统计结果无法得出“吸烟致癌”的逻辑结论。我国概率统计领域的奠基人之一陈希孺原始生前常用这个例子来说明统计学的特点。他说:假如有这样一种基因,它同时导致两件事情,一是使人喜欢吸烟,二是使这个人更容易得肺癌。这种假设也能解释上述统计结果,而在这种假设中,这个基因和癌变就是因果关系,而吸烟和肺癌则是由相关性。统计学的相关性有事可能会产生把结果当成原因的错觉。例如,统计结果表明:下雨之前常见到燕子低飞,从时间先后看两者的关系可能得出燕子低飞是下雨的原因,而事实上,将要下雨才是燕子低飞的原因。
从前习惯了用逻辑思维思考世界,事情的发生有因果关系。其实可以换个方式,多留意一下“相关”。