摘要:
与传统的逻辑推理研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或者两个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度和兴趣度等参数反映相关性。两个数据A和B有相关性,只反映A和B在去取值时相互有影响,并不能告诉我们有A就一定有B,或者反过来有B就一定有A。 严格来讲,统计学无法检验逻辑上的因果关系。例如,根据统计结果:可以说“吸烟的人群肺癌发病率会比不吸烟的人群高几倍”,但统计结果无法得出“吸烟致癌”的.. 阅读全文