大数据时代,统计学方法有多大的效果?

统计学习是一种方法,方法的好坏取决于人的使用。
数据挖掘是众多学科与统计学交叉产生的一门新兴学科。

  • 数据挖掘与统计学的共同特征
  1. 共同的目标。两者都包含了大量的数学模型,都试图通过对数据的描述,建立模型找出数据之间的关系,从而解决商业问题。
  2. 共用模型。包括线性回归、logistic回归、聚类、时间序列、主成分分析等。

  • 数据挖掘与统计学的不同之处
  1. 思想不一样。数据挖掘偏向计算机学科,所关注的某些领域和统计学家所关注的有很大不同。不一定要有精确的理论支撑,只要是有用的,能够解决问题的方式,都可以用来处理数据。而统计学是一门比较保守的学科,所沿用的模型一定要强调有理论依据(数学原理或经济学理论)。
  2. 处理数据量不一样。统计学通常使用样本数据,通过对样本数据的估计来估算总体变量。数据挖掘使用的往往是总体数据,这也在过去的年代生产力和技术限制所致。数据挖掘由于采用了数据库原理和计算机技术,它可以处理海量数据。
  3. 发现的知识方式不一样。数据挖掘的本质是很偶然的发现非预期但很有价值的知识和信息。这说明数据挖掘过程本质上是实验性的。而统计学强调确定性分析。确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。
posted @ 2014-09-16 18:16  至道中和  阅读(219)  评论(0编辑  收藏  举报