代码改变世界

什么是数据挖掘(What is Data Mining?)

2012-11-15 21:55  Justany_WhiteSnow  阅读(2322)  评论(0编辑  收藏  举报

What is Data Mining?

发现模式和模型拥有下列特点,

  • 时效性:持有一定的新数据
  • 有用性:模型可操作可利用
  • 非显然性:不是显而易见的系统
  • 可理解性:人类能够理解的模式

附带问题:清理数据、可视化数据、数据仓库式(利于检索)

数据挖掘(Data Mining)是数据“模型”的发现过程。

医学家约翰·斯诺在研究霍乱的传播时,利用了统计学的方法。他通过在一张标注霍乱病例的地图来说明,霍乱是通过水源传播的。

 


Why Mine Data?

  • 大量数据被收集入库。
  • 计算机便宜又强大。
  • 强大的竞争压力驱使。

 

Data Mining Tasks

  • 利用变量预测未来
  • 寻找一种模型来解释数据

 

Meaningfulness of Answers

A big data-mining risk is that you will "discover" patterns that are meaningless.

大数据挖掘的风险是你可能“发现”一些没有意义的模式。

邦弗朗尼原理(Bonferroni's principle)非正式描述

在数据随机性假设基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例数据,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的家乡,而不是你所寻找时间的凭证。

 

Example

1950年,超心理学家Joseph Rhine推测,有些人有超感知力。

他设计了一个实验,收实验者被要求猜10张牌的颜色——可能是红色或者蓝色。

他发现1/1000的人有超感知力,能够猜中所有的牌的颜色。

他告诉这些人他们有超感知力,并要求他们做另一个同类的测试。

可惜,几乎所有人失去了他们的超感知力。

他的得出了什么结论呢?

他的结论是:你不能告诉人们有超感知力,这样会使他们失去能力……^_^