什么是数据挖掘(What is Data Mining?)
2012-11-15 21:55 Justany_WhiteSnow 阅读(2322) 评论(0) 编辑 收藏 举报What is Data Mining?
发现模式和模型拥有下列特点,
- 时效性:持有一定的新数据
- 有用性:模型可操作可利用
- 非显然性:不是显而易见的系统
- 可理解性:人类能够理解的模式
附带问题:清理数据、可视化数据、数据仓库式(利于检索)
数据挖掘(Data Mining)是数据“模型”的发现过程。
医学家约翰·斯诺在研究霍乱的传播时,利用了统计学的方法。他通过在一张标注霍乱病例的地图来说明,霍乱是通过水源传播的。
Why Mine Data?
- 大量数据被收集入库。
- 计算机便宜又强大。
- 强大的竞争压力驱使。
Data Mining Tasks
- 利用变量预测未来
- 寻找一种模型来解释数据
Meaningfulness of Answers
A big data-mining risk is that you will "discover" patterns that are meaningless.
大数据挖掘的风险是你可能“发现”一些没有意义的模式。
邦弗朗尼原理(Bonferroni's principle)非正式描述
在数据随机性假设基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例数据,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的家乡,而不是你所寻找时间的凭证。
Example
1950年,超心理学家Joseph Rhine推测,有些人有超感知力。
他设计了一个实验,收实验者被要求猜10张牌的颜色——可能是红色或者蓝色。
他发现1/1000的人有超感知力,能够猜中所有的牌的颜色。
他告诉这些人他们有超感知力,并要求他们做另一个同类的测试。
可惜,几乎所有人失去了他们的超感知力。
他的得出了什么结论呢?
他的结论是:你不能告诉人们有超感知力,这样会使他们失去能力……^_^