代码改变世界

什么是数据挖掘(What is Data Mining?)

  Justany_WhiteSnow  阅读(2332)  评论(0编辑  收藏  举报

What is Data Mining?

发现模式和模型拥有下列特点,

  • 时效性:持有一定的新数据
  • 有用性:模型可操作可利用
  • 非显然性:不是显而易见的系统
  • 可理解性:人类能够理解的模式

附带问题:清理数据、可视化数据、数据仓库式(利于检索)

数据挖掘(Data Mining)是数据“模型”的发现过程。

医学家约翰·斯诺在研究霍乱的传播时,利用了统计学的方法。他通过在一张标注霍乱病例的地图来说明,霍乱是通过水源传播的。

 


Why Mine Data?

  • 大量数据被收集入库。
  • 计算机便宜又强大。
  • 强大的竞争压力驱使。

 

Data Mining Tasks

  • 利用变量预测未来
  • 寻找一种模型来解释数据

 

Meaningfulness of Answers

A big data-mining risk is that you will "discover" patterns that are meaningless.

大数据挖掘的风险是你可能“发现”一些没有意义的模式。

邦弗朗尼原理(Bonferroni's principle)非正式描述

在数据随机性假设基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例数据,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的家乡,而不是你所寻找时间的凭证。

 

Example

1950年,超心理学家Joseph Rhine推测,有些人有超感知力。

他设计了一个实验,收实验者被要求猜10张牌的颜色——可能是红色或者蓝色。

他发现1/1000的人有超感知力,能够猜中所有的牌的颜色。

他告诉这些人他们有超感知力,并要求他们做另一个同类的测试。

可惜,几乎所有人失去了他们的超感知力。

他的得出了什么结论呢?

他的结论是:你不能告诉人们有超感知力,这样会使他们失去能力……^_^

 

 

编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示