什么是数据挖掘(What is Data Mining?)
2012-11-15 21:55 Justany_WhiteSnow 阅读(2332) 评论(0) 编辑 收藏 举报What is Data Mining?
发现模式和模型拥有下列特点,
- 时效性:持有一定的新数据
- 有用性:模型可操作可利用
- 非显然性:不是显而易见的系统
- 可理解性:人类能够理解的模式
附带问题:清理数据、可视化数据、数据仓库式(利于检索)
数据挖掘(Data Mining)是数据“模型”的发现过程。
医学家约翰·斯诺在研究霍乱的传播时,利用了统计学的方法。他通过在一张标注霍乱病例的地图来说明,霍乱是通过水源传播的。
Why Mine Data?
- 大量数据被收集入库。
- 计算机便宜又强大。
- 强大的竞争压力驱使。
Data Mining Tasks
- 利用变量预测未来
- 寻找一种模型来解释数据
Meaningfulness of Answers
A big data-mining risk is that you will "discover" patterns that are meaningless.
大数据挖掘的风险是你可能“发现”一些没有意义的模式。
邦弗朗尼原理(Bonferroni's principle)非正式描述
在数据随机性假设基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例数据,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的家乡,而不是你所寻找时间的凭证。
Example
1950年,超心理学家Joseph Rhine推测,有些人有超感知力。
他设计了一个实验,收实验者被要求猜10张牌的颜色——可能是红色或者蓝色。
他发现1/1000的人有超感知力,能够猜中所有的牌的颜色。
他告诉这些人他们有超感知力,并要求他们做另一个同类的测试。
可惜,几乎所有人失去了他们的超感知力。
他的得出了什么结论呢?
他的结论是:你不能告诉人们有超感知力,这样会使他们失去能力……^_^
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构