数据挖掘基本概念讲解

       由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。

而要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。就好像你单独提问什么是男人?很难解释对不对。

所以咱们来举个栗子简单看看:

一、分析报告

在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。
  • 孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。
  • 二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。
  • 所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。
  • 最后二郎神赢了。
  • 分析报告完成。


二、统计分析

大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。
  • 首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。
  • 然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。
  • 所以可以得出综合预测总体胜率是孙悟空赢面大。
  • 结论依靠历史记录,使用样本预测总体,根据经验做出假设。
  • 统计分析完成。


三、数据挖掘

孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:
  • 贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
  • 战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
  • 在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。
  • 样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。
综上所述,我们可知道:
  • 论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。
  • 悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
  • 斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。
  • 另孙行者由于样貌原因始终单身(好伤感)。
  • 所以可以得出结论,这次大战孙悟空赢面大。
  • 数据挖掘完成。

四、最后总结:
  • 分析报告一般是整个事件发生结束以后的总结(描述性)。
  • 统计分析能利用大量的历史样本来预测整个事件总体未来的走向(预测性概率)。
  • 数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察未来(规范性)。

以上,祝挖掘快乐:)

作者:Han Hsiao
链接:https://www.zhihu.com/question/19637218/answer/24277701
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

posted on 2017-07-04 15:06  @ 小浩  阅读(513)  评论(0编辑  收藏  举报