关于夏运师兄的数据挖掘

    今天下午没有去上老蔡的组合数学实在是太值了,听了一下夏运师兄的数据挖掘方面的东西,知道了现在好比说全世界都是用的同一套样本集来做试验,实际上是有36个样本集,每个样本有实例(好比说1W个实例,8K个用来建模,2K个用来预测),有属性,有类标记,他做的主要是分类,就是好比说具有什么样属性的人还贷的可能性很低,什么样的天气状况不适合打羽毛球,主要的算法有 K近临算法,(以还贷样本为例,找出与这个实例的属性(行为)最相似的好比说30个人,看他们的类标签是属于有信用的多还是无信用的多。)贝叶斯算法,就是找出某些条件下,某些属性出现的概率,某些属性同时出现的概率。决策树算法 以打羽毛球为例,天气的属性有下雨,刮风,温度等。从一开始建立一个树,如果下雨,就不打,然后如果不下雨,看刮风的情况,如果刮风大于几级,就不打,否则继续往下看温度,就跟一个树一样。所以叫决策树。还有些名词叫做代价敏感,好比说,把癌症患者诊断成非癌症患者和把非癌症患者诊断成癌症患者的代价是不一样的。下回要多看一些数据挖掘搜索引擎的书,夏运师兄有一本叫机器学习的书,看起来很不错。。就是这样。。。

posted on 2013-10-23 22:07  iamdanger  阅读(212)  评论(0编辑  收藏  举报

导航