分类原理:判别分析

算法做了几年,尽然在博客上没留下什么脚印,主要写博客太麻烦了~,现在开始写点系列文章,以示点凭证~,今天写的是数据挖掘的基本定理及原理:分类原理之判别分析。

从概率统计的角度来看,判别分析问题可归结为:设有个组(或类或总体),所有组的样品都有相同的个指标,可表示为一个维向量,这组的分布函数为,均为维分布函数,对于给定的一个新样品,要求判断它属于哪个组。一般有距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别

距离判别

马氏距离

在统计学中,特别是多元统计,欧氏距离有时不太合适,需使用马氏距离。

贝叶斯判别

贝叶斯判别的引入:在两组距离判别中,如果属于组的样品个数比属于组的样品个数多得多,那只根据样品距离这两组的远近来判别其归属就有些不妥,即使比稍大些,人们往往倾向于判断属于组。因为判别之前他们已有了“先验”的认识,即来自组比来自组有更大的先验概率。先验概率可以根据组的大小、历史资料及经验等加以确定,常常带有一定的主观性。利用先验信息来进行判别是贝叶斯判别的一大特点。

是公式,所以只能用图片了~

posted @ 2013-05-24 22:11  ALLEN_2008  阅读(11)  评论(0编辑  收藏  举报  来源