贝叶斯分类

2013-03-06 13:57 ggzwtj 阅读(406) 评论(0) 编辑收藏举报

　　贝叶斯分类是指利用概率统计知识来进行分类的算法，基于贝叶斯定理。但是由于贝叶斯定理有一个假设：每个属性对类的影响互相独立。但在实际中，这个假设基本不成立，所以贝叶斯分类的准确度也可能因此有所下降。贝叶斯定理如下：

　　P(A|B) = P(B) × P(B|A) / P(A)

证明非常简单：

　　P(A∩B) = P(A) × P(B|A) = P(B) × P(A|B)。

贝叶斯分类问题的定义如下：

计算P(y_i|x)是比较麻烦的，可以使用贝叶斯定理将其进行转换：

　　P(y_i|x) = P(x|y_i) × P(y_i) / P(x)

对于所有的P(y_i|x)来说，分母是一样的，所以最后找到最大的P(x|y_i) × P(y_i)就可以了。

下面通过一个实例来说明具体的过程，有两个邮件样本：

这样，特征属性x={A，B，C，D}，类别集合c = {0，1}。那么可以得到：

那么，再判断新的样本{A}的时候得到：

注：其实这里知道P(0|A)的含义，那么这个算法就大概懂了。

----- -- -

END

刷新页面返回顶部

天驰