朴素贝叶斯分类

贝叶斯定理:

X是已知条件,H是假设。映射到文本分类中,X就是给定的测试文档,H是文档属于的类别。

 

朴素贝叶斯分类:

即求出所有类的P(Ci|X),概率最大的类为预测类。

因为P(X)是一样的,只需求P(X|C)P(C)即可。

(1)P(Ci)=Ci类文档数/训练文档集总文档数

(2)P(X|Ci)不好求,因此需要“朴素”的假设:类条件独立,即属性值相互独立,则

P(X|Ci)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)   xi为文档的各个属性,即特征词

<1>把x当离散型属性,即只有包含/不包含两种情况,则P(xk|Ci)=(Ci类中包含特征词xk的文本数+1)/Ci类总文本数

<2>记得使用经典TF-IDF公式可以对每个文档内的特征词计算其权重,这时候x就是连续值属性了。

对于连续值属性,一般假定服从均值μ,标准差σ的高斯分布

因此P(xk|Ci)=g(xkCiCi)

看上去很复杂,其实μCi是Ci类内特征词t的权值的均值,σCi是标准差

对于一个测试文档,使用TF-IDF计算特征词权值,即得到xk,三个参数一起代入公式可得P(xk|Ci)

 

求得每个类P(X|Ci)后,P最大的类为预测类。

 

posted on 2015-11-08 10:58  IvanSSSS  阅读(233)  评论(0编辑  收藏  举报

导航