朴素贝叶斯分类

贝叶斯定理：

X是已知条件，H是假设。映射到文本分类中，X就是给定的测试文档，H是文档属于的类别。

朴素贝叶斯分类：

即求出所有类的P(C_i|X),概率最大的类为预测类。

因为P(X)是一样的，只需求P(X|C)P(C)即可。

（1）P(C_i)=C_i类文档数/训练文档集总文档数

（2）P(X|C_i)不好求，因此需要“朴素”的假设：类条件独立，即属性值相互独立，则

P(X|C_i)=P(x₁|C_i)P(x₂|C_i)...P(x_n|C_i) xi为文档的各个属性，即特征词

<1>把x当离散型属性，即只有包含/不包含两种情况，则P(x_k|C_i)=(C_i类中包含特征词x_k的文本数+1)/C_i类总文本数

<2>记得使用经典TF-IDF公式可以对每个文档内的特征词计算其权重，这时候x就是连续值属性了。

对于连续值属性，一般假定服从均值μ,标准差σ的高斯分布

因此P(x_k|C_i)=g(x_k,μ_Ci,σ_Ci)

看上去很复杂，其实μ_Ci是Ci类内特征词t的权值的均值，σ_Ci是标准差

对于一个测试文档，使用TF-IDF计算特征词权值，即得到xk，三个参数一起代入公式可得P(x_k|C_i)

求得每个类P(X|Ci)后，P最大的类为预测类。

posted on 2015-11-08 10:58 IvanSSSS 阅读(233) 评论(0) 编辑收藏举报

刷新页面返回顶部

IvanSSSS