朴素贝叶斯分类
朴素贝叶斯分类是基于贝叶斯定理的一种分类方法。通过先验概率,计算后验概率,选择具有最大后验概率的类别作为其类别。
一个随机变量\(X\)有\(n\)个属性{$ { A_1,A_2,...A_n } \(},对于一个样本x属性值为{\) { x_1,x_2,...x_n }\(}。 要估计x的类别,即类别属性的值Y的取值,可以通过估计其属于每个类别的概率,\)P(Y=c_i|X=x)\(,简写\)P(c_i|x)$。
根据贝叶斯公式:
\(P(c_i|x)=P(x|c_i)p(c_i)/p(x)\)
实际估计类别时先验概率\(p(c_i)\)未知,通常假定类是等概率的,\(p(x)\)的值不会发生变化,所以问题可以转化为求\(P(x|c_i)\)最大。
朴素假设:类条件独立。
\(p(x|c_i)=p(x_1|c_i)p(x_2|c_i)...p(x_n|c_i)\)
而\(p(x_j|c_i)\)可以通过实际数据估计得到。