朴素贝叶斯(Naive Bayes)
1. 贝叶斯定理
贝叶斯公式如下:
为B的先验概率,为B的类条件概率,为B的后验概率。
贝叶斯公式为我们提供了依据先验概率求后验概率的方法,在实际生活中,往往代表已知“结果”A那么“原因”B的概率, 先验概率往往指根据经验或历史样本中容易计算的“原因”概率。
2. 朴素贝叶斯分类
将贝叶斯公式应用于分类中,重写贝叶斯公式如下:
其中x代表样本,c代表类别。
由于类条件概率是样本所有属性上的联合概率,难以从有限的训练样本中直接估计。
所以为解决这个问题,朴素贝叶斯假设“属性条件独立”:对于已知类别,所有属性相互独立。
假设“属性条件独立”,可将上式写为:
d为样本属性数目。
即贝叶斯判定准则如下:
其中
对于离散属性,类条件概率
对于连续属性考虑概率密度函数,假定,则
3. 拉普拉斯修正
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,通常在计算先验概率和类条件概率的时候进行拉普拉斯修正。
将先验概率和类条件概率修正为: