机器学习实战笔记-4-朴素贝叶斯

朴素贝叶斯

(计算 每类下个特征的条件概率之积 和 该类概率 的乘积)

朴素贝叶斯的特点:

特点
优点:数据较少时依然有效,可处理多类别问题; 缺点:对输入数据的准备方式比较敏感; 适用数据类型:标称。 文档分类(用关键词) 过滤垃圾邮件(某些关键词是否有侮辱性) 从广告获取区域倾向
  1. 原理

    如果\(p\left( c_{1} \middle| x,y \right) >p(c_{2}|x,y)\),则\(\mathbf{x} = (x,y)\)属于类别\(c_{1}\),否则属于类别\(c_{2}\)。而由于

\[p\left( c_{i} \middle| x,y \right) = \frac{p\left( x,y \middle| c_{i} \right)p\left( c_{i} \right)}{p\left( x,y \right)}\]

故比较\(p\left( x,y \middle| c_{i} \right)p\left( c_{i}\right)\)即可。其中用到了贝叶斯准则和条件概率的公式。

  1. 两个假设:

    独立;平等。(特征互相独立,特征同等重要)

  2. \(p\left( c_{i} \right) = \frac{\text{num}\left( c_{i}\right)}{\text{NUM}}\)\(p\left( x,y \middle| c_{i} \right) = p\left( x\middle| c_{i} \right)p\left( y \middle| c_{i} \right) =\prod_{j}^{}{p\left( \frac{\text{Featur}e_{j}}{c_{i}} \right)}\)

    计算 每类下个特征的条件概率之积 和 该类概率 的乘积。

\[p\left( \text{Featur}e_{j} \middle| c_{i} \right) = \frac{p(c_{i}\text{Featur}e_{j})}{p(c_{i})} = \frac{num(c_{i}\text{Featur}e_{j})}{num(c_{i})} \]

  1. 修正/注意事项

    3中两个num,分子应该全初始化为1,分母初始化为2,这样保证了p初始时不为0;

    3中如果\(p\left( \text{Featur}e_{j} \middle| c_{i}\right)\)很小,则乘积可能很小,用对数处理

    \[\ln{\prod_{j}{p\left( \text{Feature}_{j}|c_{i} \right) \cdot p\left( c_{i}\right) = \sum_{j}^{}{\ln{p\left( \text{Featur}e_{j}|c_{i} \right)}} +\ln{p\left( c_{i} \right)}}} \]

posted @ 2019-08-30 14:16  云远·笨小孩  阅读(137)  评论(0编辑  收藏  举报