统计学习方法 -> 朴素贝叶斯算法

  需要知道的是在什么时候可以用朴素贝叶斯算法:需要保证特征条件独立。

  主要过程是学习输入和输出的联合概率分布。

  预测的时候,就可以根据输入获得后验概率对应的输出y。

  先验概率:已知输出,求输入。后验概率相反。

  简单来说朴素贝叶斯算法,就是在对样本进行学习之后,到了需要做决策的时候,给定x,给出最大概率的y。这个本质上就是一个典型的后验概率模型。不过在该模型的算法推到上,还用到了先验概率的计算。但注意:最终朴素贝叶斯就是一种后验概率模型求P(y|x)。

  后验概率模型有一个好处,相当于期望风险最小化。这个很好理解,我所取得的y是所有可能性之中概率最大的。那么我的选择承担的错误的风险自然就减小了。

  

参数估计

  到了参数选取的时候了。

  估计流程:

  1>  确定y的不同取值的概率

  2> 计算y不同取值的时候 x|y 的概率。

  3>  后验概率公式求解。 

 

Laplace 平滑:

  p(y) 和 p(x|y)在计算时候都应该进行Laplace平滑。因为朴素贝叶斯是独立同分布的。p(xj|y)某一项为0的时候。整个函数公式值全为0。这是极其有问题的。所以进行拉普拉斯平滑极为必要。

 

优点:

  对小规模的数据表现很好,适合多分类任务,适合增量式训练。

缺点:

  支持的特征数量相对较少。因为特征数量多了,就比较难保证所有特征是独立同分布的了。对输入数据特别敏感。如果输入数量小,那么很可能其中一个数据就能改变结果。

 

posted @ 2015-08-28 21:47  程序员小王  阅读(218)  评论(0编辑  收藏  举报