朴素贝叶斯

  为什么朴素贝叶斯如此朴素?主要由于它假定所有的特征在所有的数据集上是同等重要和独立的。这个假设在现实世界中是不真实的,所以说朴素。朴素贝叶斯(naive bayes),简单的假设特征条件独立,现实中独立的东西是不存在的,但是相关性较小的事物比较多的,于是贝叶斯往往能取得很好的效果。下面看下朴素贝叶斯的内容。

 

一、朴素贝叶斯的基本原理

  朴素贝叶斯通过对训练集数据集学习联合概率分布P(x,Y)。

  先验概率分布:P(Y=ck),k=1,2... 先验概率可以通过训练实例进行计算

  条件概率分布:P(X=x|Y=c)=P(x1,x2, ...xn|Y=ck) 这概率公式比较难计算,参数指数级。

  由于朴素贝叶斯假设条件,X互相独立同分布故:

    P(X=x|Y=ck) = P(X(1)=x1|Y=ck)..P(X(n)=xn|Y=ck) = ∏ P(X(i)|Y=ck)              (1)

 

  所以我们需要求解的目标:

                          (2)

     把(1)式代入(2)中可得朴素贝叶斯的基本公式:

            

      朴素贝叶斯的分类器也可以表示为:

           y=f(x) = arg max(P(Y=ck|X=x)

 

二、贝叶斯分类器的推导

  看到贝叶斯分类器的写法,感觉道理很简单,但具体怎么得来的还是有点不清晰,下面看下具体由来。

朴素贝叶斯后验概率最大化,这等价于期望风险最小化。选择合页损失函数:

     

式中的分f(x)是分类函数,。期望风险可以表示为:

 三、贝叶斯的参数估计和应用

应用贝叶斯和其他分类模型一样,需要训练模型,对模型参数进行估计。很明显,需要P(Y=ck),P(x=x(i)|Y=ck)

下面按2类的假设总样本N,n个1类的概率为p,然后推广到多类的写法。

当P(X=x(i)|Y=ck),同理设x=x(i)对于x(i)有2个类概率分别为q,(1-q),y有2个类:

 

posted @ 2019-05-21 23:57  修行的米老鼠  阅读(407)  评论(0编辑  收藏  举报