朴素贝叶斯

一、数学基础

1、先验概率,又称边缘概率:

2、后验概率,又称条件概率

条件概率(非独立事件才会遇到条件概率)
P(A,B)=P(A)*P(B|A)
例:五个乒乓球,3新2旧,无放回抽取两次,A:第一次取到新球 B:第二次取到新球,求第一次取到新球的条件下第二次取到新球的概率
P(B|A)=P(A,B)/P(A)
P(A)=3/5
P(B)=3/5*2/4+2/5*3/4=12/20
P(A,B)=3/5*2/4=6/20   A发生的概率*在A已发生的情况下B能发生的概率(目前的状态是没有认定A会发生,所以必须先求出A发生的概率
P(B|A)=(6/20)/(3/5)=1/2  目前的状态是认定A已发生,B能发生的概率(即,第一次已经抽到新球了,那么第二次抽到的概率是多少呢?就是2/4,剩余四个,2个是新的)

3、贝叶斯公式:

二、朴素贝叶斯

1、为什么称为朴素?

    朴素贝叶斯分类法假设各个特征是相互独立互不影响的,即类条件独立性

2、朴素贝叶斯算法?

    设D为数据集;每条数据有n个特征,A表示特征向量,X表示特征值向量;有m个分类,用C表示

    对于一条给定的数据,分别求取p(C1|X) 、p(C2|X)......p(Cm|X),最大的p(Ci|X)即为这条数据的分类

3、如果求最大的p(Ci|X)?

(1)P(X)作为先验概率,与P(C)无关,对所有类为常数,所以不需考虑

(2)P(Ci) =|Di|/|D|   可以用Ci类的个数/训练数据集总数求得

(3)P(X|Ci)  根据最初的假设,即类条件独立性,可得

         

     P(xi|Ci):Ci类中Ai特征取值为xi 的个数/Ci类的个数(注意:因为我们考虑的是分类,所以属性A的值是非连续的,对于非连续的情况暂不考虑)

(4)求得最大的那个p(Ci|X),Ci即为该条数据对应的分类

四、贝叶斯网络(待续)

五、隐马尔科夫模型(待续)

贝叶斯估计与极大似然估计

posted @ 2014-12-19 17:56  李闹闹童鞋  阅读(319)  评论(0编辑  收藏  举报