朴素贝叶斯
一、数学基础
1、先验概率,又称边缘概率:
2、后验概率,又称条件概率
条件概率(非独立事件才会遇到条件概率)
P(A,B)=P(A)*P(B|A)
例:五个乒乓球,3新2旧,无放回抽取两次,A:第一次取到新球 B:第二次取到新球,求第一次取到新球的条件下第二次取到新球的概率
P(B|A)=P(A,B)/P(A)
P(A)=3/5
P(B)=3/5*2/4+2/5*3/4=12/20
P(A,B)=3/5*2/4=6/20 A发生的概率*在A已发生的情况下B能发生的概率(目前的状态是没有认定A会发生,所以必须先求出A发生的概率)
P(B|A)=(6/20)/(3/5)=1/2 目前的状态是认定A已发生,B能发生的概率(即,第一次已经抽到新球了,那么第二次抽到的概率是多少呢?就是2/4,剩余四个,2个是新的)
3、贝叶斯公式:
二、朴素贝叶斯
1、为什么称为朴素?
朴素贝叶斯分类法假设各个特征是相互独立互不影响的,即类条件独立性
2、朴素贝叶斯算法?
设D为数据集;每条数据有n个特征,A表示特征向量,X表示特征值向量;有m个分类,用C表示
对于一条给定的数据,分别求取p(C1|X) 、p(C2|X)......p(Cm|X),最大的p(Ci|X)即为这条数据的分类
3、如果求最大的p(Ci|X)?
(1)P(X)作为先验概率,与P(C)无关,对所有类为常数,所以不需考虑
(2)P(Ci) =|Di|/|D| 可以用Ci类的个数/训练数据集总数求得
(3)P(X|Ci) 根据最初的假设,即类条件独立性,可得
P(xi|Ci):Ci类中Ai特征取值为xi 的个数/Ci类的个数(注意:因为我们考虑的是分类,所以属性Ai 的值是非连续的,对于非连续的情况暂不考虑)
(4)求得最大的那个p(Ci|X),Ci即为该条数据对应的分类
四、贝叶斯网络(待续)
五、隐马尔科夫模型(待续)
贝叶斯估计与极大似然估计