朴素贝叶斯

一、数学基础

1、先验概率，又称边缘概率：

2、后验概率，又称条件概率

条件概率（非独立事件才会遇到条件概率）

P(A,B)=P(A)*P(B|A)

例：五个乒乓球，3新2旧，无放回抽取两次，A：第一次取到新球 B：第二次取到新球，求第一次取到新球的条件下第二次取到新球的概率

P(B|A)=P(A,B)/P(A)

P(A)=3/5

P(B)=3/5*2/4+2/5*3/4=12/20

P(A,B)=3/5*2/4=6/20 A发生的概率*在A已发生的情况下B能发生的概率（目前的状态是没有认定A会发生，所以必须先求出A发生的概率）

P(B|A)=(6/20)/(3/5)=1/2 目前的状态是认定A已发生，B能发生的概率（即，第一次已经抽到新球了，那么第二次抽到的概率是多少呢？就是2/4,剩余四个，2个是新的）

3、贝叶斯公式：

二、朴素贝叶斯

1、为什么称为朴素？

朴素贝叶斯分类法假设各个特征是相互独立互不影响的，即类条件独立性

2、朴素贝叶斯算法？

设D为数据集；每条数据有n个特征，A表示特征向量，X表示特征值向量；有m个分类，用C表示

对于一条给定的数据，分别求取p(C₁|X) 、p(C2|X)......p(Cm|X)，最大的p(C_i|X)即为这条数据的分类

3、如果求最大的p(C_i|X)?

（1）P(X)作为先验概率，与P(C)无关，对所有类为常数，所以不需考虑

（2）P(C_i) =|D_i|/|D| 可以用C_i类的个数/训练数据集总数求得

（3）P(X|C_i) 根据最初的假设，即类条件独立性，可得

P(x_i|C_i)：C_i类中A_i特征取值为x_i的个数/C_i类的个数（注意：因为我们考虑的是分类，所以属性A_i的值是非连续的，对于非连续的情况暂不考虑）

（4）求得最大的那个p(C_i|X)，C_i即为该条数据对应的分类

四、贝叶斯网络（待续）

五、隐马尔科夫模型（待续）

贝叶斯估计与极大似然估计

posted @ 2014-12-19 17:56 李闹闹童鞋阅读(320) 评论(0) 收藏举报

刷新页面返回顶部

李闹闹童鞋的博客