朴素贝叶斯算法学习日志

一、什么是朴素贝叶斯

1.1 定义

朴素贝叶斯算法是一种基于贝叶斯定理和特定条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y 。

不难看出朴素贝叶斯算法是基于概率论的分类算法,此算法利用:贝叶斯公式和先验概率以及似然函数求解出后验概率,在根据后验概率的值进行分类。

1.2 先验概率

先验概率:是指根据以往经验和分析得到的概率,如全概率公式。

1.3 后验概率

后验概率:某件事X发生,那么该件事是因为Y发生而发生的概率。


用一个例子来模拟朴素贝叶斯求解的全过程:

例:在夏季,某公园男性穿凉鞋的概率为 1/2,女性穿凉鞋的概率为 2/3 ,并且该公园中男女比例通常为 2:1 ,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

1、计算先验概率

假设某公园中一个人是男性为事件 Y=ymen,是女性则是 Y=ywomen;一个人穿凉鞋为事件 X=x1,未穿凉鞋为事件 X=x0。而一个人的性别与是否穿凉鞋这两个事件之间是相互独立的。

再次就产生了四个可能存在的概率:

P(X=x1),P(X=x2),P(Y=ymen),P(Y=ywomen);

其中P(Y=ymen)=2/3  , P(Y=ywomen)=1/3,而P(X=x1),P(X=x2)可以由条件概率和全概率公式求得分别为5/9,  4/9.

2、后验概率

问题有“若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少”那么将其用概率公式化简可得:

P(Y=ymen | X = x1);

通过贝叶斯公式可以求得后验概率为:

P(Y=ymen | X = x1)=[P(X = x1 | Y=ymen ) * P(Y=ymen]/P(X=x1

【注】:

P(Y=ymen | X = x1) :后验概率

P(X = x1 | Y=ymen ): 条件概率

P(X=x1): 先验概率

通过以上公式的计算,后验概率为:

P(Y=ymen | X = x1) =3/5;

P(Y=ywomen | X = x1) =2/5;

3、结论

也就是说,在知道一个人穿拖鞋的前提下,这个人是男性的概率是 3/5 ,是女性的概率是 2/5 。如果问题是“判断该人是男性还是女性”,此问题就是一个分类问题。由于依据贝叶斯公式计算的后验概率是男性的概率大于是女性的概率,即由于 P(Y=ymen|X=x1)>P(Y=ywomen|X=x1) ,那么我们就可以将其分类为男性(实际在使用朴素贝叶斯进行分类时,不需要求解分母 P(X=x1)P(X=x1) 。
  到此,我们已经使用例子来讲解了使用朴素贝叶斯进行分类的基本步骤以及简单的原理了。





posted on 2020-11-13 22:37  沐羽琉年  阅读(139)  评论(0编辑  收藏  举报