贝叶斯相关(概率论)论文
贝叶斯公式及朴素贝叶斯分类算法应用初探
【摘要】
贝叶斯公式在现代发展中扮演着越来越重要的角色,本文通过生动有趣的应用实例详细介绍了贝叶斯公式、贝叶斯推理和朴素贝叶斯分类算法的原理和使用方法。
【关键词】
贝叶斯公式、贝叶斯推理、朴素贝叶斯分类算法
引言
贝叶斯公式是英国学者托马斯·贝叶斯最早发现的,首次发表在1763年,当时贝叶斯已经去世,其结果没有受到应有的重视,法国数学家拉普拉斯再一次总结了这一结果.此后,人们逐渐认识到这个著名概率公式的重要性。[3]
现代社会,贝叶斯理论在人们生活中扮演着越来越重要的角色。贝叶斯理论及应用分支众多,其在数学领域,有例如贝叶斯分类算法、贝叶斯风向、贝叶斯统计等,在工程领域,有例如贝叶斯分析、贝叶斯逻辑、贝叶斯网络等,在其他领域,有贝叶斯主义、有信息的贝叶斯决策方法等。
特别是人工智能和机器学习越来越受欢迎的今天,贝叶斯定理、贝叶斯网络、贝叶斯算法、贝叶斯学习等在人工智能和模式识别中有相当大的应用。
本文我们将从概率论中所学的贝叶斯公式出发,对贝叶斯思想进行一个初步了解,从而对以后的工程思想有一定的帮助。
1.定理内容及内涵解析
1.1贝叶斯公式[1]
若A1,A2,…,An为完备事件组,那么对任一事件B,若P(B)>0,P(Ai)>0,i=1,2,…,n,则有
P(Ak|B)=,k=1,2,…,n.
1.2内涵解析
贝叶斯公式再概率论和数理统计中有着广泛的应用,其中的B通常被看作随机试验的某一结果,A1 ,A2 ,…,An 是导致B发生的原因。P(Ai)(i=1,2,…,n)成为先验概率,而条件概率P(Ai|B)(i=1,2,…,n)成为后验概率。贝叶斯公式在一定程度上可以帮助人们分析事情发生的原因,如果将全概率公式和贝叶斯公式作一比较会发现,全概率公式是由因溯果,而贝叶斯公式则是由果溯因。
1.3趣味实例认识条件概率公式和贝叶斯公式
假设小美抱着一只小狗,那么所抱的小狗可爱的概率很大,若是以这个作为条件概率分析结果,当假设小美抱着一个可爱的东西,那么这个东西是小狗的概率就很小了,因为这个可爱的东西可能是小狗,小猫,小兔子,甚至是个可爱的宝宝,这个便是对应的贝叶斯推理分析结果,岂不是差异明显?
2.贝叶斯公式应用
实例[5]:
“狼来了”的故事想必大家都知道,小孩子第三次对村民说狼来了的时候,村民们没有相信他的话,从而酿成小孩子被狼吃掉的结局,这个故事告诉我们做人要诚信。小时候,我们都能感性地认识到随着小孩子撒谎次数增加,村民对小孩子越来越不信任了,但村民对小孩子的信任度如何用理性的数学来刻画,让我们从更深层次理解小孩子的结局呢?
解答:设事件A表示小孩子说谎,事件B1表示小孩子可信,B2表示小孩子不可信。
由于本问题是实际问题,我们做如下假设:假设开始村民对小孩子的信任度为0.8,即P(B)=0.8,假设可信的小孩子说谎的概率为0.1,即P(A|B1)=0.1,不可信的小孩子说谎的概率为0.5,即P(A|B2)=0.5
第一次小孩子说了谎,村民上山白跑一趟,由贝叶斯公式知:
这时村民对小孩子的信任度为:
P(B|A)=≈0.44
第二次小孩子又说了谎,村民上山又白跑一趟,由贝叶斯公式知:
这时村民对小孩子的信任度为:
P(B|A)=≈0.13
由此可见,第二次小孩子说谎后,村民对他的信任度已经下降到0.13,他已经是一个非常不可信的孩子了,谁还会去救他呢?
3.应用贝叶斯公式进行贝叶斯推理
实例:
假设在电子科技大学某学期体检中,男生在一个体检室,女生在一个体检室,由于效率有限,你作为一个男生排在浩浩荡荡的男生体检室门口的队伍里。突然,你眼前一亮,前方有一个长发“小姐姐”?不,实际上你并不知道是他还是她,但是排队实在无聊,如果是长发小姐姐的话,你正在预谋这一场搭讪,虽然她极有可能是正在等待她男朋友。那么,你将应用概率论的知识进行一场贝叶斯推理(靠常识和背景知识判断之外的数学实现方式,以实现更精准的预测)来决定是否要去搭讪。
解答:由于是在男生体检室门前,我们假设有100人正在门口等候,其中98个男生,2个是女生,正在等待其男朋友。假设女生中长发、短发人数之比为1:1,男生中短发与长发之比为24:1,记男生体检室门口,女生出现的事件为A1,男生出现的事件为A2,某个人是长发的事件为B,根据假设,则有P(B|A1)=0.5,P(B|A2)=0.04,P(A1)=0.02,P(A2)=0.98.
根据联合概率得:
P(A1B)=P(A1)P(B|A1)=0.02×0.5=0.01
P(A2B)=P(A2)P(B|A2)=0.98×0.04=0.0392
根据贝叶斯公式:
P(A1|B)=
=
=0.20
由于0.20<0.25(竟然小于某高校女男比例!),所以不建议前去搭讪,况且在男生体检时门口等候的女生极有可能是有男朋友的,故0.20再乘以某一极小值(搭讪成功系数)得到的必是极小值,故不如拿这时间看看概率论。
4.朴素贝叶斯分类算法初探
4.1贝叶斯分类器表达式[2]
假设有N种可能的类别标记,即y={c1,c2,…,cN}.在机器学习中,基于有限的训练样本集尽可能准确地估计出后验概率P{c|x},大体来说,有两种策略,一种是“判别式模型”,例如决策树、BP神经网络、支持向量机等,一种是生成式模型,而对生成式模型,必然考虑
P(c|x)=, (4.1.1)
其中,P(c|x)是类“先验”概率;P(x|c)是样本x相对于类标记c的类条件概率,或称为“似然”;P(x)是用于归一化的“证据因子”。
朴素贝叶斯分类器采用了“属性条件独立性假设”,对已知类别,假设所有属性相互独立。则4.1.1式可写为
P(c|x)== (4.1.2)
其中d为属性数目,xi为x在第i个属性上的取值。
由于对所有类别来说P(x)相同,因此基于贝叶斯判定准则有
hnb(x)=argmaxc∈y p(c)
这就是朴素贝叶斯分类器的表达式。
4.2朴素贝叶斯分类算法核心公式
朴素贝叶斯分类算法是贝叶斯分类中最简单、最常用的一种算法。分类算法的任务就是构造分类器,分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。
简单明了的表达形式如下:
P(类别|特征)=
上式就是我们的“贝叶斯公式”!
4.3实例演示
某大学生小蒋暗恋一个女同学小江,暗恋了三年之后,对方好像并没有注意到他!到了大四,他觉得有必要主动去表白了,但是他不知道能不能成功。好在在这三年里,小蒋暗中收集到了小江收到的12次表白和恋爱数据(如图4.3.1),而且单身三年的小蒋专心学习,概率论学的也不错,故他想要先分析一下,小蒋照了下镜子,默默写下自己的四个条件:不帅、性格不好、身高矮、上进。
男生序号 |
帅? |
性格好? |
身高? |
上进? |
接受? |
1 |
帅 |
不好 |
矮 |
不上进 |
不接受 |
2 |
不帅 |
好 |
矮 |
上进 |
不接受 |
3 |
帅 |
好 |
矮 |
上进 |
接受 |
4 |
不帅 |
好 |
高 |
上进 |
接受 |
5 |
帅 |
不好 |
矮 |
上进 |
不接受 |
6 |
不帅 |
不好 |
矮 |
不上进 |
不接受 |
7 |
帅 |
好 |
高 |
不上进 |
接受 |
8 |
不帅 |
好 |
高 |
上进 |
接受 |
9 |
帅 |
好 |
高 |
上进 |
接受 |
10 |
不帅 |
不好 |
高 |
上进 |
接受 |
11 |
帅 |
好 |
矮 |
不上进 |
不接受 |
12 |
帅 |
好 |
矮 |
不上进 |
不接受 |
(图4.3.1)
解答:根据朴素贝叶斯算法要求,假设上述各特征相互独立,即每个特征独立地对分类结果产生影响。
待求概率:
P(接受|不帅、性格不好、身高矮、上进)
= =, (4.3.2)
P(不接受|不帅、性格不好、身高矮、上进)
=
=, (4.3.3)
根据训练数据集,对每个中间参量的值进行求解得:
P(接受)=6/12=0.5
P(不接受)=6/12=0.5
P(不帅|接受)=3/6=0.5
P(性格不好|接受)=1/6=0.1667
P(身高矮|接受)=1/6=0.1667
P(上进|接受)=5/6=0.8333
P(不帅|不接受)=1/6=0.1667
P(性格不好|不接受)=3/6=0.5
P(身高矮|不接受)=6/6=1
P(上进|不接受)=3/6=0.5
P(不帅)=4/12=0.3333
P(性格不好)=4/12=0.3333
P(身高矮)=7/12=0.5833
P(上进)=8/12=0.6667
将以上概率值分别代入式4.3.2和4.3.3得
P(接受|不帅、性格不好、身高矮、上进)
==
=
=0.1340
P(不接受|不帅、性格不好、身高矮、上进) =
=
=0.4823
显然,0.4823>0.1340,且P(不接受|不帅、性格不好、身高矮、上进)是P(接受|不帅、性格不好、身高矮、上进)的3.5993倍!扎心了,老铁!
结论:暗恋是成功的哑剧,说出来就成了悲剧。
5.结语
本文通过详实有趣的实例介绍了贝叶斯公式、贝叶斯推理和朴素贝叶斯算法,没有涉及较深层次的数学和机器学习知识,更偏向于理解原理和实际应用。为以后发展此方面的兴趣提供了开端。
参考文献
[1]徐全智,吕恕,概率论与数理统计(第2版),高等教育出版社,2010
[2]周志华,机器学习,清华大学出版社,2016
[3]李春娥,王景艳,贝叶斯公式及其应用的教学研究,大学数学,2015,第31卷第2期,119-121
[4]段智力,全概率公式与贝叶斯公式的推广及应用,长春大学学报,2013,第23卷第10期,1277-1282
[5]任芳玲,刘瑞,全概率公式和贝叶斯公式教学新探,西昌学院学报·自然科学版,2015年,第29卷第1期,14-16