机器学习笔记——贝叶斯学习

概率

  理解概率最简单的方式就是把它们想像成韦恩图中的元素。首先你有一个包含全部可能输出(比如一个实验的)的全集,如今你对当中的一些子集感兴趣,即一些事件。如果我们在研究癌症,所以我们观察人们看他们是否患有癌症。在研究中,如果我们把全部參与者当成我们的全集,然后对不论什么一个个体来说都有两种可能的结论,患有或没有癌症。我们能够把我们的全集分成两个事件:事件"患有癌症的人"(表示为A),和"不患有癌症的人"(表示为~A)。我们能够构建一张例如以下的图:


 那么一个随机选择的人患有癌症的概率是多少呢?就是在A中的元素数量除以U(全集)。我们记A中元素的数量为|A|,并读作A的基数。定义A的概率,P(A),写作P(A) = |A|/|U|。

 因为A能够至多拥有与U一样的元素,概率P(A)至多为1。

 到如今还不错吧?好,让我们加入还有一个事件。如果还有一个筛选測试,目的是測量别的什么。那个測试对一些人将是"阳性",对一些人将是"阴性"。如果我们把事件B定义为"測试中是阳性的人"。我们能够作出还有一张图:


 那么对于一个随机选中的人,这个測试为”阳性“的概率是多少呢?将是B中元素的数量(B的基数,或|B|)除以U的元素数量,我把这个称为P(B),事件B的概率有了。

 P(B) = |B|/|U|。

 记住到眼下为止,我们已经处理了两个独立的事件。我们把它们放在一起会发生什么。


 我们能够用相同的方法计算两个事件都发生的概率(AB是A∩B的缩写)。

 P(AB) = |AB|/|U|。

 这就是開始有意思的地方了。从上图中能够读到什么?

 我们在处理一个全集(全部人),事件A(患有癌症的人),和事件B(測试中为阳性的人)。

如今有了重叠,即事件AB,我们也能够读作"患有癌症而且測试中为阳性的人"。也有事件B-AB或"未患癌症而且測试结果为阳性的人",还有A-AB或"患有癌症而且測试结果为阴性的人"。 如今,我们要回答的问题是"如果对一个随机选中的人測试结果为阳性,这个人患有癌症的概率是多少?"。在我们的韦恩图中,能够翻译成"如果我们在B区域,我们在区域AB的概率是多少",或者用还有一种方式表述:"如果我们把区域B当成我们的全集,A的概率是多少?"。表达式即为P(A|B),读作"给定B下A的概率"。那它应该是什么?好它应该是 P(A|B) = |AB|/|B|。

如果我们把分子分母同一时候除以|U|

P(A|B) = (|AB|/|U|)/(|B|/|U|),我们能够把前面的等式重写为:P(A|B)=P(AB)/P(B).

我们有效地完毕了把全集从U(全部人)到B(測试为阳性的人)的改变,可是我们仍然须要处理U中定义的概率。


如今让我们来问一个相反的问题"如果一个随机算中的个体患有癌症(事件A),对此人測试为阳性(事件AB)的概率是多少?"。直观来看它就是:P(B|A)=P(AB)/P(A).

如今我们能够推导出贝叶斯公式,把上两个等式放在一起,我们得到:P(A|B)P(B)=P(B|A)P(A)。不管你从A或B的方向上看P(AB)都是一样的,最后推出P(A|B)=P(B|A)P(A)/P(B)。这就是贝叶斯公式。我发现韦恩图让我又一次认识了贝叶斯公式,不论什么时候都不用记住它了。它也对其的应用变简单。

演示样例

以下的样例来自Yudowsky:

年龄为40岁的參与定期筛查的妇女中有1%患有乳腺癌。患乳腺癌的妇女中的乳房X光片为阳性的有80%。未患乳腺癌的妇女中9.6%也有阳性乳房X光片。在一次定期检查中,在这个年龄群体中的一位妇女的乳房X光片为阳性,她实际上得乳腺癌的概率是多少?

首先,让我们考虑患有癌症的妇女


如今增加乳房X光片为阳性的妇女,记住我们要覆盖事件A中80%的区域和事件A以外9.6%的区域。


从图中非常明显。假设我们又一次限定我们的全集为B(乳房X光片为阳性的妇女),实际上仅仅有非常小的概率得癌症。通过这篇文章,多数医生推測问题的答案约为80%,从图中看非常明显不可能!记住測试的功效从A中得到,"80%患乳腺癌的妇女也有阳性乳房X光片"。这能够解释为"限定全集为A,B的概率是多少?"或者用别的方式P(B|A)。

即使没有韦恩图,可视化图标能够帮助我们应用贝叶斯公式:

组中有1%的妇女患有乳腺癌->P(A)=0.1

那些妇女中80%有阳性乳房X光片,而且未患乳腺癌的妇女中9.6%也有阳性乳房X光片->P(B)=0.8P(A)+0.096(1-P(A))=0.008 + 0.09504 = 0.10304

我们能够从问题的描写叙述中直接得到P(B|A),记住患有乳腺癌的妇女中80%有阳性乳房X光片->P(B|A)=0.8.

如今把这些值带入贝叶斯公式:

P(A|B)=0.8*0.01/0.10304.

答案是 0.0776 或约 7.8%的概率,即假设给定阳性乳房X光片则实质上患有乳腺癌的概率。 

(上面的部分翻译了这个原文:http://oscarbonilla.com/2009/05/visualizing-bayes-theorem/)

posted on 2014-11-04 16:15  gcczhongduan  阅读(148)  评论(0编辑  收藏  举报