贝叶斯学派、频率学派关于似然函数的理解

       概率论自发展以来,主要出现了两大学派:频率学派和贝叶斯学派;前者用多次重复试验中某件事发生的“频率”度量概率,而后者认为概率是某件事发生的不确定性,比如“2050年地球资源会枯竭吗?”这显然无法用频率学派的观点度量。

       以一个最简单的例子说明,两个学派最大的不同,是他们对似然函数的不同处理。

       举例来说,现在某人体温39摄氏度,问他是否发烧?

       在频率学派看来,发烧不发烧其实是确定的,而体温才是因变量,不确定的,他们通常最大似然法来求出参数:也就是现在事情已经发生,那么会使得事情发生的可能性最大的参数就是我们要求的参数。

       在这个例子中,分别有:

       P(39摄氏度|发烧)P(39摄氏度|不发烧),我们根据之前积累的知识得到的P(体温|不发烧) 和 P(体温|发烧) 两种概率密度分布判断,P(39摄氏度|不发烧)<P(39摄氏度|发烧),由此推断,此人发烧。

       而在贝叶斯学派看来,人们发不发烧是不确定的,而我们现在的体温是确定的。关于人们的发不发烧我们会有先验信息P(发烧)的概率密度分布,我们现在通过体温这一观测信息来对发烧这一先验事件做出修正,也就是:

                                                                                            P(发烧|39摄氏度)=P(发烧,39摄氏度)/P(39摄氏度)=P(发烧)*P(39摄氏度|发烧)/P(39摄氏度)

       我们之前有关于发烧不发烧的先验推断,现在有了体温的信息,要用似然来修正它,得到后验信息。也就是说,用贝叶斯学派的观点来看这个问题,我们需要分别求出 P(发烧|39摄氏度)  P(不发烧|39摄氏度),再进行比较,决定这个人到底发不发烧,相比较频率学派,我们需要多求一个P(发烧)的分布,而现实中,这个概率一般不好求,这也是频率学派用来diss贝叶斯学派的一个问题。

       再多说一点,贝叶斯公式的似然函数,如果变量很多,其实是很不好求的,因为参数空间太大,朴素贝叶斯的方法就是将参数看作是独立分布的,将它分解为连乘的形式,这也是朴素一词的由来。如果不看作独立,就得到了贝叶斯网的方法。

     另外,这篇文章很好,记录一下:http://nbviewer.jupyter.org/github/hschen0712/machine_learning_notes/blob/master/PRML/Chap1-Introduction/1.2-probability-theory.ipynb

posted @ 2017-10-30 21:31  拂石  阅读(887)  评论(0编辑  收藏  举报