理解频率派和贝叶斯派
频率派 \(vs\) 贝叶斯派
一、前言
- 在使用各种概率模型时,比如极大似然估计 \(logP(X|\theta)\),已经习惯这么写了,可是为什么这么写?为什么X在前,为什么 \(\theta\) 在后,分别代表了什么?这些更深一层的逻辑和理由不是特别清晰,故此梳理一下频率派与贝叶斯派的区别。
- 本文参考了网络上诸多资料,特别时B站Up shuhuai008和知乎上的贝叶斯学派与频率学派有何不同?
二、理解
贝叶斯派以人为主体,已经观测到的客观事件会对人的认知产生改变(客观事件为人服务)
频率派以客观世界为研究主体,我们是为了找到客观世界的某个规律(人为客观世界服务)
- 频率派:"客观世界"是变化的,探究的是"客观世界的规律",描述了我们找到的某一种"规律",\(\theta\)是唯一的,样本空间是无限的
- 贝叶斯派探究的是我们对某一事件发生的相信程度,且这种相信程度会因为观测到的客观事件而改变。
概率
- 频率派:事件在长时间内发生的频率(全局)
- 贝叶斯派:对一件事情发生的相信程度(局部)
频率派从大量可重复的实验出发,表征一项事件发生的频率,贝叶斯从单个事件着眼,表征个人对这件事发生的相信程度。比如说川普开始竞选时,开始对川普当选这件事发生的概率为0.2,后来随着他的演讲以及对手猪一样的表现,我们进一步纠正我们的认知:川普当选率为0.5,虽然更多的事情发生,我们不停的改变认为川普当选的概率。
区别
角度1:
频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。
- 频率学派不关心参数空间的 所有 细节,相信数据都是在这个空间里的"某个"参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。他们关心的就是我有多大把握去圈出那个唯一的真实参数。
- 贝叶斯学派关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。
想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。
概率
频率派:事件在长时间内发生的频率(全局)
贝叶斯派:对一件事情发生的相信程度(局部)
比如说川普获选,小明作为一名高三学生考上大学的概率,按照贝叶斯派理解就更加合理
角度2:
频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。
- 频率学派直接针对“事件”建模,“事件”本身就是个随机变量,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。刻画的是客观已经存在且确定的规律,但这个规律我们不知道。建模的目的就是找到这个客观的规律。所以MLE的方法就是找到那个未知但确定的值。
- 贝叶斯学派从“观察者”的角度出发,从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。