理解贝叶斯估计,理解先验分布/后验分布/似然估计
参考:https://blog.csdn.net/qq_23947237/article/details/78265026
最近在看书时,发现先验分布/后验分布/似然估计这三个概念总是搞不清楚,从熟知贝叶斯公式,该公式涉及到了以上几个概念。但是学完本科课程,也会算题,就是在实际情境中总感觉理不清这几个概念的关系。通篇以隔壁小哥为主人公,小哥要去20公里外的公园,他可以走路,可以骑车,可以开车; 当然不同的出行方式,需要的时间是不一样的走路需要3H,骑车1H,开车0.4H。在这里选择交通方式是因,用到的时间是果。
场景一、假设小哥还刚刚起床,打算吃完早餐就去。假如已知:小哥是个跑步达人,大概率会选择跑步去,那么需要3H; 若小哥是自行车爱好者,大概率会选择骑车,需要1H ; 若小哥是懒惰肥宅,那么很可能会开车。也就是说无需考虑结果,根据先前(历史)即可丘处原因。象这种由历史求原因的就是先验概率。该情况下,小哥的交通工具选择与花费时间不那么相关,在结果发生前,根据历史规律原因(交通方式)的概率分布即先验概率。
例子问题公式化:
P(交通方式) ---------一般化--------> P(因)
---------规范化--------> P(Q)
场景二、如果小哥选择了步行,到公园正常需要3H; 若选择了骑车,大概需要1H; 开车需要0.4H; 这种先确定原因,根据原因来估计结果的概率分布即似然估计。也就是说,根据原因来统计各种可能结果的概率即似然函数。
例子问题公式化:
P(时间|交通方式) ---------一般化--------> P(果|因)
---------规范化--------> P(x|Q)
场景三、假如小哥已到了公园,若已知他用了1H到公园,反推小哥是如何去公园的,实际上还是无法百分百确定他是如何去公园,因为不排除他开车路上堵车耽误了,也无法排除他肾上腺激素飙升,一路飞奔跑到了; 只是大概率骑车而已。象这种已知结果(路上花的时间),然后根据结果估计原因(交通方式)的概率分布及后验概率。
例子问题公式化:
P(交通方式|时间) ---------一般化--------> P(因|果)
---------规范化--------> P(Q|x)
(公式中的“|”独作given, 给定的意思。如P(Q|x)即given x, Q的概率)此处的Q代表因、x代表果。
熟知的贝叶斯公式是这样的:
P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A )/ P ( B )
也可以采用如下形式:
P ( θ ∣ x ) = P ( x ∣ θ ) ∗ P ( θ ) /P ( x )
后 验 概 率 = 似 然 估 计 ∗ 先 验 概 率 /e v i d e n c e
此处的P ( x ) 即 e v i d e n c e 。小哥多次去公园,若忽略交通方式,只统计每次到达公园花费的时间,将得到一组时间的概率分布。象这种不考虑原因,只看结果的概率分布即 e v i d e n c e ,它也会被称为样本发生的概率分布的证据。此处的evidence可表示为P(时间)或P(果)。
四、深入贝叶斯推断:假如小哥到公园后做游戏,规则如下:在小哥面前放置两个一模一样的箱子,1号箱子中有3颗水果糖和1颗巧克力糖 ; 2号箱子中有2颗水果糖和2颗巧克力糖;
(1)、小哥随即选择一个箱子,从中摸出一颗糖。请问小哥选择一号箱子的概率有多大?
(2)、小哥随即选择一个箱子,从中摸出一颗糖发现是水果糖。请问这颗水果糖来自一号箱子的概率有多大?
分析:该事件中,从哪个箱子去抓是因Q,抓到的糖是什么糖是果。根据贝叶斯公式:
P ( θ ∣ x ) = P ( x ∣ θ ) ∗ P ( θ ) /P ( x )
1)、x是观测的结果数据,P(x)是观测结果数据的概率分布,如下表
x 水果糖 巧克力糖
P(x) 5/8 3/8
2)、Q是决定观测结果分布的参数,P(Q)是先验概率,没有观测数据支持下Q发生的概率,如下标:
Q 一号箱 二号箱子
P(Q) 1/2 1/2
3)、P(Q|x)是后验概率,有观测数据的支持下Q发生的概率,(2)小哥随机选择箱子,从中摸出是水果糖,水果糖来自一号箱子的概率就是后验概率:
P(Q=一号箱|x=水果糖)
4)、P(x|Q)是似然函数,给定某参数Q时结果数据的概率分布。
解:(1)、P(Q=一号箱) = 1/2
(2)、P(Q=一号箱|x=水果糖)=P(x=水果糖|Q=一号箱) * P(Q=一号箱)/ P(x=水果)根据贝叶斯公式:
P(Q=一号箱|x=水果糖)=P(x=水果糖|Q=一号箱) * P(Q=一号箱)/ sigma{P(x=水果|Q=i号箱)},其中:
P(x=水果糖|Q=一号箱)= 3/4
P(Q=一号箱)=1/2
sigma{P(x=水果糖|Q=i号箱)} = 3/4 * 1/2 + 2/4 * 1/2
因此:P(Q=一号箱|x=水果糖) = 3/5
因此:通过上面的计算可以看出,没有结果时,概率是1/2, 有了参考数据后,后验概率增强了。