通过简单例子来理解先验分布、后验分布、似然估计&&贝叶斯公式

这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系”来理解。下面举例：

隔壁老王要去10公里外的一个地方办事，他可以选择走路，骑自行车或者开车，并花费了一定时间到达目的地。在这个事件中，可以把交通方式（走路、骑车或开车）认为是原因，花费的时间认为是结果。

若老王花了一个小时的时间完成了10公里的距离，那么很大可能是骑车过去的，当然也有较小可能老王是个健身达人跑步过去的，或者开车过去但是堵车很严重。若老王一共用了两个小时的时间完成了10公里的距离，那么很有可能他是走路过去的。若老王只用了二十分钟，那么很有可能是开车。这种先知道结果，然后由结果估计原因的概率分布，p(交通方式|时间)，就是后验概率。

老王早上起床的时候觉得精神不错，想锻炼下身体，决定跑步过去；也可能老王想做个文艺青年试试最近流行的共享单车，决定骑车过去；也可能老王想炫个富，决定开车过去。老王的选择与到达目的地的时间无关。先于结果，确定原因的概率分布，p(交通方式)，就是先验概率。

老王决定步行过去，那么很大可能10公里的距离大约需要两个小时；较小可能是老王平时坚持锻炼，跑步过去用了一个小时；更小可能是老王是个猛人，40分钟就到了。老王决定骑车过去，很可能一个小时就能到；较小可能是老王那天精神不错加上单双号限行交通很通畅，40分钟就到了；还有一种较小可能是老王运气很差，连着坏了好几辆共享单车，花了一个半小时才到。老王决定开车过去，很大可能是20分钟就到了，较小可能是那天堵车很严重，磨磨唧唧花了一个小时才到。这种先确定原因，根据原因来估计结果的概率分布，p(时间|交通方式)，就是似然估计。

老王去那个地方好几趟，不管是什么交通方式，得到了一组关于时间的概率分布。这种不考虑原因，只看结果的概率分布，p(时间)，也有一个名词：evidence（不清楚合适的中文名是什么）。

最后，甩出著名的贝叶斯公式：

$p(\theta|x)={p(x|\theta)p(\theta)\over p(x)}$

$x$ : 观察得到的数据（结果）

$\theta$ : 决定数据分布的参数（原因）

$p(\theta|x)$ : posterior

$p(\theta)$ : prior

$p(x|\theta)$ : likelihood

$p(x)$ : evidence

总的来说，就是用别的条件概率来求这一个条件概率

以下是推导过程，只有三步

Step 1: 条件概率公式，表示在 $B_j$ 发生的条件下，事件发生 $A_i$ 的概率

下式: 分子表示事件 $A_i B_j$ 同时发生的概率，分母表示事件 $B_j$ 发生的概率

$P(A_i \vert B_j )=P(A_i B_j )/P(B_j )$

Step 2: 把分子 $P(A_i B_j )$ 变一下，

由step1的式子， $P(A_i B_j )= P(A_i |B_j)×P(B_j )$

同理，

$P(B_j |A_i)=P(B_j A_i ) / P(A_i ), i.e. P(B_j A_i )=P(A_i )P(B_j A_i )$
$\because P(B_j A_i )=P(A_i B_j )$
$\therefore P(A_i B_j )=P(A_i )×P(B_j |A_i)$

Step 3: 把分母 $P(B_j)$ 变一下，

将事件B进行分割的时候，不是直接对B进行分割，而是先找到样本空间Ω的一个个划分为 $A_1,A_2,...,A_n$ ,这样事件A就被事件 $BA_1,BA_2,BA_3,...,BA_n$ 分解成了n部分，即

$B=BA_1+BA_2+BA_3+⋯+BA_n$
$\therefore P(B)=P(BA_1)+P(BA_2)+P(BA_3)+⋯+P(BA_n)$

Step 4: 整合Step1、2、3，完工

$P(A_i |B_j)=P(A_i B_j )/P(B_j ) =(P(A_i )×P(B_j |A_i ))/(P(BA_1 )+P(BA_2 )+P(BA_3 )+⋯+P(BA_n ) )$

作者：azhlm
链接：https://www.zhihu.com/question/51448623/answer/143664566
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

posted @ 2018-01-26 01:04 cbam 阅读(391) 评论(0) 编辑收藏举报

cbam

通过简单例子来理解先验分布、后验分布、似然估计&&贝叶斯公式

公告