先验概率后验概率和似然函数

先验概率和后验概率

先验概率和后验概率是在条件概率的框架下引出来的

条件概率是这样说的：事件A发生条件下事件B发生的概率为$P(B|A) = \frac{P(AB)}{P(A)}$

贝叶斯公式是关于事件A和B的条件概率的一则定理：$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$

贝叶斯公式的意义是什么？你对贝叶斯统计都有怎样的理解？ - 徐炎琨的回答 - 知乎，这里的解释非常的好，不仅仅解释了贝叶斯公式的含义，还介绍了似然函数等等一些知识。

我们从一个例子来看先验概率和后验概率

例：对以往的数据分析结果表明当机器调整得良好时，产品的合格率为 98% , 而当机器发生某一故障时，其合格率为 55% 。每天早上机器开动时，机器调整良好的概率为 95% 。已知某天早上第一件产品是合格品，试求机器调整得良好的概率是多少？
对于这道题的解答是这样的：
解：设A为事件“产品合格”，B为事件“机器调整良好”，已知 $P(A|B)=0.98 ,P(A|\bar{B})=0.55, P(B)=0.95, P(\bar{B})=0.05$,需要求的概率为$P(B|A)$,由贝叶斯公式可以得到
$P(B|A) = \frac {P(A|B)P(B)} {P(A|B)P(B)+P(A|\bar{B})P(\bar{B})}$ = $\frac{0.98 \times 0.95}{0.98 \times 0.95 + 0.55 \times 0.05} = 0.97$

上面的例子当中就隐含了先验概率和后验概率的思想。每天早上，机器调整良好的概率为0.95，这个概率是先验概率，是统计了历史上的数据计算出来的概率，而我们算出来的 0.97，是在有了“今早第一件产品是合格品”这一信息的基础上得到的概率，是一种后验概率。

先验分布和后验分布

上面我们讲的是概率，那么我们来看分布，如果我们要研究随机变量X，那么用概率就不妥了，我们用分布，即随机变量的分布情况。但是关于先验和后验，它的道理是不变的。先验分布是统计随机变量的以往数据而得到的分布情况。而后验分布是某个事件发生以后可以推测随机变量X的分布情况

可见，用概率和用分布仅仅是因为描述的事情不一样，前者描述单独的事件，后者描述整体分布情况。

似然函数的第一种引入情景 -- 参数估计

似然函数在参数估计当中引入的，若总体X属于离散型，假如它里面有某些变量$\theta$未知，它的分布律为$P(X=x) = p(x;\theta)$,我们需要估计出参数$\theta$，其实在这里的时候，我们可以把$\theta$当做一种因变量，是$\theta$的值决定了X的分布情况。

那么假设我们从X里面得到了一组样本$X_1,X_2,X_3,…,X_n$来估计出来$\theta$的取值的话，那么我们需要定义似然函数，即事件样本$X_1=x_1,X_2=x_2,X_3=x_3,…,X_n=x_n$ 的时候的概率：

$L(\theta) = L(x_1,x_2,x_3,…,x_n;\theta) = \prod \limits_{i=1}^{n} p(x_i;\theta) $

上面这个式子叫做似然函数，是关于$\theta$的函数。上面$x_1,x_2,x_3,…,x_n$的取值是固定的，它描述的是$X_1,X_2,X_3,…,X_n 取值为 x_1,x_2,x_3,…,x_n$的时候，我们能够预估到的$\theta$的可信度。并且这个式子最后的部分是$x_1,x_2,x_3,…,x_n$的联合概率分布。

似然函数表示的是当观察到一组事件发生的时候，我们的$\theta$的可信度是多少。

最大似然函数

似然函数是关于$\theta$的函数，$\theta$的取值不同，那么取得的概率不同，那么我们的想法是既然取得了$x_1,x_2,...,x_n$的值了，表明取得这些值的概率$L(\theta)$较大，所以我们应该取能够使概率$L(\theta)$最大的$\theta$值来当做我们的参数。这种方法就叫做最大似然函数。

求解方法：当把似然函数构造完以后，我们使用导数或者偏导数（对于多个参数）来进行求解。或者对似然函数取对数，然后进行求导，这叫做对数似然方程。

似然函数的第二种解释

若随机变量X和Y，X是因，Y是结果，

那么P(X) 叫做先验概率prior。

P(Y)叫做evidence。

P(X|Y)叫做后验概率，posterior。

P(Y|X)叫做似然， likelihood。

我们可以看到，这里的似然和条件概率其实是一样的。但是两者还是有区别的，我在这里论述一下：

似然是描述某件事情发生的可能性，而概率描述的是一个事情发生的概率。那么这又有什么不一样哪？

要看这个公式是似然还是概率，那么你需要看把那个量当做是变量。当你把X当做是变量，而Y是已经发生的常量的时候，它说的是似然，那么这个表达式说的是：在X（变量）的条件下Y已将发生这件事情的可能性。当你把X当做常量（已经确定了），而Y当做变量（即将要发生），那么这个表达式说的是：在X的条件下Y将要发生的可能性。

所以这个公式是一体两面，在计算的时候它们两个的值是相等的。

posterior = (likelihodd * prior) / evidence 即 $P(X|Y) = \frac{P(Y|X) P(X)}{P(Y)}$ 其中 $\frac{P(Y|X)}{P(Y)}$叫做标准相似度 standardised likelihood 这个公式就是贝叶斯公式。

因为$posterior \propto likelihodd * prior $我们常说的后验概率 $ \propto $ 似然 * 先验概率。