理解先验概率 后验概率 似然函数
理解一下这些基础知识
先验概率(prior probability)
是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 "由因求果" 问题中的 "因" 出现的概率。
在贝叶斯统计中,先验概率分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。
先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。例如, X 可以是投一枚硬币,正面朝上的概率,显然在我们未获得任何其他信息的条件下,我们会认为 P(X)=0.5;再比如上面例子中的,P(G)=0.4。
后验概率(Posterior probability)
后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验” 在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。
后验概率是关于参数 θ 在给定的证据信息 X 下的概率,即 P(θ|X) 。若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布,即 P(X|θ) 。
我们用 P(θ) 表示概率分布函数,用 P(X|θ) 表示观测值 X 的似然函数。后验概率定义为 P(θ|X)=P(X|θ)P(θ) / P(X),注意这也是贝叶斯定理所揭示的内容。
举个例子:
似然函数likelihood (function)
先看似然函数的定义,它是给定联合样本值下关于 (未知) 参数 的函数:
这里的小是指联合样本随机变量取到的值,即;这里的是指未知参数,它属于参数空间;
这里的是一个密度函数,特别地,它表示 (给定)下关于联合样本值的联合密度函数。
所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于的函数,后者是关于的函数。所以这里的等号 理解为函数值形式的相等,而不是两个函数本身是同一函数 (根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。
如果是离散的随机向量,那么其概率密度函数可改写为,即代表了在参数下随机向量取到值的可能性;并且,如果我们发现
那么似然函数就反应出这样一个朴素推测:在参数下随机向量取到值的可能性大于 在参数下随机向量取到值的可能性。换句话说,我们更有理由相信 (相对于来说) 更有可能是真实值。这里的可能性由概率来刻画。
连续情况也差不多,如果是连续的随机向量,那么其密度函数本身(如果在连续的话)在处的概率为 0,为了方便考虑一维情况:给定一个充分小,那么随机变量取值在区间内的概率即为
并且两个未知参数的情况下做比就能约掉,所以和离散情况下的理解一致,只是此时似然所表达的那种可能性和概率无关。
综上,概率 (密度) 表达给定下样本随机向量的可能性,而似然表达了给定样本下参数(相对于另外的参数) 为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率。
最后我们再回到这个表达。首先我们严格记号,竖线表示条件概率或者条件分布,分号表示把参数隔开。所以这个式子的严格书写方式是因为在右端只当作参数理解。
这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。