一、先验概率、后验概率、贝叶斯公式、 似然函数
在机器学习中,这些概念总会涉及到,但从来没有真正理解透彻他们之间的联系。下面打算好好从头捋一下这些概念,备忘。
1、先验概率
先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,先验概率就是没有经过实验验证的概率,根据已知进行的主观臆测。
如抛一枚硬币,在抛之前,主观推断P(正面朝上) = 0.5。
2、后验概率
后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的。是“执果寻因”问题中的”果”。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。解释下来就是,在已知果(B)的前提下,得到重新修正的因(A)的概率P(A|B),称为A的后验概率,也即条件概率。后验概率可以通过贝叶斯公式求解。
3、贝叶斯公式
贝叶斯公式,用来描述两个条件概率(后验概率)之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:
P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)
如上公式也可变形为:
P(A|B)=P(A)P(B|A)/P(B) P(B)为标准化常量
贝叶斯法则表述如下:
一般公式
其中
A1,,,,,,An为完备事件组,即
举一个简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取,求:
⑴ 第一次摸到红球(记作A)的概率;
⑵ 第二次摸到红球(记作B)的概率;
⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。
解:
⑴ P(A)=3/5,这就是A的先验概率;
⑵ P(B)=P(B|A)P(A)+P(B|A逆)P(A逆)=3/5 此称为准化常量,A与A逆称为完备事件组
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,这就是A的后验概率。
4、似然函数
1)概念
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。
似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。
概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而
似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。
举例如下:
对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;
而对于“一枚硬币上抛十次,落地都是正面向上”这种事件,我们则可以问,这枚硬币正反面对称(也就是正反面概率均为0.5的概率)的“似然”程度是多少。
2)定义
给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X=x的概率:
L(θ|x)=P(X=x|θ).
公式解释如下:对参数θ的似然函数求值,(在数值上)等于观测结果X在给定参数θ下的条件概率,也即X的后验概率。一般似然函数的值越大表明在结果X=x下,此参数θ越合理。
因此形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了,关注的是A取值为参数θ的似然值:
θ <---> P(B | A = θ)
因此说贝叶斯公式P(A|B)=P(B|A)P(A)/P(B)在形式上也可以表述为:
A的后验概率 = (A的似然度 * A的先验概率)/标准化常量
也就是说,后验概率与先验概率和似然度的乘积成正比。
注意到这里并不要求似然函数满足归一性:∑P(B | A = θ)= 1
一个似然函数乘以一个正的常数之后仍然是似然函数。对所有α > 0,都可以有似然函数:
L(θ|x)=αP(X=x|θ).
3)举例
举例如下:考虑投掷一枚硬币的实验。通常来说,已知投出的硬币正面朝上和反面朝上的概率各自是pH= 0.5,便可以知道投掷若干次后出现各种结果的可能性。比如说,投两次都是正面朝上的概率是0.25。用条件概率表示,就是:
P(HH | pH = 0.5) = 0.5^2 = 0.25
其中H表示正面朝上。
在统计学中,我们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。我们可以建立一个统计模型:假设硬币投出时会有pH的概率正面朝上,而有1 −pH的概率反面朝上。这时,条件概率可以改写成似然函数:
L(pH = 0.5 | HH) = P(HH | pH = 0.5) = 0.25
也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时,pH= 0.5的似然性(可能性)是0.25(这并不表示当观测到两次正面朝上时pH= 0.5的概率是0.25)。
如果考虑pH= 0.6,那么似然函数的值也会改变。
L(pH = 0.6 | HH) = P(HH | pH = 0.6) = 0.36
注意到似然函数的值变大了。这说明,如果参数pH的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设pH= 0.5时更大。也就是说,参数pH取成0.6 要比取成0.5 更有说服力,更为“合理”。总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。
在这个例子中,似然函数实际上等于:
L(pH = θ | HH) = P(HH | pH = θ) = θ^2
如果取pH= 1,那么似然函数达到最大值1。也就是说,当连续观测到两次正面朝上时,假设硬币投掷时正面朝上的概率为1是最合理的。
类似地,如果观测到的是三次投掷硬币,头两次正面朝上,第三次反面朝上,那么似然函数将会是:
L(pH = θ | HHT) = P(HHT | pH = θ) = θ^2(1- θ),其中T表示反面朝上,0 <= pH <= 1
这时候,似然函数的最大值将会在pH = 2/3的时候取到。也就是说,当观测到三次投掷中前两次正面朝上而后一次反面朝上时,估计硬币投掷时正面朝上的概率pH = 2/3是最合理的。