均匀先验

@数据分析精选的微博发布了一篇文章,涉及一个条件概率的陈题:独立抛掷一枚硬币,前面次全为正面向上,问第次抛掷正面向上的概率。其实,该文作者并不清楚此题实际上已经很古老了,但是依然洋洋洒洒写了很多字。大致意思就是,传统的严格思路下这个概率应该是,但是在实际处理中如果连续次都正面朝上了,几乎可以断定硬币是非均匀的,因此再抛一次正面向上的概率应该是

很多人留言说有道理,并说这是理论和实践之间的差别。但细细想一下,这个答案有待商榷。

有一件事是可以肯定的,如果非常大,这个结论几乎可以说是对的,问题是对于任意的都这么说,显然不合理。抛10次硬币全正面向上和抛次硬币全正面向上的情况显然不同,对于后者,我们更有把握认为硬币是非均匀的。因此武断的下结论说概率是必然是不靠谱的。

事实上,这个问题早在十八~十九世纪就由拉普拉斯给出了结果,根本上属于贝叶斯估计的范畴。而此问题也早已写入现在的大学概率论教材,甚至也常常出现在各种本质上属于智力测试的公司笔试中(虽然这些公司通常并不关心这背后的一些逻辑哲学)。这个问题的答案如下:

由于硬币的抛掷是独立的,那么我们可以认为硬币的抛掷过程在了解均匀程度的前提下前次抛掷其向上的次数应该满足二项分布,即。但是二项分布的参数一无所知,由一些信息原则(例如最大熵)可以假设服从上的均匀分布。于是所求条件概率应为

    

然而由积分全概公式(密度函数为)我们有

    

代入上式我们便得到结果为,也就是如果独立重复试验在成功概率未知的情况下最初此实验全部成功,则第次试验也成功的概率应该是。这个结果也称为拉普拉斯相继法则。

显然它有一些符合直觉的性质,一是随着试验次数的增多,如果一直成功下去,我们发现这个概率趋于。第二个性质是递增,这与我们认为的试验次数越多越对硬币的"不均匀性"有把握。也就是过去的成功增加了我们的信心。

 

这个结果本质上可以推广,但是数学上会稍微复杂一些,问题改为前次试验成功了次,问第次试验成功的概率。则所求概率为

    

分子为

    

其中函数,类似的可以求得分母为

    

注意这里分子分母共同的二项分布组合数因子已经被略去了。代入立马得到最后的答案为

至此数学上的任务已经基本上结束。但这问题并没有完全了结。实际上在拉普拉斯的时代,这个问题引起过一些争议和混乱。主要在于它被用于例如"你与你的初恋对象进行了两次约会,赶脚都很好,则再约会一次成功的概率是3/4",或者"太阳已经升起了两百万天,则明天太阳升起的概率是两百万零一除以两百万零二"等等。问题症结在于当使用这个法则的时候,你必须保证在给定成功概率的时候试验是独立重复的,并且成功概率确实可以用均匀分布建模。这两个假设实际上并不如想象中这么直观。例如,独立试验二字实际上是一个条件事实,也就是说仅仅在随机变量已知(或者说在代数中),试验的所有事件彼此满足独立性,在无条件概率情况下,试验并不独立。

最大的争论焦点其实在于为什么可以假设满足均匀的先验分布。这里的论述特别多。作者没有能力对贝叶斯学派给出有力的剖析,但至少一个理由是,概率论本质上是关于信息的描述。因此均匀先验假设是在对一无所知的情况下最优(满足最大熵)的假设。关于则件事情的讨论超出了作者的能力。不过有一件事情可以看一看,亦即对于一个以为条件的二项变量,其无条件分布为

    

这个结果说明,如果我们对成功概率一无所知,那么前面次试验的种实验结果竟然是等可能的!这个性质不禁让人联想到全同粒子所满足的Bose统计(哈?楼主思维过于天马行空理解不能?那好吧当我没说)。其背后的哲学意义,限于水平和篇幅,这里就不再赘述了。

posted @ 2012-11-09 00:46  hilbertan  阅读(1537)  评论(0编辑  收藏  举报