大数原则(转)
概率要预测的不是随机事件的结果,而是大量随机事件的结果在数量上的规律性。例如,扔一次硬币,你无法说出是正面还是反面朝上,对此你毫无把握,只能说:“出正面的机会有二分之一”,如果这时还有人说:“出正面的机会有三分之一”,不管这次出的是哪一面,这两个结论都不能体现出来;但如果扔的是一百次或更多的次数,如一万次,那么“有三分之一机会出正面”的说法就明显站不住脚,而“有二分之一机会出正面”的说法却可以得到相当程度的体现。
下面我们详细地阐述用概率进行预测的原理。一 大数定律 在同样的条件下进行大量试验时,根据频率的稳定性,事件A的频率必然稳定在某一个确定的常数p附近,则定义事件A的概率为: P(A)=p 这称为事件概率的统计定义,相应得到的概率称为统计概率,概率的统计定义给出了计算事件概率的近似方法,即当试验次数充分大时,可用事件的频率作为该事件概率的近似值。然而不能理解为,试验的次数越多,事件的频率就越接近事件的概率。例如,对于扔硬币这样的试验,一个人扔了两次,正好一次正面一次反面,出现正面的频率为0.5,正好等于出现正面的概率;而另一个人做同样的实验,扔了10000次,出了4985次正面,出现正面的频率为0.4985,反而不等于出现正面的概率,这扔10000次还不如扔两次的结果精度高,那这多出的9998次是不是就白扔了呢?要解释这个现象,必须更详细地研究频率和概率之间的关系。
实际上,频率是一个随机变量,有多种以至无数种可能的取值,可以是0-1之间的任何一个数字。而概率是一固定的常数,是0-1之间的一个确定数字。我们对以概率为中心的某一区域感兴趣,频率可能落在这个区域内,也可能落在这个区域之外;对于确定的试验次数n,频率落在区域内这个事件也有一个概率,当试验次数n增大时,这个概率也增大;当试验次数无限增加时,这个区域将变得无限小,频率落在区域内的概率将等于1。
历史上,贝努里第一个提出大数法则。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
现在就可以来解释前面提到的现象。扔两次硬币,还有可能出现两次都是正面或两次都是反面的情况,把这时的频率当作概率显然是错误的,就是说把扔两次硬币的频率当作是概率,发生严重偏差的概率高达50%,而把扔10000次硬币的频率当作概率在绝大多数情况下结果都是相当可信的。结论是,试验10000次比试验两次得到的结果更可信,并不违反直觉所告诉我们的。
因此,用统计方法来确定事件的概率时,频率随试验次数的增加接近概率也是以概率的方式。统计的次数越多,频率接近概率的可能性就越大,其结果就越可信,可以认为,统计次数反映了结果的可信程度,而此时的频率结果与概率有多接近则有一定的随机性。换言之,通过试验来确定概率是有风险的,在任何情况下,都有频率偏离概率的情形存在,增加试验的次数,可以降低这种风险,却不能消除风险本身,只有在试验次数为无穷大的情况下,才不存在这种风险。不过,当试验的次数是足够多时,尽管把频率当成是概率还是有出错的可能,但这种可能性已经非常小了,以至可以完全放心而无须担心出错。