科普一下所谓“大数定律的四种证法”

作者 :  王若度

最近网上总是调侃数学、统计博士知道所谓“大数定律的四种证法”,本身是模仿《孔乙己》的桥段,用以调侃数学、统计博士学一些没什么用的东西。其实我是从来没听说过大数定律的四种证法这回事的,我相信大多数同学也都没有听说过。因此这件事引起了我的兴趣,也顺便为“大数定律”正个名。(顺便说一下,百度百科的大数定律页面逊毙了,今天(2012/11/25)我去看,历史介绍里竟然介绍的是中心极限定理的发展过程。)

 

对于一般人来说,大数定律的非严格表述是这样的:X_1,...,X_n是独立同分布随机变量序列,均值为u,S_n=X_1+...+X_n,则S_n/n收敛到u. 

 

如果说“弱大数定律”,上述收敛是指依概率收敛(in probability),如果说“强大数定律”,上述收敛是指几乎必然收敛(almost surely/with probability one)。

 

大数定律通俗一点来讲,就是样本数量很大的时候,样本均值和真实均值充分接近。这一结论与中心极限定理一起,成为现代概率论、统计学、理论科学和社会科学的基石之一,重要性在本人看来甚至不弱于微积分。(有趣的是,虽然大数定律的表述和证明都依赖现代数学知识,但其结论最早出现在微积分出现之前。而且在生活中,即使没有微积分的知识也可以应用。例如,没有学过微积分的学生也可以轻松利用excel或计算器计算样本均值等统计量,从而应用于社会科学。)

 

最早的大数定律的表述可以追朔到公元1500年左右的意大利数学家Cardano。1713年,著名数学家James (Jacob) Bernouli正式提出并证明了最初的大数定律。不过当时现代概率论还没有建立起来,测度论、实分析的工具还没有出现,因此当时的大数定律是以“独立事件的概率”作为对象的。后来,历代数学家如Poisson(“大数定律”的名字来自于他)、Chebyshev、Markov、Khinchin(“强大数定律”的名字来自于他)、Borel、Cantelli等都对大数定律的发展做出了贡献。直到1930年,现代概率论奠基人、数学大师Kolgomorov才真正证明了最后的强大数定律。

 

下面均假设X, X_1,...,X_n是独立同分布随机变量序列,均值为u。独立同分布随机变量和的大数定律常有的表现形式有以下几种。

 

初等概率论

(1). 带方差的弱大数定律:若E(X^2)小于无穷,则S_n/n-u依概率收敛到0。

证明方法:Chebyshev不等式即可得到。这个证明是Chebyshev给出的。

(2). 带均值的弱大数定律:若u存在,则S_n/n-u依概率收敛到0。

证明方法:用Taylor展开特征函数,证明其收敛到常数,得到依分布收敛,然后再用依分布收敛到常数等价于依概率收敛。

 

现代概率论

(3). 精确弱大数定律:若xP(|X|>x) 当x趋于无穷时收敛到0,则S_n/n-u_n依概率收敛到0,其中u_n=E[X 1_{|X|<n}]. (在这个定理里,不需要u存在。)

证明方法:需要用到截断随机变量 X 1_{|X|<n}. 然后要用的三角阵列的依概率收敛定理和Fubini定理分析积分变换。

(4). 带4阶矩的强大数定律:若E(X^4)小于无穷,则S_n/n-u几乎必然收敛到0.

证明方法:与(1)类似,先用Chebyshev不等式。然后因为4阶矩的存在,得到P(S_n>nt)对任意常数t的收敛速度足够快,满足Borel-Cantelli的要求,用Borel-Cantelli引理得到大数定律。

(5). 带方差的强大数定律:若E(X^2)小于无穷,则S_n/n-u几乎必然收敛到0.

证明方法:用Kolgoromov三级数定理和Kronecker引理。

(6). 精确强大数定律:若u存在,则S_n/n-u几乎必然收敛到0.

证明方法:这个大数定律的证明确实有几种不同的方法。最早的证明是由数学大师Kolgoromov给出的。现在Durrett (2010)的书上用的是Etemadi (1981)的方法,需要截断X,用到现代概率论的知识如Borel-Cantelli引理、Kolgomorov三级数定理、Fubini定理等。(感谢读者指出,Durrett的书在倒向鞅一章中给出了大数定律的倒向鞅方法证明,只需要用到倒向鞅的知识和Hewitt-Savage 0-1律,不过这也是现代概率论的知识。)

 

此外,还有很多不同的大数定律,不同分布的,不独立的序列等。定律也不一定是关于随机变量的,也可以是关于随机函数的,甚至随机集合的等等。以数学家命名的也有Khinchin大数定律(不独立序列的强大数定律)、Chebyshev大数定律(弱大数定律(1))、Poisson大数定律(不同概率的随机事件序列的大数定律)、Bernoulli大数定律(随机事件的大数定律)、Kolgomorov大数定律(强大数定律(6))等等……

 

以上(1-6)是常见的独立同分布序列的大数定律。其中,(3)和(6)是最严格也是最精妙的结果,证明所涉及的高等概率论知识也最多。它们成立的条件不仅是充分条件,也是必要条件,因此它们算是完结了大数定律的发展。大数定律的发展符合数学的一般规律:想证明某一结论,条件越弱(弱大数定律:2阶矩条件->1阶矩条件->没矩条件;强大数定律:4阶矩条件->2阶矩条件->1阶矩条件),证明也就变得越难。

 

虽然只有(3)和(6)是最精确的结果,但是必须认识到,数学的发展是一个循序渐进的过程,如果没有前面那些更强条件下的定理,也无法得到最后的大数定律。从最开始的自然界观察到大数定律的存在,到最后证明最终形式,历时数百年,现代概率论也在这个过程中建立起来。此外,虽然(3)和(6)比前面的(1)和(5)强很多,但是(1)和(5)的条件仅仅是2阶矩(或方差)的存在,因此他们在几百年间早就被广泛使用,对于一般的社会科学问题、统计问题等已经足足够用了。

 

总之,大数定律包含概率论里核心的知识。“大数定律的四种证法”尽管表述模糊,原意也充满调侃,但并不是真如《孔乙己》里"回字四种写法"所暗示的那样迂腐或毫无价值。作为概率或统计专业的研究生,弄懂这些定理表述的区别和证明方法的区别和联系,了解前代数学家的工作,对于深刻理解现代概率论是很有好处的。当然,任何人也不应去死记硬背这些证法(我自己也记不住这些证法),只要能理解、弄清其中微妙即可。

posted on 2016-12-06 15:52  公迪  阅读(1122)  评论(0编辑  收藏  举报