写本文的目的主要是笔者想经由自己的手完整勾勒一遍这两个定理的证明轮廓,并尝试根据自己的想法去主观地“解释”一些证明的 motivation。
本文正文内容是主体内容与证明,旁支定理的证明与辅助理解的文字将使用引用格式(Part 3 整体都可跳过),希望仅阅读主体部分的读者能够在不接触较为艰深的推导的情况下,做到一个感性的认知。
另外,阅读本文可能需要较为基础的测度论作为前置知识。
Part 1 前置定义引入
古往今来,数学家一直十分着迷于证明定理的必然正确性。但事情并没有那么完美,数学家们也需要做出一些妥协,比如他们引入了“几乎必然”(almost surely,简写为 a.s.)——如果一件事情不满足的概率为 0 0 ,我们就称其几乎必然发生。
但是,这一条件仍然很强,在对“收敛”这一问题的讨论上,他们引入了“依概率收敛”(converge in probability)——对于随机变量(random variable)列 X n X n 以及随机变量 X X ,如果对任意 ε > 0 ε > 0 ,在 n → ∞ n → ∞ 时都有 μ ( { w ∣ | X n ( w ) − X ( w ) | > ε } ) → 0 μ ( { w ∣ | X n ( w ) − X ( w ) | > ε } ) → 0 ,我们就称 X n X n 依概率收敛于 X X 。
【壹】几乎必然收敛与依概率收敛的关系是什么?
①几乎必然收敛 ⟹ ⟹ 依概率收敛:
反证,若不依概率收敛,我们便可取这样的 ε ε ,那么 { w ∣ | X n ( w ) − X ( w ) | > ε } ⊆ { w ∣ X n ( w ) ↛ X ( w ) } { w ∣ | X n ( w ) − X ( w ) | > ε } ⊆ { w ∣ X n ( w ) ↛ X ( w ) } ,而左侧概率非零,于是 X n X n 自然就不几乎必然收敛于 X X 。
②依概率收敛 ⟹/ ⟹̸ 几乎必然收敛:
我们尝试对这两者做一个粗略的概括:画一个二维表格,横行对应 n n ,纵列对应概率空间的每个元素。几乎必然收敛反映着不收敛于 X ( w ) X ( w ) 的纵列 w w 构成的集合是零测的,而依概率收敛则反映着对于 ε > 0 ε > 0 ,在横行 n → ∞ n → ∞ 时,n n 这一行中,与 X ( w ) X ( w ) 差距大于 ε ε 的纵列 w w 构成的集合的测度趋于零。
于是我们要构造的随机变量就必须在横行上不符合的位置越来越少,且让每一纵列都常常不符合(这样就不收敛了)。可以造一个 [ 0 , 1 ] [ 0 , 1 ] 上的区间,长度递减且通过平移覆盖了每个位置,使得随机变量在这些位置上不符合。
即对于 u ⩾ 1 , v ∈ [ 1 , u ] u ⩾ 1 , v ∈ [ 1 , u ] ,我们有 X ( u − 1 ) u 2 + v ( [ v − 1 u , v u ] ) = 1 X ( u − 1 ) u 2 + v ( [ v − 1 u , v u ] ) = 1 ,同时装备勒贝格测度。可以发现这一随机变量列依概率收敛于恒为零的随机变量 X X ,但是并不几乎必然收敛。
根据壹中的经验,我们可以再引入一个概念:“无穷频繁”(infinitely often,简写为 i.o.。这一概念是我强行译过来的,可能有不当之处),对于一个事件(事件是概率空间中元素的集合),若其只在有限个下标上不发生,我们就称一个事件在序列上无穷频繁。
【贰】
若用集合来描述发生的事件,无穷频繁实际上有一个等价的表述,我们有 lim sup A n = lim m → ∞ ∪ ∞ n = m A n = { w ∣ w ∈ A n i.o. } lim sup A n = lim m → ∞ ∪ n = m ∞ A n = { w ∣ w ∈ A n i.o. } 。
类似地,我们有 lim inf A n = lim m → ∞ ∩ ∞ n = m A n = { w ∣ w ∈ A n for all but finitely many n } lim inf A n = lim m → ∞ ∩ n = m ∞ A n = { w ∣ w ∈ A n for all but finitely many n } 。
我们也可以通过无穷频繁给出一个几乎必然收敛的等价定义:
【定理】X n → X X n → X a.s. 当且仅当对于 ε > 0 ε > 0 ,我们都有 P ( | X n − X | > ε i.o. ) = 0 P ( | X n − X | > ε i.o. ) = 0 。
【证明】我们将右侧换为等价描述,即证 P ( ∪ m lim sup n A n ( 1 m ) ) = 0 P ( ∪ m lim sup n A n ( 1 m ) ) = 0 ,其中 A n ( ε ) = { w ∣ | X n ( w ) − X ( w ) | > ε } A n ( ε ) = { w ∣ | X n ( w ) − X ( w ) | > ε } 。
令 Ω 0 = { w ∣ X n ( w ) ↛ X ( w ) } Ω 0 = { w ∣ X n ( w ) ↛ X ( w ) } 。由 a.s. 收敛可知 P ( Ω 0 ) = 0 P ( Ω 0 ) = 0 。
而我们可以发现 lim sup n A n ( ε ) ⊆ Ω 0 lim sup n A n ( ε ) ⊆ Ω 0 (通过考察定义),于是 P ( ∪ ε > 0 lim sup n A n ( ε ) ) ⩽ ∑ m P ( lim sup n A n ( 1 m ) ) = 0 P ( ∪ ε > 0 lim sup n A n ( ε ) ) ⩽ ∑ m P ( lim sup n A n ( 1 m ) ) = 0 。
在我们实际证明 a.s. 收敛过程中往往不能做出很细致的刻画,此时我们就可以借助 Borel-Cantelli 引理。
【定理】Borel-Cantelli 引理:若事件列 A n A n 满足 ∑ P ( A n ) < ∞ ∑ P ( A n ) < ∞ ,那么有 P ( lim sup A n ) = 0 P ( lim sup A n ) = 0 。
【证明】令随机变量 N = ∑ 1 A n N = ∑ 1 A n ,那么 E ( N ) = ∑ E ( 1 A n ) = ∑ P ( A n ) < ∞ E ( N ) = ∑ E ( 1 A n ) = ∑ P ( A n ) < ∞ ,而这足以说明 N < ∞ N < ∞ a.s.,而 N N 的含义即为发生的事件数量,N ( w ) < ∞ N ( w ) < ∞ 等价于 w ∈ lim sup A n w ∈ lim sup A n 。
为什么 E ( N ) < ∞ ⇒ N < ∞ a.s. E ( N ) < ∞ ⇒ N < ∞ a.s. ?反证法即可。
【叁】
Borel-Cantelli 引理建立了依概率收敛到几乎处处收敛的一个桥梁,具体地,我们有:
X n X n 依概率收敛于 X X 当且仅当对于所有子序列 X n ( m ) X n ( m ) ,其存在子序列 X n ( m k ) → X a.s. X n ( m k ) → X a.s. 。
(下面证明摘自我的作业,之后会改成中文)
Prove ⟹ ⟹ :
If X n → X X n → X in probability, then for subsequence X n ( m ) X n ( m ) . We can pick a subsequence m 1 , m 2 , ⋯ m 1 , m 2 , ⋯ , such that P ( | X n ( m k ) − X | > 1 k ) < 2 − k P ( | X n ( m k ) − X | > 1 k ) < 2 − k by picking them sequentially where m k > m k − 1 m k > m k − 1 .
Then, ∑ P ( | X n ( m k ) − X | > 1 k ) < 1 < ∞ ∑ P ( | X n ( m k ) − X | > 1 k ) < 1 < ∞ , we can know that P ( lim sup k A k ) = 0 P ( lim sup k A k ) = 0 where A k = | X n ( m k ) − X | > 1 k A k = | X n ( m k ) − X | > 1 k , which means that P ( { w ∣ w ∈ A k i . o . } ) = 0 P ( { w ∣ w ∈ A k i . o . } ) = 0 which means X n ( m k ) → X X n ( m k ) → X almost surely.
Prove ⟸ ⟸ :
For all ε > 0 ε > 0 , for a subsequence n ( m ) n ( m ) , let f n = P ( { w ∣ | X n ( w ) − X ( w ) | > ε } ) f n = P ( { w ∣ | X n ( w ) − X ( w ) | > ε } ) .
We can see that, for each subsequence n ( m ) n ( m ) , there's n ( m k ) n ( m k ) such that X n ( m k ) X n ( m k ) converges to X X almost surely, which implies X n ( m k ) X n ( m k ) converges to X X in probability, then f n ( m k ) f n ( m k ) converges to 0 0 . Then f f is a Cauchy sequence, which means f → 0 f → 0 . That is, X n → X X n → X in probability.
我们在概率和趋于无穷时,我们也有类似的 Borel-Cantelli 第二引理,但是要求事件独立。
【定理】Borel-Cantelli 第二引理:若独立事件列 A n A n 满足 ∑ P ( A n ) = ∞ ∑ P ( A n ) = ∞ ,那么有 P ( lim sup A n ) = 1 P ( lim sup A n ) = 1 。
【证明】
对于任意 M M ,我们实际上可以证明 P ( ∪ n ⩾ M A n ) = 1 P ( ∪ n ⩾ M A n ) = 1 。
我们取 N ⩾ M N ⩾ M ,推一推:
P ( ∪ N n = M A n ) = 1 − P ( ∩ N n = M A c n ) = 1 − ∏ N n = M ( 1 − P ( A n ) ) ⩾ 1 − e − ∑ N n = M P ( A n ) P ( ∪ n = M N A n ) = 1 − P ( ∩ n = M N A n c ) = 1 − ∏ n = M N ( 1 − P ( A n ) ) ⩾ 1 − e − ∑ n = M N P ( A n )
令 N → ∞ N → ∞ ,∑ N n = M P ( A n ) → ∞ ∑ n = M N P ( A n ) → ∞ ,自然就有了 P ( ∪ n ⩾ M A n ) = 1 P ( ∪ n ⩾ M A n ) = 1 。
Part 2 强大数定律
这一节,我们的目标是证明期望有限的强大数定律,即——
【定理】强大数定律:对于独立同分布随机变量列 X n X n ,若有 E | X 1 | = μ < ∞ E | X 1 | = μ < ∞ ,那么有 ∑ n i = 1 X i n → μ a.s. ∑ i = 1 n X i n → μ a.s. 。
在此之前,让我们先证明其更简单的情况:
【定理】Kolmogorov 二级数定理(翻译参考自 Wikipedia ):对于独立随机变量列 X n X n ,若有 ∑ Var ( X n ) < ∞ ∑ Var ( X n ) < ∞ ,那么 ∑ ( X n − E ( X n ) ) ∑ ( X n − E ( X n ) ) 几乎必然收敛。
为方便,不妨平移使得 E ( X i ) = 0 E ( X i ) = 0 。
我们只知收敛而不知极限,Cauchy 列是处理这种情况的利器。令 S N = ∑ N n = 1 X n S N = ∑ n = 1 N X n ,我们想控制 P ( max m ⩾ M | S m − S M | ⩾ ε ) P ( max m ⩾ M | S m − S M | ⩾ ε ) 来说明其为 Cauchy 列,此时需要先引入一个新的定理以解决问题。
【定理】Kolmogorov 极大不等式:对于独立随机变量列 X n X n ,若有 E ( X i ) = 0 , Var ( X i ) < ∞ E ( X i ) = 0 , Var ( X i ) < ∞ 。令 S N = ∑ N n = 1 X n S N = ∑ n = 1 N X n ,对于 ε > 0 ε > 0 ,我们有 P ( max N n = 1 | S n | ⩾ ε ) ⩽ Var ( S n ) ε 2 P ( max n = 1 N | S n | ⩾ ε ) ⩽ Var ( S n ) ε 2 。
【证明】(下面证明摘自我的笔记,之后会改成中文)
Let T = min { j ⩽∣ | S j | ⩾ ε } T = min { j ⩽∣ | S j | ⩾ ε } and T = ∞ T = ∞ when ∀ j ⩽ n , | S j | < ε ∀ j ⩽ n , | S j | < ε .
We can see that P ( T ⩾ j ) = P ( | S j | < ε , 1 ⩽ i ⩽ j − 1 ) P ( T ⩾ j ) = P ( | S j | < ε , 1 ⩽ i ⩽ j − 1 ) , and:
P ( max 1 ⩽ j ⩽ n | S j | ⩾ ε ) = P ( T ⩽ n ) = E ( I { T ⩽ n } ) ⩽ E ( S 2 T ε 2 I { T ⩽ n } ) ⩽ ε − 2 E ( S 2 T ∧ n ) = ε − 2 E ( ∑ T ∧ n j = 1 X j ) 2 = ε − 2 E ( ∑ n i = 1 X j I { T ⩾ j } ) 2 = ε − 2 ( E ( ∑ n j = 1 X 2 j I { T ⩾ j } ) + 2 E ( ∑ i < j X i X j I { T ⩾ j } ) ) P ( max 1 ⩽ j ⩽ n | S j | ⩾ ε ) = P ( T ⩽ n ) = E ( I { T ⩽ n } ) ⩽ E ( S T 2 ε 2 I { T ⩽ n } ) ⩽ ε − 2 E ( S T ∧ n 2 ) = ε − 2 E ( ∑ j = 1 T ∧ n X j ) 2 = ε − 2 E ( ∑ i = 1 n X j I { T ⩾ j } ) 2 = ε − 2 ( E ( ∑ j = 1 n X j 2 I { T ⩾ j } ) + 2 E ( ∑ i < j X i X j I { T ⩾ j } ) )
Split it into two parts:
①E ( ∑ n j = 1 X 2 j I { T ⩾ j } ) ⩽ ∑ n j = 1 E ( X 2 j ) = Var ( S n ) E ( ∑ j = 1 n X j 2 I { T ⩾ j } ) ⩽ ∑ j = 1 n E ( X j 2 ) = Var ( S n ) .
②E ( ∑ i < j X i X j I { T ⩾ j } ] ) = ∑ i < j E ( X i ) E ( X j ) I { T ⩾ j } = 0 E ( ∑ i < j X i X j I { T ⩾ j } ] ) = ∑ i < j E ( X i ) E ( X j ) I { T ⩾ j } = 0 .
In conclusion: P ( max 1 ⩽ j ⩽ n | S j | ⩾ ε ) ⩽ Var ( S n ) ε 2 P ( max 1 ⩽ j ⩽ n | S j | ⩾ ε ) ⩽ Var ( S n ) ε 2 .
得到了 Kolmogorov 极大不等式后,我们便可以继续了:
P ( N max m = M | S m − S M | ⩾ ε ) ⩽ Var ( S N − S M ) ε 2 = ∑ N n = M + 1 Var ( X n ) ε 2 ⇒ P ( max m ⩾ M | S m − S M | ⩾ ε ) ⩽ ∑ ∞ n = M + 1 Var ( S n ) ε 2 P ( max m = M N | S m − S M | ⩾ ε ) ⩽ Var ( S N − S M ) ε 2 = ∑ n = M + 1 N Var ( X n ) ε 2 ⇒ P ( max m ⩾ M | S m − S M | ⩾ ε ) ⩽ ∑ n = M + 1 ∞ Var ( S n ) ε 2
由方差和有限可知,当 M → ∞ M → ∞ 时 P ( max m ⩾ M | S m − S M | ⩾ ε ) → 0 P ( max m ⩾ M | S m − S M | ⩾ ε ) → 0 。
接下来的工作较为平凡,令 w M = sup m , n ⩾ M | S m − S n | w M = sup m , n ⩾ M | S m − S n | ,那么对于 ε > 0 ε > 0 ,有 P ( w M ⩾ 2 ε ) ⩽ P ( sup m ⩾ M | S m − S M | ⩾ ε ) → 0 P ( w M ⩾ 2 ε ) ⩽ P ( sup m ⩾ M | S m − S M | ⩾ ε ) → 0 ,即 w M < 2 ε w M < 2 ε a.s.,那么 S n S n 几乎必然是 Cauchy 列,于是其几乎必然收敛。
接下来我们就可以着手证明强大数定律了,让我们不妨假设 μ = 0 μ = 0 并重新写出我们的目标:对于独立同分布随机变量列 X n X n ,若有 E | X 1 | = 0 E | X 1 | = 0 ,那么有 ∑ n i = 1 X i n → 0 a.s. ∑ i = 1 n X i n → 0 a.s. 。
强大数定律证明的关键思想是截断(truncation),我们令 Y n = X n 1 | X n | ⩽ n − E ( X n 1 | X n | ⩽ n ) , Z n = X n 1 | X n | > n − E ( X n 1 | X n | > n ) Y n = X n 1 | X n | ⩽ n − E ( X n 1 | X n | ⩽ n ) , Z n = X n 1 | X n | > n − E ( X n 1 | X n | > n ) ,那么 X n = Y n + Z n X n = Y n + Z n (因为 E ( X n 1 | X n | ⩽ n ) + E ( X n 1 | X n | > n ) = E ( X n ) = 0 E ( X n 1 | X n | ⩽ n ) + E ( X n 1 | X n | > n ) = E ( X n ) = 0 )。我们接下来尝试分别处理 ∑ n i = 1 Y i n ∑ i = 1 n Y i n 与 ∑ n i = 1 Z i n ∑ i = 1 n Z i n 。
令 ~ Y n = X n 1 | X n | ⩽ n Y ~ n = X n 1 | X n | ⩽ n ,那么 Y n = ~ Y n − E ( ~ Y n ) Y n = Y ~ n − E ( Y ~ n ) ,且 Var ( Y n ) = E ( ( ~ Y n − E ( ~ Y n ) ) 2 ) = E ( ~ Y 2 n ) − E ( ~ Y n ) 2 Var ( Y n ) = E ( ( Y ~ n − E ( Y ~ n ) ) 2 ) = E ( Y ~ n 2 ) − E ( Y ~ n ) 2 ,接下来我们尝试对 Y n n Y n n 应用 Kolmogorov 二级数定理。
【肆】对 Kolmogorov 二级数定理应用条件的检验。
∑ ∞ n = 1 Var ( Y n ) n 2 ⩽ ∑ ∞ n = 1 ( E ( X 2 1 ) 1 | X 1 | ⩽ n ) n 2 ⩽ E ( X 2 1 ∑ ∞ n = 1 1 n 2 1 | X 1 | ⩽ n ) ⩽ E ( X 2 1 ∑ ∞ n ⩾ ⌈ | X 1 | ⌉ 2 n ( n + 1 ) ) ⩽ 2 E ( X 2 1 ( 1 | X 1 | ∧ 1 ) ) ⩽ 2 E ( | X 1 | + 1 ) < ∞ ∑ n = 1 ∞ Var ( Y n ) n 2 ⩽ ∑ n = 1 ∞ ( E ( X 1 2 ) 1 | X 1 | ⩽ n ) n 2 ⩽ E ( X 1 2 ∑ n = 1 ∞ 1 n 2 1 | X 1 | ⩽ n ) ⩽ E ( X 1 2 ∑ n ⩾ ⌈ | X 1 | ⌉ ∞ 2 n ( n + 1 ) ) ⩽ 2 E ( X 1 2 ( 1 | X 1 | ∧ 1 ) ) ⩽ 2 E ( | X 1 | + 1 ) < ∞
应用 Kolmogorov 二级数定理后,我们知道 ∑ n n = 1 Y i i ∑ n = 1 n Y i i 几乎必然收敛,对此我们要引用另一个工具:
【定理】Kronecher 引理:对于 0 < a 1 < a 2 < ⋯ < a n → ∞ 0 < a 1 < a 2 < ⋯ < a n → ∞ ,我们有 ∑ n i = 1 x i a i → s < ∞ ⇒ ∑ n i = 1 x i a n → 0 ∑ i = 1 n x i a i → s < ∞ ⇒ ∑ i = 1 n x i a n → 0 。
【证明】(下面证明摘自我的笔记,之后会改成中文)
Let b n = ∑ n i = 1 x i a i b n = ∑ i = 1 n x i a i , then x n = a n ( b n − b n − 1 ) x n = a n ( b n − b n − 1 ) :
∑ n i = 1 x i a n = 1 a n ∑ n i = 1 a i ( b i − b i − 1 ) = 1 a n ( a n b n + ∑ n − 1 i = 1 a i b i − ∑ n i = 1 a i b i − 1 ) = b n − 1 a n ∑ n i = 1 b i − 1 ( a i − a i − 1 ) ∑ i = 1 n x i a n = 1 a n ∑ i = 1 n a i ( b i − b i − 1 ) = 1 a n ( a n b n + ∑ i = 1 n − 1 a i b i − ∑ i = 1 n a i b i − 1 ) = b n − 1 a n ∑ i = 1 n b i − 1 ( a i − a i − 1 )
We know that for ε > 0 ε > 0 , there exists N N such that n > N ⇒ | b n − s | < ε n > N ⇒ | b n − s | < ε , then:
∑ n i = 1 x i a i = b n − 1 a n ( ∑ N − 1 i = 1 b i − 1 ( a i − a i − 1 + ∑ n i = N ( a i − a i − 1 ) s + ∑ n i = N ( a i − a i − 1 ( b i − 1 − s ) ) ) ) ∑ i = 1 n x i a i = b n − 1 a n ( ∑ i = 1 N − 1 b i − 1 ( a i − a i − 1 + ∑ i = N n ( a i − a i − 1 ) s + ∑ i = N n ( a i − a i − 1 ( b i − 1 − s ) ) ) )
Split it into four parts, when n → ∞ n → ∞ :
①b n → s b n → s .
②− 1 a n ∑ N − 1 i = 1 b i − 1 ( a i − a i − 1 ) → 0 − 1 a n ∑ i = 1 N − 1 b i − 1 ( a i − a i − 1 ) → 0 since a n → ∞ a n → ∞ and the summation is finite.
③− 1 a n ∑ n i = N ( a i − a i − 1 ) s = − s ( a n − a N − 1 ) a n → s − 1 a n ∑ i = N n ( a i − a i − 1 ) s = − s ( a n − a N − 1 ) a n → s .
④Let T = − 1 a n ∑ n i = N ( a i − a i − 1 ) ( b i − 1 − s ) T = − 1 a n ∑ i = N n ( a i − a i − 1 ) ( b i − 1 − s ) , then | T | ⩽ 1 a n ∑ n i = N ( a i − a i − 1 ) ε = ( 1 − a N − 1 a n ) ε | T | ⩽ 1 a n ∑ i = N n ( a i − a i − 1 ) ε = ( 1 − a N − 1 a n ) ε .
In conclusion, ∑ n i = 1 x i a i → 0 ∑ i = 1 n x i a i → 0 when n → ∞ n → ∞ .
通过 Kronecher 引理我们可以发现,对于所有概率空间中的元素 w w ,若 ∑ n i = 1 Y i ( w ) i ∑ i = 1 n Y i ( w ) i 收敛,那么 ∑ n i = 1 Y i ( w ) n → 0 ∑ i = 1 n Y i ( w ) n → 0 。结合上面的结果,我们便得到了 ∑ n i = 1 Y i n → 0 a.s. ∑ i = 1 n Y i n → 0 a.s. 。
相较于 Y n Y n ,Z n Z n 的处理就显得格外小巧:
【伍】对 Z n Z n 的处理。
(下面证明摘自我的笔记,之后会改成中文)
For w ∈ Ω w ∈ Ω , let N ( w ) = { i ∣ | X i | > i } N ( w ) = { i ∣ | X i | > i } , then almost surely | 1 n ∑ n i = 1 X i ( w ) I { | X i ( w ) | > i } | ⩽ 1 n ∑ N ( w ) i = 1 | X i ( w ) | | 1 n ∑ i = 1 n X i ( w ) I { | X i ( w ) | > i } | ⩽ 1 n ∑ i = 1 N ( w ) | X i ( w ) | .
Since E ( | X 1 | ) < ∞ ⇒ ∑ ∞ i = 1 P ( | X 1 | > i ) = ∑ ∞ i = 1 P ( | X i | > i ) ⩽ E | X 1 | < ∞ E ( | X 1 | ) < ∞ ⇒ ∑ i = 1 ∞ P ( | X 1 | > i ) = ∑ i = 1 ∞ P ( | X i | > i ) ⩽ E | X 1 | < ∞ , so by Borel-Cantelli Lemma, | X i | > i | X i | > i isn't infinite often almost surely, that is,| { i ∣ | X i ( w ) | > i } | < ∞ | { i ∣ | X i ( w ) | > i } | < ∞ almost surely.
Then we can see that N ( w ) < ∞ N ( w ) < ∞ as n → ∞ n → ∞ , so 1 n ∑ N ( w ) i = 1 | X i ( w ) | → 0 1 n ∑ i = 1 N ( w ) | X i ( w ) | → 0 and | 1 n ∑ n i = 1 X i ( w ) I { | X i ( w ) | > i } | → 0 | 1 n ∑ i = 1 n X i ( w ) I { | X i ( w ) | > i } | → 0 .
综上,我们得到了 ∑ n i = 1 Y n n , ∑ n i = 1 Z n n → 0 a.s. ∑ i = 1 n Y n n , ∑ i = 1 n Z n n → 0 a.s. ,相加即可得到 ∑ n i = 1 X n n → 0 a.s. ∑ i = 1 n X n n → 0 a.s. ,于是强大数定律得证。
Part 3 大数定律的收敛率*
这一章,我们来介绍以下大数定律延伸出的,对 i.i.d 随机变量列前缀和更精细地刻画。
我们先说明,实际上随机变量波动带来的误差部分不需要用 n n 来 bound,√ n log 1 2 + ε n log 1 2 + ε 足矣(实际上通过更复杂的分析,可以用 √ n log log n n log log n 来 bound)。
【定理】对于独立同分布随机变量列 X n X n ,若有 E | X 1 | = 0 E | X 1 | = 0 且 Var ( X 1 ) = σ 2 < ∞ Var ( X 1 ) = σ 2 < ∞ ,那么有 ∑ n i = 1 X i √ n log 1 2 + ε n → 0 a.s. ∑ i = 1 n X i n log 1 2 + ε n → 0 a.s. 。
证明并不困难,我们回顾 Kolmogorov 二级数定理,直接考察 ∑ ∞ n = 1 Var ( X n max ( 1 , √ n log 1 2 + ε n ) ) = σ 2 ( 1 + ∑ ∞ n = 2 1 n log 1 + 2 ε n ) < ∞ ∑ n = 1 ∞ Var ( X n max ( 1 , n log 1 2 + ε n ) ) = σ 2 ( 1 + ∑ n = 2 ∞ 1 n log 1 + 2 ε n ) < ∞ (这里对 1 1 取 max max 为规避第一步除以 0 0 ),接下来再应用 Kronecher 引理便得证了。
通过上述证明过程也不难发现,上述刻画的 convergence rate 实际上也就是一个数列求和 convergence rate 的简单推论。
另一个可行的推广方向则是修改大数定律初始条件,将 E | X 1 | < ∞ E | X 1 | < ∞ 改为 E | X 1 | p < ∞ E | X 1 | p < ∞ ,可以发现我们只需关心 p ∈ ( 0 , 2 ) p ∈ ( 0 , 2 ) :
【定理】Marcinkiewicz-Zygmund 强大数定律:对于独立同分布随机变量列 X n X n ,若对于某个 p ∈ ( 0 , 2 ) p ∈ ( 0 , 2 ) 有 E | X 1 | p < ∞ E | X 1 | p < ∞ ,那么有 ⎧ ⎪
⎪ ⎨ ⎪
⎪ ⎩ ∑ n i = 1 X i − n E ( X 1 ) n 1 p → 0 a.s. 1 ⩽ p < 2 ∑ n i = 1 X i n 1 p → 0 a.s. 0 < p < 1 { ∑ i = 1 n X i − n E ( X 1 ) n 1 p → 0 a.s. 1 ⩽ p < 2 ∑ i = 1 n X i n 1 p → 0 a.s. 0 < p < 1 。
我们只需在原本的证明过程中,将对 n n 的截断修改为对 n 1 p n 1 p 的截断,Z n Z n 可以直接简单用 E | X 1 | p E | X 1 | p bound 再用 Borel-Cantelli 收割,Y n Y n 则可以用更一些复杂的代数推导来 bound。
【陆】一些修补的细节。
①如何分析掉 Z n Z n ?
∑ P ( X n ≠ Y n ) = ∑ P ( | X n | > n 1 p ) = E | X 1 | p < ∞ ∑ P ( X n ≠ Y n ) = ∑ P ( | X n | > n 1 p ) = E | X 1 | p < ∞ ,接下来应用 Borel-Cantelli 引理即可(需要留意的是,这里的分析实际上相当粗糙,后文有对其的修补)。
②如何控制方差和?
我们用积分的形式展开 Var ( Y n ) Var ( Y n ) 并按照 n 1 p n 1 p 分段,接下来就可以直接分析了:
∑ Var ( Y n n 1 p ) ⩽ ∑ m ∫ m 1 p ( m − 1 ) 1 p 2 y P ( | X 1 | > y ) d y ∑ n ⩾ m 1 n 2 p ∑ Var ( Y n n 1 p ) ⩽ ∑ m ∫ ( m − 1 ) 1 p m 1 p 2 y P ( | X 1 | > y ) d y ∑ n ⩾ m 1 n 2 p
⩽ ( ∫ 1 0 2 y P ( | X 1 | > y ) d y ) + ∑ m ∫ m 1 p ( m − 1 ) 1 p 2 p 2 − p y p − 1 P ( | X 1 | > y ) d y ⩽ ( ∫ 0 1 2 y P ( | X 1 | > y ) d y ) + ∑ m ∫ ( m − 1 ) 1 p m 1 p 2 p 2 − p y p − 1 P ( | X 1 | > y ) d y
⩽ ( 1 + 2 p 2 − p ) ∫ ∞ 0 y p − 1 P ( | X 1 | > y ) d y = p + 2 p ( 2 − p ) E | X 1 | p < ∞ ⩽ ( 1 + 2 p 2 − p ) ∫ 0 ∞ y p − 1 P ( | X 1 | > y ) d y = p + 2 p ( 2 − p ) E | X 1 | p < ∞
推导时还用到了这一结论:
∑ n ⩾ m n − 2 p ⩽ ∫ ∞ m − 1 x − 2 p d x = p 2 − p ( m − 1 ) p − 2 p ⩽ p 2 − p y p − 2 ∑ n ⩾ m n − 2 p ⩽ ∫ m − 1 ∞ x − 2 p d x = p 2 − p ( m − 1 ) p − 2 p ⩽ p 2 − p y p − 2
③1 ⩽ p < 2 1 ⩽ p < 2 的时候如何收尾?
直接 Y n ← Y n − E ( Y n ) Y n ← Y n − E ( Y n ) ,然后应用 Kolmogorov 二级数定理和 Kronecher 引理就行。
④0 < p < 1 0 < p < 1 的时候如何收尾?
问题在于 E ( Y n ) E ( Y n ) 的求和收敛性不再明朗,因此我们需要为其专门分析,好在这一问题与原问题没有什么区别——
∑ E ( Y n ) n 1 p ⩽ ∑ n 1 n 1 p ∑ n m = 1 ∫ m 1 p ( m − 1 ) 1 p P ( | X 1 | > y ) d y ∑ E ( Y n ) n 1 p ⩽ ∑ n 1 n 1 p ∑ m = 1 n ∫ ( m − 1 ) 1 p m 1 p P ( | X 1 | > y ) d y
= ∑ m ∫ m 1 p ( m − 1 ) 1 p P ( | X 1 | > y ) d y ∑ n ⩾ m 1 n 1 p = ∑ m ∫ ( m − 1 ) 1 p m 1 p P ( | X 1 | > y ) d y ∑ n ⩾ m 1 n 1 p
⩽ ( ∫ 1 0 P ( | X 1 | > y ) d y ) + ∑ m ∫ m 1 p ( m − 1 ) 1 p p 1 − p y p − 1 P ( | X 1 | > y ) d y ⩽ ( ∫ 0 1 P ( | X 1 | > y ) d y ) + ∑ m ∫ ( m − 1 ) 1 p m 1 p p 1 − p y p − 1 P ( | X 1 | > y ) d y
⩽ ( p 1 − p + 1 ) ∫ ∞ 0 y p − 1 P ( | X 1 | > y ) d y = 1 p ( 1 − p ) E | X 1 | p < ∞ ⩽ ( p 1 − p + 1 ) ∫ 0 ∞ y p − 1 P ( | X 1 | > y ) d y = 1 p ( 1 − p ) E | X 1 | p < ∞
其中同样用到了以下结论:
∑ n ⩾ m n − 1 p ⩽ ∫ ∞ m − 1 x − 1 p d x = p 1 − p ( m − 1 ) p − 1 p ⩽ p 1 − p y p − 1 ∑ n ⩾ m n − 1 p ⩽ ∫ m − 1 ∞ x − 1 p d x = p 1 − p ( m − 1 ) p − 1 p ⩽ p 1 − p y p − 1
接下来我们先变换 Y n ← Y n − E ( Y n ) Y n ← Y n − E ( Y n ) 并应用 Kolmogorov 二级数定理和 Kronecher 引理,再用刚刚证明的结论把 E ( Y n ) E ( Y n ) 项修补进来即可。
Part 4 弱大数定律
咕咕咕。
(这里记得补充对三角形随机变量列大数定律的证明)
Part 5 中心极限定理
咕咕咕。
(这里记得补充对分布收敛、特征函数、Lévy continuity theorem 的引入)
让我们直接快进,来证明 Lindeberg-Feller 中心极限定理!
【定理】Lindeberg-Feller 中心极限定理:对于三角形随机变量列 X n , m ( 1 ⩽ m ⩽ n ) X n , m ( 1 ⩽ m ⩽ n ) ,其中 E ( X n , m ) = 0 E ( X n , m ) = 0 且对于固定的 n n ,X n , m X n , m 相互独立。若 X n , m X n , m 满足以下两条性质,我们就有 n → ∞ n → ∞ 时 ∑ n m = 1 X n , m ⇒ N ( 0 , σ ) ∑ m = 1 n X n , m ⇒ N ( 0 , σ ) 。
∑ n m = 1 Var ( X n , m ) → σ 2 > 0 ∑ m = 1 n Var ( X n , m ) → σ 2 > 0 ;
对于所有 ε > 0 ε > 0 都有 lim n → ∞ ∑ n m = 1 E ( | X n , m | 2 ∣ | X n , m | > ε ) = 0 lim n → ∞ ∑ m = 1 n E ( | X n , m | 2 ∣ | X n , m | > ε ) = 0 。
可以发现这两条性质就是一个照着箭画靶的过程,我们直接给出其证明过程——
(下面证明摘自我的笔记,之后会改成中文)
Lemma 1: | E ( e i t X ) − ∑ n m = 0 ( i t X ) m m ! | ⩽ E ( min ( | t X | n + 1 , 2 | t X | n ) ) | E ( e i t X ) − ∑ m = 0 n ( i t X ) m m ! | ⩽ E ( min ( | t X | n + 1 , 2 | t X | n ) ) .
Proof:
By Jensen's inequality, we have | E ( e i t X ) − ∑ n m = 0 E ( ( i t X ) m ) m ! | ⩽ E | e i t X − ∑ n m = 0 ( i t X ) m m ! | | E ( e i t X ) − ∑ m = 0 n E ( ( i t X ) m ) m ! | ⩽ E | e i t X − ∑ m = 0 n ( i t X ) m m ! | , and we're going to prove | e i x − ∑ n m = 0 ( i x ) m m ! | ⩽ min ( | x | n + 1 ( n + 1 ) ! , 2 | x | n n ! ) | e i x − ∑ m = 0 n ( i x ) m m ! | ⩽ min ( | x | n + 1 ( n + 1 ) ! , 2 | x | n n ! ) .
We can use Taylor's formula with remainder of integral:
e i x = n ∑ m = 0 ( i x ) m m ! + i n + 1 n ! ∫ x 0 ( x − s ) n e i s d s e i x = ∑ m = 0 n ( i x ) m m ! + i n + 1 n ! ∫ 0 x ( x − s ) n e i s d s
Then we try to estimate the remainder part.
Since | e i s | ⩽ 1 | e i s | ⩽ 1 , it's not to see that | ∫ x 0 ( x − s ) n e i s d s | ⩽ | x | n + 1 n + 1 | ∫ 0 x ( x − s ) n e i s d s | ⩽ | x | n + 1 n + 1 . So | e i x − ∑ n m = 0 ( i x ) m m ! | ⩽ | x | n + 1 ( n + 1 ) ! | e i x − ∑ m = 0 n ( i x ) m m ! | ⩽ | x | n + 1 ( n + 1 ) ! .
Then we can see that:
| e i x − n ∑ m = 0 ( i x ) m m ! | ⩽ | e i x − n − 1 ∑ m = 0 ( i x ) m m ! | + | ( i x ) n n ! | ⩽ 2 | x | n n ! | e i x − ∑ m = 0 n ( i x ) m m ! | ⩽ | e i x − ∑ m = 0 n − 1 ( i x ) m m ! | + | ( i x ) n n ! | ⩽ 2 | x | n n !
Lemma 2: For z 1 , z 2 , ⋯ , z n , w 1 , w 2 , ⋯ , w n z 1 , z 2 , ⋯ , z n , w 1 , w 2 , ⋯ , w n with modulus ⩽ θ ⩽ θ , we have | ∏ n m = 1 z m − ∏ n m = 1 w m | ⩽ θ n − 1 ∑ n m = 1 | z m − w m | | ∏ m = 1 n z m − ∏ m = 1 n w m | ⩽ θ n − 1 ∑ m = 1 n | z m − w m | .
Proof:
We prove it by induction. n = 1 n = 1 is obvious, and then:
| n ∏ m = 1 z m − n ∏ m = 1 w m | ⩽ | z 1 n ∑ m = 2 z m − z 1 n ∏ m = 2 w m | + | z 1 n ∏ m = 2 w m − w 1 n ∏ m = 2 w m | = θ | n ∏ m = 2 z m − n ∏ m = 2 w m | + θ n − 1 | z 1 − w 1 | ⩽ θ n − 1 n ∑ m = 1 | z m − m m | | ∏ m = 1 n z m − ∏ m = 1 n w m | ⩽ | z 1 ∑ m = 2 n z m − z 1 ∏ m = 2 n w m | + | z 1 ∏ m = 2 n w m − w 1 ∏ m = 2 n w m | = θ | ∏ m = 2 n z m − ∏ m = 2 n w m | + θ n − 1 | z 1 − w 1 | ⩽ θ n − 1 ∑ m = 1 n | z m − m m |
Lemma 3: For max n m = 1 a n , m → 0 , ∑ n m = 1 a n , m → λ max m = 1 n a n , m → 0 , ∑ m = 1 n a n , m → λ and sup n ∑ n m = 1 | a n , m | < ∞ sup n ∑ m = 1 n | a n , m | < ∞ , we have ∏ n m = 1 ( 1 + a n , m ) → e λ ∏ m = 1 n ( 1 + a n , m ) → e λ .
Proof:
Just observe that if x → 0 x → 0 , ln ( 1 + x ) x → 1 ln ( 1 + x ) x → 1 .
For each ε ∈ ( 0 , 1 ) ε ∈ ( 0 , 1 ) , there's δ > 0 δ > 0 such that | x | < δ ⇒ | ln ( 1 + x ) x − 1 | < ε | x | < δ ⇒ | ln ( 1 + x ) x − 1 | < ε , and it means ( 1 − ε ) x ⩽ log ( 1 + x ) ⩽ ( 1 + ε ) x ( 1 − ε ) x ⩽ log ( 1 + x ) ⩽ ( 1 + ε ) x .
Then:
n ∑ m = 1 log ( 1 + a n , m ) ∈ [ ( 1 − ε ) λ , ( 1 + ε ) λ ] ∑ m = 1 n log ( 1 + a n , m ) ∈ [ ( 1 − ε ) λ , ( 1 + ε ) λ ]
Let ε → 0 ε → 0 , then ∑ n m = 1 log ( 1 + a n , m ) → λ ∑ m = 1 n log ( 1 + a n , m ) → λ , so ∏ n m = 1 ( 1 + a n , m ) → e λ ∏ m = 1 n ( 1 + a n , m ) → e λ .
Let φ n , m ( t ) = E ( e i t X n , m ) , σ 2 n , m = E X 2 n , m φ n , m ( t ) = E ( e i t X n , m ) , σ n , m 2 = E X n , m 2 , and our goal is to show the following. (Then apply Lévy continuity theorem)
n ∏ m = 1 φ n , m ( t ) → e − 1 2 t 2 σ 2 ∏ m = 1 n φ n , m ( t ) → e − 1 2 t 2 σ 2
Pick ε ∈ ( 0 , 1 ) ε ∈ ( 0 , 1 ) :
First let u n , m = φ n , m ( t ) , v n , m = ( 1 − 1 2 t 2 σ 2 n , m ) u n , m = φ n , m ( t ) , v n , m = ( 1 − 1 2 t 2 σ n , m 2 ) , then we can see that, according to Lemma 1:
| u n , m − v n , m | ⩽ E ( min ( | t X n , m | 3 , 2 | t X n , m | 2 ) ) ⩽ E ( | t X n , m | 3 ∣ | X n , m | ⩽ ε ) + E ( 2 | t X n , m | 2 ∣ | X n , m | > ε ) ⩽ ε t 3 E ( | X n , m | 2 ∣ | X n , m | ⩽ ε ) + 2 t 2 E ( | X n , m | 2 ∣ | X n , m | > ε ) | u n , m − v n , m | ⩽ E ( min ( | t X n , m | 3 , 2 | t X n , m | 2 ) ) ⩽ E ( | t X n , m | 3 ∣ | X n , m | ⩽ ε ) + E ( 2 | t X n , m | 2 ∣ | X n , m | > ε ) ⩽ ε t 3 E ( | X n , m | 2 ∣ | X n , m | ⩽ ε ) + 2 t 2 E ( | X n , m | 2 ∣ | X n , m | > ε )
Then:
n ∑ m = 1 | u n , m − v n , m | ⩽ ε t 3 n ∑ m = 1 E ( X n , m | 2 ∣ | X n , m | ⩽ ε ) + 2 t 2 n ∑ m = 1 E ( | X n , m | 2 ∣ | X n , m | > ε ) ∑ m = 1 n | u n , m − v n , m | ⩽ ε t 3 ∑ m = 1 n E ( X n , m | 2 ∣ | X n , m | ⩽ ε ) + 2 t 2 ∑ m = 1 n E ( | X n , m | 2 ∣ | X n , m | > ε )
Let n → ∞ n → ∞ , the second part goes to 0 0 , and we can bound the first part by ε t 3 σ 2 ε t 3 σ 2 where σ 2 = lim n → ∞ ∑ n m = 1 E ( X 2 n , m ) > 0 σ 2 = lim n → ∞ ∑ m = 1 n E ( X n , m 2 ) > 0 .
We try to use Lemma 2, before that we need to find θ θ to bound | u n , m | | u n , m | and | v n , m | | v n , m | . We know | φ n , m ( t ) | ⩽ 1 | φ n , m ( t ) | ⩽ 1 , so we only to bound | v n , m | | v n , m | . And we can see that for ζ > 0 ζ > 0 :
n sup m = 1 σ 2 n , m ⩽ n sup m = 1 ζ 2 + E ( X 2 n , m ∣ | X n , m | > ζ ) ⩽ ζ 2 + n ∑ m = 1 E ( X 2 n , m ∣ | X n , m | > ζ ) sup m = 1 n σ n , m 2 ⩽ sup m = 1 n ζ 2 + E ( X n , m 2 ∣ | X n , m | > ζ ) ⩽ ζ 2 + ∑ m = 1 n E ( X n , m 2 ∣ | X n , m | > ζ )
When n → ∞ n → ∞ , we could derive sup n m = 1 σ 2 n , m → ζ 2 sup m = 1 n σ n , m 2 → ζ 2 . Then let ζ → 0 ζ → 0 we can get sup n m = 1 σ 2 n , m → 0 sup m = 1 n σ n , m 2 → 0 .
In fact, we only need to pick ζ = 1 t ζ = 1 t and then there's N > 0 N > 0 so that for n > N n > N we have sup n m = 1 σ 2 n , m ⩽ 2 ζ 2 sup m = 1 n σ n , m 2 ⩽ 2 ζ 2 . So for all 1 ⩽ m ⩽ n 1 ⩽ m ⩽ n , | 1 2 t 2 σ 2 n , m | ⩽ 1 2 t 2 ⋅ 2 ζ 2 = 1 | 1 2 t 2 σ n , m 2 | ⩽ 1 2 t 2 ⋅ 2 ζ 2 = 1 , then | v n , m | ∈ [ 0 , 1 ] | v n , m | ∈ [ 0 , 1 ] . So we can just set θ = 1 θ = 1 if n > N n > N .
Apply Lemma 2, and we get:
lim n → ∞ | n ∏ m = 1 u n , m − n ∏ m = 1 v n , m | ⩽ lim n → ∞ θ n − 1 n ∑ m = 1 | u n , m − v n . m | ⩽ ε t 3 σ 2 lim n → ∞ | ∏ m = 1 n u n , m − ∏ m = 1 n v n , m | ⩽ lim n → ∞ θ n − 1 ∑ m = 1 n | u n , m − v n . m | ⩽ ε t 3 σ 2
Let ε → 0 ε → 0 , and the limit goes to 0 0 .
Let a n , m = − 1 2 t 2 σ 2 n , m a n , m = − 1 2 t 2 σ n , m 2 , then max n m = 1 a n , m → 0 max m = 1 n a n , m → 0 since sup n m = 1 σ n , m → 0 sup m = 1 n σ n , m → 0 . Also, ∑ n m = 1 a n , m → − 1 2 t 2 σ 2 ∑ m = 1 n a n , m → − 1 2 t 2 σ 2 and sup n ∑ n m = 1 | a n , m | < ∞ sup n ∑ m = 1 n | a n , m | < ∞ since a n , m a n , m are all non-positive.
Apply Lemma 3 and we get ∏ n m = 1 v n , m = ∏ n m = 1 ( 1 + a n , m ) → e − 1 2 t 2 σ 2 ∏ m = 1 n v n , m = ∏ m = 1 n ( 1 + a n , m ) → e − 1 2 t 2 σ 2 , which means ∏ n m = 1 u n , m → e − 1 2 t 2 σ 2 ∏ m = 1 n u n , m → e − 1 2 t 2 σ 2 . Then according to Lévy continuity theorem, we finish the proof of the whole theorem.
我们对于 i.i.d. 列 X ′ n X n ′ ,在 Lindeberg-Feller 中心极限定理中代入 X n , m ← X ′ n − E ( X ′ n ) √ n X n , m ← X n ′ − E ( X n ′ ) n 即可证明一般的中心极限定理,其两条性质不难验证,于是我们得到:
【定理】中心极限定理:对于独立同分布随机变量列 X n X n ,若有 E | X 1 | = μ E | X 1 | = μ 且 Var ( X 1 ) = σ 2 ∈ ( 0 , ∞ ) Var ( X 1 ) = σ 2 ∈ ( 0 , ∞ ) ,那么有 ∑ n i = 1 X i − n μ √ n ⇒ N ( 0 , σ ) ∑ i = 1 n X i − n μ n ⇒ N ( 0 , σ ) 。
【柒】对 Lindeberg-Feller 中心极限定理应用条件的检验。
①∑ n m = 1 Var ( X n , m ) = Var ( X ′ n − E ( X ′ n ) ) < ∞ ∑ m = 1 n Var ( X n , m ) = Var ( X n ′ − E ( X n ′ ) ) < ∞ 。
②对于所有 ε > 0 ε > 0 ,lim n → ∞ ∑ n m = 1 E ( | X n , m | 2 ∣ | X n , m | > ε ) lim n → ∞ ∑ m = 1 n E ( | X n , m | 2 ∣ | X n , m | > ε )
= n E ( | X ′ 1 √ n | 2 ∣ | X ′ 1 √ n | > ε ) = E ( | X ′ 1 | 2 ∣ | X ′ 1 | > ε n 1 2 ) = n E ( | X 1 ′ n | 2 ∣ | X 1 ′ n | > ε ) = E ( | X 1 ′ | 2 ∣ | X 1 ′ | > ε n 1 2 )
由于 E | X ′ 1 | 2 < ∞ E | X 1 ′ | 2 < ∞ ,根据控制收敛定理(Dominated Convergence Theorem),我们可以直接求出积分内部在 n → ∞ n → ∞ 时极限为 0 0 ,并得出原极限同样为 0 0 。
参考资料:
王禹皓老师在《高等应用概率》课上的讲解;
Durrett R, Durrett R. Probability: theory and examples[M]. Cambridge university press, 2019.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具