初探大数定律与中心极限定理
写本文的目的主要是笔者想经由自己的手完整勾勒一遍这两个定理的证明轮廓,并尝试根据自己的想法去主观地“解释”一些证明的 motivation。
本文正文内容是主体内容与证明,旁支定理的证明与辅助理解的文字将使用引用格式(Part 3 整体都可跳过),希望仅阅读主体部分的读者能够在不接触较为艰深的推导的情况下,做到一个感性的认知。
另外,阅读本文可能需要较为基础的测度论作为前置知识。
Part 1 前置定义引入
古往今来,数学家一直十分着迷于证明定理的必然正确性。但事情并没有那么完美,数学家们也需要做出一些妥协,比如他们引入了“几乎必然”(almost surely,简写为 a.s.)——如果一件事情不满足的概率为 \(0\),我们就称其几乎必然发生。
但是,这一条件仍然很强,在对“收敛”这一问题的讨论上,他们引入了“依概率收敛”(converge in probability)——对于随机变量(random variable)列 \(X_n\) 以及随机变量 \(X\),如果对任意 \(\varepsilon>0\),在 \(n\rightarrow\infty\) 时都有 \(\mu(\{w\mid \left|X_n(w)-X(w)\right|>\varepsilon\})\rightarrow 0\),我们就称 \(X_n\) 依概率收敛于 \(X\)。
【壹】几乎必然收敛与依概率收敛的关系是什么?
①几乎必然收敛 \(\Longrightarrow\) 依概率收敛:
反证,若不依概率收敛,我们便可取这样的 \(\varepsilon\),那么 \(\{w\mid \left|X_n(w)-X(w)\right|>\varepsilon\}\subseteq\{w\mid X_n(w)\not\rightarrow X(w)\}\),而左侧概率非零,于是 \(X_n\) 自然就不几乎必然收敛于 \(X\)。
②依概率收敛 \(\not\Longrightarrow\) 几乎必然收敛:
我们尝试对这两者做一个粗略的概括:画一个二维表格,横行对应 \(n\),纵列对应概率空间的每个元素。几乎必然收敛反映着不收敛于 \(X(w)\)的纵列 \(w\) 构成的集合是零测的,而依概率收敛则反映着对于 \(\varepsilon>0\),在横行 \(n\rightarrow\infty\) 时,\(n\) 这一行中,与 \(X(w)\) 差距大于 \(\varepsilon\) 的纵列 \(w\) 构成的集合的测度趋于零。
于是我们要构造的随机变量就必须在横行上不符合的位置越来越少,且让每一纵列都常常不符合(这样就不收敛了)。可以造一个 \([0,1]\) 上的区间,长度递减且通过平移覆盖了每个位置,使得随机变量在这些位置上不符合。
即对于 \(u\geqslant 1,v\in[1,u]\),我们有 \(X_{\frac{(u-1)u}2+v}([\frac{v-1}u,\frac vu])=1\),同时装备勒贝格测度。可以发现这一随机变量列依概率收敛于恒为零的随机变量 \(X\),但是并不几乎必然收敛。
根据壹中的经验,我们可以再引入一个概念:“无穷频繁”(infinitely often,简写为 i.o.。这一概念是我强行译过来的,可能有不当之处),对于一个事件(事件是概率空间中元素的集合),若其只在有限个下标上不发生,我们就称一个事件在序列上无穷频繁。
【贰】
若用集合来描述发生的事件,无穷频繁实际上有一个等价的表述,我们有 \(\limsup A_n=\lim_{m\to\infty}\cup_{n=m}^\infty A_n=\{w\mid w\in A_n\text{ i.o.}\}\)。
类似地,我们有 \(\liminf A_n=\lim_{m\to\infty}\cap_{n=m}^\infty A_n=\{w\mid w\in A_n\text{ for all but finitely many }n\}\)。
我们也可以通过无穷频繁给出一个几乎必然收敛的等价定义:
【定理】\(X_n\rightarrow X\) a.s. 当且仅当对于 \(\varepsilon>0\),我们都有 \(P(|X_n-X|>\varepsilon\text{ i.o.})=0\)。
【证明】我们将右侧换为等价描述,即证 \(P(\cup_{m}\limsup_n A_n(\frac 1m))=0\),其中 \(A_n(\varepsilon)=\{w\mid |X_n(w)-X(w)|>\varepsilon\}\)。
令 \(\Omega_0=\{w\mid X_n(w)\not\to X(w)\}\)。由 a.s. 收敛可知 \(P(\Omega_0)=0\)。
而我们可以发现 \(\limsup_n A_n(\varepsilon)\subseteq \Omega_0\)(通过考察定义),于是 \(P(\cup_{\varepsilon>0}\limsup_nA_n(\varepsilon))\leqslant \sum_{m}P(\limsup_n A_n(\frac 1m))=0\)。
在我们实际证明 a.s. 收敛过程中往往不能做出很细致的刻画,此时我们就可以借助 Borel-Cantelli 引理。
【定理】Borel-Cantelli 引理:若事件列 \(A_n\) 满足 \(\sum P(A_n)<\infty\),那么有 \(P(\limsup A_n)=0\)。
【证明】令随机变量 \(N=\sum 1_{A_n}\),那么 \(E(N)=\sum E(1_{A_n})=\sum P(A_n)<\infty\),而这足以说明 \(N<\infty\) a.s.,而 \(N\) 的含义即为发生的事件数量,\(N(w)<\infty\) 等价于 \(w\in\limsup A_n\)。
为什么 \(E(N)<\infty\Rightarrow N<\infty\text{ a.s.}\)?反证法即可。
【叁】
Borel-Cantelli 引理建立了依概率收敛到几乎处处收敛的一个桥梁,具体地,我们有:
\(X_n\) 依概率收敛于 \(X\) 当且仅当对于所有子序列 \(X_{n(m)}\),其存在子序列 \(X_{n(m_k)}\rightarrow X\text{ a.s.}\)。
(下面证明摘自我的作业,之后会改成中文)
Prove \(\Longrightarrow\):
If \(X_n\rightarrow X\) in probability, then for subsequence \(X_{n(m)}\). We can pick a subsequence \(m_1,m_2,\cdots\), such that \(P(|X_{n(m_k)}-X|>\frac 1k)<2^{-k}\) by picking them sequentially where \(m_k>m_{k-1}\).
Then, \(\sum P(|X_{n(m_k)}-X|>\frac 1k)<1<\infty\), we can know that \(P(\limsup_k A_k)=0\) where \(A_k=|X_{n(m_k)}-X|>\frac 1k\), which means that \(P(\{w\mid w\in A_k\operatorname{ i.o.}\})=0\) which means \(X_{n(m_k)}\rightarrow X\) almost surely.
Prove \(\Longleftarrow\):
For all \(\varepsilon>0\), for a subsequence \(n(m)\), let \(f_n=P(\{w\mid |X_n(w)-X(w)|>\varepsilon\})\).
We can see that, for each subsequence \(n(m)\), there's \(n(m_k)\) such that \(X_{n(m_k)}\) converges to \(X\) almost surely, which implies \(X_{n(m_k)}\) converges to \(X\) in probability, then \(f_{n(m_k)}\) converges to \(0\). Then \(f\) is a Cauchy sequence, which means \(f\rightarrow 0\). That is, \(X_n\rightarrow X\) in probability.
我们在概率和趋于无穷时,我们也有类似的 Borel-Cantelli 第二引理,但是要求事件独立。
【定理】Borel-Cantelli 第二引理:若独立事件列 \(A_n\) 满足 \(\sum P(A_n)=\infty\),那么有 \(P(\limsup A_n)=1\)。
【证明】
对于任意 \(M\),我们实际上可以证明 \(P(\cup_{n\geqslant M}A_n)=1\)。
我们取 \(N\geqslant M\),推一推:
\(P(\cup_{n=M}^N A_n)=1-P(\cap_{n=M}^NA_n^c)=1-\prod_{n=M}^N(1-P(A_n))\geqslant 1-e^{-\sum_{n=M}^NP(A_n)}\)
令 \(N\rightarrow\infty\),\(\sum_{n=M}^NP(A_n)\rightarrow\infty\),自然就有了 \(P(\cup_{n\geqslant M}A_n)=1\)。
Part 2 强大数定律
这一节,我们的目标是证明期望有限的强大数定律,即——
【定理】强大数定律:对于独立同分布随机变量列 \(X_n\),若有 \(E|X_1|=\mu<\infty\),那么有 \(\frac{\sum_{i=1}^n X_i}n\rightarrow \mu\text{ a.s.}\)。
在此之前,让我们先证明其更简单的情况:
【定理】Kolmogorov 二级数定理(翻译参考自 Wikipedia):对于独立随机变量列 \(X_n\),若有 \(\sum \operatorname{Var}(X_n)<\infty\),那么 \(\sum (X_n-E(X_n))\) 几乎必然收敛。
为方便,不妨平移使得 \(E(X_i)=0\)。
我们只知收敛而不知极限,Cauchy 列是处理这种情况的利器。令 \(S_N=\sum_{n=1}^NX_n\),我们想控制 \(P(\max_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\) 来说明其为 Cauchy 列,此时需要先引入一个新的定理以解决问题。
【定理】Kolmogorov 极大不等式:对于独立随机变量列 \(X_n\),若有 \(E(X_i)=0,\operatorname{Var}(X_i)<\infty\)。令 \(S_N=\sum_{n=1}^NX_n\),对于 \(\varepsilon>0\),我们有 \(P(\max_{n=1}^N|S_n|\geqslant\varepsilon)\leqslant\frac{\operatorname{Var}(S_n)}{\varepsilon^2}\)。
【证明】(下面证明摘自我的笔记,之后会改成中文)
Let \(T=\min\{j\leqslant \mid |S_j|\geqslant \varepsilon\}\) and \(T=\infty\) when \(\forall j\leqslant n,|S_j|<\varepsilon\).
We can see that \(P(T\geqslant j)=P(|S_j|<\varepsilon,1\leqslant i\leqslant j-1)\), and:
\( P(\max_{1\leqslant j\leqslant n}|S_j|\geqslant\varepsilon)=P(T\leqslant n)=E(I\{T\leqslant n\})\leqslant E(\frac{S_T^2}{\varepsilon^2}I\{T\leqslant n\})\leqslant \varepsilon^{-2}E(S_{T\wedge n}^2)\\ =\varepsilon^{-2}E(\sum_{j=1}^{T\wedge n}X_j)^2=\varepsilon^{-2}E(\sum_{i=1}^nX_j I\{T\geqslant j\})^2\\ =\varepsilon^{-2}(E(\sum_{j=1}^nX_j^2I\{T\geqslant j\})+2E(\sum_{i<j}X_iX_jI\{T\geqslant j\})) \)
Split it into two parts:
①\(E(\sum_{j=1}^nX_j^2I\{T\geqslant j\})\leqslant \sum_{j=1}^n E(X_j^2)=\operatorname{Var}(S_n)\).
②\(E(\sum_{i<j}X_iX_jI\{T\geqslant j\}])=\sum_{i<j}E(X_i)E(X_j)I\{T\geqslant j\}=0\).
In conclusion: \(P(\max_{1\leqslant j\leqslant n}|S_j|\geqslant \varepsilon)\leqslant \frac{\operatorname{Var}(S_n)}{\varepsilon^2}\).
得到了 Kolmogorov 极大不等式后,我们便可以继续了:
由方差和有限可知,当 \(M\rightarrow\infty\) 时 \(P(\max_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\rightarrow 0\)。
接下来的工作较为平凡,令 \(w_M=\sup_{m,n\geqslant M}|S_m-S_n|\),那么对于 \(\varepsilon>0\),有 \(P(w_M\geqslant 2\varepsilon)\leqslant P(\sup_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\rightarrow0\),即 \(w_M<2\varepsilon\) a.s.,那么 \(S_n\) 几乎必然是 Cauchy 列,于是其几乎必然收敛。
接下来我们就可以着手证明强大数定律了,让我们不妨假设 \(\mu=0\) 并重新写出我们的目标:对于独立同分布随机变量列 \(X_n\),若有 \(E|X_1|=0\),那么有 \(\frac{\sum_{i=1}^n X_i}n\rightarrow 0\text{ a.s.}\)。
强大数定律证明的关键思想是截断(truncation),我们令 \(Y_n=X_n1_{|X_n|\leqslant n}-E(X_n1_{|X_n|\leqslant n}),Z_n=X_n1_{|X_n|>n}-E(X_n1_{|X_n|>n})\),那么 \(X_n=Y_n+Z_n\)(因为 \(E(X_n1_{|X_n|\leqslant n})+E(X_n1_{|X_n|>n})=E(X_n)=0\))。我们接下来尝试分别处理 \(\frac{\sum_{i=1}^nY_i}{n}\) 与 \(\frac{\sum_{i=1}^nZ_i}{n}\)。
令 \(\tilde Y_n=X_n1_{|X_n|\leqslant n}\),那么 \(Y_n=\tilde Y_n-E(\tilde Y_n)\),且 \(\operatorname{Var}(Y_n)=E((\tilde Y_n-E(\tilde Y_n))^2)=E(\tilde Y_n^2)-E(\tilde Y_n)^2\),接下来我们尝试对 \(\frac{Y_n}n\) 应用 Kolmogorov 二级数定理。
【肆】对 Kolmogorov 二级数定理应用条件的检验。
\( \sum_{n=1}^{\infty}\frac{\operatorname{Var}(Y_n)}{n^2}\leqslant\sum_{n=1}^{\infty}\frac{(E(X_1^2)1_{|X_1|\leqslant n})}{n^2}\leqslant E(X_1^2\sum_{n=1}^\infty\frac 1{n^2}1_{|X_1|\leqslant n})\\ \leqslant E(X_1^2\sum_{n\geqslant \lceil|X_1|\rceil}^{\infty}\frac 2{n(n+1)})\leqslant 2E(X_1^2(\frac 1{|X_1|}\wedge 1))\leqslant 2E(|X_1|+1)<\infty \)
应用 Kolmogorov 二级数定理后,我们知道 \(\sum_{n=1}^n\frac{Y_i}{i}\) 几乎必然收敛,对此我们要引用另一个工具:
【定理】Kronecher 引理:对于 \(0<a_1<a_2<\cdots<a_n\rightarrow\infty\),我们有 \(\sum_{i=1}^n\frac{x_i}{a_i}\rightarrow s<\infty\Rightarrow\sum_{i=1}^n\frac{x_i}{a_n}\rightarrow 0\)。
【证明】(下面证明摘自我的笔记,之后会改成中文)
Let \(b_n=\sum_{i=1}^n\frac{x_i}{a_i}\), then \(x_n=a_n(b_n-b_{n-1})\):
\( \sum_{i=1}^n\frac{x_i}{a_n}=\frac 1{a_n}\sum_{i=1}^n a_i(b_i-b_{i-1})=\frac 1{a_n}(a_nb_n+\sum_{i=1}^{n-1}a_ib_i-\sum_{i=1}^n a_ib_{i-1})=b_n-\frac 1{a_n}\sum_{i=1}^n b_{i-1}(a_i-a_{i-1}) \)
We know that for \(\varepsilon>0\), there exists \(N\) such that \(n>N\Rightarrow |b_n-s|<\varepsilon\), then:
\( \sum_{i=1}^n\frac{x_i}{a_i}=b_n-\frac 1{a_n}(\sum_{i=1}^{N-1}b_{i-1}(a_i-a_{i-1}+\sum_{i=N}^{n}(a_i-a_{i-1})s+\sum_{i=N}^n(a_i-a_{i-1}(b_{i-1}-s)))) \)
Split it into four parts, when \(n\rightarrow \infty\):
①\(b_n\rightarrow s\).
②\(-\frac 1{a_n}\sum_{i=1}^{N-1}b_{i-1}(a_i-a_{i-1})\rightarrow 0\) since \(a_n\rightarrow\infty\) and the summation is finite.
③\(-\frac 1{a_n}\sum_{i=N}^n(a_i-a_{i-1})s=-\frac {s(a_n-a_{N-1})}{a_n}\rightarrow s\).
④Let \(T=-\frac 1{a_n}\sum_{i=N}^n(a_i-a_{i-1})(b_{i-1}-s)\), then \(|T|\leqslant \frac1{a_n}\sum_{i=N}^n(a_i-a_{i-1})\varepsilon=(1-\frac{a_{N-1}}{a_n})\varepsilon\).
In conclusion, \(\sum_{i=1}^n\frac{x_i}{a_i}\rightarrow 0\) when \(n\rightarrow\infty\).
通过 Kronecher 引理我们可以发现,对于所有概率空间中的元素 \(w\),若 \(\sum_{i=1}^n\frac{Y_i(w)}{i}\) 收敛,那么 \(\sum_{i=1}^n\frac{Y_i(w)}n\rightarrow 0\)。结合上面的结果,我们便得到了 \(\frac {\sum_{i=1}^nY_i}n\rightarrow 0\text{ a.s.}\)。
相较于 \(Y_n\),\(Z_n\) 的处理就显得格外小巧:
【伍】对 \(Z_n\) 的处理。
(下面证明摘自我的笔记,之后会改成中文)
For \(w\in\Omega\), let \(N(w)=\{i\mid |X_i|>i\}\), then almost surely \(|\frac 1n\sum_{i=1}^nX_i(w)I\{|X_i(w)|>i\}|\leqslant \frac 1n\sum_{i=1}^{N(w)}|X_i(w)|\).
Since \(E(|X_1|)<\infty\Rightarrow\sum_{i=1}^{\infty}P(|X_1|>i)=\sum_{i=1}^\infty P(|X_i|>i)\leqslant E|X_1|<\infty\), so by Borel-Cantelli Lemma, \(|X_i|>i\) isn't infinite often almost surely, that is,\(|\{i\mid |X_i(w)|>i\}|<\infty\) almost surely.
Then we can see that \(N(w)<\infty\) as \(n\rightarrow \infty\), so \(\frac 1n\sum_{i=1}^{N(w)}|X_i(w)|\rightarrow 0\) and \(|\frac 1n\sum_{i=1}^nX_i(w)I\{|X_i(w)|>i\}|\rightarrow 0\).
综上,我们得到了 \(\frac{\sum_{i=1}^n Y_n}{n},\frac{\sum_{i=1}^n Z_n}n\rightarrow 0\text{ a.s.}\),相加即可得到 \(\frac{\sum_{i=1}^n X_n}{n}\rightarrow 0\text{ a.s.}\),于是强大数定律得证。
Part 3 大数定律的收敛率*
咕咕咕。
Part 4 弱大数定律
咕咕咕。
Part 5 中心极限定理
咕咕咕。
参考资料:
- 王禹皓老师在《高等应用概率》课上的讲解;
- Durrett R, Durrett R. Probability: theory and examples[M]. Cambridge university press, 2019.