初探大数定律与中心极限定理（更新中）

写本文的目的主要是笔者想经由自己的手完整勾勒一遍这两个定理的证明轮廓，并尝试根据自己的想法去主观地“解释”一些证明的 motivation。

本文正文内容是主体内容与证明，旁支定理的证明与辅助理解的文字将使用引用格式（Part 3 整体都可跳过），希望仅阅读主体部分的读者能够在不接触较为艰深的推导的情况下，做到一个感性的认知。

另外，阅读本文可能需要较为基础的测度论作为前置知识。

Part 1 前置定义引入

古往今来，数学家一直十分着迷于证明定理的必然正确性。但事情并没有那么完美，数学家们也需要做出一些妥协，比如他们引入了“几乎必然”（almost surely，简写为 a.s.）——如果一件事情不满足的概率为 \(0\)，我们就称其几乎必然发生。

但是，这一条件仍然很强，在对“收敛”这一问题的讨论上，他们引入了“依概率收敛”（converge in probability）——对于随机变量（random variable）列 \(X_n\) 以及随机变量 \(X\)，如果对任意 \(\varepsilon>0\)，在 \(n\rightarrow\infty\) 时都有 \(\mu(\{w\mid \left|X_n(w)-X(w)\right|>\varepsilon\})\rightarrow 0\)，我们就称 \(X_n\) 依概率收敛于 \(X\)。

【壹】几乎必然收敛与依概率收敛的关系是什么？
①几乎必然收敛 \(\Longrightarrow\) 依概率收敛：
反证，若不依概率收敛，我们便可取这样的 \(\varepsilon\)，那么 \(\{w\mid \left|X_n(w)-X(w)\right|>\varepsilon\}\subseteq\{w\mid X_n(w)\not\rightarrow X(w)\}\)，而左侧概率非零，于是 \(X_n\) 自然就不几乎必然收敛于 \(X\)。
②依概率收敛 \(\not\Longrightarrow\) 几乎必然收敛：
我们尝试对这两者做一个粗略的概括：画一个二维表格，横行对应 \(n\)，纵列对应概率空间的每个元素。几乎必然收敛反映着不收敛于 \(X(w)\)的纵列 \(w\) 构成的集合是零测的，而依概率收敛则反映着对于 \(\varepsilon>0\)，在横行 \(n\rightarrow\infty\) 时，\(n\) 这一行中，与 \(X(w)\) 差距大于 \(\varepsilon\) 的纵列 \(w\) 构成的集合的测度趋于零。
于是我们要构造的随机变量就必须在横行上不符合的位置越来越少，且让每一纵列都常常不符合（这样就不收敛了）。可以造一个 \([0,1]\) 上的区间，长度递减且通过平移覆盖了每个位置，使得随机变量在这些位置上不符合。
即对于 \(u\geqslant 1,v\in[1,u]\)，我们有 \(X_{\frac{(u-1)u}2+v}([\frac{v-1}u,\frac vu])=1\)，同时装备勒贝格测度。可以发现这一随机变量列依概率收敛于恒为零的随机变量 \(X\)，但是并不几乎必然收敛。

根据壹中的经验，我们可以再引入一个概念：“无穷频繁”（infinitely often，简写为 i.o.。这一概念是我强行译过来的，可能有不当之处），对于一个事件（事件是概率空间中元素的集合），若其只在有限个下标上不发生，我们就称一个事件在序列上无穷频繁。

【贰】
若用集合来描述发生的事件，无穷频繁实际上有一个等价的表述，我们有 \(\limsup A_n=\lim_{m\to\infty}\cup_{n=m}^\infty A_n=\{w\mid w\in A_n\text{ i.o.}\}\)。
类似地，我们有 \(\liminf A_n=\lim_{m\to\infty}\cap_{n=m}^\infty A_n=\{w\mid w\in A_n\text{ for all but finitely many }n\}\)。

我们也可以通过无穷频繁给出一个几乎必然收敛的等价定义：

【定理】\(X_n\rightarrow X\) a.s. 当且仅当对于 \(\varepsilon>0\)，我们都有 \(P(|X_n-X|>\varepsilon\text{ i.o.})=0\)。

【证明】我们将右侧换为等价描述，即证 \(P(\cup_{m}\limsup_n A_n(\frac 1m))=0\)，其中 \(A_n(\varepsilon)=\{w\mid |X_n(w)-X(w)|>\varepsilon\}\)。
令 \(\Omega_0=\{w\mid X_n(w)\not\to X(w)\}\)。由 a.s. 收敛可知 \(P(\Omega_0)=0\)。
而我们可以发现 \(\limsup_n A_n(\varepsilon)\subseteq \Omega_0\)（通过考察定义），于是 \(P(\cup_{\varepsilon>0}\limsup_nA_n(\varepsilon))\leqslant \sum_{m}P(\limsup_n A_n(\frac 1m))=0\)。

在我们实际证明 a.s. 收敛过程中往往不能做出很细致的刻画，此时我们就可以借助 Borel-Cantelli 引理。

【定理】Borel-Cantelli 引理：若事件列 \(A_n\) 满足 \(\sum P(A_n)<\infty\)，那么有 \(P(\limsup A_n)=0\)。

【证明】令随机变量 \(N=\sum 1_{A_n}\)，那么 \(E(N)=\sum E(1_{A_n})=\sum P(A_n)<\infty\)，而这足以说明 \(N<\infty\) a.s.，而 \(N\) 的含义即为发生的事件数量，\(N(w)<\infty\) 等价于 \(w\in\limsup A_n\)。
为什么 \(E(N)<\infty\Rightarrow N<\infty\text{ a.s.}\)？反证法即可。

【叁】
Borel-Cantelli 引理建立了依概率收敛到几乎处处收敛的一个桥梁，具体地，我们有：
\(X_n\) 依概率收敛于 \(X\) 当且仅当对于所有子序列 \(X_{n(m)}\)，其存在子序列 \(X_{n(m_k)}\rightarrow X\text{ a.s.}\)。
（下面证明摘自我的作业，之后会改成中文）
Prove \(\Longrightarrow\):
If \(X_n\rightarrow X\) in probability, then for subsequence \(X_{n(m)}\). We can pick a subsequence \(m_1,m_2,\cdots\), such that \(P(|X_{n(m_k)}-X|>\frac 1k)<2^{-k}\) by picking them sequentially where \(m_k>m_{k-1}\).
Then, \(\sum P(|X_{n(m_k)}-X|>\frac 1k)<1<\infty\), we can know that \(P(\limsup_k A_k)=0\) where \(A_k=|X_{n(m_k)}-X|>\frac 1k\), which means that \(P(\{w\mid w\in A_k\operatorname{ i.o.}\})=0\) which means \(X_{n(m_k)}\rightarrow X\) almost surely.
Prove \(\Longleftarrow\):
For all \(\varepsilon>0\), for a subsequence \(n(m)\), let \(f_n=P(\{w\mid |X_n(w)-X(w)|>\varepsilon\})\).
We can see that, for each subsequence \(n(m)\), there's \(n(m_k)\) such that \(X_{n(m_k)}\) converges to \(X\) almost surely, which implies \(X_{n(m_k)}\) converges to \(X\) in probability, then \(f_{n(m_k)}\) converges to \(0\). Then \(f\) is a Cauchy sequence, which means \(f\rightarrow 0\). That is, \(X_n\rightarrow X\) in probability.

我们在概率和趋于无穷时，我们也有类似的 Borel-Cantelli 第二引理，但是要求事件独立。

【定理】Borel-Cantelli 第二引理：若独立事件列 \(A_n\) 满足 \(\sum P(A_n)=\infty\)，那么有 \(P(\limsup A_n)=1\)。

【证明】
对于任意 \(M\)，我们实际上可以证明 \(P(\cup_{n\geqslant M}A_n)=1\)。
我们取 \(N\geqslant M\)，推一推：
\(P(\cup_{n=M}^N A_n)=1-P(\cap_{n=M}^NA_n^c)=1-\prod_{n=M}^N(1-P(A_n))\geqslant 1-e^{-\sum_{n=M}^NP(A_n)}\)
令 \(N\rightarrow\infty\)，\(\sum_{n=M}^NP(A_n)\rightarrow\infty\)，自然就有了 \(P(\cup_{n\geqslant M}A_n)=1\)。

Part 2 强大数定律

这一节，我们的目标是证明期望有限的强大数定律，即——

【定理】强大数定律：对于独立同分布随机变量列 \(X_n\)，若有 \(E|X_1|=\mu<\infty\)，那么有 \(\frac{\sum_{i=1}^n X_i}n\rightarrow \mu\text{ a.s.}\)。

在此之前，让我们先证明其更简单的情况：

【定理】Kolmogorov 二级数定理（翻译参考自 Wikipedia）：对于独立随机变量列 \(X_n\)，若有 \(\sum \operatorname{Var}(X_n)<\infty\)，那么 \(\sum (X_n-E(X_n))\) 几乎必然收敛。

为方便，不妨平移使得 \(E(X_i)=0\)。

我们只知收敛而不知极限，Cauchy 列是处理这种情况的利器。令 \(S_N=\sum_{n=1}^NX_n\)，我们想控制 \(P(\max_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\) 来说明其为 Cauchy 列，此时需要先引入一个新的定理以解决问题。

【定理】Kolmogorov 极大不等式：对于独立随机变量列 \(X_n\)，若有 \(E(X_i)=0,\operatorname{Var}(X_i)<\infty\)。令 \(S_N=\sum_{n=1}^NX_n\)，对于 \(\varepsilon>0\)，我们有 \(P(\max_{n=1}^N|S_n|\geqslant\varepsilon)\leqslant\frac{\operatorname{Var}(S_n)}{\varepsilon^2}\)。
【证明】（下面证明摘自我的笔记，之后会改成中文）
Let \(T=\min\{j\leqslant \mid |S_j|\geqslant \varepsilon\}\) and \(T=\infty\) when \(\forall j\leqslant n,|S_j|<\varepsilon\).
We can see that \(P(T\geqslant j)=P(|S_j|<\varepsilon,1\leqslant i\leqslant j-1)\), and:
\( P(\max_{1\leqslant j\leqslant n}|S_j|\geqslant\varepsilon)=P(T\leqslant n)=E(I\{T\leqslant n\})\leqslant E(\frac{S_T^2}{\varepsilon^2}I\{T\leqslant n\})\leqslant \varepsilon^{-2}E(S_{T\wedge n}^2)\\ =\varepsilon^{-2}E(\sum_{j=1}^{T\wedge n}X_j)^2=\varepsilon^{-2}E(\sum_{i=1}^nX_j I\{T\geqslant j\})^2\\ =\varepsilon^{-2}(E(\sum_{j=1}^nX_j^2I\{T\geqslant j\})+2E(\sum_{i<j}X_iX_jI\{T\geqslant j\})) \)
Split it into two parts:
①\(E(\sum_{j=1}^nX_j^2I\{T\geqslant j\})\leqslant \sum_{j=1}^n E(X_j^2)=\operatorname{Var}(S_n)\).
②\(E(\sum_{i<j}X_iX_jI\{T\geqslant j\}])=\sum_{i<j}E(X_i)E(X_j)I\{T\geqslant j\}=0\).
In conclusion: \(P(\max_{1\leqslant j\leqslant n}|S_j|\geqslant \varepsilon)\leqslant \frac{\operatorname{Var}(S_n)}{\varepsilon^2}\).

得到了 Kolmogorov 极大不等式后，我们便可以继续了：

\[P(\max_{m=M}^N|S_m-S_M|\geqslant \varepsilon)\leqslant\frac{\operatorname{Var}(S_N-S_M)}{\varepsilon^2}=\frac{\sum_{n=M+1}^N\operatorname{Var}(X_n)}{\varepsilon^2}\\ \Rightarrow P(\max_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\leqslant\frac{\sum_{n=M+1}^{\infty}\operatorname{Var}(S_n)}{\varepsilon^2}\]

由方差和有限可知，当 \(M\rightarrow\infty\) 时 \(P(\max_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\rightarrow 0\)。

接下来的工作较为平凡，令 \(w_M=\sup_{m,n\geqslant M}|S_m-S_n|\)，那么对于 \(\varepsilon>0\)，有 \(P(w_M\geqslant 2\varepsilon)\leqslant P(\sup_{m\geqslant M}|S_m-S_M|\geqslant\varepsilon)\rightarrow0\)，即 \(w_M<2\varepsilon\) a.s.，那么 \(S_n\) 几乎必然是 Cauchy 列，于是其几乎必然收敛。

接下来我们就可以着手证明强大数定律了，让我们不妨假设 \(\mu=0\) 并重新写出我们的目标：对于独立同分布随机变量列 \(X_n\)，若有 \(E|X_1|=0\)，那么有 \(\frac{\sum_{i=1}^n X_i}n\rightarrow 0\text{ a.s.}\)。

强大数定律证明的关键思想是截断（truncation），我们令 \(Y_n=X_n1_{|X_n|\leqslant n}-E(X_n1_{|X_n|\leqslant n}),Z_n=X_n1_{|X_n|>n}-E(X_n1_{|X_n|>n})\)，那么 \(X_n=Y_n+Z_n\)（因为 \(E(X_n1_{|X_n|\leqslant n})+E(X_n1_{|X_n|>n})=E(X_n)=0\)）。我们接下来尝试分别处理 \(\frac{\sum_{i=1}^nY_i}{n}\) 与 \(\frac{\sum_{i=1}^nZ_i}{n}\)。

令 \(\tilde Y_n=X_n1_{|X_n|\leqslant n}\)，那么 \(Y_n=\tilde Y_n-E(\tilde Y_n)\)，且 \(\operatorname{Var}(Y_n)=E((\tilde Y_n-E(\tilde Y_n))^2)=E(\tilde Y_n^2)-E(\tilde Y_n)^2\)，接下来我们尝试对 \(\frac{Y_n}n\) 应用 Kolmogorov 二级数定理。

【肆】对 Kolmogorov 二级数定理应用条件的检验。
\( \sum_{n=1}^{\infty}\frac{\operatorname{Var}(Y_n)}{n^2}\leqslant\sum_{n=1}^{\infty}\frac{(E(X_1^2)1_{|X_1|\leqslant n})}{n^2}\leqslant E(X_1^2\sum_{n=1}^\infty\frac 1{n^2}1_{|X_1|\leqslant n})\\ \leqslant E(X_1^2\sum_{n\geqslant \lceil|X_1|\rceil}^{\infty}\frac 2{n(n+1)})\leqslant 2E(X_1^2(\frac 1{|X_1|}\wedge 1))\leqslant 2E(|X_1|+1)<\infty \)

应用 Kolmogorov 二级数定理后，我们知道 \(\sum_{n=1}^n\frac{Y_i}{i}\) 几乎必然收敛，对此我们要引用另一个工具：

【定理】Kronecher 引理：对于 \(0<a_1<a_2<\cdots<a_n\rightarrow\infty\)，我们有 \(\sum_{i=1}^n\frac{x_i}{a_i}\rightarrow s<\infty\Rightarrow\sum_{i=1}^n\frac{x_i}{a_n}\rightarrow 0\)。
【证明】（下面证明摘自我的笔记，之后会改成中文）
Let \(b_n=\sum_{i=1}^n\frac{x_i}{a_i}\), then \(x_n=a_n(b_n-b_{n-1})\):
\( \sum_{i=1}^n\frac{x_i}{a_n}=\frac 1{a_n}\sum_{i=1}^n a_i(b_i-b_{i-1})=\frac 1{a_n}(a_nb_n+\sum_{i=1}^{n-1}a_ib_i-\sum_{i=1}^n a_ib_{i-1})=b_n-\frac 1{a_n}\sum_{i=1}^n b_{i-1}(a_i-a_{i-1}) \)
We know that for \(\varepsilon>0\), there exists \(N\) such that \(n>N\Rightarrow |b_n-s|<\varepsilon\), then:
\( \sum_{i=1}^n\frac{x_i}{a_i}=b_n-\frac 1{a_n}(\sum_{i=1}^{N-1}b_{i-1}(a_i-a_{i-1}+\sum_{i=N}^{n}(a_i-a_{i-1})s+\sum_{i=N}^n(a_i-a_{i-1}(b_{i-1}-s)))) \)
Split it into four parts, when \(n\rightarrow \infty\):
①\(b_n\rightarrow s\).
②\(-\frac 1{a_n}\sum_{i=1}^{N-1}b_{i-1}(a_i-a_{i-1})\rightarrow 0\) since \(a_n\rightarrow\infty\) and the summation is finite.
③\(-\frac 1{a_n}\sum_{i=N}^n(a_i-a_{i-1})s=-\frac {s(a_n-a_{N-1})}{a_n}\rightarrow s\).
④Let \(T=-\frac 1{a_n}\sum_{i=N}^n(a_i-a_{i-1})(b_{i-1}-s)\), then \(|T|\leqslant \frac1{a_n}\sum_{i=N}^n(a_i-a_{i-1})\varepsilon=(1-\frac{a_{N-1}}{a_n})\varepsilon\).
In conclusion, \(\sum_{i=1}^n\frac{x_i}{a_i}\rightarrow 0\) when \(n\rightarrow\infty\).

通过 Kronecher 引理我们可以发现，对于所有概率空间中的元素 \(w\)，若 \(\sum_{i=1}^n\frac{Y_i(w)}{i}\) 收敛，那么 \(\sum_{i=1}^n\frac{Y_i(w)}n\rightarrow 0\)。结合上面的结果，我们便得到了 \(\frac {\sum_{i=1}^nY_i}n\rightarrow 0\text{ a.s.}\)。

相较于 \(Y_n\)，\(Z_n\) 的处理就显得格外小巧：

【伍】对 \(Z_n\) 的处理。
（下面证明摘自我的笔记，之后会改成中文）
For \(w\in\Omega\), let \(N(w)=\{i\mid |X_i|>i\}\), then almost surely \(|\frac 1n\sum_{i=1}^nX_i(w)I\{|X_i(w)|>i\}|\leqslant \frac 1n\sum_{i=1}^{N(w)}|X_i(w)|\).
Since \(E(|X_1|)<\infty\Rightarrow\sum_{i=1}^{\infty}P(|X_1|>i)=\sum_{i=1}^\infty P(|X_i|>i)\leqslant E|X_1|<\infty\), so by Borel-Cantelli Lemma, \(|X_i|>i\) isn't infinite often almost surely, that is,\(|\{i\mid |X_i(w)|>i\}|<\infty\) almost surely.
Then we can see that \(N(w)<\infty\) as \(n\rightarrow \infty\), so \(\frac 1n\sum_{i=1}^{N(w)}|X_i(w)|\rightarrow 0\) and \(|\frac 1n\sum_{i=1}^nX_i(w)I\{|X_i(w)|>i\}|\rightarrow 0\).

综上，我们得到了 \(\frac{\sum_{i=1}^n Y_n}{n},\frac{\sum_{i=1}^n Z_n}n\rightarrow 0\text{ a.s.}\)，相加即可得到 \(\frac{\sum_{i=1}^n X_n}{n}\rightarrow 0\text{ a.s.}\)，于是强大数定律得证。

Part 3 大数定律的收敛率*

这一章，我们来介绍以下大数定律延伸出的，对 i.i.d 随机变量列前缀和更精细地刻画。

我们先说明，实际上随机变量波动带来的误差部分不需要用 \(n\) 来 bound，\(\sqrt n\log^{\frac 12+\varepsilon}\) 足矣（实际上通过更复杂的分析，可以用 \(\sqrt{n\log\log n}\) 来 bound）。

【定理】对于独立同分布随机变量列 \(X_n\)，若有 \(E|X_1|=0\) 且 \(\operatorname{Var}(X_1)=\sigma^2<\infty\)，那么有 \(\frac{\sum_{i=1}^n X_i}{\sqrt n\log^{\frac 12+\varepsilon}n}\rightarrow 0\text{ a.s.}\)。

证明并不困难，我们回顾 Kolmogorov 二级数定理，直接考察 \(\sum_{n=1}^{\infty}\operatorname{Var}(\frac{X_n}{\max(1,\sqrt n\log^{\frac 12+\varepsilon}n)})=\sigma^2(1+\sum_{n=2}^{\infty}\frac1{n\log^{1+2\varepsilon} n})<\infty\)（这里对 \(1\) 取 \(\max\) 为规避第一步除以 \(0\)），接下来再应用 Kronecher 引理便得证了。

通过上述证明过程也不难发现，上述刻画的 convergence rate 实际上也就是一个数列求和 convergence rate 的简单推论。

另一个可行的推广方向则是修改大数定律初始条件，将 \(E|X_1|<\infty\) 改为 \(E|X_1|^p<\infty\)，可以发现我们只需关心 \(p\in(0,2)\)：

【定理】Marcinkiewicz-Zygmund 强大数定律：对于独立同分布随机变量列 \(X_n\)，若对于某个 \(p\in(0,2)\) 有 \(E|X_1|^p<\infty\)，那么有 \(\begin{cases}\frac{\sum_{i=1}^n X_i-nE(X_1)}{n^{\frac 1p}}\rightarrow 0\text{ a.s.}&1\leqslant p<2\\\frac{\sum_{i=1}^n X_i}{n^{\frac 1p}}\rightarrow 0\text{ a.s.}&0<p<1\end{cases}\)。

我们只需在原本的证明过程中，将对 \(n\) 的截断修改为对 \(n^{\frac 1p}\) 的截断，\(Z_n\) 可以直接简单用 \(E|X_1|^p\) bound 再用 Borel-Cantelli 收割，\(Y_n\) 则可以用更一些复杂的代数推导来 bound。

【陆】一些修补的细节。
①如何分析掉 \(Z_n\)？
\(\sum P(X_n\ne Y_n)=\sum P(|X_n|>n^{\frac 1p})=E|X_1|^p<\infty\)，接下来应用 Borel-Cantelli 引理即可（需要留意的是，这里的分析实际上相当粗糙，后文有对其的修补）。
②如何控制方差和？
我们用积分的形式展开 \(\operatorname{Var}(Y_n)\) 并按照 \(n^{\frac 1p}\) 分段，接下来就可以直接分析了：
\(\sum \operatorname{Var}(\frac{Y_n}{n^{\frac 1p}})\leqslant \sum_{m}\int_{(m-1)^{\frac 1p}}^{m^{\frac 1p}}2yP(|X_1|>y)\mathrm dy\sum_{n\geqslant m}\frac{1}{n^{\frac 2p}}\)
\(\leqslant (\int_0^12yP(|X_1|>y)\mathrm dy)+\sum_m\int_{(m-1)^{\frac 1p}}^{m^{\frac 1p}}\frac{2p}{2-p}y^{p-1}P(|X_1|>y)\mathrm dy\)
\(\leqslant (1+\frac{2p}{2-p})\int_0^\infty y^{p-1}P(|X_1|>y)\mathrm dy=\frac{p+2}{p(2-p)}E|X_1|^p<\infty\)
推导时还用到了这一结论：
\(\sum_{n\geqslant m}n^{-\frac 2p}\leqslant\int_{m-1}^\infty x^{-\frac 2p}\mathrm dx=\frac p{2-p}(m-1)^{\frac{p-2}p}\leqslant \frac p{2-p}y^{p-2}\)
③\(1\leqslant p<2\) 的时候如何收尾？
直接 \(Y_n\leftarrow Y_n-E(Y_n)\)，然后应用 Kolmogorov 二级数定理和 Kronecher 引理就行。
④\(0<p<1\) 的时候如何收尾？
问题在于 \(E(Y_n)\) 的求和收敛性不再明朗，因此我们需要为其专门分析，好在这一问题与原问题没有什么区别——
\(\sum\frac{E(Y_n)}{n^{\frac 1p}}\leqslant\sum_n\frac 1{n^{\frac 1p}}\sum_{m=1}^n\int_{(m-1)^{\frac 1p}}^{m^{\frac 1p}}P(|X_1|>y)\mathrm dy\)
\(=\sum_{m}\int_{(m-1)^{\frac 1p}}^{m^{\frac 1p}}P(|X_1|>y)\mathrm dy\sum_{n\geqslant m}\frac{1}{n^{\frac 1p}}\)
\(\leqslant (\int_0^1P(|X_1|>y)\mathrm dy)+\sum_m\int_{(m-1)^{\frac 1p}}^{m^{\frac 1p}}\frac{p}{1-p}y^{p-1}P(|X_1|>y)\mathrm dy\)
\(\leqslant (\frac{p}{1-p}+1)\int_0^\infty y^{p-1}P(|X_1|>y)\mathrm dy=\frac{1}{p(1-p)}E|X_1|^p<\infty\)
其中同样用到了以下结论：
\(\sum_{n\geqslant m}n^{-\frac 1p}\leqslant\int_{m-1}^\infty x^{-\frac 1p}\mathrm dx=\frac p{1-p}(m-1)^{\frac{p-1}p}\leqslant \frac p{1-p}y^{p-1}\)
接下来我们先变换 \(Y_n\leftarrow Y_n-E(Y_n)\) 并应用 Kolmogorov 二级数定理和 Kronecher 引理，再用刚刚证明的结论把 \(E(Y_n)\) 项修补进来即可。

Part 4 弱大数定律

咕咕咕。

（这里记得补充对三角形随机变量列大数定律的证明）

Part 5 中心极限定理

咕咕咕。

（这里记得补充对分布收敛、特征函数、Lévy continuity theorem 的引入）

让我们直接快进，来证明 Lindeberg-Feller 中心极限定理！

【定理】Lindeberg-Feller 中心极限定理：对于三角形随机变量列 \(X_{n,m}(1\leqslant m\leqslant n)\)，其中 \(E(X_{n,m})=0\) 且对于固定的 \(n\)，\(X_{n,m}\) 相互独立。若 \(X_{n,m}\) 满足以下两条性质，我们就有 \(n\rightarrow\infty\) 时 \(\sum_{m=1}^nX_{n,m}\Rightarrow \mathcal N(0,\sigma)\)。

\(\sum_{m=1}^n \operatorname{Var}(X_{n,m})\rightarrow \sigma^2>0\)；
对于所有 \(\varepsilon>0\) 都有 \(\lim_{n\rightarrow\infty}\sum_{m=1}^nE(|X_{n,m}|^2\mid |X_{n,m}|>\varepsilon)=0\)。

可以发现这两条性质就是一个照着箭画靶的过程，我们直接给出其证明过程——

（下面证明摘自我的笔记，之后会改成中文）

Lemma 1: \(|E(e^{itX})-\sum_{m=0}^n\frac{(itX)^m}{m!}|\leqslant E(\min(|tX|^{n+1},2|tX|^n))\).

Proof:

By Jensen's inequality, we have \(|E(e^{itX})-\sum_{m=0}^n\frac{E((itX)^m)}{m!}|\leqslant E|e^{itX}-\sum_{m=0}^n\frac{(itX)^m}{m!}|\), and we're going to prove \(|e^{ix}-\sum_{m=0}^n\frac{(ix)^m}{m!}|\leqslant\min(\frac{|x|^{n+1}}{(n+1)}!,\frac{2|x|^n}{n!})\).

We can use Taylor's formula with remainder of integral:

\[e^{ix}=\sum_{m=0}^n\frac{(ix)^m}{m!}+\frac{i^{n+1}}{n!}\int_0^x(x-s)^ne^{is}\mathrm ds\\ \]
Then we try to estimate the remainder part.

Since \(|e^{is}|\leqslant 1\), it's not to see that \(|\int_0^x(x-s)^ne^{is}\mathrm ds|\leqslant \frac{|x|^{n+1}}{n+1}\). So \(|e^{ix}-\sum_{m=0}^n\frac{(ix)^m}{m!}|\leqslant\frac{|x|^{n+1}}{(n+1)!}\).

Then we can see that:

\[|e^{ix}-\sum_{m=0}^n\frac{(ix)^m}{m!}|\leqslant |e^{ix}-\sum_{m=0}^{n-1}\frac{(ix)^m}{m!}|+|\frac{(ix)^n}{n!}|\leqslant \frac{2|x|^n}{n!} \]

Lemma 2: For \(z_1,z_2,\cdots,z_n,w_1,w_2,\cdots,w_n\) with modulus \(\leqslant\theta\), we have \(|\prod_{m=1}^nz_m-\prod_{m=1}^n w_m|\leqslant\theta^{n-1}\sum_{m=1}^n|z_m-w_m|\).

Proof:

We prove it by induction. \(n=1\) is obvious, and then:

\[|\prod_{m=1}^nz_m-\prod_{m=1}^nw_m|\leqslant|z_1\sum_{m=2}^nz_m-z_1\prod_{m=2}^nw_m|+|z_1\prod_{m=2}^nw_m-w_1\prod_{m=2}^nw_m|\\ =\theta|\prod_{m=2}^n z_m-\prod_{m=2}^nw_m|+\theta^{n-1}|z_1-w_1|\leqslant\theta^{n-1}\sum_{m=1}^n|z_m-m_m| \]

Lemma 3: For \(\max_{m=1}^n a_{n,m}\rightarrow 0,\sum_{m=1}^n a_{n,m}\rightarrow \lambda\) and \(\sup_n\sum_{m=1}^n|a_{n,m}|<\infty\), we have \(\prod_{m=1}^n(1+a_{n,m})\rightarrow e^\lambda\).

Proof:

Just observe that if \(x\rightarrow0\), \(\frac{\ln(1+x)}{x}\rightarrow 1\).

For each \(\varepsilon\in(0,1)\), there's \(\delta>0\) such that \(|x|<\delta\Rightarrow |\frac{\ln(1+x)}x-1|<\varepsilon\), and it means \((1-\varepsilon)x\leqslant \log(1+x)\leqslant (1+\varepsilon)x\).

Then:

\[\sum_{m=1}^n\log(1+a_{n,m})\in[(1-\varepsilon)\lambda,(1+\varepsilon)\lambda] \]
Let \(\varepsilon\rightarrow 0\), then \(\sum_{m=1}^n\log(1+a_{n,m})\rightarrow\lambda\), so \(\prod_{m=1}^n(1+a_{n,m})\rightarrow e^\lambda\).

Let \(\varphi_{n,m}(t)=E(e^{itX_{n,m}}),\sigma_{n,m}^2=EX_{n,m}^2\), and our goal is to show the following. (Then apply Lévy continuity theorem)

\[\prod_{m=1}^n\varphi_{n,m}(t)\rightarrow e^{-\frac 12t^2\sigma^2} \]

Pick \(\varepsilon\in(0,1)\):

First let \(u_{n,m}=\varphi_{n,m}(t),v_{n,m}=(1-\frac12t^2\sigma_{n,m}^2)\), then we can see that, according to Lemma 1:

\[|u_{n,m}-v_{n,m}|\leqslant E(\min(|tX_{n,m}|^3,2|tX_{n,m}|^2))\\ \leqslant E(|tX_{n,m}|^3\mid |X_{n,m}|\leqslant \varepsilon)+E(2|tX_{n,m}|^2\mid |X_{n,m}|>\varepsilon)\\ \leqslant \varepsilon t^3E(|X_{n,m}|^2\mid |X_{n,m}|\leqslant \varepsilon)+2t^2E(|X_{n,m}|^2\mid |X_{n,m}|>\varepsilon) \]

Then:

\[\sum_{m=1}^n|u_{n,m}-v_{n,m}|\leqslant \varepsilon t^3\sum_{m=1}^nE(X_{n,m}|^2\mid |X_{n,m}|\leqslant \varepsilon)+2t^2\sum_{m=1}^nE(|X_{n,m}|^2\mid |X_{n,m}|>\varepsilon) \]

Let \(n\rightarrow \infty\), the second part goes to \(0\), and we can bound the first part by \(\varepsilon t^3\sigma^2\) where \(\sigma^2=\lim_{n\rightarrow\infty}\sum_{m=1}^nE(X_{n,m}^2)>0\).

We try to use Lemma 2, before that we need to find \(\theta\) to bound \(|u_{n,m}|\) and \(|v_{n,m}|\). We know \(|\varphi_{n,m}(t)|\leqslant 1\), so we only to bound \(|v_{n,m}|\). And we can see that for \(\zeta>0\):

\[\sup_{m=1}^n\sigma_{n,m}^2\leqslant \sup_{m=1}^n\zeta^2+E(X_{n,m}^2\mid |X_{n,m}|>\zeta)\leqslant \zeta^2+\sum_{m=1}^nE(X_{n,m}^2\mid |X_{n,m}|>\zeta) \]

When \(n\rightarrow\infty\), we could derive \(\sup_{m=1}^n\sigma_{n,m}^2\rightarrow\zeta^2\). Then let \(\zeta\rightarrow 0\) we can get \(\sup_{m=1}^n\sigma_{n,m}^2\rightarrow 0\).

In fact, we only need to pick \(\zeta=\frac 1t\) and then there's \(N>0\) so that for \(n>N\) we have \(\sup_{m=1}^n\sigma_{n,m}^2\leqslant 2\zeta^2\). So for all \(1\leqslant m\leqslant n\), \(|\frac 12t^2\sigma_{n,m}^2|\leqslant \frac12t^2\cdot 2\zeta^2=1\), then \(|v_{n,m}|\in[0,1]\). So we can just set \(\theta=1\) if \(n>N\).

Apply Lemma 2, and we get:

\[\lim_{n\rightarrow\infty}|\prod_{m=1}^n u_{n,m}-\prod_{m=1}^nv_{n,m}|\leqslant \lim_{n\rightarrow\infty}\theta^{n-1}\sum_{m=1}^n|u_{n,m}-v_{n.m}|\leqslant \varepsilon t^3\sigma^2 \]

Let \(\varepsilon\rightarrow 0\), and the limit goes to \(0\).

Let \(a_{n,m}=-\frac12t^2\sigma_{n,m}^2\), then \(\max_{m=1}^na_{n,m}\rightarrow 0\) since \(\sup_{m=1}^n\sigma_{n,m}\rightarrow 0\). Also, \(\sum_{m=1}^na_{n,m}\rightarrow -\frac 12t^2\sigma^2\) and \(\sup_n\sum_{m=1}^n|a_{n,m}|<\infty\) since \(a_{n,m}\) are all non-positive.

Apply Lemma 3 and we get \(\prod_{m=1}^nv_{n,m}=\prod_{m=1}^n(1+a_{n,m})\rightarrow e^{-\frac 12t^2\sigma^2}\), which means \(\prod_{m=1}^nu_{n,m}\rightarrow e^{-\frac12t^2\sigma^2}\). Then according to Lévy continuity theorem, we finish the proof of the whole theorem.

我们对于 i.i.d. 列 \(X'_n\)，在 Lindeberg-Feller 中心极限定理中代入 \(X_{n,m}\leftarrow \frac{X'_n-E(X'_n)}{\sqrt n}\) 即可证明一般的中心极限定理，其两条性质不难验证，于是我们得到：

【定理】中心极限定理：对于独立同分布随机变量列 \(X_n\)，若有 \(E|X_1|=\mu\) 且 \(\operatorname{Var}(X_1)=\sigma^2\in(0,\infty)\)，那么有 \(\frac{\sum_{i=1}^n X_i-n\mu}{\sqrt n}\Rightarrow \mathcal N(0,\sigma)\)。

【柒】对 Lindeberg-Feller 中心极限定理应用条件的检验。
①\(\sum_{m=1}^n\operatorname{Var}(X_{n,m})=\operatorname{Var}(X_n'-E(X_n'))<\infty\)。
②对于所有 \(\varepsilon>0\)，\(\lim_{n\rightarrow\infty}\sum_{m=1}^nE(|X_{n,m}|^2\mid |X_{n,m}|>\varepsilon)\)
\(=nE(|\frac{X_1'}{\sqrt n}|^2\mid |\frac{X_1'}{\sqrt n}|>\varepsilon)=E(|X_1'|^2\mid|X_1'|>\varepsilon n^{\frac12})\)
由于 \(E|X_1'|^2<\infty\)，根据控制收敛定理（Dominated Convergence Theorem），我们可以直接求出积分内部在 \(n\rightarrow\infty\) 时极限为 \(0\)，并得出原极限同样为 \(0\)。

参考资料：

王禹皓老师在《高等应用概率》课上的讲解；
Durrett R, Durrett R. Probability: theory and examples[M]. Cambridge university press, 2019.

posted @ 2024-11-23 23:11 xiaoziyao 阅读(188) 评论(3) 编辑收藏举报

刷新页面返回顶部

xiaoziyao