中心极限定理
中心极限定理\(\newcommand{\F}{\mathcal{F}}\newcommand{\B}{\mathcal{B}}\newcommand{\Var}{\text{Var}}\newcommand{\E}{\mathbb{E}}\)
大数定理告诉我们,一列独立同分布的随机变量在已知期望和方差时,随机变量的平均值趋向期望。现在我们想进一步知道期望附近误差的分布情况,也就是我们要问:一列独立同分布的随机变量的平均值是怎样分布的?中心极限定理(Central Limit Theorem, CLT)指出:独立且同分布的随机变量列\(X_1,X_2,\cdots\),如果有\(E[X_i]=\mu\),\(Var(X_i)=\sigma^2\),那么有\(S_n\stackrel{d}{\to} Y,Y \sim N(n\mu,n\sigma^2)\)。这是一个让人惊奇的结论,它告诉我们无论\(X_i\)本身是如何分布的,只要数量足够多的\(X_i\)相加,和的分布总会形成正态分布的钟形曲线,其中平均值乘以\(n\)处达到概率的顶峰,两侧逐渐递减。做一些系数的调整,我们得到\(\dfrac{S_n-n\mu}{\sqrt{n}\sigma}\stackrel{d}\to Y',Y' \sim N(0,1)\)——独立同分布的随机变量在确定期望和方差之后,随机变量的和除以\(\sqrt{n}\)一定依分布收敛于标准的正态分布。
我们还可以从弱大数定理的证明出发来看中心极限定理。弱大数定理指出,对于独立同分布的随机变量\(X_1,\cdots,X_n,\cdots\),如果\(\E[X_i]=0,\Var(X_i)=1\),那么\(\forall \varepsilon>0,\Pr[\left|\dfrac{S_n}{n}\right|>\varepsilon]=0\)。在证明中,我们运用了Markov不等式\(\Pr[\left|\dfrac{S_n}{n}\right|^2>\varepsilon^2]\leq\dfrac{E\left[\left(\frac{S_n}{n}\right)^2\right]}{\varepsilon^2}=\dfrac{1}{\varepsilon^2n}\)。如果把\(\dfrac{S_n}{n}\)替换成一般的\(\dfrac{S_n}{f(n)}\)来看收敛情况。现在变成了\(\Pr[\left|\dfrac{S_n}{f(n)}\right|^2>\varepsilon^2]=\dfrac{n}{\varepsilon^2f^2(n)}\),可见只有当\(f(n)>\sqrt{n}\)时\(\dfrac{S_n}{f(n)}\)才可能收敛。\(f(n)=\sqrt{n}\)是一个临界点。事实上我们能够证明(从略)不存在任何随机变量\(Y\)使得\(\dfrac{S_n}{\sqrt{n}}\stackrel{p}{\to} Y\)。可见,\(p\)收敛的要求太强了。中心极限定理正是把依概率收敛放弱为了依分布收敛,指出\(\dfrac{S_n}{\sqrt{n}}\stackrel{d}\to Y',Y' \sim N(0,1)\)。
Lindeberg’s approach
下面介绍证明中心极限定理的第一种方法。方便起见,我们不失一般性设\(\mu=0,\sigma^2=1\)。这样我们只需证\(\dfrac{\sum\limits_{i \in [n]}X_i}{\sqrt{n}}\stackrel{d}{\to} Z\),\(Z \sim N(0,1)\)。
首先,如果我们能找到一列i.i.d的随机变量列\(Y_i\)使得\(\dfrac{\sum\limits_{i \in [n]}Y_i}{\sqrt{n}}\stackrel{d}{\to} Z\),\(Z \sim N(0,1)\),那么我们只需证明\(\dfrac{\sum\limits_{i \in [n]}X_i}{\sqrt{n}}\)与\(\dfrac{\sum\limits_{i \in [n]}Y_i}{\sqrt{n}}\)充分接近。而由于我们知道两个正态分布相加依然是正态分布(硬算即证),那么不妨把\(Y_i\)全都取成正态分布\(Y_i \sim (0,1)\),这样就有\(\dfrac{\sum\limits_{i \in [n]}Y_i}{\sqrt{n}}\sim N(0,1)\)。根据分布收敛的compactly supported的性质,\(\dfrac{\sum\limits_{i \in [n]}Y_i}{\sqrt{n}}\stackrel{d}{\to} Z\)等价于对于任意compactly supported连续函数\(f\)成立\(\E\left[f\left(\dfrac{\sum\limits_{i \in [n]}Y_i}{\sqrt{n}}\right)\right]\to \E[Z]\),那么只需证明\(\E\left[f\left(\dfrac{\sum\limits_{i \in [n]}X_i}{\sqrt{n}}\right)\right]-\E\left[f\left(\dfrac{\sum\limits_{i \in [n]}Y_i}{\sqrt{n}}\right)\right]\to 0\),就完成了整个定理的证明。
记\(g(X_1,\cdots,X_n)=\E[f(\dfrac{X_1+\cdots+X_n}{\sqrt{n}})]\),则\(\E[f(Y)]=\E[f(\dfrac{Y_1+\cdots+Y_n}{\sqrt{n}})]\)\(=g(Y_1,\cdots,Y_n)\)。根据三角不等式\(|g(X_1,\cdots,X_n)-g(Y_1,\cdots,Y_n)|\)\(=|g(X_1,\cdots,X_n)-g(Y_1,X_2,\cdots,X_n)+\)\(g(Y_1,X_2,\cdots,X_n)-g(Y_1,Y_2,X_3,\cdots,X_n)+\cdots+\)\(g(Y_1,Y_2,\cdots,X_n)-g(Y_1,\cdots,Y_n)|\leq |g(X_1,\cdots,X_n)-g(Y_1,X_2,\cdots,X_n)|\)\(+\cdots+|g(Y_1,Y_2,\cdots,X_n)-g(Y_1,\cdots,Y_n)|\),因此只需证明每个\(X_i\)变为\(Y_i\)时,不妨设为\(X_1\)变为\(Y_1\)时,变化量足够小。
对于\(f(z+x)\),在\(z\)处泰勒展开得\(f(z+x)=f(z)+f'(z)x+f''(z)\dfrac{x^2}{2}+O(f'''(z)x^3)\)。记\(Z=\dfrac{X_2+\cdots+X_n}{\sqrt{n}}\)。那么\(\forall \omega \in \Omega\),\(f(Z(\omega)+\dfrac{X_1(\omega)}{\sqrt{n}})=\)\(f(Z(w))+f'(Z(\omega))\dfrac{X_1(\omega)}{\sqrt{n}}+\)\(f''(Z(\omega))\dfrac{X_1(\omega)^2}{2n}+O(f'''(Z(\omega))\dfrac{X_1(\omega)^3}{(\sqrt{n})^3})\),也即\(f(Z+\dfrac{X_1}{\sqrt{n}})=f(Z)+f'(Z)\dfrac{X_1}{\sqrt{n}}+f''(Z)\dfrac{X_1^2}{2n}+\)\(O(f'''(Z)\dfrac{X_1^3}{(\sqrt{n})^3})\),两边同时取期望,并且根据\(Z\)与\(X_1\)独立得到\(\E[f(Z+\dfrac{X_1}{\sqrt{n}})]=\E[f(Z)]+\E[f'(Z)]\dfrac{\E[X_1]}{\sqrt{n}}+\E[f''(Z)]\dfrac{\E[X_1^2]}{2n}+O(\E[f'''(Z)]\dfrac{\E[X_1^3]}{(\sqrt{n})^3})\)。同理可得\(\E[f(Z+\dfrac{Y_1}{\sqrt{n}})]=\E[f(Z)]+\E[f'(Z)]\dfrac{\E[Y_1]}{\sqrt{n}}+\E[f''(Z)]\dfrac{\E[Y_1^2]}{2n}+O(\E[f'''(Z)]\dfrac{\E[Y_1^3]}{(\sqrt{n})^3})\)。而\(\E[X_1]=\E[Y_1]=0\),\(\E[X_1^2]=\E[Y_1^2]=1\),\(\E[Y_1^3]=0\)。因此\(\E[f(Z+\dfrac{X_1}{\sqrt{n}})]-\E[f(Z)+\dfrac{Y_1}{\sqrt{n}}]=O(\E[f'''(Z)]\dfrac{\E[X_1^3]}{(\sqrt{n})^3})\)。不妨假设\(f'''\)是有界的,因为我们可以假设\(f\)是任意阶可微的,否则我们可以用多项式任意阶逼近。此时如果\(\E[X_1^3]\)有界,那么就有因此得到\(\E[f(Z+\dfrac{X_1}{\sqrt{n}})]-\E[f(Z)+\dfrac{Y_1}{\sqrt{n}}]=O(\dfrac{1}{(\sqrt{n})^3})\to 0\)。如果\(\E[X_1^3]\)无界,我们要用truncation,对\(\forall\varepsilon>0\)控制\(|X_n|>\varepsilon\sqrt{n}\)的部分,最后也得证(从略)。这样我们就完成了中心极限定理的证明。
特征函数(Characteristic Function)
第二个证明中心极限定理的方法涉及特征函数,因此我们要先引入特征函数。
特征函数和矩生成函数非常类似,但有矩生成函数没有的优秀性质。我们知道对于矩生成函数\(\E[e^{tX}]\),如果存在一个邻域\(|t|<t_0\)上矩生成函数有定义,那么有矩生成函数在0处的\(k\)阶导等于\(X\)的\(k\)阶矩。然而要使得矩生成函数在这样的邻域上有定义,\(X\)必须任意阶绝对可积。有时\(X\)并不满足这么强的条件,此时就不能利用矩生成函数来求\(k\)阶矩了。我们引入复数,定义\(X\)的特征函数为\(\varphi_X(t)=\E[e^{itX}]\)。此时,根据欧拉公式,\(e^{itX}=\cos tX+i\sin tX\),而\(|\cos tX|,|\sin tX|\leq 1\)恒成立,因此\(e^{itX}\)总是可积的,也即对于任何随机变量\(X\),特征函数\(\varphi_X\)始终存在。
\(\varphi_X(t)=\E[e^{itX}]\)可以用基于分布函数的期望写法写为\(\varphi_X(t)=\displaystyle\int_{-\infty}^{+\infty} e^{itx}dF(x)\)。当density存在时,即为\(\varphi_X(t)=\displaystyle\int_{-\infty}^{+\infty} f(x)e^{itx}dx\)。这恰好是\(f\)的Fourier变换。Fourier变换是有逆变换的,因此\(f(x)=\displaystyle\int_{-\infty}^{+\infty}\varphi_X(t)e^{-ixt}dt\)。当density不存在的时候,定义\(\bar F(x)=\dfrac{F(x^+)+F(x^-)}{2}\),成立\(\forall a<b\),\(\bar F(b)-\bar F(a)=\displaystyle\int_{-\infty}^{+\infty}\dfrac{e^{-ita}-e^{-itb}}{it}\varphi_X(t)dt\)。总之,我们可以看到我们总可以用特征函数来确定随机变量的分布。如果两个随机变量的特征函数相同,那么这两个随机变量的分布函数除了在至多可数个不连续点以外全部相同。特征函数刻画了随机变量的分布。
严格的分析可以说明我们可以进行如下计算:\(\dfrac{d}{dt}\varphi_X(t)=\dfrac{d}{d t}\E[e^{itX}]\)\(=\E[\dfrac{d}{d t}e^{itX}]=\E[iX\cdot e^{itX}]\),当\(t=0\)时得到\(i\E[X]\)。类似地我们可以得到\(\varphi^{(n)}(0)=i^n\E[X^n]\)。也就是我们可以直接对特征函数求导得到\(k\)阶矩,而没有其它对\(X\)的限制。严格地说,只要\(\E[X^k]\)存在且有限,那么就有\(\varphi\)可求\(k\)阶导,并且\(\varphi^{(k)}(0)=i^k\E[X^k]\)。
我们指出,要证依分布收敛只需证特征函数收敛。这称为Levy’s Continuity Theorem:即\(X_i\)的特征函数为\(\varphi_i\),\(X\)的特征函数为\(\varphi_{\infty}\)。那么\(X_n\stackrel{d}{\to} X\)可以推出\(\forall t\in\R,\lim\limits_{n \to \infty}\varphi_i(t)= \varphi_\infty(t)\);如果\(\forall t\in\R,\lim\limits_{n \to \infty}\varphi_i(t)= \varphi_\infty(t)\),且\(\varphi_\infty\)在\(t=0\)处连续,那么\(X_n\stackrel{d}{\to} X\),其中\(\varphi_X=\varphi_\infty\)。证明从略。
如果\(X \sim N(0,1)\),那么通过复分析Cauchy定理可以得到\(\varphi_X(t)=e^{-\frac{t^2}{2}}\)。那么要证明中心极限定理,就是要证明\(\dfrac{X_1+\cdots+X_n}{\sqrt{n}}\)的特征函数收敛到\(e^{-\frac{t^2}{2}}\)。\(\E[e^{it\frac{X_1+\cdots+X_n}{\sqrt{n}}}]=\E[e^{it\frac{X_1}{\sqrt{n}}}]^n\)\(=(\varphi_{X_1}(\dfrac{t}{\sqrt{n}}))^n\)。对\(\varphi_{X_1}(t)\)在0处泰勒展开,有\(\varphi_{X_1}(t)=\varphi_{X_1}(0)+\varphi_{X_1}'(0)t+\frac 12\varphi_{X_1}''(0)t^2+o(t^2)\),而\(\varphi_{X_1}(0)=1\),\(\varphi_{X_1}'(0)=i\E[X_1]=0\),\(\varphi''_{X_1}(0)=i^2\E[X^2]=-1\),因此\(\varphi_{X_1}(t)=1-\dfrac 12t^2+o(t^2)\)。综上\((\varphi_{X_1}(\dfrac{t}{\sqrt{n}}))^n=(1-\dfrac{t^2}{2n}+o(\dfrac{t^2}{n}))^n\to e^{-\frac{t^2}{2}}\)。证毕。
更多CLT
对中心极限定理中的条件的探究一直是一个重要的问题。在我们上面的对定理的陈述中,我们要求\(X_i\)的方差固定。但我们也能证明,当\(X_i\)的方差不固定,但以某种方式被三阶矩控制时,最后依然能得到正态分布。然而,如果什么条件都不限制,CLT是否依然成立?答案是否定的,我们可以构造一个density为\(\dfrac{1}{\pi(1+x^2)}\)的随机变量,它就不满足CLT。人们一直在努力探究CLT成立的充要条件。