中心极限定理
大数定理告诉我们,一列独立同分布的随机变量在已知期望和方差时,随机变量的平均值趋向期望。现在我们想进一步知道期望附近误差的分布情况,也就是我们要问:一列独立同分布的随机变量的平均值是怎样分布的?中心极限定理(Central Limit Theorem, CLT)指出:独立且同分布的随机变量列X1,X2,⋯,如果有E[Xi]=μ,Var(Xi)=σ2,那么有Snd→Y,Y∼N(nμ,nσ2)。这是一个让人惊奇的结论,它告诉我们无论Xi本身是如何分布的,只要数量足够多的Xi相加,和的分布总会形成正态分布的钟形曲线,其中平均值乘以n处达到概率的顶峰,两侧逐渐递减。做一些系数的调整,我们得到Sn−nμ√nσd→Y′,Y′∼N(0,1)——独立同分布的随机变量在确定期望和方差之后,随机变量的和除以√n一定依分布收敛于标准的正态分布。
我们还可以从弱大数定理的证明出发来看中心极限定理。弱大数定理指出,对于独立同分布的随机变量X1,⋯,Xn,⋯,如果E[Xi]=0,Var(Xi)=1,那么∀ε>0,Pr[∣∣∣Snn∣∣∣>ε]=0。在证明中,我们运用了Markov不等式Pr[∣∣∣Snn∣∣∣2>ε2]≤E[(Snn)2]ε2=1ε2n。如果把Snn替换成一般的Snf(n)来看收敛情况。现在变成了Pr[∣∣∣Snf(n)∣∣∣2>ε2]=nε2f2(n),可见只有当f(n)>√n时Snf(n)才可能收敛。f(n)=√n是一个临界点。事实上我们能够证明(从略)不存在任何随机变量Y使得Sn√np→Y。可见,p收敛的要求太强了。中心极限定理正是把依概率收敛放弱为了依分布收敛,指出Sn√nd→Y′,Y′∼N(0,1)。
Lindeberg’s approach
下面介绍证明中心极限定理的第一种方法。方便起见,我们不失一般性设μ=0,σ2=1。这样我们只需证∑i∈[n]Xi√nd→Z,Z∼N(0,1)。
首先,如果我们能找到一列i.i.d的随机变量列Yi使得∑i∈[n]Yi√nd→Z,Z∼N(0,1),那么我们只需证明∑i∈[n]Xi√n与∑i∈[n]Yi√n充分接近。而由于我们知道两个正态分布相加依然是正态分布(硬算即证),那么不妨把Yi全都取成正态分布Yi∼(0,1),这样就有∑i∈[n]Yi√n∼N(0,1)。根据分布收敛的compactly supported的性质,∑i∈[n]Yi√nd→Z等价于对于任意compactly supported连续函数f成立E⎡⎢
⎢⎣f⎛⎜
⎜⎝∑i∈[n]Yi√n⎞⎟
⎟⎠⎤⎥
⎥⎦→E[Z],那么只需证明E⎡⎢
⎢⎣f⎛⎜
⎜⎝∑i∈[n]Xi√n⎞⎟
⎟⎠⎤⎥
⎥⎦−E⎡⎢
⎢⎣f⎛⎜
⎜⎝∑i∈[n]Yi√n⎞⎟
⎟⎠⎤⎥
⎥⎦→0,就完成了整个定理的证明。
记g(X1,⋯,Xn)=E[f(X1+⋯+Xn√n)],则E[f(Y)]=E[f(Y1+⋯+Yn√n)]=g(Y1,⋯,Yn)。根据三角不等式|g(X1,⋯,Xn)−g(Y1,⋯,Yn)|=|g(X1,⋯,Xn)−g(Y1,X2,⋯,Xn)+g(Y1,X2,⋯,Xn)−g(Y1,Y2,X3,⋯,Xn)+⋯+g(Y1,Y2,⋯,Xn)−g(Y1,⋯,Yn)|≤|g(X1,⋯,Xn)−g(Y1,X2,⋯,Xn)|+⋯+|g(Y1,Y2,⋯,Xn)−g(Y1,⋯,Yn)|,因此只需证明每个Xi变为Yi时,不妨设为X1变为Y1时,变化量足够小。
对于f(z+x),在z处泰勒展开得f(z+x)=f(z)+f′(z)x+f′′(z)x22+O(f′′′(z)x3)。记Z=X2+⋯+Xn√n。那么∀ω∈Ω,f(Z(ω)+X1(ω)√n)=f(Z(w))+f′(Z(ω))X1(ω)√n+f′′(Z(ω))X1(ω)22n+O(f′′′(Z(ω))X1(ω)3(√n)3),也即f(Z+X1√n)=f(Z)+f′(Z)X1√n+f′′(Z)X212n+O(f′′′(Z)X31(√n)3),两边同时取期望,并且根据Z与X1独立得到E[f(Z+X1√n)]=E[f(Z)]+E[f′(Z)]E[X1]√n+E[f′′(Z)]E[X21]2n+O(E[f′′′(Z)]E[X31](√n)3)。同理可得E[f(Z+Y1√n)]=E[f(Z)]+E[f′(Z)]E[Y1]√n+E[f′′(Z)]E[Y21]2n+O(E[f′′′(Z)]E[Y31](√n)3)。而E[X1]=E[Y1]=0,E[X21]=E[Y21]=1,E[Y31]=0。因此E[f(Z+X1√n)]−E[f(Z)+Y1√n]=O(E[f′′′(Z)]E[X31](√n)3)。不妨假设f′′′是有界的,因为我们可以假设f是任意阶可微的,否则我们可以用多项式任意阶逼近。此时如果E[X31]有界,那么就有因此得到E[f(Z+X1√n)]−E[f(Z)+Y1√n]=O(1(√n)3)→0。如果E[X31]无界,我们要用truncation,对∀ε>0控制|Xn|>ε√n的部分,最后也得证(从略)。这样我们就完成了中心极限定理的证明。
特征函数(Characteristic Function)
第二个证明中心极限定理的方法涉及特征函数,因此我们要先引入特征函数。
特征函数和矩生成函数非常类似,但有矩生成函数没有的优秀性质。我们知道对于矩生成函数E[etX],如果存在一个邻域|t|<t0上矩生成函数有定义,那么有矩生成函数在0处的k阶导等于X的k阶矩。然而要使得矩生成函数在这样的邻域上有定义,X必须任意阶绝对可积。有时X并不满足这么强的条件,此时就不能利用矩生成函数来求k阶矩了。我们引入复数,定义X的特征函数为φX(t)=E[eitX]。此时,根据欧拉公式,eitX=costX+isintX,而|costX|,|sintX|≤1恒成立,因此eitX总是可积的,也即对于任何随机变量X,特征函数φX始终存在。
φX(t)=E[eitX]可以用基于分布函数的期望写法写为φX(t)=∫+∞−∞eitxdF(x)。当density存在时,即为φX(t)=∫+∞−∞f(x)eitxdx。这恰好是f的Fourier变换。Fourier变换是有逆变换的,因此f(x)=∫+∞−∞φX(t)e−ixtdt。当density不存在的时候,定义¯F(x)=F(x+)+F(x−)2,成立∀a<b,¯F(b)−¯F(a)=∫+∞−∞e−ita−e−itbitφX(t)dt。总之,我们可以看到我们总可以用特征函数来确定随机变量的分布。如果两个随机变量的特征函数相同,那么这两个随机变量的分布函数除了在至多可数个不连续点以外全部相同。特征函数刻画了随机变量的分布。
严格的分析可以说明我们可以进行如下计算:ddtφX(t)=ddtE[eitX]=E[ddteitX]=E[iX⋅eitX],当t=0时得到iE[X]。类似地我们可以得到φ(n)(0)=inE[Xn]。也就是我们可以直接对特征函数求导得到k阶矩,而没有其它对X的限制。严格地说,只要E[Xk]存在且有限,那么就有φ可求k阶导,并且φ(k)(0)=ikE[Xk]。
我们指出,要证依分布收敛只需证特征函数收敛。这称为Levy’s Continuity Theorem:即Xi的特征函数为φi,X的特征函数为φ∞。那么Xnd→X可以推出∀t∈R,limn→∞φi(t)=φ∞(t);如果∀t∈R,limn→∞φi(t)=φ∞(t),且φ∞在t=0处连续,那么Xnd→X,其中φX=φ∞。证明从略。
如果X∼N(0,1),那么通过复分析Cauchy定理可以得到φX(t)=e−t22。那么要证明中心极限定理,就是要证明X1+⋯+Xn√n的特征函数收敛到e−t22。E[eitX1+⋯+Xn√n]=E[eitX1√n]n=(φX1(t√n))n。对φX1(t)在0处泰勒展开,有φX1(t)=φX1(0)+φ′X1(0)t+12φ′′X1(0)t2+o(t2),而φX1(0)=1,φ′X1(0)=iE[X1]=0,φ′′X1(0)=i2E[X2]=−1,因此φX1(t)=1−12t2+o(t2)。综上(φX1(t√n))n=(1−t22n+o(t2n))n→e−t22。证毕。
更多CLT
对中心极限定理中的条件的探究一直是一个重要的问题。在我们上面的对定理的陈述中,我们要求Xi的方差固定。但我们也能证明,当Xi的方差不固定,但以某种方式被三阶矩控制时,最后依然能得到正态分布。然而,如果什么条件都不限制,CLT是否依然成立?答案是否定的,我们可以构造一个density为1π(1+x2)的随机变量,它就不满足CLT。人们一直在努力探究CLT成立的充要条件。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)