大数定律

收敛理论\(\newcommand{\F}{\mathcal{F}}\newcommand{\B}{\mathcal{B}}\newcommand{\Var}{\text{Var}}\newcommand{\E}{\mathbb{E}}\)

点态收敛

在定义连续随机变量的期望时候,我们是用一列离散的随机变量期望的极限来定义的。一般地,我们也可以定义一列随机变量的极限,这个极限也是一个随机变量,而我们知道随机变量本质上是一个函数,这个极限过程正是数学分析中的函数列的收敛。我们所说的随机变量的极限就是随机变量列的点态收敛。而在概率论中,我们更多时候会用almost surely(a.s.)点态收敛:只要求随机变量在一个测度为1的集合上点态收敛,也即只在一个零测集上不收敛。

关于点态收敛要讨论的一个最重要的问题就是极限和期望的顺序交换问题——是否成立\(\lim\limits_{n \to \infty} \E[X_n]=\E[\lim\limits_{n \to \infty} X_n]\)?(例如在Moment Generating Function一节中我们就默认了这一事实成立而没有加以验证)。

首先我们在\(([0,1],\B([0,1]),P_{\text{Leb}})\)上有反例\(X_n=n \cdot \mathbb{1}_{[\frac{1}{n},\frac{2}{n}]}\)来说明这一事实并不总是成立。对于任意固定的\(n\)\(\E[X_n]\)都为1;而\(\lim\limits_{n \to \infty}X_n\)却a.s.等于0。因此\(\lim\limits_{n \to \infty} \E[X_n]=1\neq 0=\E[\lim\limits_{n \to \infty} X_n]\)。那么这一事实在何时成立呢?下面我们给出几个关于充分条件的定理(证明略):

第一个充分条件称为Monotone Convergence Theorem(MCT,单调收敛定理),它指出:如果随机变量列\(X_n\)非负且递增并收敛到\(X\)(以上条件都只需a.s.成立),那么极限和期望可交换:\(\lim\limits_{n \to \infty} \E[X_n]=\E[\lim\limits_{n \to \infty} X_n]=\E[X]\)

第二个充分条件称为Dominated Convergence Theorem(DCT,控制收敛定理),它指出:如果随机变量列\(X_n\)收敛到\(X\)(a.s.),并且所有的\(X_n\)都能被一个\(\E[Y]\)存在的随机变量\(Y\)\(|X_n|\leq Y\)的方式控制(a.s.),那么极限和期望可交换:\(\lim\limits_{n \to \infty} \E[X_n]=\E[\lim\limits_{n \to \infty} X_n]=\E[X]\)。特别地,如果\(Y\)取常数函数,那么\(|X_n|\leq Y\)恒成立等价于\(\{X_n\}\)有界,这就得到推论Bounded Convergence Theorem(BCT,有界收敛定理)

依概率收敛,\(L_p\)收敛,依分布收敛以及强弱关系

就像函数不止点态收敛一种收敛方式一样,点态收敛(a.s.收敛)也不是定义随机变量收敛的唯一方式。一般而言,点态收敛是最强的收敛条件了,但我们很多时候我们需要更弱的收敛条件,因为在许多重要的定理中以强的形式收敛的结论往往是不成立的,只有在更弱时成立。

下面我们依次给出依概率收敛、\(L_p\)收敛、依分布收敛的定义:

如果\(\forall \varepsilon>0,\lim\limits_{n \to \infty}\Pr[|X_n-X|>\varepsilon]=0\),称\(X\)依概率收敛\(X\),记为\(X_n \stackrel{p}{\to} x\),表示当\(n\)充分大时,\(X_n\)\(X\)上函数值不同的样本点测度趋向0;

如果\(\lim\limits_{n \to \infty}\E[|X_n-X|^p]=0\),称\(X\) \(L_p\)收敛到\(X\),记为\(X_n \stackrel{L_p}{\to} X\),表示\(p\)阶矩收敛到同一个值。特别的,当\(p=1\)时为\(L_1\)收敛,它们的收敛到相同的期望;

如果\(\lim\limits_{n \to \infty}F_n(x)=F(x)\),称\(X\)依分布收敛收敛到\(X\),记为\(X_n \stackrel{d}{\to} x\),表示它们的分布函数收敛到同一个值。

可以证明,\(r>s\)时有\(L_r \implies L_s\),也即更高阶的矩收敛可以推出更低阶的。其中最低阶的\(L_1 \implies p\),这说明\(L_p\)收敛比依概率收敛更强。同时,\(a.s. \implies p\),几乎处处的点态收敛可以推出依概率收敛。\(p \implies d\),依概率收敛可以推出依分布收敛。可见依分布收敛是最弱的要求。(以上的推出都是不可逆的,构造反例可以说明这一点。)并且我们观察到,\(a.s.\)\(L_1\)之间的强弱不能直接比较,而这两者正好是\(a.s.\)收敛与期望相等之间的关系——正是我们之前讨论的极限与期望的可交换问题,我们已经知道在特定的充分条件下交换才是成立的。

上下极限

虽然有反例说明依概率收敛不能推出\(a.s.\)收敛,但我们可以证明依概率收敛可以推出存在子列几乎处处收敛。为了证明这一点,首先要定义集合列的极限。如果把集合的包含关系看作序关系,那么对于单调的集合列就可以定义极限:对于\(A_{i} \subseteq A_{i+1}\),定义\(\lim\limits_{n \to \infty} A_n=\bigcup\limits_{i \geq 1}A_i\)。同理,对于\(A_{i} \supseteq A_{i+1}\),定义\(\lim\limits_{n \to \infty} A_n=\bigcap\limits_{i \geq 1}A_i\)。由于是单调的,我们也用上确界或下确界来表示极限。现在,仿照数列的上下极限,定义上极限\(\lim \sup_n A_n=\lim\limits_{n \to \infty}(\sup\limits_{k \geq n}A_k)=\bigcap\limits_{n \geq 1}\bigcup\limits_{k \geq n}A_k\),下极限\(\lim \inf_n A_n=\lim\limits_{n \to \infty}(\inf\limits_{k \geq n}A_k)=\bigcup\limits_{n \geq 1}\bigcap\limits_{k \geq n}A_k\)。上下极限也表示一个集合,其中上极限表示所有在\(\{A_i\}\)中出现次数为无数次的元素构成的集合(如果出现无数次,那么对任意的\(n\)都会落在\(\sup\limits_{k \geq n}A_k\)里,因此最终落在\(\lim \sup_nA_n\)中;否则一定存在一个\(n\)使得它不在\(\sup\limits_{k \geq n}A_k\)里,因此最终不在上极限中);下极限表示所有不出现次数为有限次的元素构成的集合。

一列事件就是一列集合。我们可以根据定义化简一列事件的上极限的概率:\(\Pr[\lim\sup_n A_n]=\Pr[\lim\limits_{n \to \infty} \bigcup \limits_{k \geq n}A_k]\),根据概率测度的连续性\(=\lim\limits_{n \to \infty}\Pr[\bigcup\limits_{k \geq n}A_k]=\lim\limits_{n \to \infty}\sum\limits_{k \geq n}\Pr[A_k]\)。可见,如果\(\sum\limits_{k\geq 1}\Pr[A_k]<+\infty\),那么一定有\(\Pr[\lim\sup_nA_n]\)。这就是Borel-Cantelli定理,它指出如果一列事件\(A_1,A_2,\cdots\)满足\(\sum\limits_{n \geq 1}\Pr[A_n]<+\infty\),则\(\Pr[\lim\sup_n A_n]=0\)。也即如果所有这些事件发生的概率全部相加是收敛的,那么在这列事件中出现无穷多次的样本点是零测集。它的逆命题不一定成立,然而我们可以验证当\(A_n\)相互独立时,逆命题成立。此时\(\sum\limits_{n \geq 1}\Pr[A_n]<+\infty \iff \Pr[\lim\sup_n A_n]=0\)。我们还可以证明,\(\sum\limits_{n \geq 1}\Pr[A_n]=+\infty \implies \Pr[\lim\sup_n A_n]=1\),这意味着\(\Pr[\lim\sup_nA_n]\)只能取0或1(我们之后将会用Kolmogorov 0-1 Law这个更高的观点再次看到这个问题),因此也有\(\sum\limits_{n \geq 1}\Pr[A_n]=+\infty \iff \Pr[\lim\sup_n A_n]=1\)

根据Borel-Cantelli,我们从一个依概率收敛的随机变量列中挑出一列\(n_m\)使得\(\Pr[|X_{n_m}-X|>\dfrac{1}{m}]<\dfrac{1}{2^m}\),令\(A_m=\{\omega\mid |X_{n_m}(\omega)-X(\omega)|>\dfrac{1}{m}\}\),这样就有\(\sum\limits_{m\geq 1}\Pr[A_m]<\sum\limits_{m \geq 1}\dfrac{1}{2^m}<+\infty\),因此\(\Pr[\lim\sup_m A_m]=0\)。在全集中去掉这个零测集以后,我们可以证出点态收敛。因此我们证明了依概率收敛的随机变量列中存在一个a.s.点态收敛的子列。

有了这个定理以后,我们就可以把Dominated Convergence Theorem中的几乎处处收敛放弱到“依概率收敛”。原因是,如果\(\E[X_n]\)不收敛到\(\E[X]\),那么由于依概率收敛,它存在子列收敛到\(a \neq \E[X]\)。而依概率收敛还意味着其任意子序列依概率收敛,因此上面的子序列的子序列必须\(a.s.\)收敛到\(X\),它的期望必须收敛到\(\E[X]\),矛盾。

Law of Large Numbers, LLN

\(\newcommand{\F}{\mathcal{F}}\)我们在定义概率空间和随机变量时是从集合和函数出发的,而当我们想要真正理解概率的“意义”时,其实我们已经在使用了大数定律这一事实。硬币正面朝上的概率为\(1/2\)这句话的意思是,当投掷硬币的次数充分大以至于是一个“大数”时,应当期待有接近一半的次数投掷硬币正面朝上。大数定律描述的就是同一随机事件在被重复足够多次时会收敛到它的期望。

强大数定理与弱大数定理

\(X_1,\cdots,X_n,\cdots\)是相互独立且同分布(independent and identically distributed, i.i.d.)的随机变量,大数定理要描述\(\dfrac{\sum\limits_{i \in [n]}X_i}{n}\)(记为\(\dfrac{S_n}{n}\))以何种方式收敛到\(\E[X_i]\)(记为\(\mu\))。我们已经知道随机变量的收敛是有许多不同强弱的种类的。\(\dfrac{S_n}{n} \stackrel{p}{\to} \mu\)这一事实称为弱大数定理(Weak Law of Large Numbers, WLLN),\(\dfrac{S_n}{n} \stackrel{a.s.}{\to} \mu\)这一事实称为强大数定理(Strong Law of Large Numbers, SLLN)。

我们首先在附加上二阶矩有限(\(\E[X_i^2] \leq \sigma^2\))的前提下证明弱大数定理,这只需用Markov不等式说明\(\Pr[\left|\dfrac{S_n}{n}\right|>\varepsilon]=\Pr[\left|\dfrac{S_n}{n}\right|^2>\varepsilon^2]\leq \dfrac{\E[\left(\frac{S_n}{n}\right)^2]}{\varepsilon^2}\leq\dfrac{\sigma^2}{\varepsilon^2n}\),因此\(\dfrac{S_n}{n}\)依概率收敛。在同样的前提下,为了证明强大数定理,我们也想用Markov不等式,结合\(\sum\limits_{n=1}^{\infty}\Pr[\left|\dfrac{S_n}{n}\right|>\varepsilon]<+\infty\)用Borel-Cantelli说明a.s.点态收敛,此时我们发现仅规定二阶矩有限是不够的,为此我们附加四阶矩有限的条件,用相同的方法得到证明。

现在我们要去掉二阶矩有限的条件,证明真正的弱大数定理。此时我们不再能直接运用Markov不等式了,因为二阶矩可能是无界的。这里我们要用到称为truncation(截断)的证明思路:我们把随机变量拆分成\(>M\)\(\leq M\)两种情形,于是\(\Pr[\left|\dfrac{S_n}{n}-\mu\right|>\varepsilon]\leq \Pr[\left|\dfrac{S_{n,\leq M}}{n}-\mu\right|>\varepsilon]+\Pr[S_{n,>M}\neq 0]\)。取\(M=n\),前者我们把随机变量的取值控制在了有限范围内,后者在\(n \to \infty\)时显然趋向0,于是我们发现我们能够证明这两个概率都趋向0,这样就证明了弱大数定理。

我们暂时还不能给出强大数定理的证明。

Kolmogorov 0-1 Law

从更一般的观点来看大数定律,它其实指出了当\(n\)趋向无穷时,\(\Pr[\left|\dfrac{S_n}{n}-\mu\right|>\varepsilon]\)总为0(弱大数定理),\(\Pr[\dfrac{S_n}{n}=\mu]\)总为1(强大数定理)。在Borel-Cantelli中,我们也看到了\(\Pr[\lim\sup_n A_n]\)总是只能取0或者1。。事实上这是一个更为普遍的规律,我们能够证明一列相互独立事件的极限事件(tail event)发生的概率总是0或1的。这就是Kolmogorov 0-1 Law。

我们首先要定义什么是极限事件。为此,我们要定义关于随机变量的\(\sigma\)-algebra。对于随机变量\(X\),定义\(\sigma(X)\)为能使得\(X\)可测的最小\(\sigma\)-algebra。在定义随机变量时,我们已经要求它在所有Borel Set下的原像落在事件集里,那么我们直接取出所有这些原像\(X^{-1}(\B(\R))\),可以证明这本身就是一个\(\sigma\)-algebra,因此直接有\(\sigma(X)=X^{-1}(\B(\R))\)。我们可以这样理解“最小可测”,我们知道\(2^\Omega\)总是一个使得\(X\)可测的事件集,但有时\(X\)的特性使得它并不会用到全部这些子集,例如当\(X\)仅仅只是骰子是奇数还是偶数时,我们便无需关心\(\{1,2\},\{1,3,4,5\}\)这样的集合,而只需关心\(\{1,3,5\},\{2,4,6\}\)这两个集合。换言之,使得不同的\(X\)可测需要的其实是不同大小的\(\sigma\)-algebra,这和\(X\)本身包含的“信息”有关。如果我们关心骰子的具体取值,那么我们需要一个相对庞大的\(\sigma\)-algebra;而如果只关心骰子的奇偶,则只需要一个较小的\(\sigma\)-algebra。而一旦知道了具体取值,我们就一定知道了奇偶,因此我们说前者包含了后者的信息。\(\sigma(X)\)刻画了\(X\)包含的信息。如果\(\sigma(Y)\subseteq \sigma(X)\),说明可以用\(\sigma(X)\)来测\(Y\),也就说明\(X\)中包含比\(Y\)更多的信息。对于多个随机变量,我们定义\(\sigma(X_1,X_2)=\sigma(\sigma(X_1)\cup \sigma(X_2))\),也就是使得\(X_1,X_2\)都可测的最小\(\sigma\)-algebra。定义\(\sigma\)-algebra \(\F,\mathcal{G}\)独立当且仅当\(\forall A \in \F,B\in\mathcal{G}\)都有\(A\)\(B\)独立,容易根据定义证明\(X \bot Y\iff \sigma(X)\bot \sigma(Y)\)

现在我们定义极限事件。对一列相互独立的随机变量 \(X_1,X_2,\cdots\) ,定义\(\F _n=\sigma(X_1,X_2,...,X_n)\)\(\F_{\infty}=\sigma(X_1,X_2,...)\)。容易验证\(\F_\infty=\sigma(\bigcup\limits_{n\ge 1}\F_n)\) 。定义 \(\F_n^*=\sigma(X_{n+1},X_{n+2},...)\)\(\F _{\infty}^*=\bigcap\limits_{n\ge 0}\F_n^*\) ,其中\(\F _{\infty}^*\)被称为tail algebra。任何\(\F^*_\infty\)中的事件就称为极限事件。极限事件与任意有限的\(X_n\)中的信息无关,只与极限过程中的随机变量的信息有关。

Kolmogorov 0-1 Law指出,\(\forall A\in \F _{\infty}^*,P(A)=0\)\(1\)。Pf:“\(P(A)=0\)\(1\)”可以转化为\(A\bot A\),因为\(A\bot A\)的定义恰好是\(P(A\cap A)=P(A)\cdot P(A)\),也即\(P(A)=P(A)^2\),解得\(P(A)=0或1\)。我们把所有与\(A\)独立的事件收集进集合\(\mathcal{H}\),那么只需证\(A \in \mathcal{H}\)。显然任意有限的\(\F_n\)都与\(\F^*_n\)独立(一个描述前\(n\)项的信息,一个描述\(n\)以后的信息),而\(A \in \F_n^*\),因此对任意的\(n\)总有\(F_n\in \mathcal{H}\)。也即\(\bigcup\limits_{n \geq 1}\F_n\subseteq \mathcal{H}\)。于是可以证明(从略)\(\F_\infty \in \mathcal{H}\)。而\(A \in \F_{\infty}\),因此\(A\in \mathcal{H}\),证毕。

大数定理中的\(\dfrac{S_n}{n}\)收敛就是极限事件,因为数列的收敛与任意有限项都无关。因此它要么一概率收敛,要么一概率不收敛(\(\E[X_i]\)不收敛);上极限与任意有限项无关,它也是一个极限事件,因此\(\Pr[\lim\sup_n A_n]\)只能取0或1。

posted @ 2024-01-06 17:02  DennyQi  阅读(57)  评论(0编辑  收藏  举报