大数定律具体是个什么概念？

http://www.tohuo.com/t/1225

https://www.zhihu.com/question/19911209/answer/876481176

大数定律具体是个什么概念？

（切比雪夫大数定律、伯努利大树定律、辛钦大数定律）and中心极限定理又是个什么概念？（列维—林德伯格定理、棣莫弗—拉普拉斯定理）
书上只有那些蛋疼的定义式，加上前面引入大数定律的“依概率收敛”和“切比雪夫不等式”，让我只能强记公式，完全没有一个形象的理解。望达人解释~

作者：慕弋云子
链接：https://www.zhihu.com/question/19911209/answer/876481176
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

考研党来尝试着回答一下这个问题。

最近正好在做总结归纳，就把我的一些心得体会写一下，希望能对题主，以及所有被这几个定律搞的十分头痛的人有所帮助。

我一看到这三个定律和两个定理，也很头疼——这根本就记不住啊！但其实当我真的学到这里的时候，才发现，其实这是很有规律可言的。教材之所以会把这几个定律、定理放到一起，私以为，一是因为其逻辑上的一脉相承，二是因为其重要程度在概率论与数理统计当中举足轻重，三更是因为其互相之间也存在着许多的联系与区别。

让我们来一起看一看这几个定律、定理。我会尽量地把这个东西讲的通俗易懂、生动形象，能够让更多的人理解。确实，我也很认同定义式、数学语言读起来是有些佶屈聱牙的。

研究一个数学定理，一定要抓住这几点核心：

1.前提条件，或者说研究对象，这个定理是对谁而言的；

2.结论，在给出了前提下，会有什么神奇的结论；

3.数学意义，也就是这个定理到底发挥了什么实际作用，如果这个定理没什么用处那也就不值得这么多人去学习和研究了嘛。

其实抓住这几点要素之后，就很好理解这几个定律、定理了。

一、依概率收敛

在我们学习这几个大数定律和中心极限定理之前，必须先明白一个事情——什么叫依概率收敛？

不知道各位在学习概率论之初是不是也有我这样的想法：在实验次数足够多的情况下，频率就会非常接近概率。我们也是依此得到了很多事情发生的概率，比如说抛硬币、等等。最典型的诸如蒲丰投针计算圆周率。

那么这个式子不就是这样的吗：

$\underset{n\to \infty }{\mathop{\lim }}\,\frac{m}{n}=p$

其中，m为事件发生的次数，n为实验的次数。

很好，但依概率收敛告诉你这样是不严谨的。

这个地方我是这样去理解的：就以抛硬币为例，假如说我们实验的次数已经非常大了，那么这个概率的值可能会像下图蓝线一样波动，黑线是 $p=\frac{1}{2}$ 时。

所以说，随着实验的进行，这个比值也是一直在波动的，它无法与黑线高度地重合，只要我们放大、再放大。

而依概率收敛，就好像极限里的 $\varepsilon -\delta$ 语言一样，虽然你在动，那我们画条线，你总超不出去了吧——或者说，就算你真的超出了这条线，这也是一个小概率事件，这就是依概率收敛的意思。看图更直观：

数学表达式就是，对于 $\forall \varepsilon >0$ 有：

$\underset{n\to \infty }{\mathop{\lim }}\,P\left\{ \left| {{X}_{n}}-X \right|\ge \varepsilon \right\}=0$

（即越界是小概率事件）

或 $\underset{n\to \infty }{\mathop{\lim }}\,P\left\{ \left| {{X}_{n}}-X \right|\le \varepsilon \right\}=1$

（即绝大部分是在界内的）

二、Chebyshev大数定律

就算你仍然对依概率收敛表示疑惑，也没关系，这也不太妨碍你去理解这几个大数定律。让我们先来看Chebyshev大数定律，对每个定律我们都把之前提到的三个要素摆出来以方便对比。

2.1前提条件

① ${{X}_{1}},{{X}_{2}},\ldots ,{{X}_{n}}$ 相互独立（注意：不要求同分布！）

② $D{{X}_{i}}$ 存在且一致有上界（严谨表述： $\exists C$ 使 $D{{X}_{i}}\le C$ 对一切 $i\ge 1$ 成立）

2.2结论

$\frac{1}{n}\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}\overset{P}{\mathop{\to }}\,\frac{1}{n}\underset{i=1}{\overset{n}{\mathop \sum }}\,E{{X}_{i}}$

2.3数学意义

算数平均值依概率收敛于数学期望

对于这个数学意义，如果我们拍脑子一想，这似乎是很显然的，但又好像讲不出为什么。

我们不说抛硬币这么“单一”的事情——我们这次说做实验测重力加速度。测的方法有很多，但最后得出的数据应该都是在 $9.8m/{{s}^{2}}$ 附近徘徊，然后我们处理数据，一拍脑袋就把他们加权（算数平均值）了，然后断言：啊，这就是我们“期望”的重力加速度！

可你有没有想过，为什么测出数据的算数平均值就可以接近真实值呢？

事实上，当我们中学做物理实验的时候，就已经用到了Chebyshev大数定律而不自知。这种算数平均值依概率收敛为数学期望的理论依据，就是Chebyshev大数定律。

总的来说，Chebyshev大数定律的要求比较弱，甚至连同分布也不用。

三、Bernoulli大数定律

我们再来看Bernoulli大数定律，这是概率论历史上第一个极限定理，属于Chebyshev的一种特殊情况，可以由Chebyshev推出。

3.1前提条件

① ${{\mu }_{n}}$ 是n重Bernoulli实验中事件A的发生次数

②每次试验A发生的概率为p

所谓n重Bernoulli实验，就是“不成功便成仁”，独立重复地进行n次实验，成功了就是1，不成功就是0。所以我们把这两个前提条件照着Chebyshev翻译一下就是：

${{X}_{1}},{{X}_{2}},\ldots ,{{X}_{n}}$ 相互独立且都服从于参数为p的0-1分布

${{X}_{i}}~\tilde{\ }~\left( \begin{matrix} 1 & 0 \\ p & 1-p \\ \end{matrix} \right)$

3.2结论

$\frac{1}{n}{{\mu }_{n}}\overset{P}{\mathop{\to }}\,p$

3.3数学意义

频率依概率收敛于统计概率

3.4如何从Chebyshev推出Bernoulli

我们该如何理解Bernoulli大数定律这个结论和其数学意义呢？

事实上，当你把 ${{X}_{i}}$ 的分布带入Chebyshev大数定律，奇妙的事情就会发生了：

① ${{X}_{1}},{{X}_{2}},\ldots ,{{X}_{n}}$ 相互独立（甚至还同分布），这满足了Chebyshev的条件①

② $D{{X}_{i}}=p\left( 1-p \right)\le \frac{1}{4}$ （0-1分布的方差公式，配合柯西不等式），这满足了Chebyshev的条件②

那么我们可以代入Chebyshev不等式的结论了：

$\frac{1}{n}\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}$ 这东西是啥？对于0-1分布，发生了就是1，那么把所有的 ${{X}_{i}}$ 求和不就是发生的次数了吗，于是 $\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}$ 也就是 ${{\mu }_{n}}$ （事件A的发生次数）；

Chebyshev说，算数平均值依概率收敛于数学期望，那么数学期望不就是p嘛（0-1分布的期望公式），于是我们就得到了Bernoulli大数定律。

四、Khinchin大数定律

这个定律可以和Chebyshev对比着看，两者的关系相对来讲是比较“并列”的。

4.1前提条件

① ${{X}_{1}},{{X}_{2}},\ldots ,{{X}_{n}}$ 相互独立且同分布

② $E{{X}_{i}}=\mu$ 存在

4.2结论

$\frac{1}{n}\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}\overset{P}{\mathop{\to }}\,\mu$

4.3数学意义

算数平均值稳定于数学期望的确切解释

诶等等！停！你这个Khinchin大数定律左边怎么和Chebyshev一样啊，右边看起来也是一个意思，都是俄罗斯人也不能这么玩儿吧！

不好意思，还真就可以这么玩儿，因为这两者的前提条件不一样，或者说讨论对象不一样，不存在谁包含谁的问题。

简言之，一个只要求独立和方差上界、另一个却要求独立同分布和期望存在。

虽然推出的结论看起来差不多，但其实际意义是并不一样的，就比如Chebyshev对于不同分布还可以进行期望求算数平均值，而Khinchin在方差不存在时也可以使用。具体的反例就不在此举出了，并不是本文的重点。

这时候可能又要有人问了，之前我们处理重力加速度数据的时候，到底用的是哪个大数定律？

那当然是，满足哪个条件用哪个。甚至，你还可以统而言之为：根据大数定律。

五、Levi-Lindeberg定理（中心极限定理）

5.1前提条件

① ${{X}_{1}},{{X}_{2}},\ldots ,{{X}_{n}}$ 相互独立且同分布

② $E{{X}_{i}}=\mu ,~D{{X}_{i}}={{\sigma }^{2}}$ 存在

5.2结论

则对于 $\forall x\in R$ 有：

$\underset{n\to \infty }{\mathop{\lim }}\,P\left\{ \frac{\mathop{\sum }_{i=1}^{n}{{X}_{i}}-n\mu }{\sqrt{n}\sigma }\le x \right\}=\frac{1}{\sqrt{2\pi }}\underset{-\infty }{\overset{x}{\mathop \int }}\,{{e}^{-\frac{1}{2}{{t}^{2}}}}dt=\Phi \left( x \right)$

也即 ${{X}_{i}}$ 求和近似服从正态分布：

$\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}~\tilde{\ }~N\left( n\mu ,n{{\sigma }^{2}} \right)$

（波浪线上应该有“近似”两字，我不知道怎么打上去hhh）

5.3数学意义

实际上，那个长长的极限式子就是一个纸老虎，先看下边那个更简洁一些的式子：近似服从于正态分布。

Levi-Lindeberg定理揭示了一个非常重要的道理：当n足够大的时候，我们可以把任何一个奇奇怪怪（期望方差要存在）的分布，搞成一个正态分布，而正态分布是我们喜欢的东西啊，大大简化了我们的研究量。

而这个奇奇怪怪的分布的随机变量和，是近似服从于期望为 $n\mu$ ，方差为 $n{{\sigma }^{2}}$ 的正态分布的。

而遇到一个正态分布——请养成习惯把它标准化，于是也就出现了上面那一大长串式子。

事实上， $P\left\{ \right\}$ 内的东西，就是标准化的操作（减去期望除以方差开根号），而右边就是根据分布函数定义推得的表达式与分布函数，你应该早已经在前面的学习中司空见惯了。

另外，Levi-Lindeberg也从侧面解释了为什么大自然这么喜欢正态分布、为什么生活中有这么多正态分布——因为样本量大啊，加着加着就变成正态了。

所以，有了Levi-Lindeberg定理之后，统计学家们就只需要去着重研究正态分布，就可以轻松地处理广泛而奇特的分布了，从这个角度讲，这个定理的现实意义也是十分伟大的。

六、De Moivre-Laplace定理

6.1前提条件

${{Y}_{n}}\tilde{\ }B\left( n,p \right),~0<p<1,~n\ge 1$

别看这个前提条件就一句话，但数学语言就是这样，蕴含着丰富的信息：De Moivre-Laplace定理其实就是Levi-Lindeberg的特殊情况。

你看 ${{Y}_{n}}$ 服从二项分布，那么它不就是① ${{Y}_{1}},{{Y}_{2}},\ldots ,{{Y}_{n}}$ 相互独立且同分布，且② $E{{Y}_{i}}=\mu ,~D{{Y}_{i}}={{\sigma }^{2}}$ 存在的吗，也就是说，完全满足了Levi-Lindeberg的两个条件——实际上，我们就是在把一个二项分布，尝试转为正态分布去研究。

6.2结论

那么自然而言地，我们可以套用Levi-Lindeberg的结论：

对于 $\forall x\in R$ 有：

$\underset{n\to \infty }{\mathop{\lim }}\,P\left\{ \frac{{{Y}_{n}}-np}{\sqrt{np\left( 1-p \right)}}\le x \right\}=\frac{1}{\sqrt{2\pi }}\underset{-\infty }{\overset{x}{\mathop \int }}\,{{e}^{-\frac{1}{2}{{t}^{2}}}}dt=\Phi \left( x \right)$

也即：

${{Y}_{n}}~\tilde{\ }~N\left( np,np\left( 1-p \right) \right)$

6.3数学意义

Levi-Lindeberg的 $B\left( 1,p \right)$ 情况

好了，那么接下来到了找不同时间。细心的同学就会发现，减去期望除以方差开根号这个操作，没有任何毛病，但是在Levi-Lindeberg当中可是 $\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}$ ，怎么在De Moivre-Laplace当中就变成了单独一个 ${{Y}_{n}}$ 了呢，而不是对 ${{Y}_{i}}$ 求和呢？

这个问题提的非常好，因为这更加突出了Levi-Lindeberg定理的一个重点：我们只能对“求和”进行处理，而一个单纯的分布我们是很难操作的。而De Moivre-Laplace定理却巧妙地处理了一个单独的分布——不过也正是因为二项分布十分的特殊：

类似我们之前由Chebyshev推Bernoulli大数定律的时候用的一个操作，引入Bernoulli计数变量（这个操作在概率论当中其实是非常经典和应用广泛的）：

设有 ${{X}_{1}},{{X}_{2}},\ldots ,{{X}_{n}}$ 相互独立且都服从于参数为p的0-1分布

${{X}_{i}}~\tilde{\ }~\left( \begin{matrix} 1 & 0 \\ p & 1-p \\ \end{matrix} \right)$

再让 ${{Y}_{n}}$ 等于这些0-1分布随机变量的和，就会有：

${{Y}_{n}}=\underset{i=1}{\overset{n}{\mathop \sum }}\,{{X}_{i}}~\tilde{\ }~B\left( n,p \right)$

（即：A发生的次数为k次，发生的概率为p，那自然是一个二项分布了）

再代入Levi-Lindeberg定理，就可以得到6.2的结论了。

以上就是对三个大数定律和两个中心极限定理的解读。可以说这几个定律、定理在整个概率论与数理统计中有着举足轻重的定位，如果你真的理解了它们，那么其重要程度，应该也就不言而喻了，尤其在后续学习数理统计内容中，如何处理简单随机样本的均值、方差等数据，都会频繁地用到Levi-Lindeberg定理，大数定律也是矩估计的理论基础，并且和生活（尤其是赌博hhh）的关系也更加贴切。

就像无间道里的扑克牌：

陆警官和黄sir比谁点数小，但每次两个人都是K其实陆警官早就知道了，只是把黄sir当兄弟

黄sir，你当我陆警官没学过大数定律？

posted @ 2020-05-24 12:08 张纯睿阅读(1932) 评论(0) 收藏举报

刷新页面返回顶部