导航

中心极限定理和二项分布相关公式说明

Posted on 2022-12-08 11:03  蝈蝈俊  阅读(2611)  评论(0编辑  收藏  举报

在概率论和统计学中,二项分布是\(n\)个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为\(p\)。

中心极限定理(central limit theorem,CLT)

在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象 。

定理:在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布

抛硬币的正面概率分布

一万次抛掷硬币实验中出现正面的平均比率,每次实验的样本数为抛掷 200次硬币。

高尔顿板(Galton Board)

高尔顿板上的每一个圆点表示钉在板上的钉子,钉子之间的距离彼此相等,呈三角形排列,上一层每一颗钉子的位置恰好位于下一层两颗钉子的正中间。

当小球从最上方的入口落下时,小球每次碰到钉子后向左、右两个方向落下的概率各为50%,直到最后落入底部的一个格子内。把大量小球逐个从入口处放下,只要高尔顿板的面积足够大、钉子数量足够多,落在格子内的小球将形成与正态分布曲线相似的中间高、两边低的钟形曲线。

二项分布计算相关公式说明

期望值

在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。

\({EV}(期望值)=胜的概率 \times 获胜的筹码 - 输的概率 \times 输掉的筹码\)

二项分布的期望值

二项分布 \(X \sim B(n,p)\)(也就是说,\(X\) 是服从二项分布的随机变量)
那么\(X\)的期望值为: \(E(X) = np\)
意义表示:随机变量\(X\)的平均值,或平均水平。

证明:假设有一个伯努利试验,试验有两个可能的结果:\(1\)和\(0\),前者发生的概率为\(p\),后者的概率为\(1−p\)。
该试验的期望值等于\(μ = 1 · p + 0 · (1−p) = p\)。
\(n\) 个伯努利试验就是 \(np\) 。

方差和标准差

方差和标准差都是一组数值自平均值分散开来的程度的一种测量观念,用于评估数据的波动性有多大。

  • 由于方差是数据的平方,一般与检测值本身相差太大,人们难以直观地衡量,所以常用方差开根号(取算术平方根)换算回来。这就是我们要说的标准差(SD)
  • 一个较大的标准差,代表大部分的数值和其平均值之间差异较大;
  • 一个较小的标准差,代表这些数值较接近平均值。

离散型方差计算公式:

\(D(X) = \sum\limits_{i=1}^n p_i.(x_i - μ)^2\)
其中 \(μ = E(X) \),即 期望值 ,\(n\)个数值(\(x_1、x_2、 ... 、x_n\))的平均值。
\(p_i\) 对应 \(x_i\) 出现的概率

离散型标准差公式:

\(\sqrt{\sum\limits_{i=1}^n p_i.(x_i - μ)^2}\)

二项分布的标准差

证明:假设有一个伯努利试验,试验有两个可能的结果:\(1\)和\(0\),前者发生的概率为\(p\),后者的概率为\(1−p\)。

该试验的方差
\(σ^2 = (1 - p)^2 * p + (0 - p)^2*(1−p) = p(1-p)\)。

\(n\) 个伯努利试验就是 \(np(1-p)\) 。

二项式系数(binomial coefficient)

二项式系数,或组合数,在数学里表达为:

对于非负整数\(n\)和\(k\),二项式系数\(C_n^k\)定义为:

\((1+x)^n\)的多项式展开后,\(x^k\)的系数。

\((1+x)^n = \sum\limits_{k=0}^n(C_n^k x^k) = C_n^0 + C_n^1x+ C_n^2x^2+ ... + C_n^n x^n\)

其中的 \(C\) 代表组合或选择;

二项式系数对组合数学很重要,因它的意义是从n件物件中,不分先后地选取k(k为正整数)件的方法总数,因此也叫做组合数。

二项式系数可排列成帕斯卡三角形

二项分布的 累积分布函数(Cumulative Distribution Function)

如果随机变量\(X\)服从二项分布,那么在\(n\)次试验中,恰好得到\(m\)次成功的概率为:

\(P\{X = m\} = C_n^mp^m(1-p)^{n-m}\)

\( 其中: 0<p<1, m= 0,1,...,n\)

\(C_n^m\) 是二项式系数(这就是二项分布名称的由来)

理解:我们希望有\(k\)次成功\((p)\)和\(n−k\)次失败\((1 −p)\)。
并且,\(k\)次成功可以在\(n\)次试验的任何地方出现,而把\(k\)次成功分布在\(n\)次试验中共有个不同的方法。

累积分布函数可以表示为:

\(F(m) = p\{X\leq m\} = \sum\limits_{i=0}^m C_n^i p^i(1-p)^{n-i}\)

\(p\{X\leq m\} 表示随机变量{\displaystyle x}取值小于或等于{\displaystyle x}的概率。\)

Z-score

Z-score,也叫标准分数(standard score)是以标准差为尺子去度量某一原始分数偏离平均数的距离,这段距离含有几个标准差,z分数就是几。

Z-Score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-Score值衡量,以保证数据之间的可比性。

计算公式为:

\(Z = \frac{X - \bar X}{S}\)

其中:
\( X: 原始数据\)

\( \bar X: 平均数,期望值\)

\( S: 标准差\)

按照z值公式,各个样本在经过变换后,通常在正、负五到六之间不等。

还记得概率课本中的二项分布吗?在我们的网络判障中发挥了大作用! 这篇文章中可以看到,基于Z-score判断网络状态时,对样本数据大小、数据噪音的问题能很好的解决。

棣莫佛-拉普拉斯定理

棣莫佛-拉普拉斯(de Moivre - Laplace)定理是中央极限定理的最初版本。讨论了服从二项分布的随机变量序列。它指出:

参数为\(n, p\)的二项分布是
以\(np\)为均值、\(np(1-p)\) 为方差的正态分布。

二项分布是离散分布,而正态分布是连续分布,当二项分布的n值趋向于无穷大时,二项分布近似可以看成正态分布。正态分布的图像是一个钟形曲线,而二项分布的图像为直方图,直方图的顶端可以近似连接成为一条钟形曲线。

当n越大(至少20)且p不接近0或1时近似效果更好。
不同的经验法则可以用来决定n是否足够大,以及p是否距离0或1足够远,其中一个常用的规则是np和n(1 −p)都必须大于 5。

总结

二项分布是指统计变量中只有性质不同的两项群体的概率分布。
有没有风险隐患?要不要买某个商品或股票?会不会下雨?某场比赛会不会赢?... 这些都是典型的使用场景,适用范围非常广泛。