代码改变世界

统计与分布之伯努利分布与二项分布

2018-04-07 00:05  云物互联  阅读(30632)  评论(0编辑  收藏  举报

目录

前文列表

计数原理
组合与排列
统计与分布之高斯分布
统计与分布之泊松分布

伯努利分布

伯努利分布(Bernoulli Distribution),是一种离散分布,又称为 “0-1 分布” 或 “两点分布”。例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。

对于伯努利随机变量 X,如果使用 1 表示成功,其概率为 p(0<p<1);使用 0 表示失败,其概率为 q=1-p。则可以称伯努利随机变量 X 服从参数为 p 的伯努利分布,其分布律为:

这里写图片描述

对于伯努利分布来说,其离散型随机变量期望为:

E(x) = ∑x∗p(x) = 1∗p+0∗(1−p) = p

方差为:

D(x) = E(x^2)−(E^2)(x) = 12∗p−p2 = p(1−p)

二项分布

二项分布(Binomial Distribution)也是一种离散型概率分布,又称为「n 重伯努利分布」。

首先看「n 重伯努利试验」的定义:如果随机变量序列 Xn(n=1, 2, …) 中的随机变量均服从与参数为 p 的伯努利分布,那么随机变量序列 Xn 就形成了参数为 p 的 n 重伯努利试验。例如,假定重复抛掷一枚均匀硬币 n 次,如果在第 i 次抛掷中出现正面,令 Xi=1;如果出现反面,则令 Xi=0。那么,随机变量 Xn(n=1, 2, …) 就形成了参数为 1/2 的 n 重伯努利试验。

可见,n 重伯努利试验需满足下列条件:

  • 每次试验只有两种结果,即 X=1,或 X=0
  • 各次试验中的事件互相独立,且 X=1 和 X=0 的概率分别为 p(0<p<1)q=1-p

n 重伯努利试验的结果就是 n 重伯努利分布,即二项分布。反之,当 Xn(n=1) 时,二项分布的结果服从于伯努利分布。因为二项分布实际上是进行了 n 次的伯努利分布,所以二项分布的离散型随机变量期望为 E(x)=np,方差为 D(x)=np(1-p) 。

需要注意的是,满足二项分布的样本空间有一个非常重要的性质,假设进行 n 次独立试验,满足二项分布(每次试验成功的概率为 p,失败的概率为 1−p),那么成功的次数 X 就是一个参数为 n 和 p 的二项随机变量,即满足下述公式

P(X=k) = C(n, k) * p^k * (1-p)^(n-k)
  • X=k,试验 n 次,成功的次数恰好有 k 次的随机变量(事件)
  • C(n, k),表示从集合 n 中取出 k 个元素的组合数,结果为 n!/(k!*(n-k)!)

例如,小明参加雅思考试,每次考试的通过率 1/3,不通过率为 q=2/3。如果小明连续参加考试 4 次,那么恰好有两次通过的概率是多少?
解析:因为每次考试只有两种结果,通过或不通过,符合条件 (1);每次考试结果互相独立,且概率不变,符合条件 (2)。满足二项分布样本,代入公式求解得概率为:C(4, 2)*(1/2)^2*(2/3)^(4-2) ≈ 8/27

二项分布概率直方图

这里写图片描述

图形特性:

  • 当 p=q 时,图形是对称的
  • 当 p≠q 时,图形呈偏态,p<qp>q 的偏斜方向相反
  • 当 (n+1)p 不为整数时,二项概率 P(X=k) 在 k=(n+1)*p 时达到最大值
  • 当 (n+1)p 为整数时,二项概率 P(X=k) 在 k=(n+1)*p 和 k=(n+1)*p-1 时达到最大值

NOTE:当 n 很大时,即使 p≠q,二项分布概率直方图的偏态也会逐渐降低,最终成为正态分布。也就是说,二项分布的极限情形即为正态分布,故当 n 很大时,二项分布的概率可用正态分布的概率作为近似值。那么 n 需要多大才可谓之大呢?
一般规定,当 p<qnp≥5,或 p>qnq≥5 时,这时的 n 就足够大了,可以用正态分布的概率作为近似值。则正态分布参数 μ=np,σ^2=np(1-p)