一张图的故事——概率分布之间的关系(上)
http://www.rustle.us/?p=167
概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布一部分,剩余部分国庆之后补上。另外求该图的原始出处。
1. M(n,π1,π2,..πn)→J=2Bin(n,π)。多项分布的项数等于二,则变成二项分布。
2. Bb(n,α,β)→π=αα+βBin(n,π)。Beta-binomial分布,就是Beta分布和二项分布这一对共轭分布的结合。假设
则X|n,α,β就是满足Beta-binomial分布。我们可以计算Beta-binomial的概率
后面推不下去了(囧里个囧)。等我有能力看懂文献1,再补全。
3. NBin(r,θ)→r−>∞,u=r(1−θ)po(u) 。Negative
Binomial描述这样的场景:我们不停地做抛银币实验,每次正面概率为θ。我们经历了第X次反面之后得到第r次正面,
则X符合Negative Binomial分布。易知概率公式如下所示
因为1∗(1+1r)...(1+x−1r)→r−>∞1, (1−ur)r→r−>∞e−u。
4. Bin(n,θ)→n−>∞,u=nθpo(u) ,即二项分布随着n趋近于无穷而趋近于泊松分布。
历史上,泊松分布是这样推导出来的。实际上,我们可以这么理解:1个小时内通过某个路口的车辆数符合泊松分布。1个小时是由60分钟内组成的,每分钟通过某个路口的车辆数也满足泊松分布。1分钟是由60秒内组成的,每秒通过某个路口的车辆数也满足泊松分布。。。但是,当我们不停的细分下去,一段时间变成无数多个时刻之后,每个时刻只能以一定概率通过一辆车(一个时刻只能通过一辆)。这时通过的汽车数就变成n为无穷的二项分布了。
5. Bin(n,θ)↔B(π) 。二项分布的每次实验都是伯努利实验。
6. po(u)→σ2=u,u>15N(u,σ2) 。泊松分布近似正态分布。在证明这个近似之前,我们先介绍一个统计学上个概念,Moment
Generation Function (MGF)。随机变量X服从任意分布,如下定义MGF:
MGF有一个重要的性质:如果两个分布的MGF相等,则这两个分布是相同的。因此,只要我们证明泊松分布的MGF趋近于正态分布的MGF,就证明泊松分布近似正态分布。泊松分布po(u)的MGF:
正态分布的MGF:
根据公式6和7,易知当σ2=u时,泊松分布的MGF近似于正态分布的MGF,因此泊松分布近似于正态分布。
7. Bin(n,π)→u=nπ,σ2=nπ(1−π),u>15,nπ(1−π)>15N(u,σ2)。
这里我们需要用到中心极限定理。 假设X_1,X_2,...,X_n是服从任意分布的独立同分布样本,E(Xi)=u并且Var(Xi)=σ2>0,
则随着n→∞,∑ni=1Xi−nun√σ∼N(0,1)。
我们进行n次成功的概率为π的bernouli实验,成功的次数为X,则根据二项分布的定义,
而根据中心极限定理,随着n趋近无穷,X−nπnπ(1−π)√∼N(0,1),即
综合公式8和9便可得到结论。
8. N(0,1)↔N(u,σ2)。标准正态分布和一般正态分布的关系。
9. MVN(uu,σσ)↔N(u,σ2)。正态分布是多元正态分布的一种特例。
10. t(n)→n→∞N(0,1)。t(n)表示自由度为n的Student t分布。Student t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他在酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为Student t 分布。
如果X1,X2,...,Xn是服从n(u,σ)的独立同分布的样本。我们知道X¯−uσ/n√服从u(0,1)分布,其中X¯=∑ni=1Xi。由于σ一般是未知的,我们不能用X¯−uσ/n√估计u。但是如果我们知道X¯−uS/n√的分布,其中S=1n−1∑ni=1Xi,我们就能估计u了。事实上,X¯−uS/n√满足t分布。t分布的公式:
我们先处理t分布公式的前半部分。先假设n为偶数的情况,即n=2k。n为奇数的情况类似,不详述。
我们接着处理t分布公式的后半部分。
综合公式11和公式12,得出结论:当n很大时,t分布近似于标准正态分布。
11. N(0,1)→X21+X22+...+X2nχ2(n)。χ2(n)是自由度为n的卡方分布。标准正态分布和卡方分布的关系是天然的,因为卡方分布就是这么定义出来(囧里个囧)。根据这个定义,可以推导出卡方分布的概率密度公式。
12. G(α,β)→α=n/2,β=2χ2(n)。
卡方分布是Gamma分布的一种特殊形式。Gamma分布的概率密度公式:
需要说明的是,原图的转化条件有错。正确的转化条件是α=n/2,β=2, 而不是β=n/2,α=2。
13. G(α,β)→u=αβ,σ2=αβ2,α→∞N(u,σ2)。Gamma分布有一个重要性质:可加性。即假设X_1,X_2,...,X_n是服从Gamma(α¯,β)的独立同分布样本,则有∑ni=1Xi∼Gamma(α,β),
其中α=nα¯。易求得Gamma分布的期望和方差:E(Xi)=α¯β,Var(Xi)=α¯β2,
根据中心极限定理, 随着n→∞,
因此我们很容易得出:
需要说明的是,原图的转化条件有错。正确的转化条件是u=αβ,σ2=αβ2,α→∞, 而不是u=α/β,σ2=α/β2,α→∞。写到这,我回过味来了,难道是原图中的Gamma分布用了不一样的形式? 满地打滚,再次求原图的出处!
1 Teerapabolarn, K. "A bound on the binomial approximation to the beta binomial distribution." International Mathematical Forum. Vol. 3. No. 28. 2008.