连续性概率分布-正态分布

一、概率密度函数

概率密度函数用于描述连续随机变量的概率分布,离散型分布中我们通常关注随机变量X取特定值时的概率,在连续型分布中关注X在某数值范围内对应概率。

连续随机变量的概率通过概率密度函数面积表示。对于任何概率分布来说,总概率必须等于1,因此面积必须等于1。

 

二、正态分布-连续数据的“理想”模型

1. 定义

正态分布通常参数均值𝓊和方差𝜎2 进行定义。𝓊指出分布的中央位置,𝜎指出分散性。

如果一个连续随机变量X符合均值为𝓊、标准差为𝜎的正态分布,通常写作:

 

 

2. 性质

 

 

 

正态分布具有钟型曲线,曲线对称,中间部位的概率密度最大。越是偏离均值,概率密度减小,𝜎越大,正态分布曲线越扁平、越宽。

无论图形怎样,概率密度永远不等于0。

 

3. 标准正态分布 Z~N(0,1)

标准正态分布是符合均值为0,标准差为1的正态分布。

当需要计算正态分布对应概率的时,计算曲线下面积太过复杂,因此需要将正态分布转化为标准正态分布,通过概率表查找概率。

 

若X~N(𝓊,𝜎2

通过标准分变换

 

则 Z~N(0,1)。

通过在概率表中查找标准分可求出正态概率,概率表给出的是小于等于这个数值的概率。

 

三、正态分布应用

1. 线性变换

正态分布的线性变换跟离散变量线性变换一致。

E(aX+b) = aE(X)+b  Var(aX+b) = a2Var(X)

若X符合正态分布 X~N(𝓊,𝜎2) ,线性变换aX+b也属于正态分布。

E(X) = 𝓊 ,E(aX+b) = a𝓊+b

Var(X) = 𝜎,Var(aX+b) = a2𝜎 

所以:aX+b ~ N(a𝓊+b,a2𝜎)

 

2. 独立观察值(可看作概率分布完全相同的独立随机变量)

在离散随机变量中,对于独立观察值:

E(X1 + X2 + ... +Xn) = nE(X)   Var(X1 + X2 + ... +Xn) = nVar(X)

同样,相同算法适用于连续随机变量,即,如果X符合正态分布 X~N(𝓊,𝜎2)

X1 + X2 + ... +Xn ~ N(n𝓊 ,n𝜎2)。

 

3. 使用正态分布近似替代二项分布

在离散分布中,我们常用泊松分布近似替代二项分布,以简便计算,当二项分布期望近似等于方差时,即 当q近似等于1且n很大时,np 近似等于npq,泊松分布可近似等于二项分布。

但在某些情况下,我们需要计算某个范围内的概率,这时常用正态分布近似替代二项分布。

通常若二项分布中np和nq双双大于5时,二项分布与正态分布相似

 

 

 

所以,如果X ~ B(n,p),且np>5,nq>5,则可以使用X ~ N(np,npq)近似代替二项分布。

注意:由于二项分布是离散分布,正态分布则是连续分布,在使用正态分布代替二项分布计算概率时,需要进行连续性修正,确保得到正确的结果。

 

4. 使用正态分布近似代替泊松分布

当X ~ Po(𝜆) ,随着𝜆变大,泊松分布越来越接近正态分布,即可使用正态分布近似代替泊松分布。

当𝜆大于15时。即若X ~ Po(𝜆)且𝜆>15,我们就能使用X ~ N(𝜆,𝜆) 近似计算 X ~ Po(𝜆)。

同样,为保证结果准确,在正态分布中,需要进行连续性修正

 

2020-05-06 17:36

 

posted @ 2020-05-06 17:37  傅余生  阅读(4993)  评论(0编辑  收藏  举报