连续性概率分布-正态分布

一、概率密度函数

概率密度函数用于描述连续随机变量的概率分布，离散型分布中我们通常关注随机变量X取特定值时的概率，在连续型分布中关注X在某数值范围内对应概率。

连续随机变量的概率通过概率密度函数面积表示。对于任何概率分布来说，总概率必须等于1，因此面积必须等于1。

二、正态分布-连续数据的“理想”模型

1. 定义

正态分布通常参数均值𝓊和方差𝜎²进行定义。𝓊指出分布的中央位置，𝜎指出分散性。

如果一个连续随机变量X符合均值为𝓊、标准差为𝜎的正态分布，通常写作：

2. 性质

正态分布具有钟型曲线，曲线对称，中间部位的概率密度最大。越是偏离均值，概率密度减小，𝜎越大，正态分布曲线越扁平、越宽。

无论图形怎样，概率密度永远不等于0。

3. 标准正态分布 Z~N(0,1)

标准正态分布是符合均值为0，标准差为1的正态分布。

当需要计算正态分布对应概率的时，计算曲线下面积太过复杂，因此需要将正态分布转化为标准正态分布，通过概率表查找概率。

若X~N(𝓊，𝜎²)

通过标准分变换

则 Z~N(0,1)。

通过在概率表中查找标准分可求出正态概率，概率表给出的是小于等于这个数值的概率。

三、正态分布应用

1. 线性变换

正态分布的线性变换跟离散变量线性变换一致。

E(aX+b) = aE(X)+b Var(aX+b) = a²Var(X)

若X符合正态分布 X~N(𝓊，𝜎²) ,线性变换aX+b也属于正态分布。

E(X) = 𝓊 ,E(aX+b) = a𝓊+b

Var(X) = 𝜎²,Var(aX+b) = a²𝜎²

所以：aX+b ~ N(a𝓊+b,a²𝜎²)

2. 独立观察值(可看作概率分布完全相同的独立随机变量)

在离散随机变量中，对于独立观察值：

E(X1 + X2 + ... +Xn) = nE(X) Var(X1 + X2 + ... +Xn) = nVar(X)

同样，相同算法适用于连续随机变量，即，如果X符合正态分布 X~N(𝓊，𝜎²)

X1 + X2 + ... +Xn ~ N(n𝓊 ,n𝜎²)。

3. 使用正态分布近似替代二项分布

在离散分布中，我们常用泊松分布近似替代二项分布，以简便计算，当二项分布期望近似等于方差时，即当q近似等于1且n很大时，np 近似等于npq，泊松分布可近似等于二项分布。

但在某些情况下，我们需要计算某个范围内的概率，这时常用正态分布近似替代二项分布。

通常若二项分布中np和nq双双大于5时，二项分布与正态分布相似。

所以，如果X ~ B(n,p)，且np>5，nq>5，则可以使用X ~ N(np,npq)近似代替二项分布。

注意：由于二项分布是离散分布，正态分布则是连续分布，在使用正态分布代替二项分布计算概率时，需要进行连续性修正，确保得到正确的结果。

4. 使用正态分布近似代替泊松分布

当X ~ Po(𝜆) ,随着𝜆变大，泊松分布越来越接近正态分布，即可使用正态分布近似代替泊松分布。

当𝜆大于15时。即若X ~ Po(𝜆)且𝜆>15，我们就能使用X ~ N(𝜆,𝜆) 近似计算 X ~ Po(𝜆)。

同样，为保证结果准确，在正态分布中，需要进行连续性修正。

2020-05-06 17:36

posted @ 2020-05-06 17:37 傅余生阅读(4993) 评论(0) 编辑收藏举报

刷新页面返回顶部

傅余生