正态分布

正态分布
Probability density function for the Normal distribtion
绿线代表标准正态分布
概率密度函数
Cumulative distribution function for the Normal distribution
颜色与概率密度函数同
累积分布函数
参数 \mu数学期望(实数)
\sigma^2>0方差(实数)
支撑集 x \in (-\infty;+\infty)\!
概率密度函數 \frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!
累积分布函数 \frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!
期望值 \mu
中位数 \mu
众数 \mu
方差 \sigma^2
偏度 0
峰度 0
信息熵 \ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!
动差生成函数 M_X(t)= \exp\left(\mu\,t+\sigma^2 \frac{t^2}{2}\right)
特性函数 \phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)

正态分布德语Normalverteilung英语: Normal distribution)又名高斯分布德语: Gauß-Verteilung英语Gaussian distribution, 采用德国数学家卡尔·弗里德里希·高斯的名字冠名),是一个在数学物理工程领域都非常重要的概率分布,由于这个分布函数具有很多非常漂亮的性质,使得其在诸多涉及统计科学离散科学等领域的许多方面都有着重大的影响力。比如图像处理中最常用的滤波器类型为Gaussian滤波器(也就是所谓的正态分布函数)。

随机变量X服从一个位置参数为\mu、尺度参数为\sigma的概率分布,记为:

X \sim N(\mu,\sigma^2),

则其概率密度函数

f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}

正态分布的数学期望值或期望值\mu等于位置参数,决定了分布的位置;其方差\sigma^2的开平方或标准差\sigma等于尺度参数,决定了分布的幅度。

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是位置参数\mu = 0,尺度参数\sigma = 1的正态分布(见右图中绿色曲线)。

 

 

概要[编辑]

正态分布是自然科学行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的,理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如,采样分布均值是近似地常态的,即使被采样的样本的原始群体分布并不服从正态分布。另外,正态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布

历史[编辑]

正态分布最早是棣莫弗在1718年著作的书籍的(Doctrine of Change),及1734年发表的一篇关于二项分布文章中提出的,当二项随机变量的位置参数n很大及形状参数p为1/2时,则所推导出二项分布的近似分布函数就是正态分布。拉普拉斯在1812年发表的《分析概率论》Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展到二项分布的位置参数为n及形状参数为1>p>0时。现在这一结论通常被称为棣莫佛-拉普拉斯定理

拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。

“钟形曲线”这个名字可以追溯到Jouffret他在1872年首次提出这个术语"钟形曲面",用来指代二元正态分布bivariate normal)。正态分布这个名字还被Charles S. PeirceFrancis GaltonWilhelm Lexis在1875分别独立地使用。这个术语是不幸的,因为它反应和鼓励了一种谬误,即很多概率分布都是常态的。(请参考下面的“实例”)

这个分布被称为“常态”或者“高斯”正好是Stigler名字由来法则的一个例子,
这个法则说“没有科学发现是以它最初的发现者命名的”。

正态分布的定义[编辑]

有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数,这种方法能够表示随机变量每个取值有多大的可能性。累积分布函数是一种概率上更加清楚的方法,请看下边的例子。还有一些其他的等价方法,例如cumulant特征函数动差生成函数以及cumulant-生成函数。这些方法中有一些对于理论工作非常有用,但是不够直观。请参考关于概率分布的讨论。

概率密度函数[编辑]

 
四个不同参数集的概率密度函数(绿色线代表标准正态分布)

正态分布概率密度函数均值为\mu 方差\sigma^2 (或标准差\sigma)是高斯函数的一个实例:


f(x;\mu,\sigma)
=
\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right)

(请看指数函数以及\pi.)

如果一个随机变量X服从这个分布,我们写作 X ~ N(\mu, \sigma^2). 如果\mu = 0并且\sigma = 1,这个分布被称为标准正态分布,这个分布能够简化为

f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right)

右边是给出了不同参数的正态分布的函数图。

正态分布中一些值得注意的量:

  • 密度函数关于平均值对称
  • 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
  • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
  • 95.449974%的面积在平均数左右两个标准差2 \sigma的范围内。
  • 99.730020%的面积在平均数左右三个标准差3 \sigma的范围内。
  • 99.993666%的面积在平均数左右四个标准差4 \sigma的范围内。
  • 函数曲线的反曲点(inflection point)为离平均数一个标准差距离的位置。

累积分布函数[编辑]

 
上图所示的概率密度函数的累积分布函数

累积分布函数是指随机变量X小于或等于x的概率,用概率密度函数表示为


F(x;\mu,\sigma)
=
\frac{1}{\sigma\sqrt{2\pi}}
\int_{-\infty}^x
 \exp
 \left( -\frac{(t - \mu)^2}{2\sigma^2}
\ \right)\, dt.

正态分布的累积分布函数能够由一个叫做误差函数特殊函数表示:


\Phi(z)=
\frac12 \left[1 + \mathrm{erf}\,(\frac{z-\mu}{\sigma\sqrt2})\right] .

标准正态分布的累积分布函数习惯上记为\Phi,它仅仅是指\mu=0\sigma=1的值,


\Phi(x)
=F(x;0,1)=
\frac{1}{\sqrt{2\pi}}
\int_{-\infty}^x
\exp\left(-\frac{t^2}{2}\right)
\, dt.

将一般正态分布用误差函数表示的公式简化,可得:


\Phi(z)
=
\frac{1}{2} \left[ 1 + \operatorname{erf} \left( \frac{z}{\sqrt{2}} \right) \right]
.

它的反函数被称为反误差函数,为:


\Phi^{-1}(p)
=
\sqrt2
\;
\operatorname{erf}^{-1} \left(2p - 1 \right)
.

该分位数函数有时也被称为probit函数。probit函数已被证明没有初等原函数。

正态分布的分布函数\Phi(x)没有解析表达式,它的值可以通过数值积分泰勒级数或者渐进序列近似得到。

生成函数[编辑]

动差生成函数[编辑]

动差生成函数或矩生成函数或动差产生函数被定义为\exp(tX)的期望值。

正态分布的动差产生函数如下:

 

M_X(t)\, =
\mathrm{E}
\left(
 e^{tX}
\right)
  =
\int_{-\infty}^{\infty}
 \frac
 {1}
 {\sigma \sqrt{2\pi} }
 e^{\left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)}
 e^{tx}
\, dx
  =
e^{
\left(
 \mu t + \frac{\sigma^2 t^2}{2}
\right)}

可以通过在指数函数内配平方得到。

特征函数[编辑]

特征函数被定义为\exp (i t X)期望值,其中i是虚数单位. 对于一个常态分布来讲,特征函数是:

\phi_X(t;\mu,\sigma)\! =
\mathrm{E}
\left[
 \exp(i t X)
\right]
  =
\int_{-\infty}^{\infty}
 \frac{1}{\sigma \sqrt{2\pi}}
 \exp
 \left(- \frac{(x - \mu)^2}{2\sigma^2}
 \right)
 \exp(i t x)
\, dx
  =
\exp
\left(
 i \mu t - \frac{\sigma^2 t^2}{2}
\right)
.

把矩生成函数中的t换成i t就能得到特征函数。

性质[编辑]

正态分布的一些性质:

  1. 如果X \sim N(\mu, \sigma^2) \,ab实数,那么a X + b \sim N(a \mu + b, (a \sigma)^2) (参见期望值方差).
  2. 如果X \sim N(\mu_X, \sigma^2_X)Y \sim N(\mu_Y, \sigma^2_Y)统计独立的常态随机变量,那么:
    • 它们的和也满足正态分布U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) (proof).
    • 它们的差也满足正态分布V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y).
    • UV两者是相互独立的。(要求X与Y的方差相等)
  3. 如果X \sim N(0, \sigma^2_X)Y \sim N(0, \sigma^2_Y)是独立常态随机变量,那么:
    • 它们的积X Y服从概率密度函数为p的分布
      p(z) = \frac{1}{\pi\,\sigma_X\,\sigma_Y} \; K_0\left(\frac{|z|}{\sigma_X\,\sigma_Y}\right),其中K_0是修正贝塞尔函数(modified Bessel function)
    • 它们的比符合柯西分布,满足X/Y \sim \mathrm{Cauchy}(0, \sigma_X/\sigma_Y).
  4. 如果X_1, \cdots, X_n为独立标准常态随机变量,那么X_1^2 + \cdots + X_n^2服从自由度为n卡方分布

标准化常态随机变量[编辑]

动差或矩(moment)[编辑]

一些正态分布的一阶动差如下:

阶数原点矩中心矩累积量
0 1 0  
1 \mu 0 \mu
2 \mu^2 + \sigma^2 \sigma^2 \sigma^2
3 \mu^3 + 3\mu\sigma^2 0 0
4 \mu^4 + 6 \mu^2 \sigma^2 + 3 \sigma^4 3 \sigma^4 0

标准常态的所有二阶以上的累积量为零。

生成常态随机变量[编辑]

中心极限定理[编辑]

 
正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。

正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。

  • 参数为np二项分布,在n相当大而且p接近0.5时近似于正态分布(有的参考书建议仅在n pn(1 - p)至少为5时才能使用这一近似)。

近似正态分布平均数为\mu = n p且方差为\sigma^2 = n p (1 - p).

  • 泊松分布带有参数\lambda当取样样本数很大时将近似正态分布\lambda.

近似正态分布平均数为\mu = \lambda且方差为\sigma^2 = \lambda.

这些近似值是否完全充分正确取决于使用者的使用需求

无限可分性[编辑]

正态分布是无限可分的概率分布。

稳定性[编辑]

正态分布是严格稳定的概率分布。

标准偏差[编辑]

 
深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%,根据正态分布,两个标准差之内的比率合起来为95%;三个标准差之内的比率合起来为99%

在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。

常态测试[编辑]

相关分布[编辑]

参量估计[编辑]

参数的极大似然估计[编辑]

概念一般化[编辑]

多元正态分布协方差矩阵的估计的推导是比较难于理解的。它需要了解谱原理(spectral theorem)以及为什么把一个标量看做一个1×1矩阵(matrix)的迹(trace)而不仅仅是一个标量更合理的原因。请参考协方差矩阵的估计(estimation of covariance matrices).

参数的矩估计[编辑]

常见实例[编辑]

光子计数[编辑]

计量误差[编辑]

饮料装填量不足与超量的概率[编辑]

某饮料公司装瓶流程严谨,每罐饮料装填量符合平均600毫升,标准差3毫升的常态分配法则。随机选取一罐,求(1)容量超过605毫升的概率;(2)容量小于590毫升的概率。

容量超过605毫升的概率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475

容量小于590毫升的概率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004

6-标准差(6-sigma或6-σ)的品质管制标准

6-标准差(6-sigma或6-σ),是制造业流行的品质管制标准。在这个标准之下,一个标准常态分配的变量值出现在正负三个标准差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是说,这种品质管制标准的产品不良率只有万分之二十六。假设例中的饮料公司装瓶流程采用这个标准,而每罐饮料装填量符合平均600毫升,标准差3毫升的常态分配。那么预期装填容量的范围应该多少?

6-标准差的范围 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此,预期装填容量应该介于591至609毫升之间。

生物标本的物理特性[编辑]

金融变量[编辑]

寿命[编辑]

测试和智力分布[编辑]

计算学生智商高低的概率[编辑]

假设某校入学新生的智力测验平均分数与方差分别为100与12。那么随机抽取50个学生,他们智力测验平均分数大于105的概率?小于90的概率?

本例没有常态分配的假设,还好中心极限定理提供一个可行解,那就是当随机样本长度超过30,样本平均数xbar近似于一个常态变量,因此标准常态变量Z = (xbar –μ) /σ/ √n。

平均分数大于105的概率 = p(Z> (105 – 100) / (12 /√50))= p(Z> 5/1.7) = p( Z > 2.94) = 0.0016

平均分数小于90的概率 = p(Z< (90 – 100) / (12 /√50))= p(Z < 5.88) = 0.0000

计算统计应用[编辑]

生成正态分布随机变量[编辑]

在计算机模拟中,经常需要生成正态分布的数值。最基本的一个方法是使用标准的正态累积分布函数的反函数。除此之外还有其他更加高效的方法,Box-Muller变换就是其中之一。另一个更加快捷的方法是ziggurat算法。下面将介绍这两种方法。一个简单可行的并且容易编程的方法是:求12个在(0,1)上均匀分布的和,然后减6(12的一半)。这种方法可以用在很多应用中。这12个数的和是Irwin-Hall分布;选择一个方差12。这个随即推导的结果限制在(-6,6)之间,并且密度为12,是用11次多项式估计正态分布。

Box-Muller方法是以两组独立的随机数U和V,这两组数在(0,1]上均匀分布,用U和V生成两组独立的标准常态分布随机变量X和Y:

 X = \sqrt{- 2 \ln U} \, \cos(2 \pi V) ,
 Y = \sqrt{- 2 \ln U} \, \sin(2 \pi V)

这个方程的提出是因为二自由度的卡方分布(见性质4)很容易由指数随机变量(方程中的lnU)生成。因而通过随机变量V可以选择一个均匀环绕圆圈的角度,用指数分布选择半径然后变换成(正态分布的)x,y坐标。

posted @ 2014-12-16 16:41  苍月代表我  阅读(824)  评论(0编辑  收藏  举报