正态分布(高斯分布)

http://songshuhui.net/archives/76501

http://songshuhui.net/archives/77386

     正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

     正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的, 理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如, 采样分布均值是近似地正态的,既使被采样的样本总体并不服从正态分布。另外,常态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布。

     正态态分布最早是亚伯拉罕·棣莫弗在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛-拉普拉斯定理。

    拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。

     “钟形曲线”这个名字可以追溯到Jouffret他在1872年首次提出这个术语"钟形曲面",用来指代二元正态分布(bivariate normal)。正态分布这个名字还被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分布独立的使用。这个术语是不幸的,因为它反应和鼓励了一种谬误,即很多概率分布都是正态的。


正态分布的定义


概率密度函数

四个不同参数集的概率密度函数(红色线代表标准正态分布)[图1]

正态分布的概率密度函数,其中均值为μ ,方差为σ2

f(x;μ,σ)=12πσexp(xμ)22σ2

如果一个随机变量X服从这个分布,我们写作XN(μ,σ2) 如果μ=0并且σ=1,这个分布被称为标准正态分布,这个分布能够简化为

f(x)=12πexpx22


复制代码
x=-7:0.01:7;
y=normpdf(x,0,1);
plot(x,y,'-r');
grid on;
hold on;
plot(x,normpdf(x,0,0.6),'-b');
plot(x,normpdf(x,0,5.0),'-g');
plot(x,normpdf(x,-2,0.8),'-k');
legend('ex=0,var=1','ex=0,var=0.6','ex=0,var=5.0','ex=-2,var=1');
复制代码

image

正态分布中一些值得注意的量:

  • 密度函数关于均值对称
  • 均值是它的众数(statistical mode)以及中位数(median)
  • 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
  • 95.449974%的面积在均值左右两个标准差2σ的范围内
  • 99.730020%的面积在均值左右三个标准差3σ的范围内
  • 99.993666%的面积在均值左右四个标准差4σ的范围内
  • 反曲点(inflection point)在离均值的距离为标准差之处
累积分布函数
复制代码
x=-7:0.01:7;
y=normcdf(x,0,1);
plot(x,y,'-r');
grid on;
hold on;
plot(x,normcdf(x,0,0.6),'-b');
plot(x,normcdf(x,0,5.0),'-g');
plot(x,normcdf(x,-2,0.8),'-k');
legend('ex=0,var=1','ex=0,var=0.6','ex=0,var=5.0','ex=-2,var=1');
复制代码

image

上图所示的是概率密度函数的累积分布函数,累积分布函数是指随机变量X小于或等于x的概率,用密度函数表示为

F(x;μ,σ)=12πσxexp(xμ)22σ2dx

标准正态分布的累积分布函数习惯上记为Φ,它仅仅是指μ=0σ=1时的值

Φ(x)=F(x;0,1)=12πxexpx22dx

正态分布的一些性质

  1. 如果XN(μ,σ2)ab是实数,那么aX+bN(aμ+b,(aσ)2)
  2. 如果XN(μX,σ2X)YN(μY,σ2Y)是统计独立的正态随机变量,那么:
    • 它们的和也满足正态分布 . U=X+YN(μX+μY,σ2X+σ2Y)
    • 它们的差也满足正态分布. U=XYN(μXμY,σ2X+σ2Y)
    • UV两者是相互独立的。
  3. 期望:μ
  4. 方差:σ2


posted on   迈克老狼2012  阅读(8086)  评论(0编辑  收藏  举报

编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示