正态分布(Normal distribution)又名高斯分布(Gaussian distribution)
一 数学期望
离散型随机变量X的取值为
,
为X对应取值的概率,可理解为数据
出现的频率
,则:
(可理解为平均值)
二
标准方差:方差的平方根,一组数据中的每一个数与这组数据的平均数的差的平方的和再除以数据的个数,再取平方根。
σ={[∑(Xi-X)^2]/n}^(1/2)
σ标准方差
Xi样本数据,i取1到n
X样本的平均数
n样本个数
标准方差能反映一个数据集的离散程度,数据整体分布离平均值越近,标准方差就越小。
三
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:
- X∼N(μ,σ2),
则其概率密度函数为
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布(见右图中绿色曲线)。
-
对于正态分布,我们只需要知道三件事,1)它长什么样的就是下图,2)他的两个参数,平均数和标准差,3)对于这个图的解释是什么,也就是平均数周围的得分在总体上占到大多数(平均数上下1.96个标准差的得分占到95%的总体)
-
首先,假如我们拿一个省的人口进行身高测量,那么我们可以将所有人的平均数和标准差求出,假如平均数为1.70,标准差为0.05。我们发现在平均数附近的人特别多,比如说在1.70-1.96*0.05到1.70+1.96*0.05的人占到了总人数的95%,这个时候我们大概能够判断出这个省的身高服从正态分布。
-
当然这只是举例方便大家好理解,那要得出身高为正态分布的这个结论,必须将数据与正态分布的概率密度函数进行拟合。这里对于一般采用spss进行数据分析的人来说,大可不必去纠缠于这些算法。我们只需要知道正态分布有什么特点,如何利用正态分布的特点进行参数的估计。
-
实际上大多数的牵涉到很大样本的数据都被证明是正态分布的,比如体重,学习成绩等。拿学习成绩来说,中等得分的学生占大多数,非常拔尖的以及非常差的占很少的一部分,这就是正态分布的特点。
作者:柒月
Q群 :2122210(嵌入式/机器学习)