透彻理解高斯分布
正态分布是与中的定量现象的一个方便模型。各种各样的心理学测试分数和现象比如计数都被发现近似地服从正态分布。
开始前,先看几个重要概念:
概率函数:把事件概率表示成关于事件变量的函数
概率分布函数:一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞),由它并可以决定随机变量落入任何范围内的概率。
概率密度函数:概率密度等于变量在一个区间(事件的取值范围)的总的概率除以该段区间的长度。
概率密度函数是一个描述随机变量在某个确定的取值点附近的可能性的函数。
概率分布函数与概率密度函数的关系:
连续型随机变量X的概率分布函数F(x),如果存在非负可积函数f(x),使得对任意实数x,有
f(x)为X的概率密度
高斯分布
通过概率密度函数来定义高斯分布:
高斯分布的概率密度函数是:
均值为μ,标准差为σ
高斯分布的概率分布函数是:
高斯分布标准差在概率密度分布的数据意义
高斯分布重要量的性质
密度函数关于平均值对称平均值是它的众数(statistical mode)以及中位数(median)函数曲线下68.268949%的面积在平均值左右的一个标准差范围内95.449974%的面积在平均值左右两个标准差2σ的范围内99.730020%的面积在平均值左右三个标准差3σ的范围其中第3-5条称为68-95-99.7法则
举一个例子:
检查一些示例数据:
女性体重的平均值= 127.8
标准偏差(SD)= 15.5
一个标准差的范围
两个标准差的范围
如何检查你的数据是不是高斯分布
· 看直方图! 是不是看起来像钟形?
· 计算描述性汇总度量 - 平均值,中位数和模式是否相似?
· 2/3的观察是否位于平均值的±标准差1内? 95%的观察值是否在平均值的±2标准差范围内?
中心极限定理
正态分布有一个很重要的性质:在特定条件下,大量统计独立的随机变量的和的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,依据这一定理的结论,其它概率分布能够用正态分布作为近似。
高斯分布可以从二项式(或泊松)推导出假设:
p不接近1或者0时,n非常大
我们有一个连续变量而不是一个离散变量
考虑扔一次硬币10,000次。
p(头)= 0.5,N = 10,000
对于二项分布:
平均数为μ = np=5000,标准差为σ = [np(1 p)] 1/2=50。
此二项分布的概率在μ±1范围内:
高斯分布均值±一个标准差的概率积分:
高斯分布线性组合的重要性质