【统计学笔记】正态概率图与Q-Q图
概述
正态概率图是Q-Q图的一种,Q-Q图全称Quantile-Quantile图,借助Q-Q图可以检验数据的分布情况。
Q-Q图比较的是实际数据的分布情况与理论的偏差,正态概率图是Q-Q图的一种,其比较的是实际数据与正态分布理论点的偏差情况。
正态概率图的原理
假设现在需要从一个正态分布中抽样出9个点,最理想的情况下(理论情况下)抽样得到的9个点会将正态分布按照其累积概率进行10等分,获得如下图所示的分布情况,各个颜色块的面积是相等的。(这9个将概率分布平均分为10份的点,称之为十分位数,第一个点为第一十分位数,第二个为第二十分位数,以此类推)
通过对比抽样得到数值与这9个十分位数的分布情况,就可以确定数据是否符合正态分布。为了清晰观察抽样数据与理想分布之间的偏差情况。引入正态概率纸,其纵坐标为累积概率,是非等距刻度,横坐标为分位数或数值,为等距刻度。
正态概率纸让理论分位数(作横坐标)与对应的累积概率(作纵坐标)全部落在一条直线上,通过绘制抽样点在概率纸上的实际位置,观察其偏离直线的程度,就可以判断抽样数据是否符合正态分布了。
根据十分位数的性质,根据下式可以方便的计算得到各分位数的累积概率(CDF),式中k代表分位数的次序,n代表分为数的个数。
比如第一十分位数的累积概率为
(9个十分位数将概率分布曲线积分区域(总大小为1)进行了10等分,所以负无穷到第一个点之间的面积大小为0.1)
但统计学家认为在抽样较少的情况下,抽样点按照分位数等概率间隔的出现是不合理的,实际情况应该是分布在两端的数据被抽到的概率非常小,中间抽到的概率比较高,于是给出了一些分位点位置的调整方案,比如以下几种。
以上的方案可以利用下式统一进行表示
算例
假设我们实际抽样的9个点分别为11、15、18、27、29、35、42、46、55
计算得到这9个点的平均值为30.89,标准差为14.93
以a的取值为0.3为例,对各理论分位数、理论累积概率CDF、理论z值、理论值等进行计算。
(tips:z值可以理解为,将数据转化为标准正态分布后对应的点,即在标准正态分布中满足累积概率的数值)
首先是理论值的计算:
当a值取0.3时,分位数理论累积概率CDF的计算公式为:
于是第一个分位数的理论CDF为:
理论z值的计算公式为:
式中的代表正态分布的累积分布函数的反函数,作用是求出在正态分布中满足累积概率的数值。(即:概率分布函数从负无穷到该点的积分的大小为CDF)
通过Excel中的NORM.S.INV()函数可以方便的求出理论z值(以第一个分位数的z值计算为例)。
NORM.S.INV(0.0745)=-1.443
理论值的计算公式为:
式中为抽样数据的平均值,为抽样数据的标准差,因此计算得到第一个分位数的理论值为:
30.89+(-1.443)*14.93=9.343
(tips:理论值可以理解为将z值从标准正态分布还原到抽样数据可能服从的正态分布下的数值)
最后,根据实际值,可以计算出实际z值,其计算公式为:
因此,可以算得第一个分位数的实际z值为:
同样的可以完成剩余其他8个点的计算,计算结果如下:
然后,就可以开始绘制正态概率图了,以理论CDF和理论值为纵坐标和横坐标绘制得到理论正态分布的概率图,为一条倾斜向上的直线。
以理论CDF和实际值为纵坐标和横坐标,在上图中标注出实际数据的分布情况,得到下图。
最后,将理论数据的点移除,仅保留穿过理论点的直线和实际点,就可以得到我们平时所看到的正态概率图了。
以此类推,将上图的纵坐标和横坐标选择为其他变量,我们就可以得到其他不同的Q-Q图,比如:实际z值-理论z值、实际值-理论z值等。
Q-Q图的使用
根据实际点在Q-Q图中的分布形态可以推断数据的实际分布情况,具体示例可以参看下图。
参考链接
统计学与质量035 - 正态概率图 Q-Q分位数图 (Quantile- Quantile Plot)_哔哩哔哩_bilibili
本文来自博客园,作者:逸笔
转载请注明原文链接:https://www.cnblogs.com/1blog/p/15186564.html