数学基础-概率论05(统计推断-分布拟合检验)
5.1 一般总体数学期望的假设检验
经常是面对一个随机变量,其满足的分布不清楚,此时对总体的未知参数的假设检验属于非正态总体假设检验
,即一般总体的假设检验问题。在样本很大(一般,最好或),可以使用中心极限定理进行分析。
5.1.1 一个总体均值的大样本假设检验
已知一个总体的均值和方差分别为:,一个样本的均值和方差分别为:,当n充分大时,由中心极限定理可知,近似服从标准正态分布N(0,1)。所以这个问题可以使用U检验法进行分析。
实际使用中,总体方差未知情况下,可使用样本方差进行替代。
5.1.2 两个总体均值的大样本假设检验
两个总体的均值检验统计量可以构造如下:
仍然使用U检验法进行检验。
5.2 假设检验问题的p值检验法
以上问题均属于临界值检验法,下面介绍P值检验法,所谓P值检验法就是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著性水水平。
例子:
检验牛奶是否加水,牛奶冰点温度近似满足正态分布,加水会导致该冰点温度升高,其均值方差分别为-0.545和0.008,现抽样5批牛奶,得到均值为-0.534,问这批牛奶是否加水,取显著性水平为0.05.
首先提出假设:
已知统计量观察值为:
P值<,所以拒绝,即认为牛奶加水了。
P值与显著性水平的关系
临界值法假设检验: 使用显著性水平得到统计量的拒绝域,结合样本统计量的值进行统计推断。
P值法假设检验: 由统计量得到P值,然后显著性水平进行比较得出统计推断。
5.3 分布拟合检验
实际问题中,首先要根据样本的观察结果对总体的分布类型进行检验。使用检验,可以检验总体是否具有某个指定的分布或者某个分布簇。
设总体的分布函数为,未知,为某一已知分布函数,考虑如下检验问题:
不含未知参数时,考虑如下:
对于随机变量,将其分为k段互不相交的区间,分点依次记为,记。
当成立时,有:,含义是随机变量落在区间的概率。假设区间的长度是,在n次的随机实验中,当成立且n足够大时,是的近似。
构造统计量1:用于衡量样本与假设分布的吻合程度。
为给定常数,皮尔逊证明,当取时,上面的式子可以变化如下:
含有未知参数时,考虑如下:
通过样本观察值
,使用极大似然估计,求出的估计值,再使用上述公式(1)作统计量分析。
皮尔逊定理:
- 若理论分布函数不含未知参数,则当成立且n充分大是,统计量近似服从自由度为的分布;
- 若理论分布函数含有未知参数,其未知参数个数为r时,统计量近似服从自由度为的分布。
从公式来看,为区间i的实际频数,是理论频数。则统计量的含义可写为:
给定显著性水平,的否定域是
实际使用中,确保n足够大,不能太小,一般是,如果太小,可以进行合并。
例子:
统计200天高速公路的车祸次数,得到下表信息
车祸数i | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
频数n_i | 109 | 65 | 22 | 3 | 1 |
试问,在显著性水平的情况下,是否认为X满足泊松分布。
解:
泊松分布含有未知参数,根据样本观察结合极大似然估计得到:
提出假设:,若为真时,总体分布律的估计形式为:
因此,
得,其因此将合并到.
计算得:
合并后,k=4,r=1,查表知:,即,不满足拒绝条件,即认为在显著性水平下,样本来自泊松分布。