数学基础(2)~ 数理统计基础知识
出处:http://www.cnblogs.com/fanling999/p/6708458.html
参考:盛骤, 谢式千, 潘承毅. 概率论与数理统计, 第四版[M]. 高等教育出版社, 2008.
数理统计基础知识
_数理统计_是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和假设。
在实际工程中,我们对于一个总体进行研究,往往只能通过对总体的观察样本进行研究,基于样本的分布来研究总体的分布,数理统计为这样的过程提供和很好的支持。本文主要分为三个部分旨在对数理统计知识进行简要的回顾和总结,因此忽略了很多细节,如需要可以参考本文使用的教材,或其他相关书籍。
第一部分对抽样分布的内容进行了回顾总结,是后续章节的基础。根据大数定理,我们可以基于样本对总体的统计量进行合适的估计,统计量有样本均值、样本方差、样本标准差、样本k阶(原点)矩、样本k阶中心矩。使用统计量的分布(即抽样分布)对总体分布进行研究,总结了常用的三大分布即 \(\chi ^{2}\),t分布,和F分布,主要关注分布的概率密度函数以及分为点。
第二部分和第三部分总结了统计推断的两大类问题,即估计问题和假设检验问题。
第二部分,参数估计,可分为点估计和区间估计。其中点估计有矩估计发和极大似然估计法。为了获知估计的可信程度,可使用区间估计法,其核心在于基于统计量的分布,以及分为点,确定参数估计区间。
第三部分,假设检验,是根据样本所提供的信息来考虑对假设作出接收或拒绝的决策过程。假设检验与区间估计类似,假设检验中有零假设和备择假设。我们总是假设在假设零假设正确的基础上去计算‘当零假设正确时被拒绝的概率’,这也被称为第一类错误发生的概率,并尽可能的减小这种错误发生的可能性,使得错误发生的概率很小,而小概率事件在一次试验中是几乎不可能发生的,因此对于一次观察,如果这样的错误发生了,我们就有理由怀疑零假设的正确性,从而做出拒绝零假设的决策,具体过程参考相应章节。最常用的假设检验方法有t检验。其中需要注意的问题还有样本容量的选取、原假设和备择假设的选取等。在实践中我们常喜欢使用p-value来衡量假设检验的显著程度,显著水平\(\alpha\)相对应。最后,大多假设都基于分布已知的前提,这些也被称为参数化方法。然而实践中这不总是能获知,这个时候可以有两个解决方案(1)当样本容量充分大时,我们可以根据中心极限定理,使用正态分布对总体分布进行近似(2)使用非参数化方法,不需要基于分布已知的前提,不过其检验效果往往差于参数化方法,其中秩和检验就是这样的非参数化检验方法。因此在最后总结了分布拟合检验,对未知总体是否服从某一分布进行假设检验。
1.样本及抽样分布
本章主要介绍总体、随机样本及统计量等基本概念,介绍了几个常用的统计量和抽样分布。
1.1 随机样本
基本概念
- 总体:实验全部可能的观察值
- 个体:每个观察值被成为个体
- 容量:总体中所包含的个体的个数
- 有限总体:容量有限
- 无限总体:容量无限(有些有限总体的容量很大,可以认为是无限总体,例如考察全国正在使用的某种灯泡的寿命)
- 样本:在数理统计中,人们都是通过从总体中抽取一部分个体,根据获得的数据来对总体分布作出推断的,被抽出的部分个体叫做总体的一个样本。
- 抽样:放回抽样和不放回抽样。对于有限总体,采用放回抽样可以得到简单随机样本,但放回抽样使用起来不方便,因此当个体总数N比要得到的样本的容量n大得多时,可将不放回抽样当作放回抽样来处理。对于无限总体,因抽取一个个体不影响它的分布,因此总是使用不放回抽样。
- 简单随机样本:在相同条件下对总体X进行n次重复的、独立的观察,n次观察结果依次表示为X1,X2,...,Xn, 可认为他们相互独立并都是与总体X具有相同分布的随机变量。
重要定义
定义:设X是具有分布函数F的随机变量,若 X1,X2,...,Xn 是具有同一分布函数F的、相互独立的随机变量,则称 X1,X2,...,Xn 为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值 x1,x2,...,xn 称为样本值,又称为X的n个独立的观察值。
将样本表示成一个随机向量(X1,X2,...,Xn),对应的样本值为 (x1,x2,...,xn)。
若(x1,x2,...,xn)和(y1,y2,...,yn)都是相应于样本(X1,X2,...,Xn)的样本值,一般来说它们是不相同的。
由定义(X1,X2,...,Xn)的分布函数为:
若X具有概率密度,则 (X1,X2,...,Xn)的概率密度为:
1.2 直方图和箱线图
图表是进行数据分析的有效工具,这里给出两个常用的基本统计图:
频率直方图:(1)将可能的结果分成几个区间,即横坐标的分段,统计每个分段的频率并作图(1)小矩形面积=数据落在该区间内的频率。
(2)几个概念:
- 中心位置:中位数M所在位置就是数据集的中心;
- 离散程度:全部数据都落在[Min,Max]之内,[Min,Q1],[Q1,M],[M,Q3],[Q3,Max]区间内的数据个数约各占1/4。区间较短时,表示落在区间的点比较集中,反之较为分散;
- 对称性:若中位数位于箱子的中间位置,则数据分布较为对称(下图中Min离M的距离较Max离M的距离大,表示数据分布左倾斜,反之可称为右倾斜)。
1.3 抽样分布
样本是进行统计推断的依据。在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。
1.3.1 几个常用的统计量
定义:设X1,X2,...,Xn是来自总体X的一个样本,g(X1,X2,...,Xn) 是 X1,X2,...,Xn的函数,g中不含未知参数,则称 g(X1,X2,...,Xn) 是一统计量。
因为X1,X2,...,Xn是随机变量,而g(X1,X2,...,Xn)是随机变量的函数,因此统计量是一个随机变量。相应的设 x1,x2,...,xn 为样本值,那么g(x1,x2,...,xn)为g(X1,X2,...,Xn)的观察值。
- 样本平均值:
- 样本方差:(分母为n-1是为了保证无偏估计)
- 样本标准差:
- 样本k阶(原点)矩:
- 样本k阶中心矩:
将样本值x1,x2,...,xn带入上面的统计量表达式则可以得到对应的观察值。
1.3.2 经验分布函数
总体分布函数F(X)的统计量称为经验分布函数。
构造方法如下:设X1,X2,...,Xn是总体F的一个样本,用S(x),-inf < x < inf 表示 X1,X2,...,Xn 中不大于 x 的随机变量的个数,则经验分布函数定义如下:
一般,设x1,x2,...,xn是总体F的一个容量为n的样本值,先将x1,x2,...,xn 按自小到大的次序排列,并重新编号。设为 x(1) <= x(2)<=...<=x(n),则经验分布函数的观察值为:
对于经验分布函数,格里汶科(Glivenko)在1933年已经证明,当n趋于无穷时,经验分布函数一致收敛于分布函数F(x)。因此当n充分大时,经验分布函数的任一观察值与总体分布函数F(x)只有微小的差别,实际上可以当作总体分布F(x)来只用。
1.3.3 几个常用统计量的分布
在使用统计量进行统计推断时常需要知道它的分布,然而这在实际中是困难的。因此我们经常使用统计量的分布来研究总体分布,而统计量的分布称为抽样分布。
下面给出三个来自正态分布的抽样分布,即统计学中的三大分布,重点给出定义、概率密度函数图、分位点
(1) \(\chi ^{2}\) (卡方分布)
定义: 设X1,X2,...,Xn是来自标准正态总体N(0,1)的样本,则称统计量
服从自由度为n的\(\chi ^{2}\)分布,记为$ \chi ^{2} \sim \chi ^{2}(n) $
(自由度是指独立变量的个数)
性质:
- 可列可加性
- 数学期望和方差(根据定义很好证明)
- 上分位点(参考图形,计算查表)
概率密度在n不同取值下的图形;上分为点示意图。
(2) t分布
定义:设 $ X\sim N(0,1), Y \sim \chi ^{2}(n) $ 且 X,Y相互独立,则称随机变量
服从自由度为n的t分布,记为t~t(n)。
上分位点
对称性: $$ t_{1-\alpha }(n) = -t_{\alpha}(n) $$
当n>45时,可用正态近似:$$ t_{\alpha }(n) \approx z_{\alpha} $$
t分布的概率密度图;上分为点图示。
(3) F分布
定义: 设 $ U \sim \chi ^{2}(n_{1}), V \sim \chi ^{2}(n_{2}) $ 且U,V相互独立,则称随机变量
服从自由度为(n1, n2)的F分布,记为 F~F(n1, n2)。
由定义可知:1/F ~ F(n2, n1)
上分位点
F分布的概率密度图;上分位点示意图
注意:在分为点中 $ 0 < \alpha < 1 $
1.3.4 正态总体的样本均值和样本方差的分布
(1)设X1,X2,...,Xn是来自总体X(不管服从什么分布,只要它的均值和方差存在)的样本,并且有:$$ E(X) = \mu, D(X) = \sigma ^{2}$$ 则有: $$ E(\bar{X}) = \mu, D(\bar{X}) = \sigma ^{2} / n $$
(2)设总体 \(X\sim N(\mu, \sigma ^{2})\) , X1,X2,...,Xn 是来自总体X的样本,则有:
- \(\bar{X} \sim N(\mu, \sigma ^{2}/n)\)
- \(\frac{(n-1)S^{2}}{\sigma ^{2}} \sim \chi ^{2}(n-1)\)
- \(\bar{X},S^{2}\) 相互独立
- \(\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)\)
- 两个正态总体 \(X \sim N(\mu _{1}, \sigma _{1}^{2}), Y \sim N(\mu _{2}, \sigma _{2}^{2})\)
- \(\frac{S_{1}^{2}/S_{2}^{2}}{\sigma _{1}^{2} / \sigma _{2}^{2}} \sim F(n_{1}-1, n_{2}-1)\)
- 当 \(\sigma _{1}^{2} = \sigma _{2}^{2} = \sigma ^{2}\) 查看参考书
2.参数估计
参数估计问题可以分为:点估计和区间估计。点估计是适当的选择一个统计量作为未知参数的估计,若已取得一样本,将样本值带入估计量,得到估计量的值,以估计量的值作为未知参数的值。点估计不能反应估计的精度,因此引入了区间估计,置信区间是一个随机区间,其具有高的预先给定的概率覆盖未知参数。
2.1 点估计
定义:设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计未知参数的值的问题称为参数的点估计问题。下面主要总结两种常用的点估计方法,即:矩估计法和最大似然估计法。
点估计的一般提法:设总体X的分布函数 \(F(x;\theta)\) 的形式为已知 \(\theta\) 是待估参数。X1,X2,...,Xn是X的一个样本,x1,x2,...,xn是相应的一个样本值。点估计问题就是要构造一个适当的统计量\(\hat{\theta}(X_{1},X_{2},...,X_{n})\),用它的观察值\(\hat{\theta}(x_{1},x_{2},...,x_{n})\)作为未知参数\(\theta\)的近似值。我们称\(\hat{\theta}(X_{1},X_{2},...,X_{n})\)为\(\theta\)的估计量, 称\(\hat{\theta}(x_{1},x_{2},...,x_{n})\)为\(\theta\)的估计值。
(1)矩估计法
- 基于样本矩依概率收敛于总体矩构造估计量,即:
- 根据样本矩估计总体矩得关于未知k个参数的方程组,即:
- 根据k个方程组解出未知参数,即:
使用样本矩代替总体矩得到:
\left{\begin{matrix}
\theta_{1}= & \theta_{1}(A_{1},A_{2},...,A_{k})\
\theta_{2}= & \theta_{2}(A_{1},A_{2},...,A_{k})\
... ... & \
\theta_{k}= & \theta_{k}(A_{1},A_{2},...,A_{k})
\end{matrix}\right.
(2)最大似然估计法
- 结合联合概率和条件概率的计算,可得样本X1,X2,...,Xn观察到值x1,x2,...,xn的概率如下(称为样本的似然函数):
- 原理:小概率事件在一次试验中几乎不可能发生,因此可以认为当前观察到的样本值x1,x2,...,xn发生的概率较大,即$ L(\theta)\(较大,我们不会考虑那些不能使当前样本值出现的那些\)\theta \in \Theta\(作为未知参数的估计,而是应该考虑那些使得\) L(\theta)\(较大的参数作为估计。****由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>,在\)\theta\(的可能范围内挑选使得似然函数\)L(x_{1},x_{2},...,x_{n};\theta)\(达到最大值的参数值\)\hat_{\theta}$作为估计值,即:****
\(\hat{\theta}(x_{1},x_{2},...,x_{n})\)称为参数\(\theta\)的最大似然估计值,而相应的\(\hat{\theta}(X_{1},X_{2},...,X_{n})\)称为参数\(\theta\)的最大似然估计量。
3. \(lnL(\theta)\) 和 \(L(\theta)\)在同一\(\theta\)处取到极值,因此可以对似然函数取对数后求解(取对数的操作可以将乘法转换为加法,计算上要更为简单),即对k个方程解以下微分方程得到未知参数的估计:
注意,对于连续型随机变量,似然函数可取(使用概率密度函数):
2.2 区间估计
区间估计是确定未知参数的一个取值范围,并给出未知参数落入这个范围的一个概率估计即可信程度。
定义: 假总体X的分布函数\(F(x;\theta)\)含有一个未知参数\(\theta, \theta \in \Theta\)(\(\Theta\)是可能取值的范围),对于给定值\(\alpha (0<\alpha<1)\),若由来自X的样本X1,X2,...,Xn确定的两个统计量$\underline{\theta}=\underline{\theta}(X_{1},X_{2},...,X_{n}) $ 和 $\bar{\theta}=\bar{\theta}(X_{1},X_{2},...,X_{n}) $ (\(\underline{\theta} < \bar{\theta}\)),对于任意 \(\theta \in \Theta\)满足
则称随机区间\((\underline{\theta} < \bar{\theta})\)是\(\theta\)置信水平为\(1-\alpha\) 的 置信区间,\(1-\alpha\)称为置信水平,\(\underline{\theta}\)为置信下限,\(\bar{\theta}\)为置信上限。
一般步骤:
- 寻找一个样本X1,X2,...,Xn和\(\theta\)的函数\(W = W(X_{1},X_{2}, ... ,X_{n};\theta)\),使得W的分布不依赖于\(\theta\)以及其他未知参数,称具有这种性质的函数W为枢轴量。(可以从上一章的抽样分布入手进行构造)
- 对于给定的置信水平\(1-\alpha\),定出两个常数a,b使得 \(P( a < W(X_{1},X_{2}, ... ,X_{n};\theta) < b) = 1- \alpha\)。若能从\(a < W(X_{1},X_{2}, ... ,X_{n};\theta) < b\) 得到与之等价的\(\theta\)的不等式\(\underline{\theta} < \theta < \bar{\theta}\),那么\((\underline{\theta} < \bar{\theta})\)是\(\theta\)置信水平为\(1-\alpha\) 的 置信区间。(根据上一步构造的枢轴量所服从分布的上分为点进行确定)
注意:枢轴量\(W = W(X_{1},X_{2}, ... ,X_{n};\theta)\)的构造,通常可以从\(\theta\)的点估计着手考虑。常用的正态总体的参数的置信区间可以用上述步骤推得。
一个例子:
问题:设总体\(X\sim N(\mu, \sigma ^{2})\),\(\sigma ^{2}\)为已知,\(\mu\)为未知,设\(X_{1},X_{2},...,X_{n}\)是来自X的样本,求\(\mu\)的置信水平为\(1-\alpha\)的置信区间。
解答:
我们知道\(\bar{X}\)是\(\mu\)的无偏估计,且有:
\(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\)服从标准正态分布不依赖于任何未知参数。按标准正太分布的上\(\alpha\)分为点的定义可得(如下图所示):
概率表示图中无阴影,中间部分。由此解得:
由此可以得到\(\mu\)的一个置信水平为\(1-\alpha\)的置信区间:$(\bar{X}-\frac{\sigma}{\sqrt{n}}z_{\alpha/2} ,\bar{X}+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}) $
最后只需要带入变量并查表就可以得到确切的区间。
值得注意的是,满足要求的置信区间不止一个,两个端点的面积加起来为\(\alpha\)则满足要求,但其中\(\alpha/2\)分为点形成的置信区间最短,因此精度最好,所以被选为置信区间(具体可参考课本P163)。
标准正态分布的分为点:
下面给出常用的区间估计,其不同在于枢轴量的构建,因此只给出各种情况下数轴量的表示以及服从的分布
2.3 正态总体均值与方差的区间估计
1. 单个总体\(X \sim N(\mu, \sigma^{2})\)
(1) 均值\(\mu\)的置信区间
1.1 \(\sigma^{2}\) 已知
如上文的例子
1.2 \(\sigma^{2}\) 未知
(2) 方差\(\sigma^{2}\)的置信区间
2. 两个总体\(X \sim N(\mu_{1}, \sigma_{2}^{2}), Y \sim N(\mu_{2}, \sigma_{2}^{2})\)
(1) 两个总体均值差\(\mu_{1} - \mu_{2}\)的置信区间
(2) 两个总体方差比\(\sigma_{1}^{2} / \sigma_{2}^{2}\)的置信区间
2.4 (0-1)分布参数的区间估计
有中心极限定理,当n充分大时有:
2.5 单侧置信区间
单侧致信区间是确定参数的上限或则下限,只需要根据给定的置信度确定上分为点或下分为点即可,如下面两图所示,其求解过程与双侧区间类似。
t分布的上\(\alpha\)分为点:
卡方分布的下\(\alpha\)分位点,可以根据性质求得(参考上一章):
2.6 估计量的评选标准
用不同的估计方法求出的估计量可能不相同,原则上任何统计量都可以作为未知参数的估计。至于哪一个更好,有以下3个常用的评判标准,即无偏性、有效性和相合性。
1. 无偏性
若估计量\(\hat{\theta} = \hat{\theta}(X_{1},X_{2},...,X_{n})\)的数学期望存在,且对于任意\(\theta \in \Theta\)有\(E(\hat{\theta}) = \theta\),这称\(\hat{\theta}\) 为 \(\theta\) 的无偏估计。
估计量相对于真值来说总会存在一定的误差,偏大或者偏小,无偏性是要求反复对估计量使用多次,其均值可以逼近真值,即要求系统误差$E(\hat{\theta}) - \theta $为0.
2. 有效性
有效性是对估计量离散程度的一个考量,对于两个无偏估计量,方差小的要更优。
3. 相合性
估计量要依概率收敛于真值,这是估计量的基本要求,如果估计量不能满足相合性,那么不论样本容量n取多么大,都不能得到参数的准确估计,是不可取的。
2.7 基于截尾样本的最大似然估计
很多时候由于各方面因素,比如时间和经济的因素,我们不能获取到完全样本。因此就会存在截断抽样,可分为定时结尾样本和定数结尾样本。以研究灯泡的寿命为例:定时结尾样本是给定一个观察终止的时间点,观察在这个时间点内有多少灯泡失效;定数结尾样本是给定常数m,当失效的灯泡数量达到m时,实验结束,得到一个样本。 对于这类问题,关键在于确定似然函数。
3.假设检验
有关总体分布的未知参数或未知分布形式的种种论断叫统计假设,人们根据样本所提供的信息对所考虑的假设作出接受或拒绝的决策。假设检验就是作出这一决策的过程。
3.1 假设检验
处理参数的假设检验问题的步骤如下:
- 根据实际问题的要求,提出原假设\(H_{0}\)及备择假设\(H_{1}\)
- 给定显著水平\(\alpha\)以及样本容量n
- 确定检验统计量以及拒绝域的形式
- 按P{当\(H_{0}\)为真拒绝\(H_{0}\)}\(\leqslant \alpha\)求出拒绝域
- 取样,根据样本观察值作出决策,是接受\(H_{0}\)还是拒绝\(H_{0}\)
示例
在显著水平\(\alpha\)下,检验假设:
H0称为原假设或零假设
H1称为备择假设
假设检验的过程是:我们认为H0假设是正确的,并尝试根据样本统计量对均值的真值进行估计,这个时候均值的无偏估计\(\bar{X}\)应该与\(\mu_{0}\)非常接近,即\(|\bar{X}-\mu_{0}|\)不会过分的大,如果很不幸对于某一样本值\(|\bar{x}-\mu_{0}|\)过大,又基于小概率事件在一次实验中几乎不可能发生,然而现在发生了,那么我们就有理由怀疑H0假设的正确性。通常来说,我们会给定一个阈值k以控制是否接受H0假设的决策。
另一方面,\(|\bar{x}-\mu_{0}|\)的大小与\(\frac{|\bar{X}-\mu_{0}|}{\sigma/\sqrt{n}}\)的大小是正相关的,而后者作为统计量更容易计算,因此我们往往会从某一统计量入手去做决策。既然是决策,就就有可能发生错误,即当H0为真时,我们仍然有可能将其拒绝,这也被称为假设检验中的第一类错误,我们希望尽可能减小这类错误发生的概率,
P{当H0为真拒绝H0} = \(P_{\mu_{0}}(|\frac{\bar{X}-\mu_{0}}{\sigma/\sqrt{n}}| \geq k) = \alpha\)
解释:H0为真,但其样本均值\(\bar{X}\)与给定值的偏离程度超出了阈值k,这个时候我们将会做出拒绝H0。然而!!!H0是真的,因此我们犯了第一类错误,而我们希望折中错误发生的概率很小,即\(\alpha\)很小,往往取0.1,0.05,0.01,0.005等值。
H0为真时,\(\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1)\),由标准正态分布分为点的定义,可以得到\(|\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}|\geq k = z_{\alpha/2}\),如下图:
对于任一样本值,计算\(|z|=|\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}}|\),如果|z|大于\(z_{\alpha/2}\),小概率事件发生了,那么我们有理由怀疑原假设的正确性,因此拒绝原假设,否则我们没有足够的理由拒绝原假设。
标准正态分布的分为点,我们希望阴影部分的面积尽可能小(这是犯第一类错误的概率,也是拒绝域):
常用的正态总体均值、方差的假设检验
根据中心极限定理,当样本容量很大时,很多分布都可以近似到正态分布进行处理。假设检验有双边检验、单边检验(左边检验和右边检验)。
t检验是实践中最常用到的假设检验,因为实践中往往很难获知方差的情况。对于单个正态总体,可以使用t检验均值的是否产生显著变化。对于两个正态总体,分两种情况(1)输入的是两组不同环境下的观察值,那么使用一般的t检验(2)输入是两组相同条件下的成对的(对比实验的)观察值,可以使用成对数据的t检验。(参考下面的表格)
对于单一实验样本可以采用t检验,对于成对的观察值可以采用成对的t检验。
3.2 假设检验的其他关键内容:
1. 置信区间与假设检验之间的关系
实际上置信区间是对某一参数的区间估计,这一区间对应着相应的假设检验中的接受域,\(1-\alpha\)置信水平的置信区间,对应着\(\alpha\)显著水平的假设检验的接受域。我们在进行假设检验(显著性检验)时更关注拒绝域。
2. 假设检验中的两类错误
第I类错误是假设检验中显式控制的错误,又称为“弃真”,第II类错误称为“存伪”。
3. 样本容量的选取
在假设检验中,总是根据问题的要求,预先给出显著性水平以控制犯第I类错误的概率,而犯第II类错误的概率则依赖于样本容量的选择。一些实际问题中,我们除了希望控制犯第I类错误的概率外,往往还希望控制犯第II类错误的概率。这里可以通过OC曲线来进行研究。
4. 假设检验问题的p值法
定义:假设检验问题的p值(probability value)是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著水平。
按p值的定义,对于任意显著性水平\(\alpha\),就有:
(1)若p值<=\(\alpha\),则在显著性水平\(\alpha\)下拒绝H0
(2)若p值>\(\alpha\),则在显著性水平\(\alpha\)下接受H0
在现代计算机统计软件中,一般都给出检验问题的p值。
p值表示反对原假设H0的依据的强度,p值越小,反对H0的依据越强、越充分。
一般,p值的讨论可以分为以下几种情况:
- 若p<=0.01,称推断拒绝H0的依据很强或称检验是高度显著的;
- 若0.01<p<=0.05称推断拒绝H0的依据很强或称检验是显著的;
- 若0.05<p<0.1称推断拒绝H0的理由是弱的,检验是不显著的;
- 若p>0.1一般来说没有理由拒绝H0。
t单边检验和双边检验的p value:
5. 原假设和备择假设的选择
在进行显著性检验时,犯第I类错误的概率是由我们控制的。\(\alpha\)取得小,保证了当H0为真时错误地拒绝H0的可能性很小。这意味着H0是受到保护的,也表明H0、H1的地位是不对等的。于是,在一对对立假设中,选哪一个作为H0需要小心。
一般情况下,选择H0、H1使得两类错误中后果严重的错误成为第一类错误,这是选择H0、H1的一个原则。 比如考虑某种药品是否为真时,应该将‘药品为假’作为H0,第一类错误就是‘药是假的但被拒绝了’,也就是说‘药是真的’,这个存在很大的危险性,不过现在我们将其作为H0假设,我们可以控制减小犯这种严重错误的概率。
如果两类错误中,没有一类错误的后果严重更需要避免时,常常取H0为维持现状,即取H0为‘无效益’,‘无改进’,‘无价值’等,这样会比较保守一些。
在实际问题中,情况比较复杂,如何选取H0,H1,只能在实践中积累经验,根据实际情况去判断。
3.4 秩和检验
显著性检验的方法可以分为参数统计方法和非参数统计方法。
(1)参数统计方法:总体分布类型已知,用样本指标对总体参数进行推断或假设检验的方法。
(2)非参数统计方法:不用考虑总体分布是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计的方法。
前面提及的统计检验方法,比如t检验,均属于参数统计方法,需要提前知道总体分布的形式。一般情况下,当样本容量足够大时,基于中心极限定理,可使用正态分布(高斯分布)作为近似。
而秩和检验是典型的非参数化统计方法,不需要知道总体分布的形式,不过值得注意的是检验需要满足‘独立性’是前提。
3.3 分布拟合检验
实际问题中,总体的分布往往不总是可以被获取到的,这时需要根据样本检验关于分布的假设。课本中主要介绍了\(\chi ^{2}\)拟合检验法,它可以用来检验总体是否具有某一个指定的分布或属于某一个分布族。此外还介绍了专门用于检验分布是否为正态的“偏度、峰度检验法”。
(1)单个分布的\(\chi ^{2}\)拟合检验法
(2)分布族的\(\chi ^{2}\)拟合检验法
(3)偏度、峰度检验
随机变量的偏度和峰度是指X的标准化变量\([X-E(X)]/\sqrt{D(X)}\)的三阶矩和四阶矩:
当随机变量X服从正太分布时\(\nu _{1}=0\)且\(\nu _{2}=3\)。