【概率论与数理统计】假设检验
一、基本概念
假设检验和参数估计解决的是不同的问题,参数估计是对参数$\theta$作出一个估计比如均值为$\mu$,而假设检验则是对估计的检验,比如均值真的是$\mu$嘛?
1. 定义
假设检验指的是使用统计学的方法判定某假设为真的概率. 通常假设检验包含以下四个步骤:
1.1 形成零假设null hypothesis $H_0$和备择假设alternative hypothesis$H_a$
1.2 确定可以用来判断零假设真假的检验统计参数(test statistic)
1.3 计算P-value,P-value代表着null hypothesis为真的概率,P值越小,零假设为真可能性越小,备择假设为真的可能性越大.
1.4 将P-value和接受阈值比较,如果$p<\alpha$ 则具有统计显著性,零假设被排除,则备假设为真.
注:零假设也常称原假设,备择假设(抛弃原假设之后可以选择的假设)也常称原假设
2. 检验统计量,接受域,否定域,临界域,临界值
3.功效函数
假设总体分布包含若干个未知参数$\theta_1,...,\theta_k.H_0$是关于这些参数的一个原假设,设有了样本$X_1,...X_n$,而$\phi$是基于这些样本对$H_0$作的检验则$\phi$功效函数为
$\beta_\phi(\theta_1,...\theta_k) = P\theta_1,...,\theta_k(在检验\phi之下,H_0被否定)$
4. 两类错误、检验的水平
5. 一致最优检验
它是未知参数$\theta_1,...,\theta_k$的函数,当某一特定参数值使得$H_0$成立我们希望功效函数尽量小,当都已特定参数值使得备择假设$H_1$成立我们希望功效函数尽量大(否定零假设)
4. 两类错误
第一类错误:H_0正确,被否定;第二类错误H_1错误,被接受
若$\theta_1,...\theta_k$ 记为总体分布的参数, $\beta_\phi(\theta_1,...\theta_k)记检验\phi$的功效函数,则犯第一类,第二列错误的概率为
举例:
假设我们投掷一个四面体的骰子(1,2,3,4)1000次,290次观察到4. 接下来我们判定这个结果是否是有偏的biased(骰子是否公正).
1. 此问题中如果骰子没有任何问题: 我们的null hypothesis为$H_0:p = 0.25$
2. 为了证明$H_0$真假,我们接下来要收集evidence来支持或者否定null hypothesis.在此次实验中我们收集到的evidence为$\hat{p} = \frac{y}{n} = 0.29$.
3. 这一步使用我们evidence来决定是否应该支持/否定(或者说以多大的概率)1中的$H_0$
根据中心极限定理样本比例:$\hat{p} = \frac{Y}{n}$近似为均值$\mu = 0.25$, 标准差$\sigma = \sqrt{\frac{p_0(1-p_0)}{n}} = 0.01369$
那么:
$$Z = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} = 2.92$$
Z服从$N(0,1)$的正态分布
至此我们可以通过正态分布判断接受$\hat{p} = 0.29$为unbiased的结果的错误概率有多大。
有两种方式可以做出决策,一种是临界值(critical value)法, 一种是p-value法.
临界值法:
临界值法是确定一个判决阈值,如果我们的统计参数在这个阈值之下则认定null hypothesis为假,alternative hypothesis为真.
根据正态分布表$Z服从N(0,1)分布$则,Z>1.654时 我们以0.05的错误概率reject null hypothesis, 以0.95的正确概率in favor of alternative hypothesis.
我们前面的检验值Z = 2.92>1.654因此我们拒绝null hypothesis
P-value法:
前面我们提到了两种错误类型:$H_0正确被否定,H_1错误被接受$,这里记第一种前者为Type I error,后者为Type II error.每次我们在做判断的时候都不可能百分百做出正确的决策. 临界法当中我们设置Z >1.654的时候,实际上我们使得P(Type I error)<0.05. 通常我们定义$\alpha = P(Type I error)为“significance level of the test”检验的显著性水平.
而P-value实际上是我们则检验的时候得到的参数值(这里是Z = 2.92)对应的检验统计性水平(这里我们可以看出P-value法和critical value法是一个问题的两面,两种方法固定的阈值不同).通常我们定义P-value为reject假设集的最小统计显著性水平.
二、重要参数检验
1. 正态总体均值检验
1.1. 方差$\sigma^2$已知
1.2. 方差$\sigma^2$未知