商务统计学(六)第九章 第一部分 假设检验的基本概念以及两种对均值的假设检验方法
商务统计学(六)第九章 第一部分 假设检验的基本概念以及两种对均值的假设检验方法
《商务统计学》第七版
作者:戴维·莱文等,审校:胡大源
“先把书读厚,再把书读薄” --- 华罗庚
第九章 假设检验基础:单样本检验
在第7章中你学会了如何判定一个样本的均值是否与其来源总体相一致?
而现在你需要处理:怎样利用样本均值来证实一个有关总体均值的判断?
面对这样的问题你需要使用假设检验的推断方法(Look,这就是我喜欢这本书的地方)
9.1 基本假设的检验方法
假设检验
假设检验需要你陈述一个没有歧义的论断,假设检验一般从关于某一总体参数的理论、主张或者断言开始。
零假设
零假设用于表示现状,零假设仍然是关于总体参数的假设。
-
一个推断是:通过样本数据所观察到的结果,表明零假设为假,如果零假设为假,那么一定有其他假设为真(备择假设为真)
-
不能被拒绝的零假设并不能证明是真的。
-
(有意思的是)我们永远也不能证明零假设是真的,因为我们的判断仅仅基于样本信息,而不是整个总体信息。(也可以称为“我们无法证明备择假设的正确性”,所以你不能拒绝零假设)
-
零假设总是对总体参数的某一特定值而言的,而不是关于样本统计量(如样本均值)而言的
备择假设
在许多研究中,备择假设都不是研究的重点,因为如果从样本中得到的证据足以证明零假设不太为真,那么就可以拒绝零假设,从而得到备择假设所代表的结论。(但如果零假设没有被拒绝,你无法证明某一步出现了问题,那么你可以继续相信未被证实的零假设)
(零假设包含等号而备择假设不包含等号)
检验统计量的临界值
在决策的过程中,如果依靠个人主观判断(比如手样本均值与总体均值)什么样是“很接近”,什么样式“相差很大”,就太随意了。
假设检验论提供了清晰的定义来衡量这些差别,使得量化了决策过程,从而计算出在零假设成立的情况下,得到某一样本值的概率
要做到这一点
-
首先要确定有关的样本统计量(即样本均值)的抽样分布
-
然后根据给定的样本值计算出特定的检验统计量
(由于检验统计量的抽样分布通常服从某些已知的统计分布,比如标准正态分布和t分布,我们可以利用这些分布来确定零假设是否为真)
拒绝域和非拒绝域
我们可以将检验统计量的抽样分布分为两个区域:拒绝域和非拒绝域
- 如果检验统计量的值落入非拒绝域,那我们就无法拒绝零假设。
- 同理,如果落入拒绝域,那就可以拒绝零假设。(在零假设为真的落入拒绝域的可能性非常小,在零假设不为真时,落入拒绝域的可能性会增大许多)
- 临界值的确定决定于拒绝域的大小,而拒绝域的大小又和 根据样本信息来决定总体参数的 风险直接相关
根据假设检验方法进行决策的风险
用假设检验进行决策时,存在得出错误结论的风险,分为两类
- 第一类错误:错误地拒绝了一个正确的零假设。发生第一类错误的概率用alpha来表示。代表“错误报警”。
- 第二类错误:没有拒绝一个错误的零假设。发生第二类错误的概率用beta来表示。代表“坐失良机”。(译者挺有意思)
根据传统
-
显著性水平
\[\alpha是人们可以接受的拒绝正确零假设的风险,(这种犯第一类错误的风险或者说概率)被称为统计检验的显著性水平 \]由于在进行假设检验之前就要确定显著性水平,因此alpha可以认为加以控制,通常会选择0.01,0.05,0.10作为显著性水平
非一般情况的显著性水平取决于犯第一类错误的代价
- 置信系数\[与显著性水平\alpha互补的值(1-\alpha)称为置信系数\\ 是当零假设为真(不应被拒绝时)人们不拒绝它的概率 \]
- 置信系数
-
beta风险
\[犯第二类错误的(没有拒绝一个错误的零假设的)概率被称为\beta风险(\beta\ risk) \]-
统计检验能力
统计检验是,当零假设错误应该被拒绝时人们拒绝它的概率。(顾名思义,这是正确的拒绝,这样的概率可以表现该检验假设的能力)
-
-
控制和降低犯第二类错误的概率的途径之一就是扩大样本容量。给定显著性水平,扩大样本容量,将使beta值变小,从而增大统计检验能力。
但是我们拥有的资源是有限的。因此给定样本容量时,我们必须劝权衡两类可能的错误之间的“此消彼长”的关系
\[\alpha减小,\beta增大;\alpha增大,\beta减小 \]由于alpha --- 犯第一类错误的风险可以直接控制,所以一般通过alpha来权衡。至于应该取多大的alpha值最合理,这取决于犯这两类错误的代价:(以麦片装盒为例,每盒麦片的标称值为368g,零假设就为:平均每盒麦片的重量为368g)
-
如果犯第一类错误的代价很大,我们就可以选择alpha为0.01而不是0.05
(比如犯了第一类错误,然后所需要调整流水线上装配值的代价很高,就要选择较小的alpha)
-
如果犯第二类错误的代价很大,我们就可以将alpha增大到0.05甚至是0.10
(比如犯了第二类错误,但是根据质检标准,实际平均每盒麦片的重量要严格地限定在标称值附近,就要选择较大的alpha)
-
均值的Z检验(标准差已知)
假设检验临界值法
在假设检验法中需要将检验统计量(Zstat)与划分拒绝域与非拒绝域的临界值进行比较。
这里的临界值可表示为由显著性水平决定的标准化的Z值。
例如,我们使用0.05的显著水平,由于零假设包含等号而备择假设不包含等号,我们使用双侧检验(暂时不知道包不包含等号与进行双侧检验有什么关系),因此0.05被平分给两个拒绝域,每部分0.025。对正态分布而言,两处临界值的值分别就为-1.96和1.96(因为累积区域大小分别是0.025和0.975,然后对照累计标准正态分布表得出)。因此,决策准则为
临界值法进行假设检验的六个步骤
- 写出零假设和备择假设
- 确定显著水平alpha(根据问题中犯第一类错误和第二类错误的风险的相对重要性来确定),以及样本容量n
- 确定要使用的检验统计量,以及抽样分布
- 确定划分拒绝域和非拒绝域的临界值
- 收集整理样本数据,计算检验统计值
- 判定假设能否成立,做出决断(检验统计量落入拒绝域则拒绝假设,落入非拒绝域则不能拒绝假设)
假设检验的p值法
p值(p value)是在零假设为真的情况下,使得某一检验统计量等于或大于样本结果的概率。p值经常被称为“观察到的显著水平”。根据p值来确定拒绝域和非拒绝域是假设检验的另一种方法:
例如,我们要检验装盒重量的均值是否等于368g。所得到的Z(stat)=+1.50(就是说总体均值与样本均值的差距为1.50)。使用p值进行双侧检验,我们可以得到一个Z(stat)检验统计量相应的概率 --- Z(stat) < -1.50的概率为0.0668,那么同理,它大于+1.50的概率就为0.0668。因此,这一双侧检验中的p_value=0.0668+0.0668=0.1336(也就是说,检验统计量正处在或比样本观测结果更偏离中心的概率是0.1336),由于0.1336>0.05,因此不能拒绝零假设。
Excel可以计算任何假设检验的p值
p值法进行假设检验的5个步骤
相比假设检验法,不用第四步,重点在于假设准则
置信区间估计与假设检验之间的关系
这两者是统计推断的两个重要组成部分,他们基于相同的基本概念,但它们的目的不同
- 置信区间:用于估计参数
- 假设检验:用于对特定的总体参数值进行决策,当判断一个参数是否小于、大于或者不等于某一特定值时,使用假设检验
当然,合适的置信区间也可以证明某个参数是否小于、大于或不等于某一特定值。因为,如果假设值落入置信区间,则不能拒绝假设,因为假设值在置信区间内,我们就不能认为假设值是异常的。
关于均值Z检验的“已知标准差”
同第八章已知标准差的算法一样,研究已知标准差的检验让驾驶假设检验的基本原理变得简单。有了已知的总体标准差,可以使用正态分布并且计算出p值。对于后面几章,理解假设检验的概念非常重要。
9.2 对均值的t检验(标准差未知)
(建议对比“8.2 对总体均值的置信区间的估计 t分布”进行阅读)
总体标准差未知,我们就使用样本标准差。如果假设总体服从正态分布,样本均值将服从自由度为n-1的t分布,这样就可以使用对均值的t检验。(当然,老生常谈,只要样本容量不是特别小,即使总体并非正态分布,但其实依然可以使用t检验)
乍一看不是对均值的t检验和对均值的Z检验公式一样嘛!于是我找到了如下 资料(来源见拓展)
均值t检验和对均值Z检验的相同点
- 两者都能够进行均值差异性检验
均值t检验和对均值Z检验的不同点
- Z检验要求样本用量足够大(前者很难达到),t检验可以用于n<30的样本,也可以胜任大样本,而且不用知道总体
- Z检验要求总体标准差已知(很难达到该要求),t检验可以用样本均值和标准差代替总体均值和标准差
- t检验适用范围更广(由于上述两个区别),SPSS里只有t检验,没有z检验模块
注意
- 样本容量大于30且样本容量越大时,样本标准差就会与总体标准差越小
- 《商务统计学 第七版》指出,如果样本容量小于30,那么就不能轻易做出假设---认为样本的总体近似地服从于正态分布。此时,使用其他的非参数检验方法更为恰当。
- 当总体标准差未知且可以通过样本标准差S来估计时,就要使用t检验,但使用t检验,必须建设已有数据所代表的随机样本来自正态总体
假设检验举例
(书籍p279)商务目的是判断过去5年内平均每份销售单据的金额是否为120美元(样本容量为12,),也就是说,希望通过假设检验来证明销售单据金额的均值是否有所上升或下降
双侧检验 临界值法 (采用9.1六步法)
-
\[H_{0}:\mu=120\quad H_{1}:\mu\neq120 \]
-
\[n=12\quad,\alpha=0.05 \]
显著性水平采取一般值0.05
-
\[假设销售单据金额总体近似服从正态分布,使用t分布,并采用t检验 \]
因为样本容量小所以采用t分布,又因为总体标准差未知所以采用t检验
-
\[样本容量为12,因此t_{STAT}服从自由度为11的t分布\\ 显著性水平为0.05且此处采用双侧检验,因此一侧的拒绝域面积为0.025\\ 使用11和0.025查询t值表可得,临界值为\pm2.2010 \]\[因此决策原则为:\\ 若t_{STAT}<-t_{\frac{\alpha}{2}}=-2.2010\ 或者\ t_{STAT}>t_{\frac{\alpha}{2}}=2.2010,则拒绝H_{0}\\ 若在中间的区间内则不能拒绝H_{0} \]
-
随机抽取12个样本并计算样本均值与样本标准差
\[假设样本中\bar{X}=112.85,S=20.80\\ 代入t检验公式(预期中的总体均值\mu=120)得\\ t_{STAT}=-1.1908 \] -
\[由于t_{STAT}统计检验量=-1.1908且落入临界值\pm2.2010的范围内,因此不能拒绝H_{0}\\ 所以结论为“没有足够证据证明销售单据金额的均值已经偏离以往的均值120美元” \]
双侧检验 p值检验法
-
同上
-
同上
-
同上
-
\[t_{STAT}=-1.1908\\ 由Excel计算得(双侧)p\underline\ value=0.2588 \]
-
\[因为双侧p值0.2588大于显著性水平0.05,因此,不能拒绝H_{0}\\ 所以结论为“没有足够证据证明销售单据金额的均值已经偏离以往的均值120美元” \]
拓展阅读