【数据分析师 Level 1 】4.假设检验
假设检验
1.基本概念
假设检验的基本步骤(以两个总体均值的假设检验为例)
(2)确定小概率事件的界值,一般情况下我们将p<0.05或p<0.01作为小概率的界值
(这里的0.05和0.01称为显著性水平)
(3)获取样本,即随机抽样
(4)选择检验的方法,选择具体的检验统计量并计算
(5)确定P值,并根据P值与显著性水平的关系得出相应结论
假设检验的两类错误
接受 H0 | 拒绝 H0 | |
---|---|---|
H0为真 | 正确 | α型错误(I型) |
H0为假 | β型错误(II型) | 正确 |
注意事项:拒绝或无法拒绝假设,并不等于100%正确;两类错误的概率相加并不一定等于1;样本量不变的情况下,α与β不能同时增大或减小
假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用
假设检验的基本思想为验证数据分析,强调鲜艳理论在数据分析中的核心地位,从提出假设理论触发,到验证假设的过程提示,数据分析理论的先导作用,所以业务流与假设检验的步骤大体概括如下:
(1)建立原假设成立,确定业务需求,明确目的
(2)确定小概率事件的界值,概率界值在不同行业中通用
(3)获取样本,收集或调查数据
(4)选择检验的方法,选择具体的统计方法
(5)确定P值,根据原需求和数据得出结论,需求的目的是否得到支持
所以可以看出,业务流程的数据分析与假设检验的流程是一致的
2.统计量的函数形式
z统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差已知,可以用样本均值的标准误差,按正态分布计算临界比率
一个总体,总体均值的假设检验,总体为非正态分布,总体方差未知,大样本。原则上用非参数检验,n的样本量较大(需要大于等于30或50),服从近似正态分布(总体已知)---原来是总体的样本换为S
t统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差未知,小样本(通常指小于30)
F统计量的函数形式
F检验统计量用于两个总体方差的检验
利用P值进行检验
P值是一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率,可以表示为对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设
左侧检验的P值为检验统计量X小于样本统计值C得概率,即:
P值是具体的数据,能提供具体的信息
3. P值的计算
单侧检验
(以右侧检验为例)P值为样本统计值X(将样本值代入检验统计量中的计算结果)右侧的面积(概率)
双侧检验
P值为样本统计值得绝对值右侧的面积的两倍
4.应用
两个独立样本t检验(小样本)
用于检验两样本是否来自相同均值的总体
-
原理:计算 t 统计量
-
公式
-
适用条件:用于小样本,例如n<30,且总体标准差未知的正态分布样本
-
操作流程:分析-->比较均值-->独立样本 t 检验
-
界面说明:检验变量:选入连续变量,可多选,但是结果是对检验变量逐一进行检验
-
分组变量:选二分类变量
-
输出结果
- Levene检验:用于检验方差是否齐性。F检验不显著(P>0.05),则满足方差齐(总体方差相等),反之,方差不齐(总体方差不相等)。
- 上表可以看出,方差齐,则看第一行的 t值,即 t=-10.115是显著的(p<0.05),说明两个总体的均值存在显著差异
例题精讲
1.如果没有理论、业务想到或也没有假设条件的情况下()
A.这样有违数据分析的逻辑,不能分析
B.可以进行探索性数据分析,了解数据情况
C.需要选择比较准确的模型才可以做数据分析
D.以上都不对
答案:B
解析:数据分析为验证性数据分析和探索性数据分析,验证性数据分析是传统数据分析的主要分析方法论,但探索性数据分析在先验假设不明确的情况下使用。
2. t 检验统计量的适用条件判断()
A.样本为小样本,并且总体方差已知
B.样本为大样本,并且总体方差已知
C.样本为小样本,并且总体方差未知
D.样本为大样本,并且总体方差未知
答案:C
解析:C项符合,需要记住t 检验的适用条件
3.下列适合用 t 检验的有()
A.比较某种化肥改良后,能否有助于提高某种农作物的产量
B.判断商品质量(如添加剂)是否达标
C.判断不同学历(如本科,硕士,博士)的收入差别
D.检验不同性别的同学在英语成绩上是否有显著差异
答案:A B D
解析:t 检验的应用题,A项可以使用配对样本 t 检验,B项可以使用单样本 t 检验,D项可以使用独立样本 t 检验,C项需要使用方差分析,本题是需要将 t 检验条件转化为实际问题加以解决
4.如果原假设 H0 为真,所得到的样本结果会像实际预测结果那么机端或更机端的概率称为()
A.临界值
B.统计量
C. P值
D.事先给定的显著性水平
答案:C
解析:临界值就是α(显著性水平)
5.某产品的次品率为0.17,现对此产品进行新工艺试验,从中抽取400件检验,发现有次品56件,能否认为此项新工艺提高了产品的质量(α=0.05),对于这个问题,正确的原假设是()【注:P为次品率】
A. P>=0.17
B. P<0.17
C. P>0.17
D. p=0.17
答案:A
解析:参照假设检验的基本原理,一般认为如果提高了产品质量,那么我们要拒绝原假设,所以原假设因为采用新工艺后次品率大于0.17的假设
6.设某产品的指标服从正态分布,它的标准差已知为150,抽取了一个容量为26的样本,计算得到平均值为1637.问在5%的显著性水平下,能否认为这批产品的指标的期望值为1600?该问题的原假设为()
A.μ=1600
B.μ≠1600
C.μ>=1600
D.μ<1600
答案:A
posted on 2020-11-22 19:51 pandaboy1123 阅读(608) 评论(0) 编辑 收藏 举报