【数据分析师 Level 1 】4.假设检验

假设检验

1.基本概念

假设检验的基本步骤（以两个总体均值的假设检验为例）

(2)确定小概率事件的界值，一般情况下我们将p<0.05或p<0.01作为小概率的界值
(这里的0.05和0.01称为显著性水平)

(3)获取样本，即随机抽样

(4)选择检验的方法，选择具体的检验统计量并计算

(5)确定P值，并根据P值与显著性水平的关系得出相应结论

假设检验的两类错误

	接受 H0	拒绝 H0
H0为真	正确	α型错误(I型)
H0为假	β型错误(II型)	正确

注意事项：拒绝或无法拒绝假设，并不等于100%正确；两类错误的概率相加并不一定等于1；样本量不变的情况下，α与β不能同时增大或减小

假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用

假设检验的基本思想为验证数据分析，强调鲜艳理论在数据分析中的核心地位，从提出假设理论触发，到验证假设的过程提示，数据分析理论的先导作用，所以业务流与假设检验的步骤大体概括如下：

（1）建立原假设成立，确定业务需求，明确目的

（2）确定小概率事件的界值，概率界值在不同行业中通用

（3）获取样本，收集或调查数据

（4）选择检验的方法，选择具体的统计方法

（5）确定P值，根据原需求和数据得出结论，需求的目的是否得到支持

所以可以看出，业务流程的数据分析与假设检验的流程是一致的

2.统计量的函数形式

z统计量的函数形式

一个总体，总体均值的假设检验，总体正态，总体方差已知，可以用样本均值的标准误差，按正态分布计算临界比率

一个总体，总体均值的假设检验，总体为非正态分布，总体方差未知，大样本。原则上用非参数检验，n的样本量较大（需要大于等于30或50），服从近似正态分布（总体已知）---原来是总体的样本换为S

t统计量的函数形式

一个总体，总体均值的假设检验，总体正态，总体方差未知，小样本（通常指小于30）

F统计量的函数形式

F检验统计量用于两个总体方差的检验

利用P值进行检验

P值是一种概率，一种在原假设为真的前提下出现观察样本以及更极端情况的概率，可以表示为对原假设的支持程度，是用于确定是否应该拒绝原假设的一种方法，当P值小于显著性水平的时候，就需要拒绝原假设，否则就无法拒绝原假设

左侧检验的P值为检验统计量X小于样本统计值C得概率，即：

P值是具体的数据，能提供具体的信息

3. P值的计算

单侧检验

（以右侧检验为例）P值为样本统计值X（将样本值代入检验统计量中的计算结果）右侧的面积（概率）

双侧检验

P值为样本统计值得绝对值右侧的面积的两倍

4.应用

两个独立样本t检验（小样本）

用于检验两样本是否来自相同均值的总体

原理：计算 t 统计量
公式
适用条件：用于小样本，例如n<30，且总体标准差未知的正态分布样本
操作流程：分析-->比较均值-->独立样本 t 检验
界面说明：检验变量：选入连续变量，可多选，但是结果是对检验变量逐一进行检验
分组变量：选二分类变量
输出结果

Levene检验：用于检验方差是否齐性。F检验不显著(P>0.05)，则满足方差齐（总体方差相等），反之，方差不齐（总体方差不相等）。
上表可以看出，方差齐，则看第一行的 t值，即 t=-10.115是显著的(p<0.05)，说明两个总体的均值存在显著差异

例题精讲

1.如果没有理论、业务想到或也没有假设条件的情况下（）

A.这样有违数据分析的逻辑，不能分析

B.可以进行探索性数据分析，了解数据情况

C.需要选择比较准确的模型才可以做数据分析

D.以上都不对

答案：B

解析：数据分析为验证性数据分析和探索性数据分析，验证性数据分析是传统数据分析的主要分析方法论，但探索性数据分析在先验假设不明确的情况下使用。

2. t 检验统计量的适用条件判断（）

A.样本为小样本，并且总体方差已知

B.样本为大样本，并且总体方差已知

C.样本为小样本，并且总体方差未知

D.样本为大样本，并且总体方差未知

答案:C

解析：C项符合，需要记住t 检验的适用条件

3.下列适合用 t 检验的有（）

A.比较某种化肥改良后，能否有助于提高某种农作物的产量

B.判断商品质量（如添加剂）是否达标

C.判断不同学历（如本科，硕士，博士）的收入差别

D.检验不同性别的同学在英语成绩上是否有显著差异

答案：A B D

解析：t 检验的应用题，A项可以使用配对样本 t 检验，B项可以使用单样本 t 检验，D项可以使用独立样本 t 检验，C项需要使用方差分析，本题是需要将 t 检验条件转化为实际问题加以解决

4.如果原假设 H0 为真，所得到的样本结果会像实际预测结果那么机端或更机端的概率称为（）

A.临界值

B.统计量

C. P值

D.事先给定的显著性水平

答案：C

解析：临界值就是α（显著性水平）

5.某产品的次品率为0.17，现对此产品进行新工艺试验，从中抽取400件检验，发现有次品56件，能否认为此项新工艺提高了产品的质量（α=0.05），对于这个问题，正确的原假设是（）【注：P为次品率】

A. P>=0.17

B. P<0.17

C. P>0.17

D. p=0.17

答案：A

解析：参照假设检验的基本原理，一般认为如果提高了产品质量，那么我们要拒绝原假设，所以原假设因为采用新工艺后次品率大于0.17的假设

6.设某产品的指标服从正态分布，它的标准差已知为150，抽取了一个容量为26的样本，计算得到平均值为1637.问在5%的显著性水平下，能否认为这批产品的指标的期望值为1600？该问题的原假设为（）

A.μ=1600

B.μ≠1600

C.μ>=1600

D.μ<1600

答案：A

posted on 2020-11-22 19:51 pandaboy1123 阅读(819) 评论(0) 收藏举报

刷新页面返回顶部

Reproducing the GitHub Ribbon in CSS