CSS Ribbon

Reproducing the GitHub Ribbon in CSS

【数据分析师 Level 1 】4.假设检验

假设检验

1.基本概念

假设检验的基本步骤(以两个总体均值的假设检验为例)

(2)确定小概率事件的界值,一般情况下我们将p<0.05或p<0.01作为小概率的界值
(这里的0.05和0.01称为显著性水平)

(3)获取样本,即随机抽样

(4)选择检验的方法,选择具体的检验统计量并计算

(5)确定P值,并根据P值与显著性水平的关系得出相应结论

假设检验的两类错误

 接受 H0拒绝 H0
H0为真 正确 α型错误(I型)
H0为假 β型错误(II型) 正确

注意事项:拒绝或无法拒绝假设,并不等于100%正确;两类错误的概率相加并不一定等于1;样本量不变的情况下,α与β不能同时增大或减小

8023e0defb06b29cd4ff41b689ba3505.png

假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用

假设检验的基本思想为验证数据分析,强调鲜艳理论在数据分析中的核心地位,从提出假设理论触发,到验证假设的过程提示,数据分析理论的先导作用,所以业务流与假设检验的步骤大体概括如下:

(1)建立原假设成立,确定业务需求,明确目的

(2)确定小概率事件的界值,概率界值在不同行业中通用

(3)获取样本,收集或调查数据

(4)选择检验的方法,选择具体的统计方法

(5)确定P值,根据原需求和数据得出结论,需求的目的是否得到支持

所以可以看出,业务流程的数据分析与假设检验的流程是一致的

2.统计量的函数形式

z统计量的函数形式

一个总体,总体均值的假设检验,总体正态,总体方差已知,可以用样本均值的标准误差,按正态分布计算临界比率

 

 

一个总体,总体均值的假设检验,总体为非正态分布,总体方差未知,大样本。原则上用非参数检验,n的样本量较大(需要大于等于30或50),服从近似正态分布(总体已知)---原来是总体的样本换为S

 

 

t统计量的函数形式

一个总体,总体均值的假设检验,总体正态,总体方差未知,小样本(通常指小于30)

 

 

 

 

191a598b83813bf3da170f0b0dd1e504.png

F统计量的函数形式

F检验统计量用于两个总体方差的检验

 

 

c2b2c8082cc2c97d174759422f4e729a.png

利用P值进行检验

P值是一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率,可以表示为对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设

左侧检验的P值为检验统计量X小于样本统计值C得概率,即:

 

 

P值是具体的数据,能提供具体的信息

3. P值的计算

单侧检验

(以右侧检验为例)P值为样本统计值X(将样本值代入检验统计量中的计算结果)右侧的面积(概率)

157eaf930ea73c5c95d8e7910127d8bc.png

双侧检验

P值为样本统计值得绝对值右侧的面积的两倍

c5d316386783692c915d6c85721ed2f0.png

4.应用

两个独立样本t检验(小样本)

用于检验两样本是否来自相同均值的总体

  • 原理:计算 t 统计量

  • 公式

  • 适用条件:用于小样本,例如n<30,且总体标准差未知的正态分布样本

  • 操作流程:分析-->比较均值-->独立样本 t 检验

  • 界面说明:检验变量:选入连续变量,可多选,但是结果是对检验变量逐一进行检验

  • 分组变量:选二分类变量

  • 输出结果

4c717f43873dd3ed0deaf3e909ac2606.png

  • Levene检验:用于检验方差是否齐性。F检验不显著(P>0.05),则满足方差齐(总体方差相等),反之,方差不齐(总体方差不相等)。
  • 上表可以看出,方差齐,则看第一行的 t值,即 t=-10.115是显著的(p<0.05),说明两个总体的均值存在显著差异

例题精讲

1.如果没有理论、业务想到或也没有假设条件的情况下()

A.这样有违数据分析的逻辑,不能分析

B.可以进行探索性数据分析,了解数据情况

C.需要选择比较准确的模型才可以做数据分析

D.以上都不对

答案:B

解析:数据分析为验证性数据分析和探索性数据分析,验证性数据分析是传统数据分析的主要分析方法论,但探索性数据分析在先验假设不明确的情况下使用。

2. t 检验统计量的适用条件判断()

A.样本为小样本,并且总体方差已知

B.样本为大样本,并且总体方差已知

C.样本为小样本,并且总体方差未知

D.样本为大样本,并且总体方差未知

答案:C

解析:C项符合,需要记住t 检验的适用条件

3.下列适合用 t 检验的有()

A.比较某种化肥改良后,能否有助于提高某种农作物的产量

B.判断商品质量(如添加剂)是否达标

C.判断不同学历(如本科,硕士,博士)的收入差别

D.检验不同性别的同学在英语成绩上是否有显著差异

答案:A B D

解析:t 检验的应用题,A项可以使用配对样本 t 检验,B项可以使用单样本 t 检验,D项可以使用独立样本 t 检验,C项需要使用方差分析,本题是需要将 t 检验条件转化为实际问题加以解决

4.如果原假设 H0 为真,所得到的样本结果会像实际预测结果那么机端或更机端的概率称为()

A.临界值

B.统计量

C. P值

D.事先给定的显著性水平

答案:C

解析:临界值就是α(显著性水平)

5.某产品的次品率为0.17,现对此产品进行新工艺试验,从中抽取400件检验,发现有次品56件,能否认为此项新工艺提高了产品的质量(α=0.05),对于这个问题,正确的原假设是()【注:P为次品率】

A. P>=0.17

B. P<0.17

C. P>0.17

D. p=0.17

答案:A

解析:参照假设检验的基本原理,一般认为如果提高了产品质量,那么我们要拒绝原假设,所以原假设因为采用新工艺后次品率大于0.17的假设

6.设某产品的指标服从正态分布,它的标准差已知为150,抽取了一个容量为26的样本,计算得到平均值为1637.问在5%的显著性水平下,能否认为这批产品的指标的期望值为1600?该问题的原假设为()

A.μ=1600

B.μ≠1600

C.μ>=1600

D.μ<1600

答案:A

posted on 2020-11-22 19:51  pandaboy1123  阅读(608)  评论(0编辑  收藏  举报

导航