统计学基础-数值型数据
1.什么是统计学,什么是描述统计,什么是推断统计
-
-
统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。
-
描述统计(discriptive statistics):研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
描述统计其实就是对数据进行总体特征的概述,例子:说一下班级这次考试的情况如何
-
推断统计(inferential statistics):是研究如何利用样本数据来推断总体特征的统计方法
推断统计其实是建立在描述统计的基础之上,在对总体数据有了大致的了解之后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不管是在统计学上,还是在实际的业务分析中,我们做分析的终极目的就是用来得出我们结论,应用于决策。例如:房价预测,通过预测数据来进行销售,用户看到房价走势,如果一路走高,是不是要提早下手
-
2.统计研究的步骤
- 设计
全过程最关键的一步,良好的开端是成功的一半 选题--明确研究目的--提出假设--明确总体范围--确立观察指标--控制研究中的偏移--给出具体的研究方案
- 收集
收集数据,来源数据库,问卷等
- 整理
数据整理非常重要,现在的数据处理工具也比较好用,一定要把数据清洗干净,数据清洗好了才能得出正确的结论
- 分析
统计描述:了解样本数据的情况,是全部工作的基础,是尽量精确、直观而全面的对所获得的样本进行呈现
统计推断:从样本信息外推到总体,以获得对所感兴趣问题的解答
参数估计:样本-->所在总体特征
3.描述统计
- 集中趋势
高峰组段在什么位置
均数(mean):总体均数和样本均数,受极值的影响很大
中位数(Median):将全体数据从小到大排列,在整个数列中处于中间位置的那个值就是中位数。不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比均数更具有代表性
中位数的应用场景:对于对称性的数据,优先均数,仅仅对于均数不能使用的情况才使用中位数加以描述。
众数:一组数据当中,出现次数最多的那个数,工作中用的很少
Excel怎么操作
使用函数,还有更方便的操作,讲完离散趋势再说
均数:average()
中位数:median()
众数:mode()
- 离散趋势
数据分布范围是什么,分散程度如何
离均差:x-μ 个体偏离均值的程度
总体方差:离均差平方和/样本量
总体标准差:方差开根号
样本标准差:
存在的问题:
1.测量尺度的相差太大:例如蚂蚁和大象的体重变异
2.计算单位不同:比较身高和体重的变异程度
变异系数
变异系数解决了不同样本变异程度对比的问题
配件A的变异系数 = 7.6/13.5 = 0.562963
维修费的变异系数 = 120.7/247.9 = 0.48689
二者有一定差异,但是差的不多,还算保持一致
百分位数: 是一个位置指标,用Px表示,一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大,适用于各种分布
四分位数:P25、P50和P75分位数分别称作下四分位数,中位数 上四分位数
Excel怎么实现
使用函数
方差:var.s(num1,num2,....)
标准差:stdev.s(num1,num2,....)
变异系数:标准差/均值
百分位数:percentile.inc(array,k)
四分位数:quartile.inc(array,k)
- 分布形状
是否对称,分布曲线的形状
- 偏度系数 正态 正偏态 负偏态
- 峰度系数 正态 平阔峰 尖峭峰
- 分布特征
偏态 峰态
Excel怎么实现
使用函数
偏度:skew()
峰度:kurt()
4.推断统计
利用样本数据来推断总体特征的统计方法
从样本信息外推到总体,以最终获得对所感兴趣问题的解答
1 分类变量
- 无序分类变量:说明事物类别的一个名称,如性别有男女两种,二者无大小之分,无顺序之分,还有如血型、民族等
- 有序分类变量:也是说明事物类型的一个名称,但是有次序之分,例如:满意度分为满意 一般 不满意,三者是有顺序的,但是无大小之分
2 数值型变量
- 连续型变量:取值范围是一个区间,它可以在该区间中连续取值,即连续型变量可以取到区间中的任意值,并且有度量单位。例如:身高、年龄、体重、金额
- 离散型变量:取值范围是有限个值或者一个数列构成的,表示分类情况,如:企业数量 产品数量等
- 小概率事件:在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是推断统计的基础。
3 随机变量
随机事件的数量化
比如:还是抛硬币,出现正面,我们定义为“成功”,记为1,出现反面定义为“失败”,记为0,,那{0,1}就是本次实验的结果的量化值,为随机变量
离散型随机变量:随机变量X可以一一列举出来,在一定区间范围内X是有限个,可数的
连续型随机变量:随机变量X无法一一列举,在一定区间范围内是无限个,
4 总体和样本
总体:根据研究目的确定的所有个体某指标观察值(测量值)的集合
样本:在一个较大范围的研究对象中随机抽出一部分个体进行观察或预测,这些个体的测量值构成的集合称为样本。
5 随机抽样
随机抽样的本质:每个个体最终是否入选在抽样进行前是不可知的,但是其入选的可能性是确切可知的(每个个体被抽到的概率是相等的)
6 总体参数和统计量
总体参数:刻画总体特征的指标称为总体参数,例如:总体均值(μ),总体标准差(σ),总体比例 (π)
统计量:刻画样本特征的指标称为统计量,例如:样本均值(x-bar),样本标准差(s),样本比例(p)
但是往往总体参数都是不可知的,我们经常会通过样本统计量去估算总体参数。
7 抽样误差
由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差(sampling error)。虽然在一次抽样研究中的抽样误差大小是随机的,但是抽样误差在概率意义下有规律可循
概率分布
随机变量的概率存在一定的规律,这个规律叫做概率分布,但是离散型随机变量和连续型随机变量的规律并不相同,离散型随机变量的概率分布有:二项分布、泊松分布;连续型随机变量的概率分布:正态分布。
1 离散型随机变量的概率分布
二项分布
Excel计算方式:
=BINOM.DIST(2,5,0.5,FALSE)
函数介绍
BINOM.DIST(number_s,trials,probability_s,cumulative)
BINOM.DIST 函数语法具有以下参数:
- Number_s 必需。 试验的成功次数。
- Trials 必需。 独立试验次数。
- Probability_s 必需。 每次试验成功的概率。
- cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 BINOM.DIST 返回累积分布函数,即最多存在 number_s 次成功的概率;如果为 FALSE,则返回概率密度函数,即存在 number_s 次成功的概率。
二项分布的特征:
1.进行n次相同条件下的相互独立的重复试验
2.每次试验,只有2个结果,成功或者失败
3.出现成功的概率P每次试验是相同的,失败的概率q也是,并且p+q=1
如果符合上面的条件,那就是二项分布,如果上述试验只进行一次,就叫做伯努利试验,也是就二项分布是n次伯努利试验的结果。
二项分布的均值和方差分别为np和npq
泊松分布
泊松分布是二项分布的极限
在n重伯努利实验中,当成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布。泊松分布适合于描述单位时间内随机事件发生的次数。
在实际应用中,当p<=0.25,n>20,np<=25时,用泊松分布近似二项分布的效果良好
函数介绍
=POISSON.DIST(65,B8,TRUE)
POISSON.DIST(x,mean,cumulative)
POISSON.DIST 函数语法具有下列参数:
- X 必需。 事件数。
- Mean 必需。 期望值。
- cumulative 必需。 一逻辑值,确定所返回的概率分布的形式。 如果 cumulative 为 TRUE,则 POISSON.DIST 返回发生的随机事件数在零(含零)和 x(含 x)之间的累积泊松概率;如果为 FALSE,则 POISSON 返回发生的事件数正好是 x 的泊松概率密度函数。
2 连续型随机变量的概率分布
正态分布
μ是分布曲线的最高峰的位置(集中趋势)
σ标准差是离散程度的度量(离散趋势)
正态分布是具有对称性的
标准正态分布:均数为0,标准差为1的正态分布N(0,1)曲线下面积分布规律。
其曲线下概率面积分布规律非常常用
95% 99%
双侧 1.96 2.58
单侧 1.64 2.33
95%的情况下最常用
举个栗子,详细看看如何根据正态分布计算区间范围
某零件的长度服从正态分布,平均长度为10mm,标准差为0.2mm,问: 从该批零件中随机抽取一件,其长度不到9.4,mm的概率是多少?
计算过程
使用Excel如何计算
=NORMDIST(9.4,10,0.2,TRUE)
函数介绍
NORMDIST(x,mean,standard_dev,cumulative)
NORMDIST 函数语法具有下列参数:
- X 必需。 需要计算其分布的数值。
- Mean 必需。 分布的算术平均值。
- standard_dev 必需。 分布的标准偏差。
- cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。
正态分布的经验法则
卡方分布
多个标准正态分布的平方和,卡方分布在实际应用中主要是解决方差相关的问题
t分布
t分布就是标准正态分布除以均方的根,主要用于处理小样本问题
t分布图像
F分布
均方之比,用来对比两个方差
样本均值的抽样分布
两个样本均值之差的抽样分布
比如想要知道湖北和湖南的人均收入水平高低,就可以通过比较两省的均值之差来判断
样本比例的抽样分布
比如想要知道中国人中男性的占比。就可以多次抽样,通过样本比例来推断总体比例
数学期望和方差
样本方差的分布
两个样本方差比的分布
设,且X与Y独立,是来自X的样本,是来自Y的样本,和分别是这两个样本的样本均值,和分别是这两个样本的样本方差,则有
- 若
样本均值方差比的分布
设是来自正太总体的样本,和分别是样本均值和样本方差,则有
统计推断
从数据得到关于现实世界的结论的过程就叫做统计推断(statistical inference)
目前比较成熟,用的最多的就是对于均值的推断
应用场景:
基于配件A的领用历史数据,我们能否估计出其总体日均领用量的大致范围?
参数估计
点估计:样本均数直接作为总体均数。一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
区间估计:根据响应标准误的大小,按照一定的可信度给出一个总体参数可能的取值范围。该区间被称为可信区间。比如,某班级平均分数在75~85之间,置信水平是95%
区间估计图示
估计量的求法
1.总体均值的区间估计,总体方差已知
2.总体比例的区间估计
3.总体方差的区间估计,用卡方分布
两个总体的区间估计
4.两个总体均值之差的区间估计
假设检验
对提出的一些总体假设进行分析判断,做出统计决策。基于小概率反证法,小概率原理,即认为小概率事件在一次随机抽样中不会发生
双侧检验
单侧检验
提出假设