商务统计学(四)第6、7章
商务统计学(四)第6、7章
《商务统计学》第七版
作者:戴维·莱文等,审校:胡大源
“先把书读厚,再把书读薄” --- 华罗庚
第六章 连续概率分布
6.1 连续概率分布
概率密度函数是定义连续变量分布的数学表达式,正态分布、均匀分布、指数分布是三种密度概率函数
正态分布
- 呈对称的钟形,均值和中位数相等,大部分数值在均值附近。
- 正太分布的数值可以从负无穷到正无穷,但是特别大或特别小的X值所代表的时间基本不可能发生
均匀分布(矩形分布)
- 在最大值和最小值之间任何一个值所代表的事件发生的可能性都是相等的
- 是对称的,均值等于中位数
指数分布
- 分布右偏,均值大于中位数
- 指数分布的范围是0到正无穷,但分布的形状决定了很大的X所代表的时间不太可能发生
6.2 正态分布
正太分布的重要性
- 许多商业中的连续变量都服从正态分布
- 可以用正态分布近似计算若干离散概率的部分(???黑人问号脸)
- 中心极限定理(7.2节)和正态分布的关系表明,正态分布是经典统计推断的基础
正态分布的概率密度函数
转换公式,任何正态分布变量X都可以用过这个公式转换成标准正态变量Z
任何一组服从正态分布的数据都可以转换成标准形式,因此任何想要的概率都可以从“累计标准正态分布表”中得到(也就是从负无穷都那个值下方累积的面积,就是概率)
Z值的使用方法
- 例如,假设一组下载短视频所花费时间的数据呈正态分布,它的均值为7秒,标准差为2秒,现在想要求下载视频所需时间小于9秒的概率
- 首先将X=9代入转换公式进行标准化,求得Z=+1.00
- 然后在“累计标准正态分布表”中查找对应的面积,方法如下
- 先在标有Z的(第一)列找到小数点后一位的Z值(这里就是1.0)
- 然后在该行找到Z值小数点后两位数字列相交的单元格(这里就是1.0与0.00相交的单元格)
- 得出数值为0.8413,也就是说下载时间小于9秒的概率为84.13%
-
数据集越符合正态分布,经验法则的准确性越高
-
\[约有68.26\%的观测值会在(\mu-1\sigma,\mu+1\sigma)的范围内\\ 约有95.44\%的观测值会在(\mu-2\sigma,\mu+2\sigma)的范围内\\ 约有99.73\%的观测值会在(\mu-3\sigma,\mu+3\sigma)的范围内 \]
-
-
求X值,有时需要找出特定区域所对应的X值,就是对Z公式的变形转换
\[X=\mu+Z\sigma \]
正态分布几个重要的理论特性
- 正态分布是对称的,均值和中位数相等
- 正态分布是钟型的,可以应用经验法则
- 四分位距相当于1.33个标准差
- 变量分布单位约6个标准差
6.3 评估正态性
比较数据性质与理论性质
检验一组数据是否服从正态分布的方法是观察这组数据所展现的特征,并将这些特征与数据服从正态分布时应具有的特征相比较:
- 画出图形,检查该图形的形状。(小样本使用茎叶图或箱线图,大样本使用直方图或多边图)
- 比较该组数据的数据特征与上述的正态分布的理论特征
- 判断数据值是怎样分布的:
- 是否接近2/3的数据分布在偏离均值一个标准差的范围内
- 是否接近4/5的数据分布在偏离均值1.28个标准差的范围内
- 等
构建正态概率图
-
正态概率图是估计数据是否服从正态分布的方法,一种常见的正态概率图叫QQ图,QQ图是一个散点图,最基本的QQ图是将两个概率分布的分位数放在一起比较 --- 先选好分位数间隔,每个散点(x,y)表示其中X轴的分布与Y轴的分布相对应的分位数。如果散点们趋近于落在y=x线上
而本书《商务统计学》中,利用QQ图判断正态性的原理与上述没有本质上的区别,但是很巧妙地使用了标准正态变量Z
我们知道QQ图是用来比较两个分布的,但这里只有一个待检验分布,而它的标准正态分布是可以根据它的均值和标准差计算得到的。如果待检验分布与标准正态分布的QQ图的散点们趋近于y=x,那么待检验分布就与它的标准正态分布相似,就证明该组数据服从正态分布
第七章 抽样分布
接下来的两节中,将学习
- 怎样与用样本均值估计总体均值
- 以及如何用样本比率来估计总体比率
在做统计推断的时候,主要关注的是对总体做出结论,而不是样本
7.1 抽样分布
理论上,要用样本统计量估计总体参数,我们可以考察给定样本容量下的所有可能出现的样本,抽样分布就是抽取所有可能的样本时得到结果的数据分布。在实际操作中,一组样本仅代表抽样分布中的一个可能的结果。
7.2 均值的抽样分布
均值的抽样分布是指在给定样本容量的情况下所有可能的样本均值的分布
-
样本均值的无偏性
样本均值是无偏的,因为所有可能出现的样本均值的平均值肯定等于总体均值,也就是说有
\[N为总体容量 总体均值\mu=\frac{\sum_{i=1}^{n}X_i}{N}\\ 总体标准差\sigma=\sqrt{\frac{\sum_{i=1}^{n} (X_i-\mu)^2}{N}} \] -
均值的标准误差
是指所有可能出现的样本均值的标准差,它表达了样本均值是如何随着样本进行变动的。
随着样本容量(一个样本中所包含的单位数)的增加,均值的标准(误)差也会随着样本容量的平方根的增大而减小
\[当是可重复抽样或从一个大的或无穷大的总体中不重复抽样时,样本均值的标准误差有如下公式\\ \sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}\\ 在抽样样本少于5\%总体的时进行不重复抽样时也可以使用上述公式 \] -
正态分布总体的抽样
前面了解过了抽样分布和均值的标准误差
\[那么样本均值\bar{X}的抽样分布又是如何呢?\\ 如果总体服从正态分布,均值为\mu,标准差为\sigma\\ 那么不管样本容量n的大小,均值的抽样分布也服从以\mu_{\bar{x}}=\mu为均值,以均值的标准误差\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}为标准差的正态分布\\ \]只是随着样本容量n的增大,均值的标准误差会不断变小,这意味着样本均值随样本容量的变大而减小,因此样本均值会越来越接近总体均值
均值抽样分布的Z值
同样,既然知道了“均值的抽样分布的均值和标准差”,我们还可以求“均值抽样的Z值”和“均值抽样对应的X的平均
”。而且可以在案例中发现 --- 某个抽取样本的样本均值偏离总体均值的可能性要小于单独抽取一个物品,因为单个数值的重要性在平均计算的过程中被“稀释”了(Z值的使用方法详见6.2节)
-
均值抽样分布对应的X
对均值抽样分布的Z值的公式进行变化,就得到通过某个特定比例,确定的包含样本均值的区间
\[均值抽样分布对应的\bar{X}\\ \bar{X}=\mu+Z\frac{\sigma}{\sqrt{n}} \] -
非正太分布总体的抽样 --- 中心极限定理
中心极限定理,当样本容量足够大时,无论总体的分布形状如何,样本均值的抽样分布都近似服从正态分布
那么,多大算足够大?
- 对于大多数总体分布,样本容量至少要达到30
- 如果总体分布近似钟型分布,可以更小
- 如果总体分布呈极端偏斜或者多峰分布,样本容量要大于30
如此才能保证均值的抽样分布的正态性
中心极限定理在不同形态总体中的应用结果
分别是总体呈正态分布、均匀分布、指数分布
- 第一列,总体分布为正态分布,那么样本均值的抽样分布也服从正态分布,随着样本容量的增加,样本均值的波动性逐渐变小,因此图中图形的宽度越来越窄
- 对于非正态分布的总体,随着样本容量的增大,中心极限定理使得它们均值的抽样分布也越来越接近正态分布
中心极限定理的几条结论:
- 无论总体如何分布,对绝大多数总体分布而言,只要样本容量大于30,样本均值的抽样分布都会近似服从正态分布
- 如果总体分布较为对称,那么只要样本容量大于5,样本均值的抽样分布就近似服从正态分布
- 如果总体分布服从正态分布,那么无论样本容量为多大,样本均值的抽样分布都服从正态分布
7.3 比率的抽样分布
总体比率是整个总体中具备我们感兴趣的特征的单位所占的比率,用π表示;样本比率,自然是样本中具备我们感兴趣特征的单位所占的比率,用P表示,即
无偏估计量
比率的标准误差
在可重复抽样时(或从极大总体中不重复抽样时)。比率的抽样分布服从二项分布
但对于大多数情况,在进行总体推断时,样本容量都满足使用正态分布去近似计算的条件 --- nπ和n(1-π)都至少等于5
比率抽样分布的Z值
(本章我们采用的是“演绎推理”的方法,即,我们要得出的结论是以正确的(关于总体的)普遍规律为基础,然后将其运用于某些特殊的(关于样本均值的)具体情况)