【概率论与数理统计】小结7 - 统计学中的基本概念
注:概率论方面就暂时告一段落,终于可以说说统计方面的事情了。如果说概率论中主要是研究随机变量的方法学和理论模型,那么统计学就是利用概率论这一强大的工具来研究具有随机性的现象(结果的不确定性)。而研究这些随机现象最重要的方法就是,大量重复试验进而找到其统计规律性。一般步骤为:重复试验(例如反复测量,多次观察等)并记录试验结果,然后对这些实验数据进行整理、分析和建模。最终达到对随机现象的某些规律进行预测并指导我们的决策的目的。下面对一些基本概念做一个总结。
0. 概率论与数理统计的异同
概率论、数理统计都是研究随机现象的统计规律性的数学分支,但两者研究角度不同。
概率论:从已知分布出发,研究随机变量$X$的性质、规律、数学特征等;
数理统计:研究对象$X$的分布未知或只知道部分信息,需要观察它的取值(数据采集),通过分析数据来推断$X$服从什么分布或确定未知参数。
数理统计研究问题的主要方法:以部分数据信息来推断整体相关信息
1. 样本与总体
样本与总体的概念,在前面已经多次接触到,只是没有非常明确的给出定义。例如我们一般假设某个学校全体学生的身高,用随机变量$X$表示,近似服从正态分布,这里的正态分布就是"总体"的分布,字面意思就是所有待研究对象的集合。在实际的数据分析中,我们通过观察或其他测量方式得到的数据一般都只是待研究对象的一个子集,这个子集就是一个样本(可以包含多个个体)。例如通过某种方式,从全体学生中找出100名学生,这100名学生就是一个样本。样本与总有之间的关系,有两种可能的情况:
- 如果这种方式是完全随机的(例如抽签),那么这个样本就是全体学生的一个非常好的代表,我们可以利用这个100个学生的平均身高、体重、家庭收入等来估计全体学生的平均身高、体重以及家庭收入。这时候样本的分布应该与总体的分布类似,都近似服从正态分布。
- 但如果我们找出这100名学生的方式不是完全随机的,那么这个样本就不具有代表性,此时样本的分布与总体的分布可能会有非常大的差异。
总体:研究对象的全体;
个体:总体中的成员;
总体的容量:总体中包含的个体数;
有限总体:容量有限的总体;
无限总体:容量无限的总体,通常将容量非常大的有限总体也按无限总体处理。
样本,总体&随机变量
- 实际中人民通常只关注总体的某个(或几个)指标;
- 总体的某个指标$X$,例如全体学生的身高,对于不同的个体来说有不同的取值,这些取值构成一个分布,因此$X$可以看成一个随机变量;
- 有时候直接将$X$称为总体,假设$X$的分布函数为$F(x)$,也称总体$X$具有分布$F(x)$。
样本容量:样本中所含个体的数目;
抽样:抽取样本的过程;
由于抽样的随机性,样本也具有随机性,通常容量为n的样本用随机变量 $X_1, ..., X_n$ 来表示,
简单随机样本:若 $X_1, X_2, ..., X_n$ 是相互独立的(独立性)且与总体 $X$ 有相同的分布(代表性),则称 $X_1, X_2, ..., X_n$ 为来自总体 $X$ 的一个容量为n的简单随机样本,简称为 $X$ 的一个样本。获得简单随机样本的抽样称为简单随机抽样。如果没有特殊说明,统计里面所说的样本都指的是简单随机样本。
样本($X_1, X_2, ..., X_n$)的每一个观察值($x_1, x_2, ..., x_n$)称为样本值或样本的一次实现。
样本值的集合称为样本空间。
总体分布决定了样本取值的概率规律,因而可以由样本值去推断总体。数理统计的主要任务之一就是研究如何根据样本推断总体。
联合分布函数:若总体 $X$ 的分布函数为 $F(x)$,$X_1, X_2, ..., X_n$ 为来自 $X$ 的一个样本,则样本($X_1, X_2, ..., X_n$) 的联合分布函数为:
$$F(x_1, x_2, ..., x_n) = \displaystyle \prod_{ i = 1 }^nF(x_i)$$
2. 统计量
统计量的概念存在于样本中,是对样本某个指标的概括,例如上面例子中选出来的100位学生的平均身高就是一个统计量。统计量区别于"个体量"(我自己生造的词),具有以下两个特点:
- 不包含任何未知数;
- 包含所有样本的信息。
因此只要样本确定,统计量的值就可以直接计算出来。例如一旦选定100位学生,他们的平均身高就可以计算出来。
定义
样本的不包含任何未知参数的函数。通常可以通过构造统计量的方式,从样本中提取有用的信息来研究总体的分布以及各种特征数。
常用统计量
- 样本均值 $\bar{X} = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i$;
- 样本方差 $S^2 = \displaystyle \frac{1}{n - 1} \sum_{i=1}^{n}(X_i - \bar{X})^2$;
- 样本标准差 $S = \sqrt{S^2}$;
- 样本k阶原点矩 $A_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_{i}^k$;
- 样本k阶中心距 $B_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^k$, k = 1, 2, ...
从上面可以看到:样本的均值等于样本的1阶原点矩;但是样本的方差不等于样本的2阶中心距(在总体中这两者是相等的);
用统计量估计总体的数字特征
当总体数字特征未知时,
- 用样本均值$\bar{X}$估计总体均值$\mu = E(X)$;
- 用样本方差$S^2$估计总体方差$\sigma^2 = E(X - \mu)^2$;
- 用样本原点矩$A_k$估计总体原点矩$\alpha_k = E(X^k)$;
- 用样本中心距$B_k$估计总体中心距$\beta_k = E(X - \mu)^k$。
上面用到的表示矩的符号,请参考小结5中,矩那部分的符号说明。
以上估计的理论基础就是大数定律。值得注意的是,总体的均值$\mu$是一个数,可能已知,也可能未知;而样本均值$\bar{X}$是一个随机变量,依赖于样本值。
3. 抽样分布
统计量的分布被称为抽样分布。
当总体$X$服从一般分布(如指数分布、均匀分布等),要得出统计量的分布是很困难的;当总体$X$服从正态分布时,统计量$\bar{X}$、$S^2$是可以计算的,且服从一定的分布。这些分布就是下面要介绍的三大抽样分布——$\chi^2$分布,$t$分布,$F$分布。
欢迎阅读“概率论与数理统计及Python实现”系列文章
Reference
中国大学MOOC:浙江大学&哈工大,概率论与数理统计