数理统计1:数理统计的概念,总体与样本,统计量

大家好,这是一个新系列,在这个系列里我将和大家一起学习数理统计。由于数理统计是一门偏实用的学科,这个系列里还会使用较多的R语言,如果以前没有接触过R语言,不妨也安装一下R studio,相信能对数理统计有更好的理解。本书使用的教材以韦来生的《数理统计》为主,但并不是按照教材的编排组织内容的。

为了方便大家阅读与学习,我将把那些可以暂时跳过,以后再回头看的内容放在引用块里,而将那些关键的定义使用加粗表示。此外,由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出

由于本文是系列的第一篇文章,我们就对数理统计的基础知识作一下简要的介绍就好,没有过多的数理推导与证明。

Part1:什么是数理统计

解释一个学科是什么总是在学习之前绕不开的问题,书上给出的定义是:研究如何有效地收集和使用带有随机性影响的数据的一门学科。但我经过了一个学期的学习以后,最深的感受并不是“有效地收集和使用随机数据”,而是“概率论在实践中的运用”。

在概率论中,我们所研究的,总是给定一个随机变量\(X\),然后需要研究它的均值、方差等等相关数字信息,这依赖于一个前提——我们知道这个随机变量的全部信息,然后才能基于这些信息展开计算。但在实际生活中,我们真的可以知道随机变量的全部信息吗?

举个例子,上学期有个同学(不妨称呼他为yhh)送了我一箱橙子,他一共搞来了十箱,卖橙子给他的人说这里的每箱橙子都是80斤重的。但实际上,每一箱橙子不可能是精准的80斤重,事实上任意两箱橙子在重量上相等的概率都是0(回顾一下概率论里的连续型随机变量),那厂家凭什么声称它的橙子每一箱都是80斤重?

因此,我们只能认为,它每一箱橙子在没有称重之前,重量都是一个随机变量,并且我们认为它是独立同分布的,称重以后它才成为一个具体的数(如果你的称是严格精确的)。厂家所声称的80斤,指的是橙子重量作为随机变量,它的均值(或者中位数、众数)是80斤。

不过,厂家所声称的80斤是否又是真实的呢?这就是数理统计的范畴了,由于我们不可能完备地知道所有橙子的重量信息,只能通过买来的那十项对橙子的平均重量进行估计——参数估计,这就是数理统计研究的范畴。如果是你,你肯定会选择把十箱橙子称重,把十项橙子的平均重量作为橙子平均重量的估计。事实上,用十箱橙子的平均重量作为所有橙子的均重,在数学上是有道理的。在概率论中,我们曾学过大数定律(这里指辛钦大数定律),它指出均值存在的独立同分布随机变量,它们的平均值也是一个随机变量,且随着随机变量数目的增加,依概率收敛于随机变量的均值。以下为定理的叙述与证明,但是可以跳过。

辛钦大数定律:设\(\{\xi_n\}\)是定义在概率空间\(\{\Omega,\mathscr F,\mathbb{P}\}\)上的独立同分布随机变量序列,\(\mathbb{E}|\xi_1|<\infty\),且\(\mathbb{E}(\xi_1)=\mu\),则

\[\frac{\sum_{k=1}^n \xi_k}{n}\stackrel{P}\to \mathbb{E}(\xi_1)=\mu. \]

证明:设\(f(t)\)\(\{\xi_n\}\)的特征函数,则由于\(\mathbb{E}(\xi_n)=\mu\),所以

\[f(t)=1+\mathrm{i}\mu t+o(t),\quad t\to0. \]

对每个\(t\in\mathbb{R}\),有

\[f\left(\frac{t}{n} \right)=1+\frac{\mathrm{i}\mu t}{n}+o\left(\frac{1}{n} \right),\quad n\to\infty, \]

\(\{\xi_n\}\)的独立同分布性,设\(f_n(t)\)\(\sum_{k=1}^n \xi_k/n\)的特征函数,就有

\[f_n(t)=\left(1+\frac{\mathrm{i}\mu t}{n}+o\left(\frac{1}{n} \right) \right)^n\to \mathrm{e}^{\mathrm{i}\mu t},\quad n\to \infty. \]

由特征函数与密度函数的等收敛性,可知

\[\frac{\sum_{k=1}^n\xi_n}{n}\stackrel{d}\to \mu. \]

又因为\(\mu\)是常数,所以将依分布收敛改为依概率收敛。

如果称重后,发现橙子的重量是79.9斤,你认为厂家说的属实吗?75斤又或者是70斤呢?有没有一个相对的标准来衡量厂家的声称到底正不正确?这也是数理统计的范畴,我们称之为假设检验,简单说来,就是检验一个统计假设是否是正确的。

从以上的例子,大家可能会对我们所要学习的数理统计有一个大致的了解。但是学习还是要一步步来的,在第一天的学习中,我们先认识一下数理统计中会接触到的,贯穿整个学科的概念。

Part 2:总体与样本

总体和样本是数理统计中的最基本概念,如果把yhh的橙子作为例子,那么工厂产出的每一箱橙子合在一起就构成了总体,里面每一箱具体的橙子都是个体。而yhh购买橙子的行为,可以视作从总体里抽取样本,被抽出的那十箱橙子就称作样本

具体说来,由于我们所研究的对象都是事物的某方面数值属性,因此我们也可以细化一下总体、个体和样本的定义:

  • 总体是所有个体某种数量指标构成的集合,是数的集合。
  • 个体是组成总体的每一个数,是数集里的元素。
  • 样本是按照某种方法,从总体中获得的部分个体,是数集里的部分元素。

当我们将总体视为数集后,每一个数出现的可能性就随之确定,因此总体可以视为有一定的概率分布,这个概率分布就称为总体分布\(F\),它刻画了总体的全部信息,一般我们对总体和总体分布不加以区分。

而样本,是以特殊方式从总体中获得的数,我们这里要强调的是样本的两重性。从厂家手里拿到了十箱橙子,经过称重,我们知道了十箱橙子的具体重量,它相当于十个常数;但是,如果我们不加称量,我们就不知道这些橙子的重量,在称量之前我们还是得把它们当成十个随机变量来看待。换句话说,如果我们另外买了十箱橙子(相当于获得了十个样本),它的重量一定跟前十箱一样吗?显然不是的,这也就说明,样本也具有随机变量的随机性。样本的这种观测前是随机变量,观测后是常数的性质,我们称之为样本的两重性。必须要说,理解样本的两重性,对于数理统计的学习是十分有必要的,否则后面将提到的统计量的分布、极限分布等概念,都很难理解。

下面介绍一种特殊的抽样方式:简单随机抽样,它指的是从无限总体中,相互独立地抽取样本。这种抽样方式有两个极其重要的特点:

  1. 代表性,每一个样本作为随机变量,它与总体都是同分布的。
  2. 独立性,每一个样本作为随机变量,它们相互之间都是独立的。

抽样满足以上两个特点时,就称抽样方式为简单随机抽样,用符号表示为

\[X_1,\cdots,X_n\stackrel{\mathrm {i.i.d.}}\sim X. \]

一旦出现这个符号,我们就认为\(X_1,X_2,\cdots,X_n\)都是与总体\(X\)同分布且相互独立的随机变量,此时的样本\((X_1,\cdots,X_n)\)作为一个\(n\)维随机向量,也被称为简单随机样本

我们假设总体具有分布函数\(F\),则样本作为一个\(n\)维向量,也有联合分布函数,这被称为样本分布。我们将\(n\)个样本的联合分布函数记作\(F_n(x_1,x_2,\cdots,x_n)\),则有

\[F_n(x_1,x_2,\cdots,x_n)=F(x_1)F(x_2)\cdots F(x_n). \]

这里等号成立是基于样本的相互独立性,且每一个样本的边际分布都是\(F(x)\)。同理,如果总体具有密度函数\(f\),则样本作为\(n\)维向量也拥有联合密度,记作\(f_n(x_1,\cdots,x_n)\),则有

\[f_n(x_1,x_2,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n). \]

这两个式子都可以称作样本分布,且样本分布将在后续发挥很重要的作用,所以这两个式子务必记下来。

Part 3:统计量

基于样本,我们可以计算出统计量,统计量的定义是“样本的函数”,通俗点说是由样本算出的量

我其实不太明白,为什么许多人不能理解统计量的概念。还是那十箱橙子,我称量了十箱橙子的重量以后,十箱橙子的平均重量就可以算出来了,那“十箱橙子的平均重量”就是一个统计量呗——这就是从样本算出的量。总而言之,判断一个东西是不是统计量,就只要看你观测完样本以后,这个量能不能算出来就完事了。

书上提到了一些常用的统计量,并不是所有统计量都有很大的作用,但下面所介绍的统计量是大家必须掌握的,就算不能理解它的意思,也要先记下来。

首先是样本均值,顾名思义,就是样本的平均值,比如刚才那十箱橙子的平均重量。它的标准定义式是

\[\bar X=\frac{1}{n}\sum_{j=1}^n X_j. \]

以后我们都将使用\(\bar X\)来指代样本均值。

其次是样本方差,它描述的其实是样本偏离其均值的程度,定义式为

\[S^2=\frac{1}{n-1}\sum_{j=1}^n(X_j-\bar X)^2. \]

这里的平方帮助我们把偏离程度进行合理的加总,如果没有这个平方,则显然

\[\sum_{j=1}^n (X_j-\bar X)=\sum_{j=1}^nX_j-n\bar X=0. \]

需要注意的是,别把样本均值、样本方差和其所在总体的均值、方差搞混!样本均值和样本方差都是统计量,而总体均值和总体方差呢?它们是随机变量的数字特征,是通过对分布函数、密度函数进行积分后计算得到的常数,如果给定了总体,则总体均值和总体方差是不会变的,样本均值和样本方差却是随机的(因为样本是随机变量,其算出的量自然也是随机变量)。

我见过一些把总体方差定义为\(\frac{1}{n}\sum_{j=1}^n(X_j-\bar X)^2\)的,但我觉得这种定义对我们没有什么好处,所以我们接下来把总体方差,当作样本所属的总体的数字特征——方差(二阶中心矩)。

此外,最大值和最小值也是极为常用的统计量,它们都属于次序统计量。大家应该已经在概率论里接触过次序统计量了,它们就是把样本从小到大排列成

\[X_{(1)}\le X_{(2)}\le \cdots\le X_{(n)}, \]

并且在概率论中接触过最小值、最大值的分布函数求法,应该也知道次序统计量是随机变量。

最后,是两个在今后的学习中会用到的量:样本原点矩与样本中心矩,统称为样本矩。我们这里仅仅给出其定义式,具体的理解可以在以后学习矩估计的时候再进行。

\[a_{k}=\frac{1}{n}\sum_{j=1}^n X_j^k,\quad m_k=\frac{1}{n}\sum_{j=1}^n(X_j-\bar X)^k. \]

最后需要强调的是,以上统计量都是由样本计算出来的,因此在未对样本进行观测前,它们的值也具有随机性,因而是随机变量,具有一定的分布,我们一般称之为统计量的分布;而对样本进行观测后,样本的值确定了,统计量的值也随之确定了,成为一个常数。因此,统计量也有与样本一样的两重性


说了这么多概念、定义,我自己都码烦了,想必大家也看烦了。下一篇文章开始,我们就要加大数学的力度了,准备起飞!

posted @ 2021-01-29 17:02  江景景景页  阅读(2759)  评论(1编辑  收藏  举报