关于数理统计学及其与概率论之间联系的一些理解
作为一名非统计学科班出身的同学,之前只学习过浙大《概率论与数理统计》一书,当时只在意那些公式、理论,应付考试,甚至不知道书中讲述了两门学科的知识:数理统计学、概率论,更不明白二者之间有何关系,直到最近拜读了陈希孺先生的《数理统计学教程》,这才开始有一些理解,于是打算先将自己的一些理解记录下来,待日后理解加深之时,再回来修改。
什么是数理统计学
我们知道,数理统计学是要去研究数据的(当数据量达到一定程度,就又出现了大数据这样一个方向),那么它研究的数据有何不同呢?答案是数据必须带有随机性,这是它不同于其它数据处理方法的根本区别。数理统计学所研究数据的随机性主要源自于两点,一是受限于一些因素,我们无法获取对象总体,一般只能选择一定样本,样本的选择就带有随机性;二是我们研究过程中的一些随机误差,比如一些未加考虑、无法控制、未知的因素,这二者就造成了数据的随机性。基于这一点,可以对数理统计学做如下认识:数理统计学是数学到的一个分支,其任务是研究如何用有效的方法去收集、使用带有随机性影响的数据。
这里提到了两点,有效的收集数据、有效的使用数据,如何去理解呢?
有效的收集数据
怎样的数据收集方式才能称之为有效的呢?我们可以从两个方面来衡量,一是收集的数据可以建立一个在数学上能处理、且尽可能简单的模型,用以描述这些收集到的数据;二是收集的数据中应包含尽可能多的、与所研究问题相关的信息。
关于第一点,我是这样理解的(这里先提到了后面的一些概念)。我们一般会在一些假设前提下去建立一个数学模型来描述收集到的数据,但如果收集的数据分布毫无一定规律可言,就很难去建立这样一个数学模型,即使是我们花了九牛二虎之力建立了一个数学模型,那也不是一件值得高兴的事情,因为我们花费了巨大的精力,更可怕的是我们建立的模型只能描述这一批样本,换一批样本可能就不适合用我们建立的模型来描述了(这种情况可以称之为过拟合,最极端的情况就是用样本本身去描述样本)。此时我们就可以考虑一下我们收集的数据是不是有效的。
关于第二点,则比较好理解,但是实际做起来则比较难。假如我们要分析一下某个地区居民的收入情况,而该地区有一片富人区,那么我肯定不能大量在富人区内选择样本,那么该如果抽取样本呢?另外一个例子,在产品质量与反应温度、压力的关系中,若考虑温度和之间,压力和之间,那么取多少个样点好呢?前一个例子中的问题涉及到了数理统计学中的抽样理论,后一个例子中的问题则涉及到数理统计学中的实验设计。总之来说,在收集数据时,一定要围绕待解决的问题进行,充分掌握研究对象的一些特性、规律。
有效的使用数据
收集数据,目的是对其进行研究,然后得到一些结论,这种“结论”在数理统计中称为“推断”,这个过程涉及到很多数学问题,需要建立一定的数学模型,并给定某些准则,才有可能去评价和比较种种统计推断方法的优劣,这整个过程都成为使用数据的过程,但是如何评判是否是有效的使用?我想,还是得依据最终的结论是否与实际情况是否吻合来判断,尽管这必须在数据使用之后才能知道,但是我们在使用数据过程中提出的假设条件、建立的数学模型、判定准则、推断等应该是有依据的,是合理,这样不失称为有效的使用数据。
以上的陈述确实不怎么具体,但是使用数据的过程包含多个步骤,针对不同背景、不同目的,数据也有不同的使用方法,因此也难以提出一个统一的评判标准。
数理统计学与概率论间的联系
数理统计学所研究的数据是带有随机性的,而随机性的研究正好是概率论的一大核心,这不可避免的将数理统计与概率论联系再一起。前面提到,收集到数据后,为了做出统计推断,是需要建立一个数学数据模型的,这个模型一般就是数据的概率分布,而概率分布就是概率论的研究内容,因此说,概率论是数理统计的理论基础,数理统计是概率论的一种应用。
举个例子,正态分布是概率论中的一种分布模型,概率论研究的是正态分布的数学性质,比如模型中参数()对该模型的稳定、衰减性的影响等,但是在数理统计中,我们关心的是表示的含义,比如女性的身高服从正态分布,那么表示的就是平均身高,可能表示的是父母身高、生活水平等对影响因素。
数理统计学不以任何一种专门领域为研究对象,不论问题是物理学、化学、生物学、经济学还是工程计数方面的,只要在安排实验个处理数据过程中涉及一些一般性、共同的数学问题,都可以用到统计方法。这就要求我们解决一个统计问题是,不仅要掌握一定的概率论知识,而且还要对问题所涉及的领域知识有一定了解,这样才能得到尽可能可靠的结论。
数理统计学中一些重要基本概念理解
样本分布:样本是随机变量,其不会绝对地以某种结果出现。样本的任何一种结果出现都是带有一定概率的,这种概率分布就称为样本分布。样本是受随机性影响的,但是这种影响的具体方式如何,取决于观察指标的性质、观察手段和方法等,但所有的这些影响都可以总结到样本分布中去。
总体分布:从概念上来讲,总体分布应该指的是对象总体的分布,但是实际中由于各种原因,我们很难、也没有必要去获取总体,因此可以将总体分布定义为样本大小为1时的样本分布。为什么定义成样本大小为1时的样本分布呢?这个问题我也不确定自己是否明白,这里只说些自己的理解。当抽取n个样本时,我们经常假设n个样本之间是独立,由于随机性的存在,但实际上这个假设不一定成立,但是当抽取一个样本时,其分布肯定是独立的,在一定的概率下,其分布能呈现总体中任何一种情况。
统计模型:统计模型即所抽样本的分布,也即是样本分布,也成为概率模型,例如常见的指数模型、正态模型等。统计模型只取决于样本,是针对确定的样本而言的,在明确了样本的抽取方式、假定了一定提前条件后,获取到了样本,就能确定统计模型。由于随机性,样本分布不止一种,而是一个分布族,因此也可以说统计模型是样本分布族,这样定义的意义在于:样本分布族,连同其参数空间,从总的方面给出了问题的范围,分布族越小,确定的程度就越高,一般更容易做出可靠的结论
总之,统计模型就是样本的分布,而不管抽样的目的是什么,这里也说明了很多领域的统计问题都可以抽样出来,得到统一的数学模型,再依据样本得到推断结果,然后回到具体的领域去解读这些推断结果。
统计量:凡是由样本计算出的量都成为统计量,或者说,统计量即是样本的函数。我们在选用统计量时,最好是要保证统计量集中反应了与问题相关的信息。
抽样分布:由于统计量是从样本得到,因此统计量也是有其概率分布的,统计量的分布称为抽样分布。我们所做的推断是由样本得到,而样本具有随机性,因此我们得到的结果也具有随机性。一个整体上看来较好的推断方法也可能得到不好的结果,反之亦然。因此我们只能在整体上对一个推断方法的优良性进行评判,这就取决于统计量的抽样分布。总之,想要了解一种特定的统计推断方法的整体性能,就必须确定其抽样分布。例如,对正态分布,我们用样本均值去估计其均值u,那么与u的偏差超过一定限度的可能性有多大,就可以用概率表示,此时我们就要求出的抽样分布。
最后,再来具体一点说明数理统计学的任务。R.A.Fisher把数理统计学的任务概括为3条:
1.“specification”,即确定统计模型(即样本分布)
2.“estimation”,即估计,用样本估计模型中的未知参数
3.“sampling distribution”,即抽样分布。