参数估计与假设检验—统计学(八)

推断统计是利用样本数据来推断总体特征的统计方法,旨在解决无法对总体每一个个体进行测量或分析的问题。在实际应用中,很多时候我们无法对整个总体进行全面测量。例如,要了解一个地区的人口特征,不可能对每个人进行测量;在产品质量检测中,破坏性检验也不允许对每个产品进行检测。这种情况下,我们会抽取部分个体即样本进行测量,根据样本数据来推断总体特征,从而得出结论。这正是推断统计要解决的核心问题。推断统计在统计学的研究历史相对较短,但在现实中的应用十分广泛。比如,如果我们想研究教育背景是否影响收入,可以选择1000名30岁大学毕业生和1000名30岁初中毕业生,采集他们的工作和收入数据。通过推断统计方法处理这些数据后,可能会得出类似这样的结论:“研究发现,大学毕业生的收入显著高于初中毕业生组的收入,二者在0.01水平上具有显著性差异,说明学历对收入有影响。”
推断统计主要包括两方面内容:参数估计和假设检验。参数估计用于推测总体的未知参数值,而假设检验则用来检验数据是否支持某一假设。这两者共同构成了推断统计的基础,是数据分析和科学研究中重要的工具。

一、发展历程

参数估计和假设检验是推断统计的核心部分,它们的发展伴随着统计学和数学理论的逐步成熟。二者的研究起源可以追溯到18世纪,随着数据分析需求的增加以及理论数学的不断发展,这两个领域逐渐完善并成为现代统计学的基础。

1.1 参数估计的发展

参数估计的概念最早可以追溯到18世纪末,法国数学家拉普拉斯(Pierre-Simon Laplace)在研究概率论时提出了有关参数估计的思想。他通过利用数学模型和实际观测数据,尝试从样本中推断出总体参数。随着19世纪概率论的不断发展,统计学家逐渐认识到通过样本数据估计总体参数的重要性。
进入20世纪,最大似然估计(Maximum Likelihood Estimation, MLE)成为了参数估计中的一项重要方法,由英国统计学家罗纳德·费希尔(Ronald A. Fisher)在20世纪初提出。最大似然估计通过寻找使得样本数据出现的概率最大的参数值来进行估计,这一方法奠定了现代参数估计的基础。费希尔的工作不仅推动了参数估计理论的发展,也奠定了现代统计推断的基本框架。
另一种常用的参数估计方法是最小二乘法(Least Squares Method),其原理最早由卡尔·高斯(Carl Friedrich Gauss)在19世纪初提出,最初用于天文学中轨道预测。最小二乘法通过最小化预测值与观测值之间的平方差,得出参数的估计值。它不仅在回归分析中有广泛应用,还被认为是估计线性模型参数的经典方法。

1.2 假设检验的发展

假设检验的历史可以追溯到19世纪末和20世纪初期,随着科学研究中对数据分析的需求增加,统计学家们逐渐意识到对数据进行假设验证的必要性。假设检验的系统化方法是由费希尔、耶日·涅曼(Jerzy Neyman)和埃贡·皮尔逊(Egon Pearson)在20世纪前期共同发展而成的。
费希尔首先提出了显著性检验的概念,旨在通过检验样本数据与某一假设是否一致来验证假设。他提出了通过计算p值来衡量观察结果的显著性,进而决定是否拒绝原假设(null hypothesis)。此方法奠定了假设检验中的显著性水平(如0.05或0.01)的标准。
与此同时,涅曼和皮尔逊提出了Neyman-Pearson判则,即在假设检验中不仅要考虑是否拒绝原假设,还需要考虑接受备择假设(alternative hypothesis)的条件。他们提出了第一类错误(Type I Error)和第二类错误(Type II Error)的概念,定义了检验力(power of test),即在给定显著性水平下,正确拒绝原假设的概率。这一体系化的方法极大丰富了假设检验的理论框架,并为科学实验中的数据分析提供了坚实的理论基础。

二、基本概念

在统计学中,总体(population)、参数(parameter)、样本(sample)和估计(estimator)是核心概念,理解它们的关系是进行数据分析和推断统计的基础。

首先,总体是指研究对象的全部可能情况或所有个体的数据集合。例如,如果我们研究一个城市的居民收入水平,那么所有该城市的居民的收入数据就是总体。然而,由于时间、经费、人力等实际限制,在大多数情况下,无法获取总体的所有数据。因此,实际操作中通常只能从总体中抽取一部分数据来进行分析,这部分数据即为样本。样本是总体的一个子集,是通过随机或系统的方法从总体中选取的。抽样过程不仅要求科学合理,还需要遵循一定的统计规则,以确保样本能够代表总体的特征,这一过程称为抽样(sampling)。
在获取样本后,研究人员往往对样本数据进行统计分析。需要注意的是,通常的描述统计工作都是针对样本数据进行的,即通过计算样本的均值、方差、频率等描述性统计指标,了解样本的基本特征。然而,由于样本只是总体的一部分,描述样本并不能完全代表总体。因此,推断统计的关键在于通过参数估计(parameter estimation)对总体的未知特征进行推测。
参数是描述总体特征的量化指标,如总体均值、总体方差等。然而,由于总体数据不可得,这些参数通常是未知的。为此,我们需要利用样本数据对总体参数进行推断。这个推断过程就是参数估计,最终得出的推断值称为估计值。例如,通过样本均值来估计总体均值,或通过样本方差估计总体方差。

总体和参数是研究目标的完整数据和特征,但由于无法获取全部数据,我们通过抽样获得样本并对样本进行分析,进而通过估计的方法来推断总体的未知参数。这一过程构成了推断统计的基础,是将样本信息推广到总体的关键步骤。在实践中,合理的参数估计不仅帮助我们从有限的数据中得出有用的结论,还为数据驱动的决策提供了理论依据。

三、参数估计

参数估计包含两大部分,点估计及区间估计,点估计,是估计参数点的值,一个确定的值,区间估计就是估计参数的范围。所有的估计都是估计未知参数,点估计则是估计具体的某一个数值,而区间估计,则是估计这个参数有多大的概率(置信水平:\(1-{\alpha}\)\(\alpha\)在假设检验的时候,它叫显著性水平,而置信水平刚好是1-显著水平,所以就用它了)落在某个区间(置信区间,置信下限,置信上限)范围。有时候,我们不关注它到底有多大,只关注它到底多小,比如元件寿命,不关注它有多小,只关注它有多大,比如杂质含量。这样,就引出了单侧置信区间的概念,同样,也是估计这个参数有多大的概率\(1-{\alpha}\)落在区间上,和双侧区间的区别是,双侧区间因为要兼顾两边。
对于置信区间的基本计算方法如下:(1)判断是否正态总体;(2)找到枢轴量(简单的说,就是一个关于随机变量\(X\)及参数\(\theta\)的函数,它有自己单独的,与变量及参数都无关的分布,这样就可以用过这个分布来确定函数内的参数\(\theta\)的置信区间);(3)利用枢轴量的分布求出置信水平\(1-{\alpha}\)的置信区间,根据枢轴量函数计算出\(\theta\)的置信区间。
而卡方分布和F分布的两上枢轴量也是一个比例,它同样由两个分布双侧或单侧的比例确定,又因方差无负值,所以这个双侧和单侧是由小于某一个正值和大于某一个正值给出,不像正态分布和t分布一有正负值。于是,各种情况的置信区间求解如下图:

例1. 有10个样本,分别是175,176,173,175,174,173,173,176,173,179。标准差为1.5,求均值95%的置信区间。

z.test<-function(x,n,sigma,alpha){
mean<-mean(x)
ans<-c(
       mean-sigma*qnorm(1-alpha/2,mean=0,sd=1,lower.tail=TRUE)/sqrt(n),
       mean+sigma*qnorm(1-alpha/2,mean=0,sd=1,lower.tail=TRUE)/sqrt(n))
ans
}
x<-c(175,176,173,175,174,173,173,176,173,179)
z.test(x,10,1.5,0.05)
z.test(x,10,1.5,0.05)
173.7703 175.6297

例2. 为比较两种农产品的产量,选择18块条件相似的试验田,采用相同的耕作方法做实验,结果播种甲种的8块试验田的单位面积产量和播种乙品种的10块试验田的单位面积产量分别如下所示
两种农产品的单位面积产量
甲品种 628 ,583,510,554,612,523,530,615
乙品种 535,433,398,470,567,480,498,560,503,426
假定每个品种的单位面积产量均服从正态分布,甲品种产量的方差为2140,乙品种产量的方差为3250,试求这两个品种平均面积产量差的置信区间(置信度95%)。

two.sample.ci <- function(x,y,conf.level,sigma1,sigma2){
  options(digits = 4)
  m = length(x)
  n = length(y)
  xbar=mean(x)-mean(y)
  alpha=1-conf.level
  zstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)
  xbar+c(-zstar,+zstar)
}
x <- c(628,583,510,554,612,523,530,615)
y <- c(535,433,398,470,567,480,498,560,503,426)
sigma1=2140
sigma2=3250
two.sample.ci(x,y,0.95,sigma1,sigma2)
two.sample.ci(x,y,0.95,sigma1,sigma2)
[1]  34.67 130.08

四、假设检验

假设检验的计算程式(置信区间法)如下:(1)判断是否正态总体及建立假设;(2)找到枢轴量(在假设检验中叫检验统计量);(3利用枢轴量的分布求出置信水平的置信区间,根据枢轴量函数计算出的置信区间,若原假设的值落在置信区间之内,则不能拒绝原假设(注意,是不能拒绝原假设,不是接受原假设,这个是不一样的,不能拒绝的意思是不能判断,而接受则为可以判断,比如原假设是有只有1块钱在身上,不能拒绝原假设的意思是,我不知道你有没有1块钱在身上,你有可能没钱,有可能只有1块钱,也有可能有很多钱,而接收原假设的意思是,你只有1块钱,这个要非常注意,不能乱作判断!)
另外介绍另外两种常用的假设检验方法:
(1)临界值法
临界值法则是把假设代入检验统计量中计算,并把结果与\(Z_α\)对比,若结果落在\(Z_α\)以外(意为落在显著水平下认为不可能的范围),则拒绝原假设,接受备择假设,若不是,则不能拒绝原假设。
(2)P值法
与临界值法的区别就是,把假设代入检验统计量中计算,并计算在这个结果下,\(P\)值的大小,由\(P\)值与显著水平\(\alpha\)进行比较,若\(P\)值小于显著水平\(\alpha\),则为显著拒绝原假设。另外,\(P\)值也代表着拒绝原假设的最小显著水平。
假设检验由检验统计量可以分为\(Z\)检验、\(t\)检验、\(χ^2\)检验、$F%检验,单正态总体,双正态总体检验如下图:

例3. 某种原件的寿命X(以小时计)服从正态分布\(N(μ,σ^2)\)其中\(μ,σ^2\)均未知。现测得16只元件的寿命如下:
159 280 101 212 224 379 179 264
222 362 168 250 149 260 485 170
问是否有理由认为元件的平均寿命大于255小时?
解:按题意,需检验 \(H_0: μ ≤ 225 \quad H_1: μ > 225\)
此问题属于单边检验问题,可以使用R语言t.test

  t.test(x,y=NULL,alternative=c("two.sided","less","greater"),
   mu=0,paired=FALSE,var.equal=FALSE,conf.level=0.95)

其中\(x\)数据框,即自己要分析的数据(如果只提供\(x\),则作单个正态总体的均值检验,如果提供\(x,y\)则作两个总体的均值检验),alternative表示被则假设,two.sided(缺省),双边检验(\(H_1:μ≠μ_0\)),less表示单边检验(\(H_1:μ<μ_0\)),greater表示单边检验(\(H_1:μ>μ_0\)),mu表示原假设\(μ_0\),conf.level置信水平,即\(1-α\),通常是0.95,var.equal是逻辑变量,var.equal=TRUE表示两样品方差相同,var.equal=FALSE(缺省)表示两样本方差不同。

 X<-c(159, 280, 101, 212, 224, 379, 179, 264,222, 362, 168, 250, 149, 260, 485, 170)
 t.test(X,alternative = "greater",mu=225)
One Sample t-test
data:  X
t = 0.66852, df = 15, p-value = 0.257
alternative hypothesis: true mean is greater than 225
95 percent confidence interval:
 198.2321      Inf
sample estimates:
mean of x 
    241.5 

例4. 有一批蔬菜种子的平均发芽率p0=0.85,现随即抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽。试检验种衣剂对种子发芽率有无效果。
解:根据题意,所检验的问题为 H0:p=p0=0.85, H1:p≠p0
可以用R语言的binom.test

binom.test(x, n, p = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95)
#其中x是成功的次数;或是一个由成功数和失败数组成的二维向量。n是试验总数,当x是二维向量时,此值无效。P是原假设的概率。
binom.test(445,500,p=0.85)

总结

推断性统计是一种通过样本数据推断总体特征的统计方法,主要包括参数估计和假设检验两大核心内容。参数估计旨在从样本中估计总体参数,常见的估计方法有点估计和区间估计。点估计是通过样本数据给出总体参数的一个单一值,例如用样本均值估计总体均值。区间估计则给出一个区间,反映出参数可能落入的范围,同时提供置信水平(如95%置信区间),即我们对该区间包含总体参数的可信度。估计方法中,最大似然估计和最小二乘法是常用的手段。假设检验则用于判断样本数据是否支持某个关于总体的假设。首先提出原假设(如总体均值为某特定值),然后通过计算样本统计量(如t统计量或z统计量),与临界值或p值进行比较。如果p值小于显著性水平(如0.05),则拒绝原假设,认为样本数据提供了足够的证据支持备择假设。假设检验广泛应用于对比两组数据是否有显著差异、分析相关性等问题。

参考文献

  1. 推断性统计部分(二)---参数估计
  2. 推断性统计部分(三)—假设检验
  3. R语言参数估计笔记及例题
posted @ 2022-06-27 10:44  郝hai  阅读(1032)  评论(0编辑  收藏  举报