概率论与数理统计中基于有限样本推断总体分布的方法,基于总体未知参数区间估计的假设检验方法之讨论,以及从数理统计视角重新审视线性回归函数本质
1. 总体与样本
0x1:数理统计中为什么要引入总体和个体这个概念
概率论与数理统计中,一个很重要的研究对象就是总体的概率分布,理论上说,我们希望获得被研究对象的总体样本,基于这份总体样本进一步研究其概率分布,但是遗憾地是,几乎在100%的情况下,我们都不可能获得真正的总体,我们只能获取有限的样本量(例如自然生物里的统计问题),有时候甚至还是非常少的小样本集(例如宇宙星体观测结果),如何有效、准确、误差可控地利用有限的样本集,进行最大程度合理的统计推断,既是一个理论研究课题,也是非常有现实意义的应用理论。
因此概率论与数理统计科学家们提出了总体和个体这个概念,主要观点如下:
- 在大数定律的理论支撑下,只要我们的个人样本数足够多,个人样本的统计量会在趋近于1的概率下,趋近于总体样本的统计量。这就是我们在没有完整总体样本的情况下,依然能够利用概率论与数理统计这个强大的武器,对未知的事物开展统计研究的理论依据。
- 同样在大数定律的理论支撑下,即使样本数不够多,基于有限的样本数得到的估计结果,和理论总体之间的误差,也可以可以通过概率分布统计量的形式,定量地给出的,这给统计推断的不确定性决策提供了基础。
0x2:总体与样本
1. 总体的形式定义
在一个统计问题中,我们把研究对象的全体称为总体,也即样本空间全集,构成总体的每个成员称为个体,也即样本子集。
对于具体问题中,我们将研究对象的某个数量指标值(例如身高)的全体称为总体,每一个总体都是由一组数据组成的,因此可以用一个概率分布描述,所以说总体数量指标就是服从一个分布的随机变量。
我们用大写字母X表示总体,那么总体X就是具有未知分布函数F(x)的一个随机变量。
2. 样本的形式定义
在数理统计中,总体分布永远是未知的。所以我们希望从客观存在的总体中按一定的规则选取一些个体(即抽样),通过对这些个体作观察或测试来推断关于总体分布的某些统计量(例如总体X的均值、方差、中位数等),被抽取出的这部分个体就组成了总体的一个样本。
这里所谓的”一定规则“,是指保证总体中每一个个体有同等的机会被抽到的规则。
在总体中抽取样本的过程称之为”抽样“,抽取规则则称之为”抽样方案“。在大部分时候,我们都采用简单随机抽样,表示对总体的每一个抽样,总体中的所有个体都有相同的被选概率,用这种抽样方案得到的样本称为简单随机样本。
由于在观测前,样本观测值是不确定的,所以样本是一组随机变量(或随机向量),为了体现随机性,用大写字母(X1,X2,....,Xn)表示,其中n为样本的大小,称之为样本容量。
一旦给定的简单随机抽样方案实施后,样本就是一组数据,用小写英文字母(x1,x2,...,xn)表示,也称为样本观测值。
简单随机样本具有下列两个特性:
- 1)相互独立性:X1,X2,...,Xn相互独立,样本中每个个体的取值不受到其他个体取值的影响
- 2)代表性:Xi 同总体分布(Xi ~ f(xi;θ)),总体中的每一个个体都有同等机会被选入样本
3. 样本的联合分布概率函数公式
我们知道,简单随机样本表示X1,X2,...,Xn是独立同分布的随机变量,且每一个 Xi 的分布都与总体X的分布相同,因此我们可以根据概率论中多维随机变量分布的性质得到样本的联合分布如下:
1)离散型随机变量
设总体X是一个离散型随机变量,分布律为P(X=x;θ),样本(X1,X2,....,Xn)的联合分布律为:
2)连续型随机变量
设总体X是一个连续型随机变量,密度函数为f(x;θ),样本(X1,X2,....,Xn)的联合密度函数为:
样本的联合分布累乘公式是一个非常基础且重要的公式,是很多下游算法的公式基础,它表达了一个最质朴的概率论思想,即:任何复杂的事物都可以分解为多个复杂度更低的子事件,所有子事件同时发生等同于复杂事物发生,而所有独立同分布的子事物同时发生在概率论中又等价于所有子事物的概率逐个累乘。即P(AB) = P(A)*P(B)。
样本的联合分布概率函数公式,在模型参数估计、NLP语言模型建模等领域中都有广泛应用。
3)样本联合分布函数举例说明
设总体X~B(1,p),(X1,X2,...,Xn)为取自该总体的一个样本,求样本(X1,X2,...,Xn)的联合分布律f(x1,x2,...,xn;p)
在概率分布函数的讨论中,我们的讨论对象往往是在某个确定的概率函数前提下,某个点或某个区间的确定性概率问题。而在样本联合分布概率函数的讨论中,我们的讨论对象是多个相同的概率分布函数叠加在一起,综合而成的一个新的概率分布函数。它们二者之间有点像个体与群体的关系。
Relevant Link:
《概率论与数理统计》同济大学数学系 第6章 第一节
2. 样本随机变量的统计量
0x1:为什么要研究样本的统计量
数理统计中最重要的部分就是研究样本的概率分布,也即抽样分布。
抽样分布也是一种随机变量,因此自然也有对应的概率密度函数以及概率分布函数。但其实对抽样分布的概率分布函数的研究并不是十分重要,或者说相比于抽样分布的统计量研究来说不是那么重要。
我们研究样本的核心目的在于估计总体分布的形式和参数,而抽样分布的统计量,是连接抽样分布和总体分布之间的桥梁,基于抽样样本的统计推断是基于抽样统计量作出的,所以研究抽样分布的统计量是统计推断中一个十分重要的环节。
0x2:样本统计量 - 连接样本和总体未知参数推断之间的桥梁
数理统计的基本任务之一是利用样本所提供的信息来对总体分布中未知的量进行推断,简单来说,就是由样本推断总体。
但是,样本常常表现为一组数据,很难直接用来解决我们所要研究的具体问题,人们常常把数据加工成若干个简单明了的数字特征,由数据加工后的数字特征就是统计量。所以说统计量综合了样本的信息,是统计推断的基础。统计量的选择和运用在统计推断中占核心地位。
1. 样本统计量基本定义
设(X1,X2,...,Xn)为取自总体的一个样本,样本(X1,X2,...,Xn)的函数为g(X1,X2,...,Xn),若g中不直接包含总体分布中的任何未知参数,则称g(X1,X2,...,Xn)为统计量。统计量本质上也是一种随机变量。
在抽样前,统计量是一个随机变量,在抽样后,得到样本(X1,X2,...,Xn)的一次观测值(x1,x2,...,xn),则所得的g(x1,x2,...,xn)即为统计量的一次观测值。它是一个可以由数据算得的实数。
统计量本身不包含总体分布中的未知参数,我们构造统计量的主要目的就是去估计总体分布中的未知参数。
2. 一些常用的样本统计量
1)样本均值
设(X1,...,Xn)是一个样本,称:
为样本均值。
2)样本方差
称:
为样本方差。
称:
为样本标准差。
3)k阶原点矩
一般地,对任意一个正整数k,称:
为样本的k阶原点矩。特别的,当k=1时,k阶原点矩退化为样本均值。
4)k阶中心矩
称:
为样本的k阶中心矩。
特别的,当k=2时,二阶中心距M2为:
二阶中心矩M2和样本方差的关系为:
显然,样本方差比样本的二阶中心矩更大一些,有的教材上也称样本方差S为样本无偏估计,称二阶中心矩为有偏估计。
5)词序统计量
词序统计量X(1),X(2),...,X(n)是X1,X2,...,Xn由小到大排序得到的,加圆括号的下标表示排序。
设(X1,X2,...,Xn)是取自总体X的一个样本,总体X的密度函数为。
样本中取值最小的一个记为,即,称为最小次序统计量。
样本中取值最大的一个记为,即,称为最大次序统计量。
称为第i次序统计量,i=1,2,...,n,满足:
记和的密度函数分别为和,由概率密度函数的定律可得:
次序统计量本质上是基于原始的概率分布进行了一个函数映射后,得到了一个新的概率分布函数,那么这个新的概率分布函数的形式和原始概率分布函数是什么关系呢?我们以指数分布为例,来具体讨论下。
设(X1,X2,...,Xn)是取自总体X的一个样本,总体X~E(λ),分别求次序统计量,的分布。
总体X~E(λ),所以密度函数为:
分布函数为:
根据最小次序统计量的概率密度函数分布式可得:
即:
根据最大次序统计量的概率密度函数分布式可得:
3. 常用样本统计量的性质
由于统计量是样本(X1,X2,...,Xn)的函数,因此统计量也是随机变量,因此统计量也同样具备随机变量的一些性质。而考察随机变量的性质,本质上就是用各种统计量来描述随机变量,所以我们同样可以用随机变量的统计量来考察统计量本身,即统计量本身的统计量。
1)样本均值的统计性质
这个公式要这么理解,我们将样本均值作为一个随机变量,将每次抽样看做一次观测,则在多次观测下,样本均值本身呈现出的均值和方差的统计规律。
样本均值的均值还是均值,样本方差的均值,随着样本数n的增大而负向减小。
该性质表明:样本集可以一定程度上代替总体,实现总体参数估计的目的。因为估计样本的均值就等于估计出了总体的均值,而随着样本数的增加,代表估计误差的均值方差也是逐渐降低,通俗地说就是样本越多,参数估计的就越准确。
2)样本方差和二阶中心矩的统计性质
上式表明样本方差的均值还是方差,样本二阶原点矩的均值,随着样本数n的增加而缓慢增大,这也所谓有偏估计的由来。
该性质表明:样本集并不改变总体的方差分布,对原始的总体来说,样本既不增加新的信息熵,也不减少信息熵。
3)样本均值和方差的依概率收敛性
由独立同分布情形下的大数定律得到:
,
所以有:
在大数定理下,不管是有偏估计还是无偏估计,样本均值和样本方差最终都会收敛到总体均值和总体方差。
样本均值和方差的概率收敛性,也是矩估计法和极大似然估计的理论依据,它从理论上证明了基于样本进行数理统计的合法性和有效性。
4)二项分布总体下的样本统计量求解
这个小节我们用一个具体的例子来阐述,如何对统计量的各种概率性质进行定量的分析和计算。
设(X1,X2,...,Xn)是取自总体X的一个样本,当X~B(1,p)时,分别求下列几个统计量:
由二项分布的性质我们知道:
所以有:
0x3:三大分布 - 正态总体假定下,对样本随机变量进行特定统计量函数变换映射后,得到的3种特定概率分布
标题取得有一些绕,笔者这里尽力分解解释一下。
前面说到,样本是从符合一定概率分布的总体(任意概率分布形式)中通过某种采样方案,采样抽取得到的。所以我们将样本看做是一种随机变量,并计算样本随机变量的统计量,例如前面介绍了常用的统计量(例如均值、方差、次序统计量)。但统计量本质也是一种函数变换(例如均值统计量就是一种固定形式的函数),统计量本身又是一种新的随机变量,所以统计量本身也是有概率分布函数形式的。
在所有总体假设中,正态分布是应用最广泛的一种概率分布,根据中心极限定律,所有的概率分布在大数n情况下,都会趋近于正态分布,所以我们本章讨论正态分布总体下的抽样分布。
虽然正态总体假设下,抽样随机变量的统计量形式可以由很多种,但是在学术研究和工业实践中,使用最多的还是3大分布,本章我们讨论数理统计中用的比较多的3种分布,包括x2分布、t分布、F分布,它们在正态总体的统计推断中起着重要作用。
笔者提醒:显然,数理统计中并不只有这3种概率分布,理论上说,针对正态总体的抽样,我们可以用任意的统计量g()函数来得到新的随机变量,在一些特定的工业场景中,也确实需要我们创造新的统计量函数来应对特定的复杂场景。
1. X2分布
1)概率分布数学公式
设X1,X2,...,Xn为相互独立的标准正态分布随机变量,都服从N(0,1),称随机变量:
所服从的分布为自由度为n的 χ2 分布,记作Y ~ χ2(n)。样本数n越大,自由度越大。
χ2(n)分布的密度函数为:
密度函数的图像如下,它随着自由度n的不同而有所改变。
2)概率分布性质
χ2分布具有如下性质:
- 当Y ~ χ2(n)时,E(Y)=n,D(Y)=2n
-
χ2分布的可加性:设X与Y相互独立,且X~χ2(m),Y~χ2(n),那么,X+Y ~ χ2(m+n)
3)x2分布概率分布计算举例
设(X1,X2,X3,X4,X5,X6)为取自标准正态总体N(0,1)的一个样本,分别求下列三个统计量的分布:,并求a,b的值。
由样本的定义可知,X1,X2,X3,X4,X5,X6相互独立,且都服从N(0,1)分布,所以根据χ2分布的定义可知,即自由度为2个χ2分布。
同理,,即由一个样本组成的概率分布为自由度为1的χ2分布。
,即,又,即
所以由χ2分布的定义可知:
整理可得,a=1/2,b=1/3。
2. t分布
1)概率分布数学公式
设随机变量X与Y相互独立,且X~N(0,1),Y~χ2(n)。称随机变量:
服从自由度为n的t分布(学生氏分布),记为T~t(n)。
T的值域是(-∞,∞),t(n)分布的概率密度函数为:
t(n)分布的密度函数图像如下,关于直线t=0对称:
当n充分大时,其图形类似于标准正态分布N(0,1)的密度函数图像,即
t(n)分布的p分位数记作ta(n),即当T~t(n)时,P(T ≤ ta(n)) = p。
在实际中,当n>45时,对于t分布的分位数值,就用标准正态分布的分位数近似,即
3. F分布
1)概率分布数学公式
设随机变量X与Y相互独立, 且X ~ χ2(m),Y ~ χ2(n),称随机变量:
所服从的分布是自由度为(m,n)的F分布,记作F ~ F(m,n)。其中m称为第一自由度,n称为第二自由度。
F(m,n)分布的概率密度函数为:
F(m,n)分布的概率密度函数图像如下:
F(m,n)分布的p分位数记作Fp(m,n),即当F ~ F (m,n)时,,对一些常用的p,可以通过查表得到,且同时具有如下性质:
2)F分布概率分布计算举例
设随机变量T~t(n),F=1/T2,求随机变量F的分布。
由于T~t(n),设,其中随机变量X与Y相互独立,且X~N(0,1),Y~χ2(n)。
则有:
又因为X2~X(1),且X2与Y相互独立,根据F分布的公式定义,可得:
F ~ F(n,1),即第一自由度为n,第二自由度为1的F分布。
0x4:正态总体假定下的抽样分布的统计量性质
统计量是样本(X1,...,Xn)的函数,它是一个随机变量。统计量的分布称为抽样分布。
设(X1,...,Xn )是取自正态总体N(μ,σ2)的一个样本。下面来研究统计量的性质,我们会看到,有很多分布性质是需要借助3大分布来表达的,这也是3大分布在数理统计中重要性的体现,同时在后文讨论假设检验的时候,3大分布还会频繁出现。
定理1
- ,或等价地
关于第二点这里简单讨论下,从表面上看,是n个正态随机变量的平方和,但实际上它们不是相互独立的,它们之间有一个线性约束关系:
这表明,当这n个正态随机变量中有n-1个取值给定时,剩下一个的取值就跟着唯一确定了。所以其满足自由度为n-1的X2分布。
定理2
把结论左端改写成:
上式右端分子服从N(0,1)
上式右端分母中的
且分子分母两者相互独立,因此,由t分布的定义便知结论成立。
定理3
在很多实际问题中,常常需要比较两个相互独立的正态总体的样本均值差或样本方差比,所以针对两个相互独立的正态总体有以下定理。
设(X1,...,Xm )是取自正态总体N(μ1,σ12)的一个样本,(Y1,...,Yn)是取自正态总体N(μ2,σ22)的一个样本。
Relevant Link:
《概率论与数理统计》同济大学数学系 第6章 第二节
3. 参数估计 - 概率分布模型已知时模型参数估计
0x1:参数估计基本定义
在之前的章节中,我们已经讨论了总体和样本的概念,而总体X的分布永远是未知的,通常根据实际情况假定服从某种类型的分布。例如,假定总体X服从正态分布,那么刻画正态分布的均值μ和方差σ2究竟取什么值,是参数估计范畴内的知识。
在参数估计的知识推导中,需要用到之前讨论过的样本统计量的概念,样本统计量和大数定律是参数估计的连接桥梁和理论支撑。
设总体X~f(x;θ),其中 f 的形式已知,θ是未知参数。例如,总体X~B(1,p),其中p未知,这个p即为标记总体分布的未知参数,简称总体参数。
总体参数虽然是未知的,但是它可能取值的范围却是已知的。称总体参数的取值范围为参数空间,记作
如何根据样本来对未知参数进行估计,这就是数理统计中的参数估计问题。参数估计的形式有两类:1)一类是点估计;2)一类是区间估计
0x2:参数点估计 - 精确的参数值估计
设总体X的分布形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数值的问题,称为参数的点估计问题。
设(X1,X2,...,Xn)是取自总体X的一个样本,点估计就是依据样本估计未知参数为某个值,这在数轴上表现为一个点。
具体地说,假定要估计某个未知参数θ,求θ的点估计就是根据样本(X1,X2,...,Xn)构造一个参数估计统计量,h(X1,...,Xn),在通过抽样获得样本观测值(x1,...,xn)之后,便用h(x1,...,xn)的值来估计未知参数的值。
称h(x1,...,xn)为θ的估计量,估计量本质上也是一种随机变量,记作,也简记为。根据随机变量的定义,估计量是参数空间中一个确定的值。
在一个具体问题中,要求未知参数的估计值必须先求出这个未知参数的估计量(即构造一个包含未知参数的概率分布函数),这里我们介绍两种常用的估计方法:1)矩法;2)极大似然法
1. 矩估计
1)矩估计形式定义
矩估计的思想就是替换思想:用样本原点矩替换总体原点矩。
设总体X的k阶原点矩:,样本的k阶原点矩为:,如果未知参数,则θ的矩估计量为。这种估计总体未知参数的方法称为矩估计。
2)矩估计性质
设一个总体X的均值E(X)=μ,方差D(X)=σ2都未知,(X1,X2,...,Xn)为取自该总体的一个样本,则是μ的矩估计量,Sn2是σ2的矩估计量,Sn是σ的估计量。
3)矩估计应用实例
设(X1,X2,...,Xn)是取自总体X的一个样本,求X~B(1,p)和X~E(λ)时,总体未知参数的矩估计量。
X~B(1,p),首先,0-1分布的期望E(X)=p,所以未知参数记为总体一阶原点矩,即p=E(X),应用矩估计的替换思想,用样本的一阶原点矩替代总体一阶原点矩,可得p的矩估计量为
X~E(λ),E(X)=1/λ,所以λ=1/E(X),所以λ的矩估计量为
4)求解总体未知参数θ矩估计量一般步骤
- 1)设k为一正整数,通常取1或者2(即1阶或者2阶),计算总体的k阶原点矩μk = E(Xk) = h(θ)
- 2)解出θ = h-1(E(Xk)) = h-1(uk),将未知参数转为为总体k阶原点矩的形式
- 3)用样本的k阶原点矩替换uk,得到θ的矩估计,即将未知参数转为样本k阶原点矩的形式
矩估计是一种经典的估计方法,它比较直观且计算简单,即使不知道总体分布类型(矩估计法跳过了总体分布形式这个环节,直接采取了替换思想),只要知道未知参数与总体各阶原点矩的关系并运用替代法,就能得到参数的矩估计量。
2. 极大似然估计
1)极大似然估计形式定义
设总体X有分布律P(X=x;θ)或密度函数f(x;θ),其中θ为一个未知参数或几个未知参数组成的向量θ=(θ1,θ2,....,θk),已知 θ∈参数空间。(x1,x2,....,xn)为取自总体X的一个样本(X1,X2,...,Xn)的观测值,将样本的联合分布律或联合概率密度函数看成θ的函数,用L(θ)表示,又称为θ的似然函数,则似然函数形式如下:
在似然函数的基础上,称满足下列关系式:
的解为θ的极大似然估计,也即让似然函数取得极大值时的特定参数值θ叫做:θ的极大似然估计量。显然,极大似然估计量也是一个随机变量。
笔者插入:极大似然估计是因果论的一种逆向应用,总体未知参数θ是因,样本的观测值是果,在所有备选θ中,使得结果发生概率最大的因就是极大似然估计的结果。
2)极大似然估计量的求解方式
似然函数L(θ)的极大似然估计问题本质上是一个求极值问题,如果在θ参数较少时,可以用求偏导的方式来求解,同时为了计算方便,一般两边取对数,即对数极大似然估计,如下式:
来得到θ的极大似然估计,这是因为L(θ)与lnL(θ)在同一处达到最大值。
当θ参数较多时,一般用矩阵代替偏导数进行计算,其本质是一样的。
关于极大似然估计的延展讨论,读者朋友朋友可以参阅另一篇文章。
3)极大似然估计应用实例
设(X1,...,Xn)是取自总体X的一个样本,X~P(λ),其中λ未知,λ > 0。
包含总体未知参数λ的似然函数为:
对似然函数两边取对数,并对未知参数λ求导数得:
对导数求极值得:
解得:
于是,λ的极大似然估计量为。
4)求解总体未知参数θ极大似然计量的一般步骤
- 1)由总体分布写出样本的联合分布律或者联合密度函数
- 2)把θ看成自变量,样本联合分布律(或联合密度函数)看成是θ的函数,记为似然函数L(θ)
- 3)求似然函数L(θ)的最大值点
- 4)令L(θ)达到最大值时,θ的取值即为θ的极大似然估计值。
由上面讨论可以看出,和矩估计不同的是,求解极大似然估计必须总体X的分布类型已知,即必须要能够写出确定的包含总体未知参数θ的函数形式。极大似然估计的条件比矩估计的条件要苛刻,故极大似然估计一般优于矩估计。或者换句话来说,矩估计并不关心总体分布的具体形式,直接应用了一个非常强的假设,即任何总体的k阶矩都可以用样本的k阶矩代替。
3. 点估计优良性评价标准
对于同一个参数,用不同的估计方法求出的估计量可能是不同的,如何定型和定量地评估用哪个估计量更好呢?这个小节会讨论3种常用的评判标准。
1)无偏性 - 选矩估计还是极大似然估计
设是θ的一个估计量,θ取值的参数空间为Θ,若对任意的θ∈Θ,都有:
则称是θ的无偏估计量,否则称为有偏估计量。
估计量的无偏性是指,由估计量得到的估计值相对于未知参数真值来说,取某些样本观测值时偏大,取另一些样本观测值时偏小。
反复将这个估计量使用多次,就平均来说其均值回到到真值本身,且其偏差为0。
反之,如果估计量不具有无偏性,则无论使用多少次,其平均值也与真值有一定的距离,这个距离就是系统误差了(即估计量选取本身有问题)。
下面通过一个例子来说明,矩估计和极大似然估计在对特定总体抽样下,估计统计量的无偏性对比。
设(X1,X2,...,Xn)是取自总体X的一个样本,总体服从均匀分布,X~U(0,θ),其中θ>0未知,对比θ的估计量和极大似然估计量的无偏性。
首先,由于E(X)=θ/2,则θ=2E(X),则θ的估计量为,因此该矩估计量的期望为:
因此θ的矩估计量是θ的无偏估计。
另一方面,θ的极大似然估计函数形式(即最大次序统计量)为:
因此该极大似然估计量的期望为:
由上式可以看出,θ的极大似然估计量X(n)不是θ的无偏估计,为θ的有偏估计。
上面只是理论上的分析,但是当样本量很大时,大数定律会让问题简单化,即:
因此:在大量样本的情况下,X(n)是θ的渐进无偏估计。
同时还有一点需要注意的是,对最大次序统计量进行修正,,修正后的统计量满足期望回归真值,即修正后的统计量是无偏估计。
并不是所有的统计量都是可疑修正的,修正后无偏估计在工程实践中非常有用。
2)有效性 - 无偏估计中继续择优
一个未知参数的无偏估计可以有很多(矩估计的各阶矩,似然函数极值求导下的多个值),如何在无偏估计中再进行选择呢?
由于无偏估计的标准是平均偏差为0,所以一个很自然的想法就是每一次估计值与真实值的偏差波动越小越少,偏差波动大小可以用方差来衡量,因此我们用无偏估计的方差大小作为进一步衡量无偏估计优劣的标准,这就是有效性。
设和是θ的两个无偏估计,若对任意的θ∈Θ,有下式成立:
则称比有效。
还是继续沿用上面的均匀分布的例子,我们已知是θ的无偏估计,且修正后的极大似然估计量也是θ的无偏估计。
且:
,又,所以:
根据函数性质,当n>=2时,,所以修正后的极大似然估计比矩估计更有效。
3)相合性 - 在大数情况收敛于真值的能力
点估计是样本的样本,故点估计仍然是一个随机变量,在样本量一定的条件下,点估计不可能完全等同于未知参数的真值,但如果随着样本量不断增大,它能够不断接近真值,控制在真值附近的强度(概率)越来越大,即无限趋近,那么这就是一个好的估计,这一性质称为相合性。
设是θ的一个估计量,若对任意ε,有如下公式成立:
则称估计量具有相合性(一致性),即,这其实就是高数里收敛的概念,在概率论中叫概率收敛一致性。
相合性被视为对估计的一个很基本的要求,如果一个估计量,在样本量不断增大时,它不能把被估参数收敛到任意指定的精度内,那么这个估计量就是不收敛的(发散的)。通常,不满足相合性的估计一般不予考虑。
0x4:区间估计
1. 由一个例子从点估计推导演进到区间估计
上一章讨论的参数点估计是基于样本观测值计算出一个确定的值去估计总体未知参数。同时上一章也讨论到了点估计量的3种评价标准,即无偏性,有效性,相合性。其实这背后已经暗含了一个重要信息,即参数点估计的结果从概率上是存在误差的,虽然随着样本量的不断扩大,这个误差会无限趋近于零,但永远不可能完全等同于。换句话说,无论是矩估计还是极大似然估计本质上都存在这误差。
相比于给出精确的点估计值,学者们提出了另一种参数估计方法,即区间估计,即给出一个区间,让我们能有更大地把握认为真值被包含在这个区间内,这样的估计就显得更有实用价值,也更为可信,因为我们把可能出现的偏差也考虑在内了。
用一个具体例子来逐步引入后面对区间估计的形式化定义的讨论:
考察某厂生产的水泥构件的抗压强度(单位:N/cm2),如果在抽样前已经从历史上积累的资料中获悉,该厂生产的水泥构件的抗压强度 X ~ N(μ,400),其中μ未知 。
抽取了25件样品进行测试,得到25个数据x1,... ,x25,根据点估计定义,算得:
如果用点估计的观点看,415应该就是是该厂生产的水泥构件的平均抗压强度的估计值。确实在判别式模型中,这就是我们所谓的得到一个最优的模型参数估计。
但是由于抽样的随机性,μ的真值和样本的点估计量之间可能总是有偏差的,我们希望得到一个最大偏差d,保证点估计量和真值之间的偏差不超过这个最大偏差的概率达到某个置信概率,即
接着就出现2个互相制衡的约束条件:
- 1)d究竟取多大才比较合理?
- d愈大可信程度也愈高,最极端的情况,当d增大到整个参数空间时,可信度自然也增加到100%了。但区间过宽的估计是没有实际意义的,毕竟你告诉你的业务方说,我有1%的概率认为这笔交易是一个非法交易,你去阻断它吧!可想而知后果
- 反之,d愈小,区间估计就越精确,越收敛,极端情况下,d为零时即退化为点估计。但相应的,可信程度却降低了
- 2)这样给出的区间估计的可信程度如何?
- 可信度即置信概率,在不同的最大偏差d下,可信度相应调整。显然,下游业务方是希望这个可信度越高越好。
怎么调和两者的矛盾呢?
在抽样前,区间估计是一个随机区间,反映区间估计可信程度的量是这个随机区间覆盖未知参数μ的概率分布函数,因此上面2个约束条件可以写成概率形式:
,该式本质上就是点估计量的概率分布函数。
上式中,取不同的d,可以得到对应的概率值。反过来也可以说,取不同的概率值,就可以得到不同的d。
在数理统计中,我们通常取95%这个概率值,我们称之为置信概率(即能够接受估计结论的最低概率值),该概率值对应的d得到一个区间【X-d,X+d】我们称之为置信区间(即误差的最小下界,即最少包含d的误差,继续增加置信概率,d也会相应继续增大)。
回到上面这个具体的例子,由于,其中,σ2 = 400 = 202,n = 25,因此,上述概率为:
,其中
如果要求这个概率至少为1-α(称为置信水平,或置信概率),那么,由 2Φ(c) - 1 ≥ 1 - α 解得:
上面说到,我们通常取95%作为置信概率,所以当α=0.05,所以有:
于是,置信区间为:
习惯上把这个区间估计通过分位数表达成:
上式清楚地表明了这个区间估计的可信程度(即它覆盖未知参数μ的概率)为1-α。
在抽样后,由样本观测值算得,因此,μ的区间估计的观测值为:
从样本观测值提供的信息,推断出以95%的可信程度条件下,能够保证该厂生产的水泥构件的抗压强度在407.16 ~ 422.84(N/cm2 )之间。
2. 区间估计形式化定义
设(X1,...,Xn)是取自总体X的一个样本。对于未知参数θ,给定α,0<α<1。如果存在统计量,使得:
那么,称为θ的双侧1-a置信区间,称1-a为置信水平,为双侧置信下(上)界。
上面定义表示双侧1-a置信区间覆盖未知参数θ的概率至少有1-a。它的直观意义是:对同一个未知参数θ反复使用同一个置信区间时,尽管不能保证每一次都,但是,至少有100(1-a)%次使得“”成立。
和参数的点估计统计量一样,参数的区间估计量也是一个随机变量,所以称为置信区间的观测值。
3. 求置信区间的一般步骤
置信区间估计的基本思想是:较优的点估计应该属于置信区间。
设未知参数为θ,置信水平为1-α。
- 步骤1:求出未知参数θ的较优的点估计,一般尽可能使用θ的极大似然估计
- 步骤2:以为基础,寻找一个随机变量(其实就是包含未知参数的概率分布),它必须包含、也只能包含这个未知参数θ。要求J的分位数能通过查表或计算得到具体数值
-
步骤3:记J的a/2分位数为a,1-a/2的分位数为b,于是
-
步骤4:把不等式“a <= J <= b”作等价变形,得到,这个便是一个双侧1-a置信区间
0x5:单正态总体下未知参数的置信区间
参数的区间估计是针对某个已知总体分布的,例如已知总体分布为二项分布,但是其参数未知,需要通过区间估计来得到未知参数分布的置信区间。
在实际应用环境中,正态总体下未知参数的置信区间是应用价值最大的一类置信区间问题,我们这节来讨论当总体分布为正态分布时,其未知参数的区间估计问题。
1. 均值和方差的置信区间估计
设(X1,...,Xn)是取自总体X~N(μ,σ2)的一个样本,置信水平为1-a。
均值μ和方差σ2是否已知对置信区间的估计结果是有影响的,在实际情况中,也存在不同的已知情况,我们分别讨论这3种类型。
1)μ未知但σ2已知
当总体分布为正态分布,方差已知,但是均值未知时。根据上一节讨论确定的置信区间估计的一般步骤,求未知参数μ的置信区间。
μ的极大似然估计是。
设统计量J为:
按总体分布正态标准化定理可知,J~N(0,1),由于,因此
于是μ的双侧1-α置信区间为:
从上式可以得到两点信息:
- 样本量n越大,置信区间越窄,极端情况下,n趋近于无穷,则置信区间收敛为μ的极大似然估计是
- 已知总体的方差越大,置信区间越宽,方差越小,置信区间越窄。
2)μ已知但σ2未知
现在要求未知参数σ2的置信区间。σ2的极大似然估计是:
设统计量J为:
从前面三大分布的讨论中可知,J ~ χ2(n),因此
于是σ2的双侧1-α置信区间为:
3)μ与σ2均未知
未知参数μ的极大似然估计是,令:
按照t分布定理可得,J ~ t(n-1),由于,因此
于是,μ的双侧1-α置信区间为:
未知参数σ2的极大似然估计是:
设统计量J为:
根据X2分布定理可得,J ~ χ2(n-1),因此:
于是,σ2的双侧置信区间为:
2. 单正态总体下未知参数置信区间估计案例
电动机由于连续工作时间过长而会烧坏,今随机地从某种型号的电动机中选取9台,并测试它们在烧坏前的连续工作时间(单位:h)。
由样本数据(x1,... ,x9)算得:
假定该种型号的电动机烧坏前连续工作时间 X ~ N(μ,σ),取置信水平为0.95。
试分别求出μ与σ的双侧置信区间。
1)问题分析
这是一个典型的已知总体概率分布为正态分布,同时u和σ参数都未知的参数区间估计问题。
2)置信区间估计
对于具体问题来说,直接套用对应公式即可,u和σ都未知情况下,u的置信区间上下界计算需要涉及到t分布取值以及S的取值。
查表得t0.975(8)=2.306,同时
因此,μ的双侧95%置信区间的上、下限分别为:
,即[37.66,41.74]
同理套用公式的得σ2的双侧95%置信区间为:
Relevant Link:
《概率论与数理统计》同济大学数学系 第7章
4. 假设检验
0x1:假设检验基本定义
假设检验是统计推断的另一种重要的形式,从数理统计的原理上来理解,笔者认为假设检验和参数区间估计本质上是一样的,都是在计算总体概率分布密度函数的区间概率。
- 参数区间估计是已知样本反推未知参数在总体概率分布密度函数上的值域区间,不同的值域区间范围对应了不同的累计概率(即置信度),通过设定不同的置信度阈值,得到对应的值域区间(即置信区间)
- 假设检验是先假设总体分布的某些未知参数已知(即假设总体已知),在已知总体下得到抽样概率分布。不同的值域对应了不同的概率,反之,选定了一个概率值也就得到一个对应的值域区间,假设检验就是讨论样本统计量和样本随机分布下的阈值区间之间的关系的一套方法论
可以这么说,假设检验和参数估计的底层本质,都是总体和抽样统计概率分布函数的值域或者概率值计算。
在参数估计问题中,常常在抽样前先对未知总体作出一些假定。例如,假定总体X服从正态分布,假定某个正态总体的方差为一个已知值,等等。
在数理统计中,把这类关于总体分布的假定称为(统计)假设。假设作出了,还需要通过样本来验证抽样前所作出的假设是否与实际相符合, 可以用样本所提供的信息来检查,检查的方法与过程称为(统计)检验。
假设检验问题就是研究如何根据抽样后获得的样本来检验抽样前所作出的假设的一套方法论。
0x2:硬性假设检验 - 基于拒绝域的假设检验
从这小节开始,我们先从硬性假设检验引入话题,逐步介绍假设检验的思想内涵。隐性假设检验是笔者在阅读教材和文献的时候自己根据理解取的名字。
硬性假设检验,是指非白即黑的对立假设,通过设定一个确定的边界,如果超出边界就否定假设。
下面通过一个例子来详细说明。
1. 题目场景分析
某饮料厂在自动流水线上灌装饮料。在正常生产情形下,每瓶饮料的容量(单位:mL)X服从正态分布N(500,102)。
经过一段时间之后,为了检查机器工作是否正常,抽取了9瓶样品,测得它们的平均值为490mL。
试问此时自动流水线的工作是否正常?即问是否可以认为平均每瓶饮料的容量仍是500mL?假定标准差10mL不变。
2)建立统计假设
在这个问题中,总体X~N(μ,102),总体分布是正态分布是已知的,其中参数μ未知。
(x1,...,x9)是取自这个正态总体X的一组样本观测值,且已知样本均值
接下来,我们对实际的总体概率分布参数建立一正一反两个假设:
- “μ=500”:表示自动流水线的工作正常,每个Xi~N(500,102)
- “μ≠500”:表示自动流水线的工作不正常,每个Xi~N(μ,102),i=1,...,9,其中μ≠500
在数理统计中,把它们看作是两个对立假设。
习惯上,称:
- “μ=500”为原假设(或零假设),记作H0
- “μ≠500”为备择假设(或对立假设),记作H1
在假设检验问题中,断言“H0成立”称为接受H0(或不能拒绝H0)。断言“H1成立”称为拒绝H0。
3)计算拒绝域 - 统计检验
统计假设建立完之后,为了检验H0是否成立,需要基于样本(X1,...,Xn)计算样本的统计量。现在已知样本均值。
从表面上看,由于,因此H0不成立。但是,这样下结论是不能令人信服的。例如,如果,是否还能断言H0不成立呢?毕竟它只差了一点点呀。
所以一个很自然的思考方式是,我们需要建立一个代表可容忍度的统计标准,在抽样前先确定一个标准,即事先给定一个常数d,当抽样后发现时,拒绝H0。
至于如何给出这个常数d,这就是接下来统计检验要讨论的问题。
当H0成立(即μ=500)时,总体X~N(500,102),基于该总体下的抽样概率分布为:
所以假设不成立的概率为:
如果要求这个概率不超过α,其中α代表显著性水平,并记,那么,由,解得:
一般取,于是,推得当满足:
时,拒绝H0。把上述标准等价地表达成,当:
时,拒绝H0。这里的u1-α称为临界值,它是最终判断是拒绝H0还是接受H0的标准。
从上式可以看到,临界值的是从抽样统计分布通过查表法得到的,对于同样的95%置信度a来说,不同的抽样样本得到不同的抽样概率分布,最终得到的临界值也是不同的(本质就是通过概率值反查值域值)。
回到题目,如果取α=0.05,由,及算得:
因此拒绝H0,即可以认为此时自动流水线的工作不正常。
注意!在这种情况下,作出错误检验判断的概率为0.05。这就是假设检验的核心思想,所有决策皆概率。
0x3:软性假设检验 - p值和p值检验法
上一章节,我们讨论了基于样本随机变量概率分布,计算出拒绝域,根据样本统计量是否超出拒绝域从而决定是否拒绝原假设,这是一种“Hard Hypothesis-Test”。
现在在此基础上我们提出一个更进一步的问题,样本统计量超出拒绝域0.01和超出拒绝域100,意味着同样的拒绝置信吗?虽然不没有超过拒绝域但是紧邻着拒绝域边缘的情况,要拒绝还是接受呢?
显然,”Hard Hypothesis-Test“无法完美地回答上述问题,这需要一个柔性的概率性分析的方法论,即告诉我们能以多大的概率接受假设,能以多大的概率拒绝假设。
这就是我们本节要讨论的p值检验法,它本质上参数区间估计思想是一脉相承的。
1. p值检验法定义
假设检验的p值是在原假设H0成立的条件下,检验统计量Z出现给定观测值或者比之更极端值的概率,直观上用以描述抽样结果与理论假设的吻合程度,因此也称p值为拟合优度。
例如,正态总体参数检验的情况,检验统计量为Z,即由样本数据得到检验统计量Z的观测值为,则p值为:
2. p值检验法原则
p值检验法的原则是当p值小到一定程度时拒绝H0。
- 如果p <= a,即检验统计量Z的观测值在拒绝域内,则在显著性水平a下拒绝原假设H0。
- 如果p > a,则在显著性水平a下接受原假设H0
通常约定:
- p <= 0.05:称结果为显著,即显著拒绝
- p <= 0.01:称结果为高度显著,即极大概率应该拒绝
3. p值检验法举例
一美国汽车厂商声称他们生产的某节能型汽车耗油量低于29(单位:英里/加仑,mpg),另一汽车厂商表示怀疑,他们抽取了一组同是这一型号的不同汽车的行驶记录共16条(一组样本),得到平均耗油量观测值为28。
假设该节能型汽车的耗油量总体分布为X~N(μ,9),知道了总体分布,自然也就得到了抽样分布的概率分布。
现在问在显著性水平a=0.05假定下,能否接受耗油量低于29的假设?若显著性水平为a=0.1,则结论会有变化吗?
在开始解题之前,我们先来分析一下题目问题的本质,我们现在有一个总体概率分布的假设,同时我们有抽样样本,即有抽样分布,同时这里显著性水平a,代表了概率分布函数的特定值,不同的a对应了不同的概率值域区间。
解题:
建立假设,给出未知参数μ的估计,则通过正态分布分位数查表得:
- 当显著性水平a=0.05时,0.0918 > 0.05,故不能拒绝H0,认为耗油量不低于29mpg。
- 当显著性水平a=0.1时,0.0918 < 0.05,故拒绝H0,认为耗油量低于29mpg。
这个例子告诉我们,在一个较小的显著性水平(a=0.05)下得到不能拒绝原假设H0的结论,而在一个较大的显著性水平(a=0.1)下,同一组样本数据却得到了相反的结论。
原因在于,当显著性水平变大时,会导致拒绝域变大,原本落在接受域内的数据可能落到拒绝域内,因而更容易拒绝H0。
在实际应用中,可能同一个问题,在不同的显著性水平假定下得到不同的结论。更常用的做法是,给出p值,由使用者自己决策以多大的显著性水平来拒绝原假设。p值比拒绝域提供更多的信息,使用也更灵活。
0x4:单正态总体参数的假设检验
上个小节我们举的例子就已经涉及到单正态总体参数下的假设检验了,这个小节我们来形式化讨论一下在单正态总体下,假设检验的各种形式和定义。
设总体X~N(μ,σ),-∞<μ<∞,σ >0,(X1,...,Xn)是取自正态总体X的一个样本,显著性水平为α。
1. μ未知但σ2已知
建立假设:
μ的极大似然估计是,设检验统计量:
- 当H0成立时,的值应较小,等价地,| U | 的观测值应较小;
- 当H1成立时,的值较大,可以认为H0不成立,即拒绝H0。
于是,拒绝域:
当μ=μ0 时,由显著性水平a得下式:
解得临界值,从而拒绝域公式等价为:
即当样本观测值(x1,... ,xn)满足不等式:
时,拒绝H0。通常称这个检验为u检验。
2. μ已知但σ2未知
如果要检验:
那么,由σ2的极大似然估计构造检验统计量
当,
- 当H0成立时,即,的值应该接近于1,等价的,的观测值应接近于n
-
反之,如果根据样本观测值(x1,...,xn)发现的值过大或过小地偏离于n,自然可以认为H0不成立,即拒绝H0
于是,拒绝域为:
因为当时,
通常称这个检验为χ2检验。
3. μ与σ2均未知
1)μ假设检验
如果要检验:
那么,在μ的极大似然估计的基础上,可以构造检验统计量:
于是,拒绝域可以表达成,当
时,拒绝H0。通常称这个检验为t检验。
2)σ2假设检验
如果要检验:
那么,在σ2的极大似然估计Sn2的基础上,可以构造检验统计量:
于是,拒绝域可以表达成,当
时,拒绝H0。通常也称这个检验为χ2检验。
0x5:参数估计和假设检验的关系
在学习了参数估计和假设检验之后,读者朋友可能会有一个疑问,既然有样本了,直接基于样本进行参数估计不就行了吗?为什么还需要假设检验,假设检验最后不还是依靠样本来估计未知参数吗?
1. 联系
- 都是根据样本信息对总体的数量特征进行推断;
- 都是以抽样分布为理论依据,建立在概率论基础之上的统计推断;
2. 区别
- 参数估计是以样本资料估计总体参数的真值,而假设检验是以样本资料对总体的先验假设是否成立,以及成立的置信概率作出判断;
- 参数估计中的区间估计是以大概率为标准,通常以较大的把握度1-a去保证总体参数的置信区间,而假设检验是以小概率原理为标准,通常给定很小的显著性水平a去检验样本对总体参数的先验假设是否成立;
3. 同一个问题的不同理论视角
在为总体未知参数构造置信区间时,如果置信水平为95%,则说明总体未知参数位于两个极限之间的概率达到95%。
而显著性水平反映了总体未知参数将位于某个极限外的概率,如果显著性水平为5%,则意味着拒绝域的概率为5%。
假设检验和区间估计的关系如下。
假设总体X~N(μ,σ2),μ和σ2均未知,设(X1,X2,....,Xn)是取自总体X的一个样本,给定置信水平为1-a,显著性水平为a,则μ的双侧1-a置信区间为:
也可表达成为:
接着考虑如下关于均值μ的双侧检验问题:
可得相应的拒绝域为:
对比置信区间和假设检验的拒绝域,我们可以发现在单正态总体中,假设σ2未知的情况下,μ的双侧1-a置信区间记为μ的双侧检验问题接受域,如下图所示:
由此可见,假设检验和参数区间估计本质上说的是一件事,只是不同的理论视角。
Relevant Link:
https://zhuanlan.zhihu.com/p/45898097
5. 从拟合优度角度看一元线性回归拟合程度
回归分析是机器学习中很常用的统计方法,其本质上是利用参数估计与假设检验处理一类特定的数据,这类数据往往受到一个或若干个自变量的影响,本章仅讨论一个自变量的情形,自变量是普通的变量,但因变量是一个随机变量,即一元线性回归。
0x1:相关关系问题
在实际问题中,常常需要研究变量与变量之间的相互关系。变量之间的相互关系基本上可以分为:
- 函数关系:确定性关系
- 相关关系:不确定性关系
1. 函数关系
函数是研究变量之间相互关系的一个有力工具,例如,以速度v作匀速直线运动时,物体经历的时间t与所经过的路程s之间具有函数关系s=vt。函数关系的基本特征是,当自变量x的值确定后,因变量y随之确定。
因此,函数实质上是研究变量之间确定性关系的数学工具。但是在实际的数据分析场景中,确定性的关系并不总是存在,从笔者自己的经验来看,几乎99%的数据分析场景里,变量之间的关系都不是确定性的函数关系。关于该话题的讨论,可以参阅另一篇文章。
2. 相关关系
与此相对的,在客观世界中变量之间还存在另一种普遍的关系,即不确定性关系。
例如,我们会发现人的身高与体重这两个变量之间存在某种关系,例如高的人整体上都会重一些,但是这种关系不能用一个函数来表达,因为当人的身高确定后,人的体重并不随之确定,它们之间存在一种不确定性关系。
变量之间的不确定性关系称为相关关系。
假定要考察自变量x与因变量Y之间的相关关系,由于自变量x给定之后,因变量Y并不随之确定,它是一个与x有关的随机变量,它可能取其值域ΩY中的任意某个值,因此,直接研究x与Y之间的相关关系比较困难。因此必须要找一个能够代表Y的统计量,作为”随机变量代表“,来和x进行相关关系分析。
注意到均值E(Y)反映了随机变量Y的平均取值,因此可以将E(Y)统计量作为Y的代表,研究x与E(Y)之间的关系。
随机变量Y所包含的不确定性通过期望E(Y)被消除,这样,x与之间便可以得到一种确定性关系,E(Y)成为x的某个函数。
下面通过研究μ(x)这个函数来达到探讨x与Y之间相关关系的目的。
0x2:概率论与数理统计理论体系下的一元线性回归 - 线性模型的数理统计表达
物理定律告诉我们,弹簧的伸长与拉力之间在理论上存在线性关系。从数据分析的角度,回归分析正是为这条物理定律提供了统计依据。我们这节围绕该问题展开讨论。
为了研究弹簧悬挂重量x(单位:g)与长度Y(单位:cm)的关系,通过试验得到如下一组(6对)数据:
从散点图看出,自变量x与因变量Y之间肯定不存在函数关系,但是显然存在相关关系。这6个点虽然不在同一条直线上,但大致在直线L的周围。
前面说到,在研究x和Y的相关关系的时候,我们一般会给Y选定一个”随机变量代表“,现在直线L就是随机变量Y的代表。
记直线L的线性方程为:
y = β0 + β1x。于是,可以把xi与yi之间的关系表示成:
这里,εi表示试验误差,它反映了自变量x与因变量Y之间的不确定性关系,即:
,其中,ε~N(0,σ2),即误差符合正态分布(这是高斯在研究正态分布和随机误差时证明的理论)。
对这一组变量(x,Y)作了n次观测,得到样本观测值
站在抽样前的立场看,这一组样本可以表示成:
其中,ε1,...,εn是独立同分布的随机变量,且都服从N(0,σ)。这个数学模型称为(一元)线性模型。
在线性模型中,自变量x看作一个普通的变量,即它的取值x1,...,xn是可以控制或精确测量的。而因变量Y是一个随机变量(因为ε是一个随机变量),即它的取值y1,...,yn在抽样前是不确定的,即是不可控制的。
在线性模型中,总体Y~N(β0 + β1x,σ2),其中是x的线性函数,这个函数称为回归函数,回归函数反映了自变量x与因变量Y之间的相关关系。称β1为回归系数,称β2为回归偏置。
这里,β0,β1,σ2都是未知参数,-∞ < β0,β1 < ∞,σ2 > 0。
回归分析就是要根据样本(x1,y1),...,(xn,yn)找到β0与β1适当的估计值,从而用经验公式:
来近似刻画自变量x与因变量Y之间的相关关系。这个经验公式称为经验回归函数。
它代表的直线称为经验回归直线。上图中的直线L即为经验回归直线。
0x3:最小二乘法
1. 最小二乘形式化定义
如何根据(x1,y1),... ,(xn,yn)来推测经验回归直线L呢?
从直观上看,这条直线L应最接近已知的n个数据点,通常用
作为任意一条直线y = β0 + β1x与这n个数据点偏离程度的定量指标。
即,希望选取适当的β0,β1使得Q(β0,β1)的值尽量小。用这个方法得到的β0,β1的估计称为最小二乘估计,这个估计方法称为最小二乘法。
要求Q(β0,β1)的最小值,可以先解下列方程组:
经整理后得到:
称这个方程组为正则(或正规)方程组,由正则方程组解得:
其中,
于是,β0,β1的最小二乘估计量为:
由β0,β1的最小二乘估计量,得经验回归函数为:
经验回归直线是过n个数据点的几何重点且斜率为的一条直线。
2. 最小二乘估计的性质
分别是β0,β1的无偏估计,且:
0x4:回归系数的显著性检验
| β1 | 的大小反映了自变量x对因变量Y的影响程度,通俗的话说就是,考量是不是在用线性回归函数来强拟合。
- 如果经检验拒绝H0,那么可以认为自变量x对因变量有显著性影响,称为回归效果显著;
- 如果经检验不能拒绝H0,即回归效果不显著,那么原因是多方面的。例如:
- 可能原来假定E(Y)是x的线性函数β0+β1x这个大前提就有问题,x和Y之间根本就没有线性关系、
- 也可能影响因变量Y的自变量不止x一个,甚至还可能x与Y之间不存在必须重视的相关关系,而只是弱线性关系、
- 也可能是因为采样过程引入了大量的噪音,导致Y中的噪音方差过大
为了给出回归系数的显著性检验的拒绝域,先作一些准备工作,记:
,并称SS为总偏差平方和
反映了数据中因变量取值的离散程度。记:
,并称SSR为回归平方和。
由得到:
因此,SSR反映了n个值相对于其平均的离散程度,它是由于自变量x取不同的值x1,...,xn 而引起的,因而它在一定程度上反映了回归系数β1对数据中因变量取值产生的影响。
现在来讨论σ2的点估计。σ2 = D(εi)反映了试验误差,在数据中,它通过来表现,其中
即是按经验回归函数算得自变量 x = xi 时因变量 y 的值,称为第 i 个残差。
称:
为残差平方和。
残差平方和反映了n次试验的累积误差,它的值恰是Q(β0,β1)的最小值,因为
通常取σ2的估计为
当n较小时,通常取σ2的估计为
可以证明是σ2的无偏估计,不具有无偏性,但是σ2的渐进无偏估计。
下面推导残差平方和的计算公式,由:
得到:
由残差平方和的计算公式得到平方和分解公式:
有了上面的准备工作,我们可以开始讨论对回归系数对显著性检验了。
与SSE相互独立,且,当β1=0时,。
对回归系数作显著性检验,有本质上相同的3种常用方法,接下来逐一讨论:
1. t检验法
设检验统计量:
当β1=0时,,,且与SSE相互独立,因此,。
于是在显著性水平a下,当:
时,拒绝H0。
2. F检验法
设检验统计量:
当β1=0,并且与SSE相互独立保证与SSE相互独立,推得F~F(1,n-2)。
于是,在显著性水平α下,当:
时,拒绝H0。由T2=F,可以看出知F检验法本质上与t检验法是相同的。
3. 相关系数检验法
设检验统计量:
,称R为相关系数
类似于随机变量的相关系数ρ(X,Y),R的取值r反映了自变量x与因变量Y之间的线性相关关系。
于是,在显著性水平α下,当时,拒绝 H0。
相关系数检验法是实际问题中被广泛应用的一种检验方法,因为它对x与Y之间线性相关关系给出一个数量表示。
可以证明相关系数检验法也与t检验法本质上是相同的,因为它们之间存在下列关系:
4. 回归系数3种显著性检验举例
还是沿用前面的弹簧的例子,为了研究弹簧悬挂重量x(单位:g)与长度Y(单位:cm)的关系,通过试验得到如下一组(6对)数据:
列出计算表格(n=6)
于是,利用得到:
由上面计算计算表格和样本均值计算结果得到:
因此,
从而:
同时得到:
将上面带入t/F/相关系数检验公式,得:
3种检验的临界值分别是:
通过查表得到结论,检验结论都是拒绝H0,即回归效果显著。这也和我们的直观判断是一致的。
笔者思考:损失函数的损失值是从另一个角度,度量了两个随机变量之间相关度的概率。损失最小就意味着参数估计的极大似然。可以从信息论的统一视角来看它们二者,本质上是同样的概念。
Relevant Link:
《概率论与数理统计》同济大学数学系 第8章