【数理统计基础】 02 - 统计量和三大分布

1. 样本和统计量

1.1 样本和统计量

  数理统计讨论的问题不一定都是随机现象,比如人口信息的统计、具体数据的测量,它们的结果都是确定的。但实际问题的操作并不是数学所关心的,剥离问题的外壳,这些问题都可以用随机现象来描述,比如人口信息和测量误差都可以用一个正态分布来近似。建立统计的概率模型,正是数理统计区别于广义统计学的关键,为模型定义统一、明确的对象也是任何数学分支的起点。

  既然这样,数理统计的研究对象其实还是随机变量,具体问题中所有可能的取值被称为全体,而每一个值称为个体。不同于概率论中研究分布的性质,统计中的分布信息往往是未知的,这样的随机变量习惯写作X。为了得到X的更多信息,需要采集它的观察值X1,X2,,Xn,它们称为样本。一般假定Xi是与X同分布的独立随机变量,具体样本值则记作xi

  统计问题中的主要信息就是样本值Xi,能对它进行的处理只有函数计算f(X1,,Xn),这些函数值被称为样本统计量。统计量不能任意选取,它需要根据实际需要并一般有直观意义。比如最常用的统计量是式(1)中的样本均值X¯样本方差S2,它们一般作为分布的均值和方差的估计值。

(1)X¯=1ni=1nXi;S2=1n1i=1n(XiX¯)2

  既然样本是随机变量,统计量自然也是随机变量。如果X的期望和方差是(μ,σ2),则易知X¯是有期望μ和方差σ2n的随机变量。不难算得,S2的期望值正好是σ2,所有系数取1n1是合理的,S2的完整称谓是“修正的样本方差”。我们暂时可以这样“直觉”地解释这个现象:均值X¯是由Xi生成的,它会随着Xi的变动而变动,这就导致真正自由、有效的变量减少了一个。下面马上会回来重新讨论这个问题。

  更一般的,比较重要的统计量还有样本原点矩样本中心距(式(2)),要注意k>1时,样本中心距都需要修正,只不过在n很大时可以近似地使用。其中一阶原点矩便是样本均值,二阶中心距便是未修正的样本方差,其它的统计量使用频率不高。

(2)ak=1ni=1nXik;mk=1ni=1n(XiX¯)k

  研究统计量是为了获取分布的信息,我们有一个很朴素的想法:当样本数足够多后,应当能绘制出分布函数F(x)的图形。根据分布函数的定义特点,可以定义这样一个统计量vn(x):它表示满足Xix的样本数,并记Fn(x)=vn(x)n,它称为经验分布函数。对于指定的xFn(x)是随机变量,当把x也看作变量时,我们只好叫Fn(x)“随机函数”。不过不用担心概念会变复杂,因为|Fn(x)F(x)|的最大值才是我们要关心的,而它是一个随机变量。数理统计中有著名的格里文科定理(式(3)),它说明Fn(x)以概率1收敛于F(x)

(3)P{limnsupxR|Fn(x)F(x)|=0}=1

1.2 统计量的自由度

  在概率论中我们熟知一个结论:如果X1,,Xn互相不相关,则Y=X1++Xn的期望、方差可以简单地展开。nXiY的影响互不相关,这样的统计量十分易于讨论,我们暂且称它的自由度n。下面就来研究一下样本方差的自由度为什么是n1而不是n,不过在此之前,需要先讨论一下随机变量正交变换的性质。

  对互不相关的随机变量Xi,设对它们做正交线性变换后得到Yi,则首先容易得到式(4)。然后分别展开E(YiYj)E(Yi)E(Yj),根据正交性,以及Xi独立同分布,容易有式(5)成立,所以Yi互不相关。这个结论对任何随机变量都成立,且也符合正交变换的一贯性质。

(4)(X1,,Xn)=(Y1,,Yn)A;AAT=Ii=1nXi2=i=1nYi2

(5)E(YiYj)E(Yi)E(Yj)=k=1nakiakj(E(Xk2)E2(Xk))=0

  特别地,式(6)左的Y1可以扩展为一个正交变换,利用式(4)便可得到式(6)右的结论。这不仅说明了S2的自由度为n1,还可以知道X¯S2是不相关的,这个结论非常重要。

(6)Y1=nX¯i=1n(XiX¯)2=i=1nXi2Y12=i=2nYi2

  对于满足再生性的随机变量,YiXi具有相同的分布类型,且可知满足式(6)的Y1有期望nμ和方差σ2,而其它Yi有期望0和方差σ2。特别地,当Xi是正态分布时,可以有式(7)成立,且X¯S2相互独立。对X¯的结论,一般写作式(8),右边是一个确定的分布(后面会用到)。

(7)XiN(μ,σ2)Y1N(nμ,σ2);YiN(0,σ2)

(8)n(X¯μ)σN(0,1)

  更一般地,对于自由度为n的随机变量Q=X12++Xn2,其中Xi互不相关。现在把Q看成Xi的正定二次型,并记行向量X=[X1,,Xn]。假设Q可以分解为r个半正定二次型之和(式(9)左),且Qk的秩nk满足n1++nr=n。由Ak的秩为nk且半正定可知,存在n×nk的矩阵Bk,使得Qk=XBkBkTXT

(9)Q=Q1++Qr=XBBTXT=YYT

  令方阵B=[B1,,Br]Y=XB,则有Q=YYT(式(9)右),从而BBT=InB是一个正交矩阵。因为Yj是由Xi正交变换而来,故根据式(5)知Yj互不相关,继而Qk之间是互不相关的。值得提醒的是,当Q也是一般的半正定二次型时,结论仍然成立,这个条件使用起来会更方便,请自行论证。

  现在利用这个结论再讨论S2的自由度,首先显然有式(10)成立,其中的每一项都是关于Xi的半正定二次型。当半正定二次型具有形式i=1nZi2,且Zi还有r个线性约束条件时,它本质上是关于nr个自由变量的正定二次型,从而秩为nr。这个小结论在判定二次型秩时很有用,比如S2中设Zi=XiX¯,则有1个限制条件Z1++Zn=0,从而S2的秩为n1。另外显然式(10)左的秩为nX¯的秩为1,满足以上定理的条件,故有S2,X¯不相关。

(10)i=1nXi2=nX¯2+(n1)S2

2. 统计学三大分布

  统计量也是随机变量,各种形式的统计量会产生许多新的随机变量,这些变量中的有些是经常出现的,有必要事先对它们做一些介绍。因为正态分布适用的场合最为广泛,这里的统计学三大分布都是基于正态分布的。

2.1 χ2(卡方)分布

  在介绍χ2分布之前,先讨论一个更一般的分布。将埃尔朗分布中的r扩展为任意正实数,得到的分布(11)称为Γ分布,一般记作Γ(r,λ)。式子中的Γ(r)确保了p(x)为密度函数,它被称为Γ函数。Γ函数在实数域是个U形函数,它有式(12)的基本结论,由于Γ(n)=(n1)!,它也被看成是阶乘概念的扩展。

(11)p(x)=λrΓ(r)xr1eλx,Γ(x)=+tx1etdt

(12)Γ(x+1)=xΓ(x);Γ(1)=1,Γ(12)=π

  Γ分布具有和埃尔朗分布同样的特征函数,并且也满足再生性。这里不打算讨论Γ分布的更多性质,而是关注它的一类特例。假设XN(0,1),可以证明X2Γ(12,12),这是个奇妙的巧合!如果X1,,Xn是独立的标准状态分布,利用再生性有式(13)成立,它被称为自由度为nχ2卡方)分布,记作χn2

(13)XiN(0,1)i=1nXi2Γ(n2,12)=χn2

  上图是χ2分布的密度函数,n=1时便是X2,它有两条渐近线,n=2时是指数分布,n>2时分布曲线类似但越来越扁平。容易算得χ12有期望1和方差2,这就得到χn2分布的期望和方差(式(14))。继续上面对S2的讨论,由于YiN(0,σ2),可以得到S2满足式(15)。另外如果X是指数函数,显然有2λXχ22

(14)Yχn2E(Y)=n;D(Y)=2n

(15)(n1)S2σ2χn12

  χ2分布的引入无非是为了讨论样本方差的性质,这个分布中不含有任何未知的参数,这种确定的分布非常便于概率的量化计算。但在量化分析的表达式中,不应该含有未知的参数(样本值Xi、样本容量n等属于已知量),这样的表达式一般称为枢轴变量。简单说,枢轴变量由已知量组成,且形成一个确定的分布,这个以后会深入讨论。

  一般教材上自由度的概念定义在随机变量Q=X12++Xn2上,其中Xi是独立的标准正交分布。如果Q可以分解为k个半正定二次型,且秩的和为n,则根据前面关于自由度的结论,变换矩阵B为正交矩阵,从而Yi也是互相独立的正交分布。进而Qk是自由度为nk的卡方分布,且它们互相独立。这个结论称为柯赫伦(Cochran)分解定理,在数理统计中有着非常普遍的应用。

2.2 t分布

  公式(8)中参数σ往往是未知的,这会给分析带来困难,这时可以用S可以做为σ的近似。令X,Y分别代表式(8)(15)中的变量,消除σ后就形成变量XY/(n1)。这应当是我们要关心的数轴变量,它的分布是确定,为了便于讨论研究,需要为它作个定义。一般地,式(16)中的分布被称为自由度为nt分布,记作tn。下图是其密度函数,有人已经证明,当n时,t分布收敛于正态分布,这也是符合直觉的。

(16)XN(0,1);Yχn2XY/ntn

  再回到对式(8)(15)的讨论,显然有式(17)成立,这个结论以后经常用到。关于(17)式我想强调一下,式中好像是用S取代了σ,这只是巧合而已,不要忘了其背后原理还是(8)(15)的结合。是因为σ恰巧被消掉才出现了式(17),遇到更复杂的情况时,要重新仔细计算(下一篇将遇到)。

(17)n(X¯μ)Stn1

2.3 F分布

  还有一种常见的场景,就是比较两个分布的方差比σ12/σ22。同样利用Si2近似σi2,并利用公式(15)可以进行类似的讨论。为此,将式(18)中的分布被称为自由度为m,nF分布,记作Fm,n,下图是它的密度函数。

(18)Xχm2;Yχn2X/mY/nFm,n

  回到方差的比较,设X,Y的方差分别为σ12,σ22,样本容量分别为m,n,样本方差分别为S12,S22,容易知道有式(19)成立。

(19)S12S22σ22σ12Fm1,n1

  数理统计中使用分布函数时,和概率论中是相反的,即根据概率值来确定随机变量的值。满足P(X>C)=αC被称为分布的α上分位点,对于正态分布和上面的三大分布,α上分位点分别记作u(α),χn2(α),tn(α),Fm,n(α)。其中tn,Fm,n有式(20)的简单性质,它们在计算和制表中比较有用,证明比较简单,请自行验证。

(20)tn(1α)+tn(α)=0;Fm,n(α)Fn,m(1α)=1

posted on   卞爱华  阅读(5575)  评论(0编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架

导航

点击右上角即可分享
微信分享提示