数理统计笔记

由于学校的概率论与数理统计课有些一言难尽,开始在这里自学书上后面的数理统计部分的知识。


1. 基本概念

数理统计学中,我们通常将研究的对象叫做总体,而组成总体的基本单元称为个体,我们认为一个随机变量为一个总体,总体的 n 个测量结果 (x1,x2,,xn) 为一个随机向量 (X1,X2,,Xn) 的观察值。其中随机向量的每个分量都是随机且独立的。

(X1,X2,,Xn) 是一个 n 维随机向量,且 Xi(i=1,2,,n)X 同分布且相互独立,则称这个随机向量为 X 的一个简单随机样本,简称样本,称 n样本空间

显然由于独立性,若 X 的密度函数为 f(x),则 (X1,X2,,Xn) 的联合密度函数为:

g(x1,x2,,xn)=i=1nf(xi)

同理,若 X 的分布函数为 F(x),则 (X1,X2,,Xn) 的联合分布函数为:

G(x1,x2,,xn)=i=1nF(xi)

通常我们希望通过一组数据得出一些信息,所以我们定义统计量,即设 (X1,X2,,Xn) 是总体 X 的一个样本,函数 T(X1,X2,,Xn) 是未知量 x1,x2,,xn 一个不含未知量的参数的函数,则称 T(X1,X2,,Xn) 是一个统计量。如果将样本值代入函数,那么就称这个函数值为统计量的观察值。

常用统计量有:

  • 样本均值:

X¯=1ni=1nXi

  • 样本方差:

S2=1n1i=1n(XiX¯)

同样,也有标准差:s=1n1i=1n(XiX¯)

  • 样本矩:

样本 k 阶原点矩为:

Ak=1ni=1nXik

样本 k 阶中心矩为:

Bk=1ni=1n(XiX¯)k

可以看到:

A1=X¯,B2=n1nS2

注意到样本方差的定义与离散随机变量方差的定义之中,两个定义的分母不同,这是因为这样定义可以使得 E(S2)=D(X),我们将在估计量的无偏性这个知识点处证明这一点。

而且由于辛钦大数定律,我们可以证明,如果 Xk 阶原点矩存在,E(Xk)=μk,则样本原点矩依概率收敛于 μk

X 是一个随机变量,α 为满足 0<α<1 的实数,若数 x1α 满足

P{Xx1α}=1α

则称 x1αX 的上 α 分位数,简称分位数,或分位点,或临界值。

如果数 xα 满足

P{Xxα}=α

则称 xαX 的下 α 分位数。

对于标准正态分布变量 XN(0,1),上 α 分位数记作 u1α,显然有:

Φ(u1α)=1αuα=u1α

2. 抽样分布与抽样分布定理

由于统计量也是样本的一个函数,由于其也是随机变量,也有分布函数。统计量的分布被称为抽样分布

2.1 常见抽样分布

我们下面来介绍三个著名的统计量:

  • χ2 分布

设总体 XN(0,1)(X1,X2,,Xn) 是取自 X 的一个容量为 n 的样本,则称随机变量

χ2=X12+X22++Xn2

服从的分布自由度为 nχ2 分布,记作 χ2χ2(n)。其中分布自由度是上式平方和中独立的随机变量的个数。

我们可以求出 χ2 分布的概率密度函数:

f(x)={12n2Γ(n2)xn21ex2,x0;0,x<0.

其中 Γ(z) 即:

Γ(z)=0+tz1etdt

其被视为阶乘函数在复数域内的拓展,对于正整数 z 来说,我们有 Γ(z)=(z1)!

不难发现,当 n=2 时,此分布为 λ=12 的指数分布。

Γ(12)=π,Γ(z+1)=zΓ(z) 的结论,我们可以计算出 χ2 分布的期望和方差:

由于对于 n 随机变量中任意一个 Xi 我们都有 XiN(0,1),则:

E(Xi2)=D(Xi)+[E(Xi)]2=1D(Xi2)=E(Xi4)[E(Xi2)]2=12π+x4ex22dx1=22π0+x4ex22dx1=4π0+t32etdt1=4πΓ(52)1=2

由于 Xi 间相互独立,所以有:

E(χ2)=i=1nE(Xi2)=nD(χ2)=i=1nD(Xi2)=2n

有中心极限定理可知,我们有:

limn+P{χ2n2nx}=Φ(x)

显然我们可以通过此式得到 χ2 分布函数的估算方法,即:

P{χ2x}Φ(xn2n)

通常 χ2 分布的 α 分位数记作 χ1α2(n),进而我们有:

χ1α2(n)n+2nu1α

由定义可知,χ2 分布对参数有可加性,故若 χ12χ2(n1),χ22χ2(n2),则有 χ12+χ22χ2(n1+n2)

  • t 分布

XN(0,1),Yχ2(n),且 X,Y 相互独立,令

T=XY/n

称 T 服从的分布为自由度为 n 的 t 分布,记作 Tt(n)

我们可以根据 Z=X/Y 型随机变量概率密度函数的计算方法,我们可以导出 t 分布的概率密度函数为:

f(x)=Γ(n+12)nπΓ(n2)(1+x2n)n+12,<x<+

n=1 时,f(x)=1π11+x2,被称为柯西分布。根据 p 积分和反常积分的敛散性判断理论,我们可以得知其期望不存在。而同理,当 n2 时,t 分布的期望存在,且由于 xf(x) 为奇函数,故 E(T)=0。我们可以证明当 n 趋于无穷时,t 分布的概率密度函数趋近于标准正态分布。

我们通常将 t 分布的 α 分位数记作 t1α(n),则我们可以得知:

t1α(n)u1αtα(n)t1α(n)

  • F 分布

Xχ2(n1),Yχ2(n2)X,Y 相互独立,令

F=X/n1Y/n2

F 服从的分布为自由度 (n1,n2) 的 F 分布,记作 FF(n1,n2)

我们可以证明,F 分布的概率密度函数为:

f(x)={Γ(n1+n22)Γ(n12)Γ(n22)(n1n2)n12xn121(1+n1n2)n1+n22,x00,x<0

我们由定义可知,若 FF(n1,n2)

1FF(n2,n1)

若设 F 的概率分布函数为 Fn1,n2(x),则我们可以知道:

Fn1,n2(x)=1Fn2,n1(1x)

如果用 F1α(n1,n2) 表明 F 分布的 α 分位数,则有:

Fα(n1,n2)=1F1α(n2,n1)

2.2 抽样分布定理

设总体 XN(μ,σ2),则对于总体的一个样本 (X1,X2,,Xn),则样本均值 X¯X¯N(μ,σ2n)

证明只需考虑,由于 Xi 间互相独立,故

E(X¯)=1ni=1nE(Xi)=μD(X¯)=1n2i=1nD(Xi)=σ2n

我们同样可以得到推论,X¯μσ/nN(0,1)

若设总体 XN(μ,σ2),则样本均值 X¯ 和样本方差 S2 相互独立,且

χ2=(n1)S2σ2χ2(n1)

这个证明需要用到 n 维正态分布的性质,由于并没有很了解这方面的知识,所以不做详细证明。

设总体 NN(μ,σ2) 则,我们可以通过上方两个结论得出:

T=X¯μS/nt(n1)

(X1,X2,,Xn1) 是从总体 XN(μ1,σ2) 中抽取的容量为 n1 的样本,S12 是其样本方差;(Y1,Y2,,Yn) 是从总体 YN(μ2,σ2) 中抽取的容量为 n2 的样本,S22 是样本方差,且两个样本相互独立,则

T=(X¯Y¯)(μ1μ2)Sw1n1+1n2t(n1+n22)

其中

Sw=(n11)S12+(n21)S22n1+n22

设从总体 XN(μ1,σ2) 中抽取容量为 n1 的样本,其方差为 S12, 从总体 YN(μ2,σ2) 中抽取容量为 n2 的样本,其方差为 S22,且两个样本相互独立,则随机变量

F=σ22S12σ12S22F(n11,n21)

3. 参数估计

3.1 参数点估计

3.1.1 矩估计法

如果概率密度函数中有未知参数,且其分布的矩存在,我们可以采用矩估计法。即让样本的矩代替总体矩。通过计算样本矩,得出样本矩和未知参数的关系,进而求解未知参数。

3.1.2 最大似然估计法

当概率密度函数中有未知参数时,我们选取 θ^ 作为未知参数的估计值,使得当 θ=θ^ 时,样本取到实验值的概率最大。

设总体 X 的概率分布已知,分布密度函数为 f(x,θ),从 X 中抽取一个容量为 n 的样本 (X1,X2,,Xn),由于 X1,X2,,Xn 均相互独立且与 X 同分布,记其联合分布密度函数为:

L(θ,x1,x2,,xn)=i=1nf(xi,θ)

当样本值取定时,L(θ,x1,x2,,xn) 即为 θ 的函数记作 L(θ),称为似然函数。它反映了样本在 θ 变化时取值概率的大小。我们所要寻找的即为 L(θ) 最大时 θ 的值。

即称满足

L(θ^)=maxθ{L(θ)}

的数 θ^ 为参数 θ 的最大似然估计值,得到的统计量 θ^(X1,X2,,Xn) 称为 X 的最大似然估计量。

由函数求最值的方法,如果其可导,我们可以通过求导求 L(θ) 的最大值。我们称

ddθL(θ)=0

θ 的似然方程。注意到 L(θ) 常为多个表达式的乘积,故我们可以考虑对其求自然对数后再求最值,即求 lnL(θ) 的最值。

如果总体服从区间 [0,θ] 的均匀分布,(X1,X2,,Xn) 是取自总体的样本,(x1,x2,,xn) 是样本值。L(θ) 为单调递减的函数,那么 θ 会在区间左端点处取得最大值,此时 θ 的最大似然估计值为

θ^=max{x1,x2,,xn}

而称 θ 的最大似然估计值

Xn=θ^=max{X1,X2,,Xn}

为最大顺序统计量。

3.2 估计量优良性评选准则

3.2.1 无偏性

如果参数 θ 的估计量 θ^ 满足

E(θ^)=θ

则称 θ^θ 的无偏估计量,称 θ^ 的这种性质为无偏性。

下面来证明 X¯S2 均为总体的无偏估计量:

E(X¯)=1ni=1nE(Xi)=μE(S2)=E(1n1i=1n(XiX¯)2)=1n1E(i=1nXi2nX¯2)=1n1(i=1nE(Xi2)nE(X¯2))=1n1(i=1nD(Xi)+[E(Xi)]2n(D(X¯)+[E(X¯)]2))=σ2

3.2.2 有效性

设参数 θ^1=θ^1(X1,X2,,Xn)θ^2=θ^2(X1,X2,,Xn) 是未知参数 θ 的两个无偏估计量,如果其方差都存在,且

D(θ^1)<D(θ^2)

那么称 θ^1θ^2 有效,估计量的这种性质称为有效性。

3.2.3 一致性

θ^n=θ^n(X1,X2,,Xn) 的估计量,若 θ^n 依概率收敛于 θ,即对任意的 ϵ>0,有

limn+P{|θ^nθ|ϵ}=0

则称 θ^nθ 的一致估计量。估计量的这种性质称为一致性。

posted @   Nickel_Angel  阅读(135)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
历史上的今天:
2022-03-20 Hebut 天梯赛选拔题解
点击右上角即可分享
微信分享提示