由于学校的概率论与数理统计课有些一言难尽,开始在这里自学书上后面的数理统计部分的知识。
1. 基本概念
数理统计学中,我们通常将研究的对象叫做总体,而组成总体的基本单元称为个体,我们认为一个随机变量为一个总体,总体的 n 个测量结果 (x1,x2,⋯,xn) 为一个随机向量 (X1,X2,⋯,Xn) 的观察值。其中随机向量的每个分量都是随机且独立的。
设 (X1,X2,⋯,Xn) 是一个 n 维随机向量,且 Xi(i=1,2,⋯,n) 与 X 同分布且相互独立,则称这个随机向量为 X 的一个简单随机样本,简称样本,称 n 为样本空间。
显然由于独立性,若 X 的密度函数为 f(x),则 (X1,X2,⋯,Xn) 的联合密度函数为:
g(x1,x2,⋯,xn)=n∏i=1f(xi)
同理,若 X 的分布函数为 F(x),则 (X1,X2,⋯,Xn) 的联合分布函数为:
G(x1,x2,⋯,xn)=n∏i=1F(xi)
通常我们希望通过一组数据得出一些信息,所以我们定义统计量,即设 (X1,X2,⋯,Xn) 是总体 X 的一个样本,函数 T(X1,X2,⋯,Xn) 是未知量 x1,x2,⋯,xn 一个不含未知量的参数的函数,则称 T(X1,X2,⋯,Xn) 是一个统计量。如果将样本值代入函数,那么就称这个函数值为统计量的观察值。
常用统计量有:
¯X=1nn∑i=1Xi
S2=1n−1n∑i=1(Xi−¯X)
同样,也有标准差:s=√1n−1n∑i=1(Xi−¯X)。
样本 k 阶原点矩为:
Ak=1nn∑i=1Xki
样本 k 阶中心矩为:
Bk=1nn∑i=1(Xi−¯X)k
可以看到:
A1=¯X,B2=n−1nS2
注意到样本方差的定义与离散随机变量方差的定义之中,两个定义的分母不同,这是因为这样定义可以使得 E(S2)=D(X),我们将在估计量的无偏性这个知识点处证明这一点。
而且由于辛钦大数定律,我们可以证明,如果 X 的 k 阶原点矩存在,E(Xk)=μk,则样本原点矩依概率收敛于 μk。
设 X 是一个随机变量,α 为满足 0<α<1 的实数,若数 x1−α 满足
P{X≤x1−α}=1−α
则称 x1−α 为 X 的上 α 分位数,简称分位数,或分位点,或临界值。
如果数 xα 满足
P{X≤xα}=α
则称 xα 为 X 的下 α 分位数。
对于标准正态分布变量 X∼N(0,1),上 α 分位数记作 u1−α,显然有:
Φ(u1−α)=1−αuα=−u1−α
2. 抽样分布与抽样分布定理
由于统计量也是样本的一个函数,由于其也是随机变量,也有分布函数。统计量的分布被称为抽样分布。
2.1 常见抽样分布
我们下面来介绍三个著名的统计量:
设总体 X∼N(0,1),(X1,X2,⋯,Xn) 是取自 X 的一个容量为 n 的样本,则称随机变量
χ2=X21+X22+⋯+X2n
服从的分布自由度为 n 的 χ2 分布,记作 χ2∼χ2(n)。其中分布自由度是上式平方和中独立的随机变量的个数。
我们可以求出 χ2 分布的概率密度函数:
f(x)=⎧⎪⎨⎪⎩12n2Γ(n2)xn2−1e−x2,x≥0;0,x<0.
其中 Γ(z) 即:
Γ(z)=∫+∞0tz−1e−tdt
其被视为阶乘函数在复数域内的拓展,对于正整数 z 来说,我们有 Γ(z)=(z−1)!
不难发现,当 n=2 时,此分布为 λ=12 的指数分布。
由 Γ(12)=√π,Γ(z+1)=zΓ(z) 的结论,我们可以计算出 χ2 分布的期望和方差:
由于对于 n 随机变量中任意一个 Xi 我们都有 Xi∼N(0,1),则:
E(X2i)=D(Xi)+[E(Xi)]2=1D(X2i)=E(X4i)−[E(X2i)]2=1√2π∫+∞−∞x4e−x22dx−1=2√2π∫+∞0x4e−x22dx−1=4√π∫+∞0t32e−tdt−1=4√πΓ(52)−1=2
由于 Xi 间相互独立,所以有:
E(χ2)=n∑i=1E(X2i)=nD(χ2)=n∑i=1D(X2i)=2n
有中心极限定理可知,我们有:
limn→+∞P{χ2−n√2n≤x}=Φ(x)
显然我们可以通过此式得到 χ2 分布函数的估算方法,即:
P{χ2≤x}≈Φ(x−n√2n)
通常 χ2 分布的 α 分位数记作 χ21−α(n),进而我们有:
χ21−α(n)≈n+√2nu1−α
由定义可知,χ2 分布对参数有可加性,故若 χ21∼χ2(n1),χ22∼χ2(n2),则有 χ21+χ22∼χ2(n1+n2)。
设 X∼N(0,1),Y∼χ2(n),且 X,Y 相互独立,令
T=X√Y/n
称 T 服从的分布为自由度为 n 的 t 分布,记作 T∼t(n)。
我们可以根据 Z=X/Y 型随机变量概率密度函数的计算方法,我们可以导出 t 分布的概率密度函数为:
f(x)=Γ(n+12)√nπΓ(n2)(1+x2n)−n+12,−∞<x<+∞
当 n=1 时,f(x)=1π11+x2,被称为柯西分布。根据 p 积分和反常积分的敛散性判断理论,我们可以得知其期望不存在。而同理,当 n≥2 时,t 分布的期望存在,且由于 xf(x) 为奇函数,故 E(T)=0。我们可以证明当 n 趋于无穷时,t 分布的概率密度函数趋近于标准正态分布。
我们通常将 t 分布的 α 分位数记作 t1−α(n),则我们可以得知:
t1−α(n)≈u1−αtα(n)≈−t1−α(n)
设 X∼χ2(n1),Y∼χ2(n2),X,Y 相互独立,令
F=X/n1Y/n2
称 F 服从的分布为自由度 (n1,n2) 的 F 分布,记作 F∼F(n1,n2)
我们可以证明,F 分布的概率密度函数为:
f(x)=⎧⎪
⎪⎨⎪
⎪⎩Γ(n1+n22)Γ(n12)Γ(n22)(n1n2)n12xn12−1(1+n1n2)−n1+n22,x≥00,x<0
我们由定义可知,若 F∼F(n1,n2):
1F∼F(n2,n1)
若设 F 的概率分布函数为 Fn1,n2(x),则我们可以知道:
Fn1,n2(x)=1−Fn2,n1(1x)
如果用 F1−α(n1,n2) 表明 F 分布的 α 分位数,则有:
Fα(n1,n2)=1F1−α(n2,n1)
2.2 抽样分布定理
设总体 X∼N(μ,σ2),则对于总体的一个样本 (X1,X2,⋯,Xn),则样本均值 ¯X 有 ¯X∼N(μ,σ2n)。
证明只需考虑,由于 Xi 间互相独立,故
E(¯X)=1nn∑i=1E(Xi)=μD(¯X)=1n2n∑i=1D(Xi)=σ2n
我们同样可以得到推论,¯X−μσ/√n∼N(0,1)。
若设总体 X∼N(μ,σ2),则样本均值 ¯X 和样本方差 S2 相互独立,且
χ2=(n−1)S2σ2∼χ2(n−1)
这个证明需要用到 n 维正态分布的性质,由于并没有很了解这方面的知识,所以不做详细证明。
设总体 N∼N(μ,σ2) 则,我们可以通过上方两个结论得出:
T=¯X−μS/√n∼t(n−1)
设 (X1,X2,⋯,Xn1) 是从总体 X∼N(μ1,σ2) 中抽取的容量为 n1 的样本,S21 是其样本方差;(Y1,Y2,⋯,Yn) 是从总体 Y∼N(μ2,σ2) 中抽取的容量为 n2 的样本,S22 是样本方差,且两个样本相互独立,则
T=(¯X−¯Y)−(μ1−μ2)Sw√1n1+1n2∼t(n1+n2−2)
其中
Sw=√(n1−1)S21+(n2−1)S22n1+n2−2
设从总体 X∼N(μ1,σ2) 中抽取容量为 n1 的样本,其方差为 S21, 从总体 Y∼N(μ2,σ2) 中抽取容量为 n2 的样本,其方差为 S22,且两个样本相互独立,则随机变量
F=σ22S21σ21S22∼F(n1−1,n2−1)
3. 参数估计
3.1 参数点估计
3.1.1 矩估计法
如果概率密度函数中有未知参数,且其分布的矩存在,我们可以采用矩估计法。即让样本的矩代替总体矩。通过计算样本矩,得出样本矩和未知参数的关系,进而求解未知参数。
3.1.2 最大似然估计法
当概率密度函数中有未知参数时,我们选取 ^θ 作为未知参数的估计值,使得当 θ=^θ 时,样本取到实验值的概率最大。
设总体 X 的概率分布已知,分布密度函数为 f(x,θ),从 X 中抽取一个容量为 n 的样本 (X1,X2,⋯,Xn),由于 X1,X2,⋯,Xn 均相互独立且与 X 同分布,记其联合分布密度函数为:
L(θ,x1,x2,⋯,xn)=n∏i=1f(xi,θ)
当样本值取定时,L(θ,x1,x2,⋯,xn) 即为 θ 的函数记作 L(θ),称为似然函数。它反映了样本在 θ 变化时取值概率的大小。我们所要寻找的即为 L(θ) 最大时 θ 的值。
即称满足
L(^θ)=maxθ{L(θ)}
的数 ^θ 为参数 θ 的最大似然估计值,得到的统计量 ^θ(X1,X2,⋯,Xn) 称为 X 的最大似然估计量。
由函数求最值的方法,如果其可导,我们可以通过求导求 L(θ) 的最大值。我们称
ddθL(θ)=0
为 θ 的似然方程。注意到 L(θ) 常为多个表达式的乘积,故我们可以考虑对其求自然对数后再求最值,即求 lnL(θ) 的最值。
如果总体服从区间 [0,θ] 的均匀分布,(X1,X2,⋯,Xn) 是取自总体的样本,(x1,x2,⋯,xn) 是样本值。L(θ) 为单调递减的函数,那么 θ 会在区间左端点处取得最大值,此时 θ 的最大似然估计值为
^θ=max{x1,x2,⋯,xn}
而称 θ 的最大似然估计值
X∗n=^θ=max{X1,X2,⋯,Xn}
为最大顺序统计量。
3.2 估计量优良性评选准则
3.2.1 无偏性
如果参数 θ 的估计量 ^θ 满足
E(^θ)=θ
则称 ^θ 为 θ 的无偏估计量,称 ^θ 的这种性质为无偏性。
下面来证明 ¯X 和 S2 均为总体的无偏估计量:
E(¯X)=1nn∑i=1E(Xi)=μE(S2)=E(1n−1n∑i=1(Xi−¯X)2)=1n−1E(n∑i=1X2i−n¯X2)=1n−1(n∑i=1E(X2i)−nE(¯X2))=1n−1(n∑i=1D(Xi)+[E(Xi)]2−n(D(¯X)+[E(¯X)]2))=σ2
3.2.2 有效性
设参数 ^θ1=^θ1(X1,X2,⋯,Xn) 和 ^θ2=^θ2(X1,X2,⋯,Xn) 是未知参数 θ 的两个无偏估计量,如果其方差都存在,且
D(^θ1)<D(^θ2)
那么称 ^θ1 比 ^θ2 有效,估计量的这种性质称为有效性。
3.2.3 一致性
设 ^θn=^θn(X1,X2,⋯,Xn) 的估计量,若 ^θn 依概率收敛于 θ,即对任意的 ϵ>0,有
limn→+∞P{∣∣^θn−θ∣∣≥ϵ}=0
则称 ^θn 为 θ 的一致估计量。估计量的这种性质称为一致性。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
2022-03-20 Hebut 天梯赛选拔题解