SKX804 统计模型与推断 II
笔记 4: 可估计性与最小二乘估计量
书籍参考: Monahan (2008)
讲师: Sai Li 和 Kejun He
最后更新: 2025年2月
1. 动机
回顾 b 的最小二乘估计量为:
^b=(X′X)−1X′y+[I−(X′X)−1(X′X)]z,对于任意 z∈Rp
当 rank(X)<p 时,可能存在无限多个解。(这是因为 I−(X′X)−1(X′X) 是对 N(X) 的投影。)因此,如果我们对某个特定的 b0 感兴趣,无论我们有多少样本,恢复它都是徒劳的。
当 rank(X)<p 时,我们感兴趣的是哪些 b 的函数是有意义的估计。特别地,在这笔记中,我们将研究哪些线性函数是可估计的。
2. 模型
在前面的笔记中,我们是从一个近似的观点出发的。现在,我们充分利用一般线性模型的形式:
y=Xb+e
其中:
- y 是响应向量
- X 是已知的设计矩阵
- b 是未知但固定的系数向量
- e 是误差向量,且有 E(e)=0(假设)
这意味着 E(y)=Xb(线性均值模型)。
3. 可估计性
参数函数的可估计性对应于存在一个线性无偏估计量。
定义 4.1 (无偏估计量)
估计量 t(y) 是一个无偏估计量,如果且仅如果 E(t(y))=λ′b 对所有 b 成立。
定义 4.2 (线性估计量)
估计量 t(y) 是一个线性估计量,当且仅当 t(y)=c+aTy 对某些 c 和 a 成立。
定义 4.3 (线性可估计函数)
线性可估计的函数是指具有线性无偏估计量的函数。
定义 4.4 (可识别性)
令 P={Pθ:θ∈Θ} 为一个参数空间为 Θ 的统计模型。我们说 P 是“可识别的”,如果映射 θ↦Pθ 是一对一的:
Pθ1=Pθ2⇒θ1=θ2对于所有 θ1,θ2∈Θ.
一般而言,线性估计量将采用形式 c+aTy 的形式,对于某些 c 和 a。然而,在我们的上下文中,我们可以将焦点限制在形式 aTy。
这是因为,如果一个需求无偏性:
E(c+aTy)=c+aTXb=λ′b对于所有 b.
因此,c 必须为零,因为我们可以取 b=0。因此,在这个上下文中,包含 c 或不包含 c 并没有区别。
推论 4.5 (结果 3.1)
函数 ψ=λ′b 是线性可估计的当且仅当存在如此关系 E(aTy)=λ′b 对所有 b,或者 λT=aTX。
在这门课中,我们将称线性可估计函数为可估计的简写。如果该函数不是(线性)可估计的,我们称其为不可估计。经典问题是:
是什么使 λ∈Rp 使得 ψ=λ′b 可估计?
示例 1 (例 3.1; 不可估计)
E[yi,j]=μ+αi,i=1,2;j=1,2.
假设我们希望估计 α1。那么对于 b=(μ,α1,α2)T 和 λ=(0,1,0)T,我们有 α1=λ′b。我们尝试找到一个解决方案,使得:
XTa=λ⟺⎛⎜⎝111111000011⎞⎟⎠a=⎛⎜⎝010⎞⎟⎠.
没有解决方案存在。
定理 4.6
设 G 是 X 的广义逆。在一般线性模型 y=Xb+e 中,其中 E(e)=0,以下条件是等价的:
- ψ=λ′b 是(线性)可估计的。
- λT=aTX 对某个 a 成立。
- λT=λ′GX。
用更通俗的话来说,这个结果表明特定的函数 λ′b 是可估计的,当且仅当它等于观察值的线性组合的期望值。
证明
(i) ⟺ (ii)
ψ 是可估计的 ⟺ 存在一个这样的 a 使得 E(aTy)=aTXb=λ′b(由于 E(e)=0)
⟺ (aTX−λT)b=0 对任意的 b
⟺ aTX=λT
(ii) ⇒ (iii)
λT=aTX⇒λTGX=aTXGX=aTX
(iii) ⇒ (i)
λT=λ′GX⇒λT=aTX,通过取 aT=λ′G。
注意到(ii)等价于 λ∈C(XT)。
如果在(iii)中使用摩尔-彭罗斯伪逆,则有 X+X,这是 C(XT) 上的一个对称投影。由于 X′X 的对称性,(iii)变为 λ=X+Xλ。换句话说,这要求 λ 在 C(XT) 中。
ψ=λ′b 的可估计性可以通过以下方式进行检验:
- 构造一个简单的无偏线性估计量 aTy。
- 代数方式证明 λT=λ′GX 对于广义逆 G 的 X。常用的选择是 G=X+,它可以通过 X 的奇异值分解(SVD)获得。
- 将 λ′b 表示为 E(yi) 的线性组合,其中 yi 是 y 的第 i 项。
- 显示 λ∈C(XT)。这可以通过证明 λ 是 C(XT) 的一个基的线性组合,或验证 λ 垂直于 N(X) 的每一个基向量来实现。
考虑单因素方差分析模型:
yij=μ+αi+eijj=1,…,nj,i=1,…,a,
其中 E(eij)=0。如果我们按 i 对 yij 进行排序,然后按 j 排成 y,则
X=⎛⎜
⎜
⎜
⎜
⎜⎝1n11n1⋯0n20⋯0⋮⋮⋱⋮00⋯1na⎞⎟
⎟
⎟
⎟
⎟⎠,b=⎛⎜
⎜
⎜
⎜⎝μα1⋮αa⎞⎟
⎟
⎟
⎟⎠.
注意到 N=∑ai=1ni,p=a+1 并且 rank(X)=a。因此,N(X) 的维数为 1。N(X) 的一个基向量是:
v=⎛⎜
⎜
⎜
⎜⎝1−1⋮−1⎞⎟
⎟
⎟
⎟⎠.
方法 4:任意与 v 正交的 λ 导致可估计的函数。换句话说,λ′b=λ0μ+∑ai=1λiαi 是可估计的,当且仅当 λ0−∑ai=1λi=0。以下是一些示例:
- μ+αi
- αi−αk
- ∑ai=1diαi 如果 ∑ai=1di=0。
方法 3:E[y1,j]=μ+α1 和 E[y1,j−y3,j]=α1−α3。
定义 4.7 (定义 3.4)
对于任意函数 ψ=λ′b,我们称 ^ψ=λ′^b 为 b 的最小二乘估计量。
定理 4.8 (结果 3.2)
假设 ^b 是任意 b 的最小二乘估计量。函数 ψ=λ′b 具有独特的最小二乘估计量 ^ψ=λ′b,当且仅当 ψ 是(线性)可估计的。
证明
⇐ : 假设 ψ 是可估计的。根据定理 4.6,我们可以写 λT=aTX 对某个 a。我们知道,对于任意 z,
^b=(X′X)−1X′y+[I−(X′X)−1(X′X)]z。
现在,
^ψ=λ′^b=λ′[(X′X)−1X′y+(I−(X′X)−1(X′X)]z=aTX(X′X)−1X′y+aT[X′−(X′X)−1(X′X)]z=aTPx+aT(X−Px)z=aTPx′y=aTXX+y=λ′^b,
由于定理 3.9 及其讨论。
{⇒}: 假设 ^ψ=λ′^b 对于每一个 ^b 是唯一的。我们有 λT(I−(X′X)−1(X′X))z=0 对所有 z。这意味着 λT=λ′(X′X)−1(X′X)=aTX,通过取 aT=λ′(X′X)−1XT。根据定理 4.6,这完成了证明。
定理 4.9 (结果 3.3)
最小二乘估计量 λ′^b 是(线性)可估计函数 λ′b 的线性无偏估计量。
证明
根据定理 4.8,λ′^b=λ′X+y 显然是线性估计量。根据定理 4.6,有:
E(λ′X+y)=λ′X+b=λ′b,
因此它是无偏的。
示例 3 单因素方差分析
我们将为这些可估计函数写下最小二乘估计量:
- μ+αi
- αi−αk
- ∑ai=1diαi 如果 ∑ai=1di=0。
首先,
X′X=⎛⎜
⎜
⎜
⎜
⎜
⎜
⎜⎝Nn1n2⋯nan100⋯0n20n20⋮⋮⋮⋱⋮na00⋯na⎞⎟
⎟
⎟
⎟
⎟
⎟
⎟⎠,(X′X)−1=⎛⎜
⎜
⎜
⎜
⎜
⎜
⎜⎝000⋯001/n10⋯0001/n20⋮⋮⋮⋱⋮000⋯1/na⎞⎟
⎟
⎟
⎟
⎟
⎟
⎟⎠,
对于任意 z,其中 ¯yj=∑nji=1yij/nj。μ+αi、αi−αk 和 ∑ai=1di¯yi(对于 ∑ai=1di=0)是 ¯yi,¯yi−¯yk 和 ∑ai=1di¯yi。注意,它们不依赖于 z。
4. 施加唯一解的条件
在单因素方差分析模型 yij=μ+αi+eij,j=1,…,Nij,i=1,…,a 中,我们通常会对正态方程的解施加条件,以便获得特别方便的解。这些条件的常见选择包括:
- αa=0 或 α1=0。
- ∑iαi=0。
- ∑iniαi=0。
一个普遍性的问题是:
我们是否总能施加一组条件以获得唯一解?
我们将研究以下设置。写出 X 的秩为 r。假设条件采取形式 Cb=0,其中 C∈Rp×p,s=p−r,而rank(C)=s。结合这些条件,我们考虑增广的线性方程组:
(X′XC)b=(X′y0)。
根据推论 3.10,我们可以改为考虑:
(X′C)b=(PXy0)。
唯一解的重要标准是左侧的秩必须为 p。否则,我们可以选择一个非零向量从零空间中取出,并将其添加到解中形成另一个解。换句话说,我们必须确保:
C(X′CT)=Rp.(4.1)
显然,如果 C(CT)∩N(CT)≠{0},则 dim(C(CT))<p,因为 s=p−r。因此,我们希望 C(CT)∩N(CT)={0},这意味着对于每个非零向量 a∈Rs,CTa∉C(XT)。
这暗示着,为了构造唯一解的 C,我们需要找到 s=p−r 条线性无关的行,且每一个对应一个不可估计的函数。
示例 4 (Monahan (2008) 的示例 3.7)
再次考虑单因素方差分析模型。假设 a=3 且 ni=n 对于所有 i=1,2,3(平衡情况)。那么 C(XT) 的基向量为:
⎛⎜⎝110⎞⎟⎠,⎛⎜⎝101⎞⎟⎠,⎛⎜⎝100⎞⎟⎠.
请考虑约束向量:
CT=⎛⎜
⎜
⎜⎝0111⎞⎟
⎟
⎟⎠.
显然,CT 不是可估计的,因为它与 N(X)=span{[1,−1,−1,−1]T} 垂直(如前面的例子所推导的)。同时 s=1=4−3=p−r。
回顾确保 rank([X′,CT])=p 时,我们需要 C 满足:
rank(C)=p−r(4.2)
C(CT)∩C(XT)={0}(4.3)
现在我们需要证明这些条件足以使系统 (4.1) 一致。更进一步,我们将直接显示有唯一解。
引理 4.10
系统 (4.1) 与以下系统等价:
(X′XCCT0)b=(X′y0).(4.4)
证明
根据引理 3.1,Cb=0 意味着 b∈N(C)=N(CTC),因此 CTCb=0 意味着 Cb=0。因此,(4.1) 与 (4.4) 等价。
引理 4.11
假设 C 满足 (4.3)。则系统 (4.4) 与以下系统等价:
(X′X+CTC)b=X′y(4.5)
证明
注意到 (4.4) 意味着 (4.5)。剩下的就是证明 (4.5) 意味着 (4.4)。注意到 (4.5) 意味着
CTb=X′y−Xb
左边属于 C(CT),而右边属于 C(XT)。根据 (4.3),CTC=0。因此,(4.5) 意味着 (4.4)。
推论 4.12
假设 C 满足 (4.2) 和 (4.3)。那么:
- (X′X+C′C) 是非奇异的。
- (X′X+C′C)−1X′y 是 X′Xb=X′y 和 Cb=0 的唯一解。
- (X′X+C′C)−1 是 X′X 的广义逆。
- C(X′X+C′C)−1XT=0。
- C(X′X+C′C)−1CT=I.(作业)
证明
(i) 由于 (4.2) 和 (4.3),rank([X′,CT])=p。因此,根据引理 3.1,
Rp=C([X′,CT])=C((X′CT)(XC))=C(X′X+C′C),
这意味着 X′X+C′C 为 p×p 矩阵,是非奇异的。
(ii) 这由 (i) 以及引理 4.10 和 4.11 推出。
(iii) (由 (ii) 推导)
X′y=X′X(X′X+C′C)−1X′y。
因此,X′X(X′X+C′C)−1=X′,所以 X′X(X′X+C′C)−1X=X′,完成证明。
(iv) (由 (ii) 推导)
C(X′X+C′C)−1X′y=0 对所有 y。
这意味着 C(X′X+C′C)−1XT=0。
(v) 【注意:作业 3.22:提示:设置**
Z=(XC)
并找出幂等矩阵 PZ,然后使用 (iii) 和 (iv)。设 Z=(XC)。
根据引理 3.7 和定理 2.15,C(Z) 的投影矩阵为:
Z(Z′Z)−1Z′=Z(X′X+C′C)−1Z′=(X(X′X+C′C)−1X′0s,N0N,sC(X′X+C′C)−1CT)=(PX0s,N0N,sC(X′X+C′C)−1CT),
根据 (iii) 和 (iv)。因为 rank(C)=s,所以存在 a1,…,as∈Rp 使得
Zaj=(Xajej)∈C(Z)。
其中 ej 是 Rs 的第 j 个标准向量。也就是说,ej 的第 j 项为 1,其余为 0。由于投影的性质,
Z(Z′Z)−1Z′(Zaj)=Zaj。
对于 j=1,…,s,这意味着
C(X′X+C′C)−1Cej=ej。
因此,对于 j=1,…,s,这意味着 C(X′X+C′C)−1CT=Is。
示例 5 (Monahan (2008) 的示例 3.7 续)
我们假设示例 3 的设置。现在,
X′X+C′C=⎛⎜
⎜
⎜
⎜
⎜
⎜⎝3nnnnn0000n0000n0000n⎞⎟
⎟
⎟
⎟
⎟
⎟⎠+⎛⎜
⎜
⎜⎝0000011101110111⎞⎟
⎟
⎟⎠=⎛⎜
⎜
⎜⎝3nnnnnn+111n1n+11n11n+1⎞⎟
⎟
⎟⎠.
其逆为:
19n⎛⎜
⎜
⎜⎝3+n−n−n−n−nn+6n−3n−3−nn−3n+6n−3−nn−3n−3n+6⎞⎟
⎟
⎟⎠.
因此,
C(X′X+C′C)−1=(−13131313).
现在可以验证推论 4.12 的 (iii) 和 (iv)。
5. 约束参数空间
观察 y 的期望为 Xb,其中 b∈T(而不是 Rp):
T={b∈Rp:PTb=δ},
其中 P∈Rp×q 具有满秩,δ∈C(PT)(这保证了系统的一致性 PTb=δ)。我们将假设在本节中 P 和 δ 的这些条件。与前面的部分不同,我们现在考虑可估计和不可估计的约束。我们的兴趣在于研究约束如何影响可估计性,以及如何获得约束最小二乘估计量。
定义 4.13
函数 λ′b 在受限模型 T 中是可估计的,当且仅当存在 c 和 a 使得 E(c+a′y)=λ′b 对所有满足 Ptb=δ 的 b 成立。
注意,如果 λ′b 在不受限模型中是可估计的,那么它对所有 b∈Rp 具有线性无偏估计量,并且在受限模型中是可估计的。
定理 4.14
(c+a′y) 是 λ′b 的无偏估计量,当且仅当存在 s 使得 λ=XTa+Pd 和 c=d′δ。
证明
(⇐) 假设存在 s 使得 λ=XTa+Pd,且 c=d′δ。因此,
E(c+a′y)=d′δ+a′Xb=d′(δ−PTb)+λ′b 对于 b∈T。
(⇒) 假设 (c+a′y) 是 λ′b 的无偏估计量,对于所有 b∈T。首先,Pb=δ 是一致的,因此解的形式为:
(PT)−1δ+(I−(PT)−1PT)z$$,对于所有$z$。因此,
c + a'X[(PT)\delta + (I - (PT)P^T)z] = a'Xb = \lambda'(PT)\delta + (I - (PT)P^T)z
对于所有$z$。因此,
c + a'X[(PT)\delta] = \lambda'(PT)\delta + (I - (PT)P^T)z=0
[Math Processing Error]
L(b, \theta) = ||y - Xb||^2 + 2\theta'(P^Tb - \delta)。
(这里的2是为了记号上的方便;人们总是可以用$2θ$替代$θ$。)为了找到拉格朗日函数的驻点,我们使用导数:
\frac{\partial L(b, \theta)}{\partial b} = -2X^T(y - Xb) + 2P\theta
\frac{\partial L(b, \theta)}{\partial \theta} = 2(P^Tb - \delta)。
设置这些为零,我们获得限制的正常方程:
(X′XP PT0) (b θ) = (X′y δ)。
## 定理 4.15
受限的正常方程是一致的。
**证明**
首先,由于方程 $P^Tb = \delta$ 是一致的,$\delta \in C(P^T)$。因此,
(X′y δ) \in C\left( (XT0 0PT) \right)。
现在,我们考虑一个向量$v=[v1,v2]T∈Rp+q$,它在受限正常方程矩阵的零空间中。也就是说,
(X′XP PT0) (v1 v2) = (0 0)。
然后我们得到:
X'Xv_1 + Pv_2 = 0
P^Tv_1 = 0。
第一个方程意味着:
v_1'X'Xv_1 + v_1'Pv_2 = 0。
根据第二个方程,我们得到$Xv1=0$,这意味着$v1∈N(X)$和$v2∈N(P)$。因此,
N\left( (X′XP PT0) \right) \subseteq N\left( (XT0 0P) \right)。
---
## 定理 4.16
如果 $\hat{b}_H$ 是受限正常方程解的第一个分量,则 $\hat{b}_H$ 最小化 $Q(b)$ 在受限参数空间 $T$ 上。
**证明**
设 $\tilde{b}$ 是满足 $P^T\tilde{b} = \delta$ 的任意向量。现在,写作:
Q(\tilde{b}) = ||y - X\tilde{b}||^2 = ||y - X\hat{b}_H + X(\tilde{b} - \hat{b}_H)||^2
= Q(\hat{b}_H) + ||X(\tilde{b} - \hat{b}_H)||^2,
由于交叉项为$2(~b−^bH)′X(y−X^bH)=2(~b−^bH)′P^θH$,其中$^θH$是受限正常方程解的第二个分量。但$PT^bH=PT~b=δ$,因此交叉项为零。现在,
Q(\tilde{b}) \geq Q(\hat{b}_H) \text{ 对于所有 } \tilde{b} \text{ 满足 } P^T\tilde{b} = \delta,\text{ 当且仅当 } X\hat{b}_H = X\tilde{b}。
[Math Processing Error]
X'X\hat{b}_H + P\hat{\theta} = X'y。
显然,$PT^b=δ$。因此,$~b$也是受限正常方程的一个解。∗∗(⇐)∗∗:设$(~b,~θ)$为受限正常方程的解。从方程中,$PT~b=δ$。根据定理4.16,$~b$和$^bH$是优化$Q$的最小值,因此$Q(~b)=Q(^bH)$。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)