学习,很苦。坚持
|

某宇_My

园龄:3年2个月粉丝:0关注:5

统计模型与推断II-notes4

SKX804 统计模型与推断 II

笔记 4: 可估计性与最小二乘估计量

书籍参考: Monahan (2008)
讲师: Sai Li 和 Kejun He
最后更新: 2025年2月


1. 动机

回顾 b 的最小二乘估计量为:

b^=(XX)1Xy+[I(XX)1(XX)]z,对于任意 zRp

rank(X)<p 时,可能存在无限多个解。(这是因为 I(XX)1(XX) 是对 N(X) 的投影。)因此,如果我们对某个特定的 b0 感兴趣,无论我们有多少样本,恢复它都是徒劳的。

rank(X)<p 时,我们感兴趣的是哪些 b 的函数是有意义的估计。特别地,在这笔记中,我们将研究哪些线性函数是可估计的。

2. 模型

在前面的笔记中,我们是从一个近似的观点出发的。现在,我们充分利用一般线性模型的形式:

y=Xb+e

其中:

  • y 是响应向量
  • X 是已知的设计矩阵
  • b 是未知但固定的系数向量
  • e 是误差向量,且有 E(e)=0(假设)

这意味着 E(y)=Xb(线性均值模型)。

3. 可估计性

参数函数的可估计性对应于存在一个线性无偏估计量。

定义 4.1 (无偏估计量)
估计量 t(y) 是一个无偏估计量,如果且仅如果 E(t(y))=λb 对所有 b 成立。

定义 4.2 (线性估计量)
估计量 t(y) 是一个线性估计量,当且仅当 t(y)=c+aTy 对某些 ca 成立。

定义 4.3 (线性可估计函数)
线性可估计的函数是指具有线性无偏估计量的函数。

定义 4.4 (可识别性)
P={Pθ:θΘ} 为一个参数空间为 Θ 的统计模型。我们说 P 是“可识别的”,如果映射 θPθ 是一对一的:

Pθ1=Pθ2θ1=θ2对于所有 θ1,θ2Θ.

一般而言,线性估计量将采用形式 c+aTy 的形式,对于某些 ca。然而,在我们的上下文中,我们可以将焦点限制在形式 aTy

这是因为,如果一个需求无偏性:

E(c+aTy)=c+aTXb=λb对于所有 b.

因此,c 必须为零,因为我们可以取 b=0。因此,在这个上下文中,包含 c 或不包含 c 并没有区别。

推论 4.5 (结果 3.1)
函数 ψ=λb 是线性可估计的当且仅当存在如此关系 E(aTy)=λb 对所有 b,或者 λT=aTX

在这门课中,我们将称线性可估计函数为可估计的简写。如果该函数不是(线性)可估计的,我们称其为不可估计。经典问题是:

是什么使 λRp 使得 ψ=λb 可估计?

示例 1 (例 3.1; 不可估计)

E[yi,j]=μ+αi,i=1,2;j=1,2.

假设我们希望估计 α1。那么对于 b=(μ,α1,α2)Tλ=(0,1,0)T,我们有 α1=λb。我们尝试找到一个解决方案,使得:

XTa=λ(111111000011)a=(010).

没有解决方案存在。

定理 4.6
GX 的广义逆。在一般线性模型 y=Xb+e 中,其中 E(e)=0,以下条件是等价的:

  1. ψ=λb 是(线性)可估计的。
  2. λT=aTX 对某个 a 成立。
  3. λT=λGX

用更通俗的话来说,这个结果表明特定的函数 λb 是可估计的,当且仅当它等于观察值的线性组合的期望值。

证明

(i) (ii)
ψ 是可估计的 存在一个这样的 a 使得 E(aTy)=aTXb=λb(由于 E(e)=0
(aTXλT)b=0 对任意的 b
aTX=λT

(ii) (iii)
λT=aTXλTGX=aTXGX=aTX

(iii) (i)
λT=λGXλT=aTX,通过取 aT=λG

注意到(ii)等价于 λC(XT)

如果在(iii)中使用摩尔-彭罗斯伪逆,则有 X+X,这是 C(XT) 上的一个对称投影。由于 XX 的对称性,(iii)变为 λ=X+Xλ。换句话说,这要求 λC(XT) 中。

ψ=λb 的可估计性可以通过以下方式进行检验:

  1. 构造一个简单的无偏线性估计量 aTy
  2. 代数方式证明 λT=λGX 对于广义逆 GX。常用的选择是 G=X+,它可以通过 X 的奇异值分解(SVD)获得。
  3. λb 表示为 E(yi) 的线性组合,其中 yiy 的第 i 项。
  4. 显示 λC(XT)。这可以通过证明 λC(XT) 的一个基的线性组合,或验证 λ 垂直于 N(X) 的每一个基向量来实现。

考虑单因素方差分析模型:

yij=μ+αi+eijj=1,,nj,i=1,,a,

其中 E(eij)=0。如果我们按 iyij 进行排序,然后按 j 排成 y,则

X=(1n11n10n200001na),b=(μα1αa).

注意到 N=i=1ani,p=a+1 并且 rank(X)=a。因此,N(X) 的维数为 1。N(X) 的一个基向量是:

v=(111).

方法 4:任意与 v 正交的 λ 导致可估计的函数。换句话说,λb=λ0μ+i=1aλiαi 是可估计的,当且仅当 λ0i=1aλi=0。以下是一些示例:

  • μ+αi
  • αiαk
  • i=1adiαi 如果 i=1adi=0

方法 3:E[y1,j]=μ+α1E[y1,jy3,j]=α1α3

定义 4.7 (定义 3.4)
对于任意函数 ψ=λb,我们称 ψ^=λb^b 的最小二乘估计量。

定理 4.8 (结果 3.2)
假设 b^ 是任意 b 的最小二乘估计量。函数 ψ=λb 具有独特的最小二乘估计量 ψ^=λb,当且仅当 ψ 是(线性)可估计的。

证明

: 假设 ψ 是可估计的。根据定理 4.6,我们可以写 λT=aTX 对某个 a。我们知道,对于任意 z

b^=(XX)1Xy+[I(XX)1(XX)]z

现在,

ψ^=λb^=λ[(XX)1Xy+(I(XX)1(XX)]z=aTX(XX)1Xy+aT[X(XX)1(XX)]z=aTPx+aT(XPx)z=aTPxy=aTXX+y=λb^,

由于定理 3.9 及其讨论。

{}: 假设 ψ^=λb^ 对于每一个 b^ 是唯一的。我们有 λT(I(XX)1(XX))z=0 对所有 z。这意味着 λT=λ(XX)1(XX)=aTX,通过取 aT=λ(XX)1XT。根据定理 4.6,这完成了证明。

定理 4.9 (结果 3.3)
最小二乘估计量 λb^ 是(线性)可估计函数 λb 的线性无偏估计量。

证明

根据定理 4.8,λb^=λX+y 显然是线性估计量。根据定理 4.6,有:

E(λX+y)=λX+b=λb,

因此它是无偏的。


示例 3 单因素方差分析

我们将为这些可估计函数写下最小二乘估计量:

  • μ+αi
  • αiαk
  • i=1adiαi 如果 i=1adi=0

首先,

XX=(Nn1n2nan1000n20n20na00na),(XX)1=(000001/n100001/n200001/na),

对于任意 z,其中 yj¯=i=1njyij/njμ+αiαiαki=1adiyi¯(对于 i=1adi=0)是 yi¯,yi¯yk¯i=1adiyi¯。注意,它们不依赖于 z

4. 施加唯一解的条件

在单因素方差分析模型 yij=μ+αi+eij,j=1,,Nij,i=1,,a 中,我们通常会对正态方程的解施加条件,以便获得特别方便的解。这些条件的常见选择包括:

  1. αa=0α1=0
  2. iαi=0
  3. iniαi=0

一个普遍性的问题是:

我们是否总能施加一组条件以获得唯一解?

我们将研究以下设置。写出 X 的秩为 r。假设条件采取形式 Cb=0,其中 CRp×ps=pr,而rank(C)=s。结合这些条件,我们考虑增广的线性方程组:

(XXC)b=(Xy0)

根据推论 3.10,我们可以改为考虑:

(XC)b=(PXy0)

唯一解的重要标准是左侧的秩必须为 p。否则,我们可以选择一个非零向量从零空间中取出,并将其添加到解中形成另一个解。换句话说,我们必须确保:

(4.1)C(XCT)=Rp.

显然,如果 C(CT)N(CT){0},则 dim(C(CT))<p,因为 s=pr。因此,我们希望 C(CT)N(CT)={0},这意味着对于每个非零向量 aRsCTaC(XT)

这暗示着,为了构造唯一解的 C,我们需要找到 s=pr 条线性无关的行,且每一个对应一个不可估计的函数。

示例 4 (Monahan (2008) 的示例 3.7)

再次考虑单因素方差分析模型。假设 a=3ni=n 对于所有 i=1,2,3(平衡情况)。那么 C(XT) 的基向量为:

(110),(101),(100).

请考虑约束向量:

CT=(0111).

显然,CT 不是可估计的,因为它与 N(X)=span{[1,1,1,1]T} 垂直(如前面的例子所推导的)。同时 s=1=43=pr

回顾确保 rank([X,CT])=p 时,我们需要 C 满足:

(4.2)rank(C)=pr

(4.3)C(CT)C(XT)={0}

现在我们需要证明这些条件足以使系统 (4.1) 一致。更进一步,我们将直接显示有唯一解。

引理 4.10
系统 (4.1) 与以下系统等价:

(4.4)(XXCCT0)b=(Xy0).

证明
根据引理 3.1,Cb=0 意味着 bN(C)=N(CTC),因此 CTCb=0 意味着 Cb=0。因此,(4.1) 与 (4.4) 等价。

引理 4.11
假设 C 满足 (4.3)。则系统 (4.4) 与以下系统等价:

(4.5)(XX+CTC)b=Xy

证明
注意到 (4.4) 意味着 (4.5)。剩下的就是证明 (4.5) 意味着 (4.4)。注意到 (4.5) 意味着

CTb=XyXb

左边属于 C(CT),而右边属于 C(XT)。根据 (4.3),CTC=0。因此,(4.5) 意味着 (4.4)。

推论 4.12

假设 C 满足 (4.2) 和 (4.3)。那么:

  1. (XX+CC) 是非奇异的。
  2. (XX+CC)1XyXXb=XyCb=0 的唯一解。
  3. (XX+CC)1XX 的广义逆。
  4. C(XX+CC)1XT=0
  5. C(XX+CC)1CT=I.(作业)

证明

(i) 由于 (4.2) 和 (4.3),rank([X,CT])=p。因此,根据引理 3.1,

Rp=C([X,CT])=C((XCT)(XC))=C(XX+CC)

这意味着 XX+CCp×p 矩阵,是非奇异的。

(ii) 这由 (i) 以及引理 4.10 和 4.11 推出。

(iii) (由 (ii) 推导)

Xy=XX(XX+CC)1Xy

因此,XX(XX+CC)1=X,所以 XX(XX+CC)1X=X,完成证明。

(iv) (由 (ii) 推导)

C(XX+CC)1Xy=0 对所有 y

这意味着 C(XX+CC)1XT=0

(v) 【注意:作业 3.22:提示:设置**

Z=(XC)

并找出幂等矩阵 PZ,然后使用 (iii) 和 (iv)。设 Z=(XC)

根据引理 3.7 和定理 2.15,C(Z) 的投影矩阵为:

Z(ZZ)1Z=Z(XX+CC)1Z=(X(XX+CC)1X0s,N0N,sC(XX+CC)1CT)=(PX0s,N0N,sC(XX+CC)1CT)

根据 (iii) 和 (iv)。因为 rank(C)=s,所以存在 a1,,asRp 使得

Zaj=(Xajej)C(Z)

其中 ejRs 的第 j 个标准向量。也就是说,ej 的第 j 项为 1,其余为 0。由于投影的性质,

Z(ZZ)1Z(Zaj)=Zaj

对于 j=1,,s,这意味着

C(XX+CC)1Cej=ej

因此,对于 j=1,,s,这意味着 C(XX+CC)1CT=Is

示例 5 (Monahan (2008) 的示例 3.7 续)

我们假设示例 3 的设置。现在,

XX+CC=(3nnnnn0000n0000n0000n)+(0000011101110111)=(3nnnnnn+111n1n+11n11n+1).

其逆为:

19n(3+nnnnnn+6n3n3nn3n+6n3nn3n3n+6).

因此,

C(XX+CC)1=(13131313).

现在可以验证推论 4.12 的 (iii) 和 (iv)。

5. 约束参数空间

观察 y 的期望为 Xb,其中 bT(而不是 Rp):

T={bRp:PTb=δ}

其中 PRp×q 具有满秩,δC(PT)(这保证了系统的一致性 PTb=δ)。我们将假设在本节中 Pδ 的这些条件。与前面的部分不同,我们现在考虑可估计和不可估计的约束。我们的兴趣在于研究约束如何影响可估计性,以及如何获得约束最小二乘估计量。

定义 4.13

函数 λb 在受限模型 T 中是可估计的,当且仅当存在 ca 使得 E(c+ay)=λb 对所有满足 Ptb=δb 成立。

注意,如果 λb 在不受限模型中是可估计的,那么它对所有 bRp 具有线性无偏估计量,并且在受限模型中是可估计的。

定理 4.14

(c+ay)λb 的无偏估计量,当且仅当存在 s 使得 λ=XTa+Pdc=dδ

证明
(⇐) 假设存在 s 使得 λ=XTa+Pd,且 c=dδ。因此,

E(c+ay)=dδ+aXb=d(δPTb)+λb 对于 bT

(⇒) 假设 (c+ay)λb 的无偏估计量,对于所有 bT。首先,Pb=δ 是一致的,因此解的形式为:

(PT)1δ+(I(PT)1PT)z$$$z$

c + a'X[(PT)\delta + (I - (PT)P^T)z] = a'Xb = \lambda'(PT)\delta + (I - (PT)P^T)z

$z$

c + a'X[(PT)\delta] = \lambda'(PT)\delta + (I - (PT)P^T)z=0

对于所有 $z$。因此 $c + (a'X - \lambda')(P^T)^{-1}\delta = 0$,且 $(a'X - \lambda')$ 是 $0$,故 $(a'X - \lambda')$ 在 $N(W)$ 中是投影。因此,有 $C(W) = N(P^T)$。第二个 $(a'X - \lambda')W = 0$ 意味着 $X^Ta - \lambda = C(P)$。因此,存在 $s$ 使得 $\lambda = X^Ta + Pd$。接下来,我们考虑 $c + a'Xb = \lambda'b$ 和 $c + a'X(X^Ta + Pd) = d'\delta$。这意味着 $P^Tb = \delta$。 ## 最优估计量的获得为获得估计量,我们再次尝试最小化 $Q(b) = ||y - Xb||^2$。由于有约束,我们应该只在 $T$ 上最小化。我们可以采用拉格朗日乘数法。在这种情况下,拉格朗日函数为:

L(b, \theta) = ||y - Xb||^2 + 2\theta'(P^Tb - \delta)。

2便$2θ$$θ$使

\frac{\partial L(b, \theta)}{\partial b} = -2X^T(y - Xb) + 2P\theta

\frac{\partial L(b, \theta)}{\partial \theta} = 2(P^Tb - \delta)。

(XXP PT0) (b θ) = (Xy δ)

## 定理 4.15 受限的正常方程是一致的。**证明**  首先,由于方程 $P^Tb = \delta$ 是一致的,$\delta \in C(P^T)$。因此,

(Xy δ) \in C\left( (XT0 0PT) \right)。

$v=[v1,v2]TRp+q$

(XXP PT0) (v1 v2) = (0 0)

X'Xv_1 + Pv_2 = 0

P^Tv_1 = 0。

v_1'X'Xv_1 + v_1'Pv_2 = 0。

$Xv1=0$$v1N(X)$$v2N(P)$

N\left( (XXP PT0) \right) \subseteq N\left( (XT0 0P) \right)。

---## 定理 4.16 如果 $\hat{b}_H$ 是受限正常方程解的第一个分量,则 $\hat{b}_H$ 最小化 $Q(b)$ 在受限参数空间 $T$ 上。**证明**  设 $\tilde{b}$ 是满足 $P^T\tilde{b} = \delta$ 的任意向量。现在,写作:

Q(\tilde{b}) = ||y - X\tilde{b}||^2 = ||y - X\hat{b}_H + X(\tilde{b} - \hat{b}_H)||^2
= Q(\hat{b}_H) + ||X(\tilde{b} - \hat{b}_H)||^2,

$2(b~b^H)X(yXb^H)=2(b~b^H)Pθ^H$$θ^H$$PTb^H=PTb~=δ$

Q(\tilde{b}) \geq Q(\hat{b}_H) \text{ 对于所有 } \tilde{b} \text{ 满足 } P^T\tilde{b} = \delta,\text{ 当且仅当 } X\hat{b}_H = X\tilde{b}。

---## 定理 4.17 设 $\hat{b}_H$ 为受限正常方程解的第一个分量。$\tilde{b}$ 满足 $P^T\tilde{b} = \delta$ 和 $Q(b) = Q(\hat{b}_H)$ 当且仅当 $\tilde{b}$ 也是受限正常方程的一个解。**证明**  **(⇒)**:根据上一个定理,$Q(\hat{b}_H) = Q(\tilde{b})$ 当且仅当 $X\hat{b}_H = X\tilde{b}$。因此,我们有 $X\hat{b}_H = X\tilde{b}$,设定 $\hat{\theta}$ 为受限正常方程解的第二个分量。再设 $\hat{\theta}$ 为另一受限正常方程解的第二个分量。因此,

X'X\hat{b}_H + P\hat{\theta} = X'y。

$PTb^=δ$$b~$$(b~,θ~)$$PTb~=δ$4.16$b~$$b^H$$Q$$Q(b~)=Q(b^H)$

本文作者:某宇_My

本文链接:https://www.cnblogs.com/Desire-My/p/18747415

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   某宇_My  阅读(3)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.

作曲 : Reol

作词 : Reol

fade away...do over again...

fade away...do over again...

歌い始めの一文字目 いつも迷ってる

歌い始めの一文字目 いつも迷ってる

どうせとりとめのないことだけど

伝わらなきゃもっと意味がない

どうしたってこんなに複雑なのに

どうしたってこんなに複雑なのに

噛み砕いてやらなきゃ伝わらない

ほら結局歌詞なんかどうだっていい

僕の音楽なんかこの世になくたっていいんだよ

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

僕は気にしない 君は気付かない

何処にももういないいない

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

忘れていく 忘れられていく

We don't know,We don't know.

目の前 広がる現実世界がまた歪んだ

目の前 広がる現実世界がまた歪んだ

何度リセットしても

僕は僕以外の誰かには生まれ変われない

「そんなの知ってるよ」

気になるあの子の噂話も

シニカル標的は次の速報

麻痺しちゃってるこっからエスケープ

麻痺しちゃってるこっからエスケープ

遠く遠くまで行けるよ

安定なんてない 不安定な世界

安定なんてない 不安定な世界

安定なんてない きっと明日には忘れるよ

fade away...do over again...

fade away...do over again...

そうだ世界はどこかがいつも嘘くさい

そうだ世界はどこかがいつも嘘くさい

綺麗事だけじゃ大事な人たちすら守れない

くだらない 僕らみんなどこか狂ってるみたい

本当のことなんか全部神様も知らない

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

僕は気にしない 君は気付かない

何処にももういないいない

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

忘れていく 忘れられていく

We don't know,We don't know.