统计模型与推断II-notes3

1 最小二乘问题

回顾设置:

y=Xb+e,

其中 yRN,XRN×p,bRpeRN.从逼近的角度来看, 我们希望选择 b 以最小化平方距离:

Q(b)=(yXb)(yXb)=yXb2

通过微分, 我们得到正常方程:

XXb=Xy.

示例 1:简单线性回归

回顾模型:

yi=β0+β1xi+ei,i=1,,N,

这可以写成 y=Xb+e, 其中

y=[y1y2yN],X=[1x11x21xN],b=[β0β1]e=[e1e2eN].

由于:

XXb=i=1Nxiβ0+i=1Nxi2β1Xy=[i=1Nyii=1Nxiyi],

正常方程是:

Nβ0+(i=1Nxi)β1=i=1Nyi

(i=1Nxi)β0+(i=1Nxi2)β1=i=1Nxiyi.

[课堂笔记:第一个方程导致 β0^=y¯β1^x¯.] 设 x¯=(1/N)i=1Nxi, 而 y¯=(1/N)i=1Nyi.

如果 i=1N(xix¯)2>0, 则对正常方程的解 (β0^,β1^) 是:

β1^=i=1N(xix¯)yii=1N(xix¯)2

β0^=y¯β1^x¯.

i=1N(xix¯)2=0 时, xi 是全部相同的.很容易通过验证其行列式为零来确认 XX 是奇异的.或者, 你可以通过注意到 X 是秩为 1 的(见下面的引理 3.1)来得出这个结论.实际上, 存在无限多的解:

β1^=c

β0^=y¯β1^x¯

对于所有 cR.

现在, 我们将回答两个基本问题:

  1. 正常方程是否总是一致的?(存在解的条件?回顾一下我们关于在线性方程组求解中的结果, 笔记 2需要一致的系统.)
  2. 如果 b^ 是正常方程的解, b^ 是否总是最小化 Q(b)?(回顾一下可能存在多个正常方程的解.)

我们将从线性方程组 XXb=Xy 的角度研究这些问题, 以及广义逆矩阵和投影矩阵的应用.

2 一致性

在笔记 2 中, 一致性是使用广义逆来求解正常方程的基本条件.如果 XX 是非奇异的, 则 (XX)1Xy 是一个解.在这种情况下, 正常方程是相容的, 并且解确实是唯一的.但我们如何看待正常方程的一般情况呢?这个问题简化为:XyC(X)?(为什么?)以下引理告诉我们更多关于 C(X) 的信息.

引理 3.1.

对于任意矩阵 X, 我们有:
(i) N(XX)=N(X),
(ii) C(XX)=C(X) 和 (iii) rank(X)=rank(XX).

证明
(i) 如果 vN(X), 则 Xv=0, 因此 XXv=0, 这意味着 vN(XX).如果 vN(XX), 则 XXv=0||Xv||2=||Xv||2=0, 这意味着 vN(X).综上所述, N(XX)=N(X).

(ii) 这由 (i) 和定理 2.17 直接推导.

(iii) 这由 (i) 直接推导.

定理 3.2.

正常方程是一致的.

证明
正常方程是一致的, 当且仅当 XyC(X).根据引理 3.1, C(X)=C(X).显然, XyC(X).

根据定理 2.11, 还可以推导出具有最小欧几里得范数的解.这个解直接与唯一定义的莫尔-彭若斯伪逆 X+ 相关.

结论 3.3(作业). X+yX+y 是具有最小欧几里得范数的解.

证明 根据定理 2.11, (XX)+Xy 是具有最小欧几里得范数的解.现在, 我们将检查莫尔-彭若斯伪逆的四个属性, 以验证 (XX)+XX 的莫尔-彭若斯伪逆. (回顾一下, 莫尔-彭若斯伪逆是唯一的.)
(i) 这由引理 3.7 推导.
(ii) (XX)+XX(XX)+X=(XX)+X 根据引理 3.7.
(iii) (XX)+XX 是对称的, 这是由于莫尔-彭若斯伪逆 (XX)+ 的性质.
(iv) X(XX)+ 是对称的, 因为 XX 是对称的, 其广义逆也是对称的.

3 每个正常方程的解都最小化 QQ

根据定理 2.22, IX(XX)1X 是一个正交投影矩阵, 投影到 N(X) 上.这为第二个问题提供了一个直观的答案, 关于每个正常方程的解是否最小化误差 Q.对于 b, 我们有 b=X+y+(IX(XX)1)z, 由于投影的性质, 选择 z 不会影响 Xb 的值.回想一下 Xb 被视为 y 的一个近似值.这意味着, 每个解都提供相同的近似值.

定理 3.4.

b^ 是正常方程 XXb=Xy 的解当且仅当 b^ 最小化 Q().

证明 :这通过上述论证得以证明.假设 b^ 最小化 Q().令 b~ 是正常方程中的解.从上述论证中, 我们有

Q(b)=Q(b^)+X(bb^)2.

代入 b~, ||X(b^b~)||2 必须为零, 因为 b^ 是一个最小值.这意味着 Xb=Xb^, 因此 XXb=Xy.

这个定理还表明, 从最佳近似的角度来看, 仅仅限制我们的注意力在正常方程的解上并不会有任何损失.

定理 3.5.

Xb 对于每个解 b^ 到正常方程都有相同的值.

回顾一下 Q(b)=yXb2.上述定理表明, Q 对于每个解都有相同的值.要声称每个解都最小化 Q, 我们只需展示 Q 被一个解所最小化.因此, 我们专注于任意解 b^.不难证明:

Q(b)=Q(b^)+X(b^b)2.

[课堂笔记:课前展示这一点.] 注意 X(b^b)20, 当我们设 b=b^ 时它达到0.因此 b^ 是一个最小化 Q 的解.

引理 3.6.

对于任何矩阵 X 和任何矩阵 PQ 适当维度, XXP=XQ 意味着 XP=XQ.

证明

(XPXQ)(XPXQ)=(PQ)(XPXQ)=0.

根据引理 2.24, 我们有 XP=XQ.

引理 3.7.

(XX)1X 的广义逆.

证明
P=(XX)1X , 我们在引理 3.6 中检查, 并且验证 XP=X(XX)1X=XX=XT. 因此, X(XX)1X=XP=XQ , 这意味着 (XX)1 是一个广义逆.

根据定理 2.7, 解的一个一般形式为

(XX)1Xy+[I(XX)1(XX)]z.

对于任意 zRp, 这个引理提供了 X 的广义逆.

定理 3.8.

PX=X(XX)1X 是投影到 C(X) 的投影矩阵, 即 PX 满足:

(a) 幂等

(b) 投影到 C(X)

(c) 对广义逆的选择不变

(d) 对称且

(e) 唯一.

而且, IPX 是投影到 N(X) 的唯一对称投影.

示例2

对于 X=1N, 即 N1 的列, 找到 P1y(INP1)y.

4 最小二乘问题的几何

正常方程暗示了一个有趣的几何结果:

XXb=Xy

当且仅当

X(yXb)=0

yXb每一列的 X

yXb每个向量在 {x:bRp}.

这里 y^=XbC(X) 被称为拟合值向量, 而 e^=yXb^N(X) 被称为残差向量.根据正常方程, Xe^=0.根据定理 2.16, C(X)N(X) 是正交补.因此, y=y^+e^ 给出了 y 的正交分解.

注意到 XX 是投影矩阵到 C(X), 根据定理 2.21.如果 XX=X(XX)1X 是对称的, IXX 是正交补 C(X) 的对称投影矩阵, 根据结论 2.26.但是, 我们知道 (XX)1 可能不是对称的(见下面的例子).我们能找到一个非对称的 XX 吗?

定理 3.9.

XX=X(XX)1X 是对称的, 并且对广义逆 (XX)1 的选择不变.

证明 我们首先证明它对广义逆的选择是不变的 (XX)1.设 G1G2 是两个广义逆.因此:

(XX)G1(XX)=(XX)G2(XX)=XX.

P=G1XXQ=G2XX 在引理 3.6 中, 则 XG1XX=XG2XX, 这意味着 XXG2X=XXG1X. 现在, 取 P=G1XQ=G2X 在引理 3.6 中, 我们有 XG1X=XG2X.

根据结论 2.10, G1 也是 XX 的广义逆.由于广义逆的选择的不变性, XG1X=X(XG1X), 这证明了对称性.

[课堂笔记:回顾对称投影矩阵与其投影空间的唯一关联.]

由于只有一个对称投影矩阵到 C(X), 我们可以写出这样的投影为 PX.从上面, 我得出 PX=XX.


示例 3

X=[111001102],XX=[212121212].

首先, 我们来看莫尔-彭若斯伪逆:

X+=[1/61/121/121/35/121/121/61/121/1201/41/4],XX+=[2/31/31/31/32/31/31/31/32/3].

这里 G1XX 的广义逆:

G1=[2/31/3001/32/30000000000],XG1X=[2/31/31/31/32/31/31/31/32/3].

这里 G2XX 的非对称广义逆(由于展示时的小截断误差):

G2=[0.116666670.164399350.1954653680.081066020.129044010.307744100.0054737850.108925570.124754690.029881550.4345177970.113214890.045710680.108925570.0778595480.14107443].

可以验证:

XG1X=XG2X=XX+.

结论 3.10.

正常方程的解也是一致方程 Xb=PXy 的解, 反之亦然.

证明
:假设 b^ 是正常方程的解.也就是说, Xb^=XXy=PXy.

:假设 Xb=PXy.这意味着 Xb=XPXy=Xy, 因为 PX 是对称的.


示例 4 (Monahan (2008) 的例子 2.5)

y=[12],X=[101100].

因此, 正常方程 XXb=Xy

[2111][b1b2]=[32].


定理 3.11.

如果 C(W)C(X), 那么 PXPW 是对称投影到 C((IPW)X).

证明 首先, 我们检查 PXPW 是幂等的:

(PXPW)2=PXPXPWPWPX+PW.

由于 C(W)C(X), PXPW=PWPWPX=(PXPW)=PW, 由于对称性.此外, PXPW 显然是对称的.

其次, 由于 C(X)N(X) 是正交补, 对于任意 u, 我们可以将其分解为 u=Xs+t, 其中 sRtN(X).

(PXPW)u=XsPWXsC((IPW)X).

第三, 如果 yC((IPW)X), 则 y=(IPW)Xc 对某个 c 成立.

(PXPW)y=(PXPW)(IPW)Xc=(IPW)Xc=y.

示例 5 (Monahan (2008) 的例子 2.6)

回顾简单线性回归模型:

yi=β0+β1xi+ei,xi=i,i=1,,4=N.

因此,

X=[11121314],XX=[4101030].

显然, XX 是非奇异的, 并且:

(XX)1=(XX)1=[3/21/21/21/5].

因此,

PX=X(XX)1X=110[7412432112342147].

让我们关注 X 的第一列, 1=[1,1,1,1]T, 相应的投影矩阵为

P1=1100[25252525252525252525252525252525].

注意到 P1y=[y¯,y¯,y¯,y¯]T.因此:

PXP1=120[3113]T.

(PXP1)(c1)

对于任意 cR


5 重参数化

定义 3.12.

两个线性模型, y=Xb+ey=Wc+e 其中 XRN×p, WRN×t, 被称为彼此等价或重参数化当且仅当 C(X)=C(W).

要注意的是, C(X)=C(W) 意味着 {Xb:bRp}{Wc:cRt} 是相同的.因此可能的回归函数空间是相同的.同时, 由于对称投影矩阵对其投影空间是唯一的.

结论 3.13.

如果 C(X)=C(W), 那么 PX=PW.此外, 拟合值 PXyPWy 在两个参数化中是相同的.残差也相同.

结论 3.14.

假设 c^ 解决正常方程 WWc^=Wy, 并且 C(X)=C(W).那么 b^=Tc^ 解正常方程 XXb=Xy, 其中 T 是矩阵, T=PX.

证明

XXTc^=XWc^=XPWy=Xy.

示例 6 (Monahan (2008) 的例子 2.8)

考虑三个组的方差分析模型:

yij=μ+αi+eij,j=1,,ni,i=1,,3.

按照笔记1中描述的方式排列观察值, 我们有:

Xb=[1n11001n21n201n3001][μα1α2α3].

另一个参数化是:

yij=c1+c2+eij,i=1yij=c1+c3+eij,i=2yij=c1+eij,i=3

为此, 我们有:

Wc=[1n1101n21n21n300][c1c2c3].

由于 X 的前三列与 W 的三列相同, 且 X 的最后一列是三列的线性组合, 因此 C(X)=C(W).

W=[11n1012n21130n3]=X.

示例 6

另一个最小二乘法的几何视角

定理 3.15.

b^=argminbRpyXb2.它满足:

b^j=xj,yxj2,

其中 xj=P(xj|Xj).

引理 3.16.

(分块矩阵逆公式).对于一个对称且可逆的矩阵 Σ=(Σ1,1Σ1,2Σ2,1Σ2,2), 有:

Σ1=((Σ1,1Σ1,2Σ2,21Σ2,1)1(Σ1,1Σ1,2Σ2,21Σ2,1)1Σ1,2Σ2,21Σ2,1(Σ1,1Σ1,2Σ2,21Σ2,1)1Σ2,21+Σ2,1(Σ1,1Σ1,2Σ2,21Σ2,1)1Σ1,2Σ2,21).

证明 [引理 3.16 的证明] 设 Θ=Σ1.我们知道 Θ 也是对称的.因此有:

(Σ1,1Σ1,2Σ2,1Σ2,2)=(Θ1,1Θ1,2Θ2,1Θ2,2)=(Im00Inm)(0000).

这样可以得出:

Σ1,1Θ1,1+Σ1,2Θ2,1=Im,

Σ1,1Θ1,2+Σ1,2Θ2,2=0m×(nm),

Σ2,1Θ1,1+Σ2,2Θ2,1=0(nm)×m,

Σ2,1Θ1,2+Σ2,2Θ2,2=Inm.

我们有:

Θ2,1=Σ2,21Σ2,1Θ1,1,Θ1,2=Σ1,11Σ1,2Θ2,2.


7 格拉姆-施密特正交化

本文作者:某宇_My

本文链接:https://www.cnblogs.com/Desire-My/p/18737880

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   某宇_My  阅读(20)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.

作曲 : Reol

作词 : Reol

fade away...do over again...

fade away...do over again...

歌い始めの一文字目 いつも迷ってる

歌い始めの一文字目 いつも迷ってる

どうせとりとめのないことだけど

伝わらなきゃもっと意味がない

どうしたってこんなに複雑なのに

どうしたってこんなに複雑なのに

噛み砕いてやらなきゃ伝わらない

ほら結局歌詞なんかどうだっていい

僕の音楽なんかこの世になくたっていいんだよ

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

僕は気にしない 君は気付かない

何処にももういないいない

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

忘れていく 忘れられていく

We don't know,We don't know.

目の前 広がる現実世界がまた歪んだ

目の前 広がる現実世界がまた歪んだ

何度リセットしても

僕は僕以外の誰かには生まれ変われない

「そんなの知ってるよ」

気になるあの子の噂話も

シニカル標的は次の速報

麻痺しちゃってるこっからエスケープ

麻痺しちゃってるこっからエスケープ

遠く遠くまで行けるよ

安定なんてない 不安定な世界

安定なんてない 不安定な世界

安定なんてない きっと明日には忘れるよ

fade away...do over again...

fade away...do over again...

そうだ世界はどこかがいつも嘘くさい

そうだ世界はどこかがいつも嘘くさい

綺麗事だけじゃ大事な人たちすら守れない

くだらない 僕らみんなどこか狂ってるみたい

本当のことなんか全部神様も知らない

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

僕は気にしない 君は気付かない

何処にももういないいない

Everybody don't know why.

Everybody don't know why.

Everybody don't know much.

忘れていく 忘れられていく

We don't know,We don't know.