1 最小二乘问题
回顾设置:
y=Xb+e,
其中 y∈RN,X∈RN×p,b∈Rp 和 e∈RN.从逼近的角度来看, 我们希望选择 b 以最小化平方距离:
Q(b)=(y−Xb)⊤(y−Xb)=∥y−Xb∥2
通过微分, 我们得到正常方程:
X⊤Xb=X⊤y.
示例 1:简单线性回归
回顾模型:
yi=β0+β1xi+ei,i=1,…,N,
这可以写成 y=Xb+e, 其中
y=⎡⎢
⎢
⎢
⎢
⎢⎣y1y2⋮yN⎤⎥
⎥
⎥
⎥
⎥⎦,X=⎡⎢
⎢
⎢
⎢⎣1x11x2⋮⋮1xN⎤⎥
⎥
⎥
⎥⎦,b=[β0β1]和e=⎡⎢
⎢
⎢
⎢⎣e1e2⋮eN⎤⎥
⎥
⎥
⎥⎦.
由于:
X⊤Xb=N∑i=1xiβ0+N∑i=1x2iβ1和X⊤y=[∑Ni=1yi∑Ni=1xiyi],
正常方程是:
Nβ0+(N∑i=1xi)β1=N∑i=1yi
(N∑i=1xi)β0+(N∑i=1x2i)β1=N∑i=1xiyi.
[课堂笔记:第一个方程导致 ^β0=¯y−^β1¯x.] 设 ¯x=(1/N)∑Ni=1xi, 而 ¯y=(1/N)∑Ni=1yi.
如果 ∑Ni=1(xi−¯x)2>0, 则对正常方程的解 (^β0,^β1) 是:
^β1=∑Ni=1(xi−¯x)yi∑Ni=1(xi−¯x)2
^β0=¯y−^β1¯x.
当 ∑Ni=1(xi−¯x)2=0 时, xi 是全部相同的.很容易通过验证其行列式为零来确认 X⊤X 是奇异的.或者, 你可以通过注意到 X 是秩为 1 的(见下面的引理 3.1)来得出这个结论.实际上, 存在无限多的解:
^β1=c
^β0=¯y−^β1¯x
对于所有 c∈R.
现在, 我们将回答两个基本问题:
- 正常方程是否总是一致的?(存在解的条件?回顾一下我们关于在线性方程组求解中的结果, 笔记 2需要一致的系统.)
- 如果 ^b 是正常方程的解, ^b 是否总是最小化 Q(b)?(回顾一下可能存在多个正常方程的解.)
我们将从线性方程组 X⊤Xb=X⊤y 的角度研究这些问题, 以及广义逆矩阵和投影矩阵的应用.
2 一致性
在笔记 2 中, 一致性是使用广义逆来求解正常方程的基本条件.如果 X⊤X 是非奇异的, 则 (X⊤X)−1X⊤y 是一个解.在这种情况下, 正常方程是相容的, 并且解确实是唯一的.但我们如何看待正常方程的一般情况呢?这个问题简化为:X⊤y∈C(X⊤)?(为什么?)以下引理告诉我们更多关于 C(X⊤) 的信息.
引理 3.1.
对于任意矩阵 X, 我们有:
(i) N(X⊤X)=N(X),
(ii) C(X⊤X)=C(X⊤) 和 (iii) rank(X⊤)=rank(X⊤X).
证明
(i) 如果 v∈N(X), 则 Xv=0, 因此 X⊤Xv=0, 这意味着 v∈N(X⊤X).如果 v∈N(X⊤X), 则 X⊤Xv=0 且 ||Xv||2=||Xv||2=0, 这意味着 v∈N(X).综上所述, N(X⊤X)=N(X).
(ii) 这由 (i) 和定理 2.17 直接推导.
(iii) 这由 (i) 直接推导.
定理 3.2.
正常方程是一致的.
证明
正常方程是一致的, 当且仅当 X⊤y∈C(X⊤).根据引理 3.1, C(X⊤)=C(X⊤).显然, X⊤y∈C(X⊤).
根据定理 2.11, 还可以推导出具有最小欧几里得范数的解.这个解直接与唯一定义的莫尔-彭若斯伪逆 X+ 相关.
结论 3.3(作业). X+yX+y 是具有最小欧几里得范数的解.
证明 根据定理 2.11, (X⊤X)+X⊤y 是具有最小欧几里得范数的解.现在, 我们将检查莫尔-彭若斯伪逆的四个属性, 以验证 (X⊤X)+X⊤ 是 X 的莫尔-彭若斯伪逆. (回顾一下, 莫尔-彭若斯伪逆是唯一的.)
(i) 这由引理 3.7 推导.
(ii) (X⊤X)+X⊤X(X⊤X)+X⊤=(X⊤X)+X⊤ 根据引理 3.7.
(iii) (X⊤X)+X⊤X 是对称的, 这是由于莫尔-彭若斯伪逆 (X⊤X)+ 的性质.
(iv) X(X⊤X)+ 是对称的, 因为 X⊤X 是对称的, 其广义逆也是对称的.
3 每个正常方程的解都最小化 QQ
根据定理 2.22, I−X(X⊤X)−1X⊤ 是一个正交投影矩阵, 投影到 N(X) 上.这为第二个问题提供了一个直观的答案, 关于每个正常方程的解是否最小化误差 Q.对于 b, 我们有 b=X+y+(I−X(X⊤X)−1)z, 由于投影的性质, 选择 z 不会影响 Xb 的值.回想一下 Xb 被视为 y 的一个近似值.这意味着, 每个解都提供相同的近似值.
定理 3.4.
^b 是正常方程 X⊤Xb=X⊤y 的解当且仅当 ^b 最小化 Q(⋅).
证明 :这通过上述论证得以证明.假设 ^b 最小化 Q(⋅).令 ~b 是正常方程中的解.从上述论证中, 我们有
Q(b)=Q(^b)+∥X(b−^b)∥2.
代入 ~b, ||X(^b−~b)||2 必须为零, 因为 ^b 是一个最小值.这意味着 Xb=X^b, 因此 X⊤Xb=X⊤y.■
这个定理还表明, 从最佳近似的角度来看, 仅仅限制我们的注意力在正常方程的解上并不会有任何损失.
定理 3.5.
Xb 对于每个解 ^b 到正常方程都有相同的值.
回顾一下 Q(b)=∥y−Xb∥2.上述定理表明, Q 对于每个解都有相同的值.要声称每个解都最小化 Q, 我们只需展示 Q 被一个解所最小化.因此, 我们专注于任意解 ^b.不难证明:
Q(b)=Q(^b)+∥X(^b−b)∥2.
[课堂笔记:课前展示这一点.] 注意 ∥X(^b−b)∥2≥0, 当我们设 b=^b 时它达到0.因此 ^b 是一个最小化 Q 的解.
引理 3.6.
对于任何矩阵 X 和任何矩阵 P 和 Q 适当维度, X⊤XP=XQ 意味着 XP=XQ.
证明
(XP−XQ)⊤(XP−XQ)=(P−Q)⊤(XP−XQ)=0.
根据引理 2.24, 我们有 XP=XQ.
引理 3.7.
(X⊤X)−1 是 X 的广义逆.
证明
设 P=(X⊤X)−1X⊤ , 我们在引理 3.6 中检查, 并且验证 XP=X(X⊤X)−1X⊤=X⊤X=XT. 因此, X(X⊤X)−1X⊤=XP=XQ , 这意味着 (X⊤X)−1 是一个广义逆.
根据定理 2.7, 解的一个一般形式为
(X⊤X)−1X⊤y+[I−(X⊤X)−1(X⊤X)]z.
对于任意 z∈Rp, 这个引理提供了 X 的广义逆.
定理 3.8.
PX=X(X⊤X)−1X⊤ 是投影到 C(X) 的投影矩阵, 即 PX 满足:
(a) 幂等
(b) 投影到 C(X)
(c) 对广义逆的选择不变
(d) 对称且
(e) 唯一.
而且, I−PX 是投影到 N(X⊤) 的唯一对称投影.
示例2
对于 X=1N, 即 N 个 1 的列, 找到 P1y 和 (IN−P1)y.
4 最小二乘问题的几何
正常方程暗示了一个有趣的几何结果:
X⊤Xb=X⊤y
当且仅当
X⊤(y−Xb)=0
y−Xb⊥每一列的 X
y−Xb⊥每个向量在 {x:b∈Rp}.
这里 ^y=Xb∈C(X) 被称为拟合值向量, 而 ^e=y−X^b∈N(X⊤) 被称为残差向量.根据正常方程, X⊤^e=0.根据定理 2.16, C(X) 和 N(X⊤) 是正交补.因此, y=^y+^e 给出了 y 的正交分解.
注意到 XX∗ 是投影矩阵到 C(X), 根据定理 2.21.如果 XX∗=X(X⊤X)−1X⊤ 是对称的, I−XX∗ 是正交补 C(X) 的对称投影矩阵, 根据结论 2.26.但是, 我们知道 (X⊤X)−1 可能不是对称的(见下面的例子).我们能找到一个非对称的 XX∗ 吗?
定理 3.9.
XX∗=X(X⊤X)−1X⊤ 是对称的, 并且对广义逆 (X⊤X)−1 的选择不变.
证明 我们首先证明它对广义逆的选择是不变的 (X⊤X)−1.设 G1 和 G2 是两个广义逆.因此:
(X⊤X)G1(X⊤X)=(X⊤X)G2(X⊤X)=X⊤X.
取 P=G1X⊤X 和 Q=G2X⊤X 在引理 3.6 中, 则 XG1X⊤X=XG2X⊤X, 这意味着 X⊤XG2X⊤=X⊤XG1X⊤. 现在, 取 P=G1X⊤ 和 Q=G2X⊤ 在引理 3.6 中, 我们有 XG1X⊤=XG2X⊤.
根据结论 2.10, G1 也是 X⊤X 的广义逆.由于广义逆的选择的不变性, XG1X⊤=X(XG1X⊤)⊤, 这证明了对称性.
[课堂笔记:回顾对称投影矩阵与其投影空间的唯一关联.]
由于只有一个对称投影矩阵到 C(X), 我们可以写出这样的投影为 PX.从上面, 我得出 PX=XX∗.
示例 3
设
X=⎡⎢⎣11100−1102⎤⎥⎦,X⊤X=⎡⎢⎣212121212⎤⎥⎦.
首先, 我们来看莫尔-彭若斯伪逆:
X+=⎡⎢
⎢
⎢
⎢⎣1/61/12−1/121/35/12−1/121/61/121/120−1/41/4⎤⎥
⎥
⎥
⎥⎦,XX+=⎡⎢⎣2/31/31/31/32/3−1/31/3−1/32/3⎤⎥⎦.
这里 G1 是 X⊤X 的广义逆:
G1=⎡⎢
⎢
⎢
⎢⎣2/3−1/300−1/32/30000000000⎤⎥
⎥
⎥
⎥⎦,XG1X⊤=⎡⎢⎣2/31/31/31/32/31/31/3−1/32/3⎤⎥⎦.
这里 G2 是 X⊤X 的非对称广义逆(由于展示时的小截断误差):
G2=⎡⎢
⎢
⎢⎣0.116666670.16439935−0.1954653680.081066020.129044010.307744100.005473785−0.10892557−0.12475469−0.029881550.434517797−0.113214890.04571068−0.10892557−0.0778595480.14107443⎤⎥
⎥
⎥⎦.
可以验证:
XG1X⊤=XG2X⊤=XX+.
结论 3.10.
正常方程的解也是一致方程 Xb=PXy 的解, 反之亦然.
证明:
⟸:假设 ^b 是正常方程的解.也就是说, X^b=XX∗y=PXy.
⟹:假设 Xb=PXy.这意味着 X⊤b=X⊤PXy=X⊤y, 因为 PX 是对称的.
示例 4 (Monahan (2008) 的例子 2.5)
设
y=[12],X=⎡⎢⎣101100⎤⎥⎦.
因此, 正常方程 X⊤Xb=X⊤y 是
[2111][b1b2]=[32].
定理 3.11.
如果 C(W)⊆C(X), 那么 PX−PW 是对称投影到 C((I−PW)X).
证明 首先, 我们检查 PX−PW 是幂等的:
(PX−PW)2=PX−PXPW−PWPX+PW.
由于 C(W)⊆C(X), PXPW=PW 和 PWPX=(PXPW)⊤=PW, 由于对称性.此外, PX−PW 显然是对称的.
其次, 由于 C(X) 和 N(X⊤) 是正交补, 对于任意 u, 我们可以将其分解为 u=Xs+t, 其中 s∈R 和 t∈N(X⊤).
(PX−PW)u=Xs−PWXs∈C((I−PW)X).
第三, 如果 y∈C((I−PW)X), 则 y=(I−PW)Xc 对某个 c 成立.
(PX−PW)y=(PX−PW)(I−PW)Xc=(I−PW)Xc=y.
示例 5 (Monahan (2008) 的例子 2.6)
回顾简单线性回归模型:
yi=β0+β1xi+ei,xi=i,i=1,…,4=N.
因此,
X=⎡⎢
⎢
⎢⎣11121314⎤⎥
⎥
⎥⎦,X⊤X=[4101030].
显然, X⊤X 是非奇异的, 并且:
(X⊤X)−1=(X⊤X)−1=[3/2−1/2−1/21/5].
因此,
PX=X(X⊤X)−1X⊤=110⎡⎢
⎢
⎢⎣741−243211234−2147⎤⎥
⎥
⎥⎦.
让我们关注 X 的第一列, 1=[1,1,1,1]T, 相应的投影矩阵为
P1=1100⎡⎢
⎢
⎢⎣25252525252525252525252525252525⎤⎥
⎥
⎥⎦.
注意到 P1y=[¯y,¯y,¯y,¯y]T.因此:
PX−P1=120[31−1−3]T.
(PX−P1)(c1)
对于任意 c∈R?
5 重参数化
定义 3.12.
两个线性模型, y=Xb+e 和 y=Wc+e 其中 X∈RN×p, W∈RN×t, 被称为彼此等价或重参数化当且仅当 C(X)=C(W).
要注意的是, C(X)=C(W) 意味着 {Xb:b∈Rp} 和 {Wc:c∈Rt} 是相同的.因此可能的回归函数空间是相同的.同时, 由于对称投影矩阵对其投影空间是唯一的.
结论 3.13.
如果 C(X)=C(W), 那么 PX=PW.此外, 拟合值 PXy 和 PWy 在两个参数化中是相同的.残差也相同.
结论 3.14.
假设 ^c 解决正常方程 W⊤W^c=W⊤y, 并且 C(X)=C(W).那么 ^b=T^c 解正常方程 X⊤Xb=X⊤y, 其中 T 是矩阵, T=PX.
证明
X⊤XT^c=X⊤W^c=X⊤PWy=X⊤y.
示例 6 (Monahan (2008) 的例子 2.8)
考虑三个组的方差分析模型:
yij=μ+αi+eij,j=1,…,ni,i=1,…,3.
按照笔记1中描述的方式排列观察值, 我们有:
Xb=⎡⎢⎣1n11001n21n201n3001⎤⎥⎦⎡⎢
⎢
⎢⎣μα1α2α3⎤⎥
⎥
⎥⎦.
另一个参数化是:
yij=c1+c2+eij,i=1yij=c1+c3+eij,i=2yij=c1+eij,i=3
为此, 我们有:
Wc=⎡⎢⎣1n1101n21n21n300⎤⎥⎦⎡⎢⎣c1c2c3⎤⎥⎦.
由于 X 的前三列与 W 的三列相同, 且 X 的最后一列是三列的线性组合, 因此 C(X)=C(W).
W=⎡⎢⎣11n1012n21130n3⎤⎥⎦=X⊤.
示例 6
另一个最小二乘法的几何视角
定理 3.15.
设 ^b=argminb∈Rp∥y−Xb∥2.它满足:
^bj=⟨x⊥j,y⟩∥x⊥j∥2,
其中 x⊥j=P⊥(xj|X−j).
引理 3.16.
(分块矩阵逆公式).对于一个对称且可逆的矩阵 Σ=(Σ1,1Σ1,2Σ2,1Σ2,2), 有:
Σ−1=((Σ1,1−Σ1,2Σ−12,2Σ2,1)−1−(Σ1,1−Σ1,2Σ−12,2Σ2,1)−1Σ1,2Σ−12,2−Σ2,1(Σ1,1−Σ1,2Σ−12,2Σ2,1)−1Σ−12,2+Σ2,1(Σ1,1−Σ1,2Σ−12,2Σ2,1)−1Σ1,2Σ−12,2).
证明 [引理 3.16 的证明] 设 Θ=Σ−1.我们知道 Θ 也是对称的.因此有:
(Σ1,1Σ1,2Σ2,1Σ2,2)=(Θ1,1Θ1,2Θ2,1Θ2,2)=(Im00In−m)(0000).
这样可以得出:
Σ1,1Θ1,1+Σ1,2Θ2,1=Im,
Σ1,1Θ1,2+Σ1,2Θ2,2=0m×(n−m),
Σ2,1Θ1,1+Σ2,2Θ2,1=0(n−m)×m,
Σ2,1Θ1,2+Σ2,2Θ2,2=In−m.
我们有:
Θ2,1=−Σ−12,2Σ2,1Θ1,1,Θ1,2=−Σ−11,1Σ1,2Θ2,2.
7 格拉姆-施密特正交化
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)