统计模型与推断II-notes3
1 最小二乘问题
回顾设置:
其中 \(y \in \mathbb{R}^N, X \in \mathbb{R}^{N \times p}, b \in \mathbb{R}^p\) 和 \(e \in \mathbb{R}^N\).从逼近的角度来看, 我们希望选择 \(b\) 以最小化平方距离:
通过微分, 我们得到正常方程:
示例 1:简单线性回归
回顾模型:
这可以写成 \(y = Xb + e\), 其中
由于:
正常方程是:
[课堂笔记:第一个方程导致 \(\hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}.\)] 设 \(\bar{x} = (1/N) \sum_{i=1}^N x_i\), 而 \(\bar{y} = (1/N) \sum_{i=1}^N y_i\).
如果 \(\sum_{i=1}^N (x_i - \bar{x})^2 > 0\), 则对正常方程的解 \((\hat{\beta_0}, \hat{\beta_1})\) 是:
当 \(\sum_{i=1}^N (x_i - \bar{x})^2 = 0\) 时, \(x_i\) 是全部相同的.很容易通过验证其行列式为零来确认 \(X^\top X\) 是奇异的.或者, 你可以通过注意到 \(X\) 是秩为 \(1\) 的(见下面的引理 3.1)来得出这个结论.实际上, 存在无限多的解:
对于所有 \(c \in \mathbb{R}\).
现在, 我们将回答两个基本问题:
- 正常方程是否总是一致的?(存在解的条件?回顾一下我们关于在线性方程组求解中的结果, 笔记 2需要一致的系统.)
- 如果 \(\hat{b}\) 是正常方程的解, \(\hat{b}\) 是否总是最小化 \(Q(b)\)?(回顾一下可能存在多个正常方程的解.)
我们将从线性方程组 \(X^\top Xb = X^\top y\) 的角度研究这些问题, 以及广义逆矩阵和投影矩阵的应用.
2 一致性
在笔记 2 中, 一致性是使用广义逆来求解正常方程的基本条件.如果 \(X^\top X\) 是非奇异的, 则 \((X^\top X)^{-1}X^\top y\) 是一个解.在这种情况下, 正常方程是相容的, 并且解确实是唯一的.但我们如何看待正常方程的一般情况呢?这个问题简化为:\(X^\top y \in C(X^\top)\)?(为什么?)以下引理告诉我们更多关于 \(C(X^\top)\) 的信息.
引理 3.1.
对于任意矩阵 \(X\), 我们有:
(i) \(N(X^\top X) = N(X)\),
(ii) \(C(X^\top X) = C(X^\top)\) 和 (iii) \(\text{rank}(X^\top) = \text{rank}(X^\top X)\).
证明
(i) 如果 \(v \in N(X)\), 则 \(Xv = 0\), 因此 \(X^\top Xv = 0\), 这意味着 \(v \in N(X^\top X)\).如果 \(v \in N(X^\top X)\), 则 \(X^\top Xv = 0\) 且 \(||Xv||^2 = ||Xv||^2 = 0\), 这意味着 \(v \in N(X)\).综上所述, \(N(X^\top X) = N(X)\).
(ii) 这由 (i) 和定理 2.17 直接推导.
(iii) 这由 (i) 直接推导.
定理 3.2.
正常方程是一致的.
证明
正常方程是一致的, 当且仅当 \(X^\top y \in C(X^\top)\).根据引理 3.1, \(C(X^\top) = C(X^\top)\).显然, \(X^\top y \in C(X^\top)\).
根据定理 2.11, 还可以推导出具有最小欧几里得范数的解.这个解直接与唯一定义的莫尔-彭若斯伪逆 \(X^+\) 相关.
结论 3.3(作业). \(X^+y\) 是具有最小欧几里得范数的解.
证明 根据定理 2.11, \((X^\top X)^+X^\top y\) 是具有最小欧几里得范数的解.现在, 我们将检查莫尔-彭若斯伪逆的四个属性, 以验证 \((X^\top X)^+X^\top\) 是 \(X\) 的莫尔-彭若斯伪逆. (回顾一下, 莫尔-彭若斯伪逆是唯一的.)
(i) 这由引理 3.7 推导.
(ii) \((X^\top X)^+X^\top X(X^\top X)^+X^\top = (X^\top X)^+X^\top\) 根据引理 3.7.
(iii) \((X^\top X)^+X^\top X\) 是对称的, 这是由于莫尔-彭若斯伪逆 \((X^\top X)^+\) 的性质.
(iv) \(X(X^\top X)^+\) 是对称的, 因为 \(X^\top X\) 是对称的, 其广义逆也是对称的.
3 每个正常方程的解都最小化 \(Q\)
根据定理 2.22, \(I - X(X^\top X)^{-1}X^\top\) 是一个正交投影矩阵, 投影到 \(N(X)\) 上.这为第二个问题提供了一个直观的答案, 关于每个正常方程的解是否最小化误差 \(Q\).对于 \(b\), 我们有 \(b = X^+y + (I - X(X^\top X)^{-1})z\), 由于投影的性质, 选择 \(z\) 不会影响 \(Xb\) 的值.回想一下 \(Xb\) 被视为 \(y\) 的一个近似值.这意味着, 每个解都提供相同的近似值.
定理 3.4.
\(\hat{b}\) 是正常方程 \(X^\top Xb = X^\top y\) 的解当且仅当 \(\hat{b}\) 最小化 \(Q(\cdot)\).
证明 :这通过上述论证得以证明.假设 \(\hat{b}\) 最小化 \(Q(\cdot)\).令 \(\tilde{b}\) 是正常方程中的解.从上述论证中, 我们有
代入 \(\tilde{b}\), \(||X(\hat{b} - \tilde{b})||^2\) 必须为零, 因为 \(\hat{b}\) 是一个最小值.这意味着 \(Xb = X\hat{b}\), 因此 \(X^\top Xb = X^\top y\).\(\blacksquare\)
这个定理还表明, 从最佳近似的角度来看, 仅仅限制我们的注意力在正常方程的解上并不会有任何损失.
定理 3.5.
\(Xb\) 对于每个解 \(\hat{b}\) 到正常方程都有相同的值.
回顾一下 \(Q(b) = \|y - Xb\|^2\).上述定理表明, \(Q\) 对于每个解都有相同的值.要声称每个解都最小化 \(Q\), 我们只需展示 \(Q\) 被一个解所最小化.因此, 我们专注于任意解 \(\hat{b}\).不难证明:
[课堂笔记:课前展示这一点.] 注意 \(\|X(\hat{b} - b)\|^2 \geq 0\), 当我们设 \(b = \hat{b}\) 时它达到0.因此 \(\hat{b}\) 是一个最小化 \(Q\) 的解.
引理 3.6.
对于任何矩阵 \(X\) 和任何矩阵 \(P\) 和 \(Q\) 适当维度, \(X^\top XP = XQ\) 意味着 \(XP = XQ\).
证明
根据引理 2.24, 我们有 \(XP = XQ\).
引理 3.7.
\((X^\top X)^{-1}\) 是 \(X\) 的广义逆.
证明
设 \(P = (X^\top X)^{-1}X^\top\) , 我们在引理 3.6 中检查, 并且验证 \(XP = X(X^\top X)^{-1}X^\top = X^\top X = X^T\). 因此, \(X(X^\top X)^{-1}X^\top = XP = XQ\) , 这意味着 \((X^\top X)^{-1}\) 是一个广义逆.
根据定理 2.7, 解的一个一般形式为
对于任意 \(z \in \mathbb{R}^p\), 这个引理提供了 \(X\) 的广义逆.
定理 3.8.
\(P_X = X(X^\top X)^{-1}X^\top\) 是投影到 \(C(X)\) 的投影矩阵, 即 \(P_X\) 满足:
(a) 幂等
(b) 投影到 \(C(X)\)
(c) 对广义逆的选择不变
(d) 对称且
(e) 唯一.
而且, \(I - P_X\) 是投影到 \(N(X^\top)\) 的唯一对称投影.
示例2
对于 \(X = 1_N\), 即 \(N\) 个 \(1\) 的列, 找到 \(P_1y\) 和 \((I_N - P_1)y\).
4 最小二乘问题的几何
正常方程暗示了一个有趣的几何结果:
当且仅当
这里 \(\hat{y} = Xb \in C(X)\) 被称为拟合值向量, 而 \(\hat{e} = y - X\hat{b} \in N(X^\top)\) 被称为残差向量.根据正常方程, \(X^\top \hat{e} = 0\).根据定理 2.16, \(C(X)\) 和 \(N(X^\top)\) 是正交补.因此, \(y = \hat{y} + \hat{e}\) 给出了 \(y\) 的正交分解.
注意到 \(XX^*\) 是投影矩阵到 \(C(X)\), 根据定理 2.21.如果 \(XX^* = X(X^\top X)^{-1}X^\top\) 是对称的, \(I - XX^*\) 是正交补 \(C(X)\) 的对称投影矩阵, 根据结论 2.26.但是, 我们知道 \((X^\top X)^{-1}\) 可能不是对称的(见下面的例子).我们能找到一个非对称的 \(XX^*\) 吗?
定理 3.9.
\(XX^* = X(X^\top X)^{-1}X^\top\) 是对称的, 并且对广义逆 \((X^\top X)^{-1}\) 的选择不变.
证明 我们首先证明它对广义逆的选择是不变的 \((X^\top X)^{-1}\).设 \(G_1\) 和 \(G_2\) 是两个广义逆.因此:
取 \(P = G_1X^\top X\) 和 \(Q = G_2X^\top X\) 在引理 3.6 中, 则 \(XG_1X^\top X = XG_2X^\top X\), 这意味着 \(X^\top XG_2X^\top = X^\top XG_1X^\top\). 现在, 取 \(P = G_1X^\top\) 和 \(Q = G_2X^\top\) 在引理 3.6 中, 我们有 \(XG_1X^\top = XG_2X^\top\).
根据结论 2.10, \(G_1\) 也是 \(X^\top X\) 的广义逆.由于广义逆的选择的不变性, \(XG_1X^\top = X(XG_1X^\top)^\top\), 这证明了对称性.
[课堂笔记:回顾对称投影矩阵与其投影空间的唯一关联.]
由于只有一个对称投影矩阵到 \(C(X)\), 我们可以写出这样的投影为 \(P_X\).从上面, 我得出 \(P_X = XX^*\).
示例 3
设
首先, 我们来看莫尔-彭若斯伪逆:
这里 \(G_1\) 是 \(X^\top X\) 的广义逆:
这里 \(G_2\) 是 \(X^\top X\) 的非对称广义逆(由于展示时的小截断误差):
可以验证:
结论 3.10.
正常方程的解也是一致方程 \(Xb = P_Xy\) 的解, 反之亦然.
证明:
\(\Longleftarrow\):假设 \(\hat{b}\) 是正常方程的解.也就是说, \(X\hat{b} = XX^*y = P_Xy\).
\(\Longrightarrow\):假设 \(Xb = P_Xy\).这意味着 \(X^\top b = X^\top P_Xy = X^\top y\), 因为 \(P_X\) 是对称的.
示例 4 (Monahan (2008) 的例子 2.5)
设
因此, 正常方程 \(X^\top Xb = X^\top y\) 是
定理 3.11.
如果 \(C(W) \subseteq C(X)\), 那么 \(P_X - P_W\) 是对称投影到 \(C((I - P_W)X)\).
证明 首先, 我们检查 \(P_X - P_W\) 是幂等的:
由于 \(C(W) \subseteq C(X)\), \(P_XP_W = P_W\) 和 \(P_WP_X = (P_XP_W)^\top = P_W\), 由于对称性.此外, \(P_X - P_W\) 显然是对称的.
其次, 由于 \(C(X)\) 和 \(N(X^\top)\) 是正交补, 对于任意 \(u\), 我们可以将其分解为 \(u = Xs + t\), 其中 \(s \in R\) 和 \(t \in N(X^\top)\).
第三, 如果 \(y \in C((I - P_W)X)\), 则 \(y = (I - P_W)Xc\) 对某个 \(c\) 成立.
示例 5 (Monahan (2008) 的例子 2.6)
回顾简单线性回归模型:
因此,
显然, \(X^\top X\) 是非奇异的, 并且:
因此,
让我们关注 \(X\) 的第一列, \(1 = [1, 1, 1, 1]^T\), 相应的投影矩阵为
注意到 \(P_1y = [\bar{y}, \bar{y}, \bar{y}, \bar{y}]^T\).因此:
对于任意 \(c \in \mathbb{R}\)?
5 重参数化
定义 3.12.
两个线性模型, \(y = Xb + e\) 和 \(y = Wc + e\) 其中 \(X \in \mathbb{R}^{N \times p}\), \(W \in \mathbb{R}^{N \times t}\), 被称为彼此等价或重参数化当且仅当 \(C(X) = C(W)\).
要注意的是, \(C(X) = C(W)\) 意味着 \(\{Xb : b \in \mathbb{R}^p\}\) 和 \(\{Wc : c \in \mathbb{R}^t\}\) 是相同的.因此可能的回归函数空间是相同的.同时, 由于对称投影矩阵对其投影空间是唯一的.
结论 3.13.
如果 \(C(X) = C(W)\), 那么 \(P_X = P_W\).此外, 拟合值 \(P_X y\) 和 \(P_W y\) 在两个参数化中是相同的.残差也相同.
结论 3.14.
假设 \(\hat{c}\) 解决正常方程 \(W^\top W\hat{c} = W^\top y\), 并且 \(C(X) = C(W)\).那么 \(\hat{b} = T\hat{c}\) 解正常方程 \(X^\top Xb = X^\top y\), 其中 \(T\) 是矩阵, \(T = P_X\).
证明
示例 6 (Monahan (2008) 的例子 2.8)
考虑三个组的方差分析模型:
按照笔记1中描述的方式排列观察值, 我们有:
另一个参数化是:
为此, 我们有:
由于 \(X\) 的前三列与 \(W\) 的三列相同, 且 \(X\) 的最后一列是三列的线性组合, 因此 \(C(X) = C(W)\).
示例 6
另一个最小二乘法的几何视角
定理 3.15.
设 \(\hat{b} = \arg\min_{b \in \mathbb{R}^p} \|y - Xb\|^2\).它满足:
其中 \(x_j^\perp = P^\perp(x_j | X_{-j})\).
引理 3.16.
(分块矩阵逆公式).对于一个对称且可逆的矩阵 \(\Sigma = \begin{pmatrix} \Sigma_{1,1} & \Sigma_{1,2} \\ \Sigma_{2,1} & \Sigma_{2,2} \end{pmatrix}\), 有:
证明 [引理 3.16 的证明] 设 \(\Theta = \Sigma^{-1}\).我们知道 \(\Theta\) 也是对称的.因此有:
这样可以得出:
我们有: