用线性代数理解 Normal Equation

在之前的博客中，我们通过矩阵求导的方式推导了 normal equation。这篇博客中，我们将通过线性代数的角度再次回顾 normal equation。

Normal Equation 解决的问题

Normal equation 要解决的问题如下：给出由 $n$ 个未知数组成的 $m$ 个方程，这个方程组用 $Ax=b$ 表示，我们要求出这个方程组的“最佳解”。

根据线性代数的知识我们知道，这个方程组的解可能有零个、一个或无穷多个。如果这个方程组恰有一个解，那么这个解就是“最佳解”；如果这个方程组有无穷多个解，那么我们随便选择一个解作为最佳解即可。接下来我们重点处理无解的情况。

假设我们找到的解为 $y$，定义 $b-Ay$ 为方程组的“残差”向量，我们认为让残差的“长度”（说得厉害一点就是 L2-norm）最小的 $y = \hat{x}$ 就是方程组的最优解。如果 $A$ 看作 $X$，$x$ 看作 $\theta$，$b$ 看作 $Y$，把这个条件展开来，我们会发现，我们要最小化的式子就是 linear regression 里的代价函数。

Normal Equation 的推导

$Ax$ 位于 $A$ 的列空间（以下简称列空间）之中，而 $Ax=b$ 无解告诉我们 $b$ 不在列空间中。$b-Ax$ 是连接 $b$ 与列空间中的一个点 $Ax$ 的向量，所以，我们需要找到在列空间中找到离 $b$ 最近的点，才能使 $b-Ax$ 的长度最小。

根据几何知识我们知道，只有 $b-Ax$ 与列空间垂直（也就是说 $b-Ax$ 位于左零空间中，或者说 $Ax$ 是 $b$ 在列空间中的投影），$Ax$ 才是离 $b$ 最近的点。我们有：$$A^T(b-Ax) = 0$$ 由此得 $$A^TAx = A^Tb$$ 这和我们利用矩阵求导推出的 normal equation 一致。如果 $A^TA$ 可逆，我们有：$$x = \hat{x} = (A^TA)^{-1}A^Tb$$ 则 $b$ 在列空间中的投影为 $$p = A(A^TA)^{-1}A^Tb$$ 如果 $A^TA$ 不可逆，我们之后再讨论。

Normal Equation 的一些性质

我们来验证 normal equation 的一些性质。

原方程组可解时也能用吗

首先，如果 $b$ 不在列空间中，我们可以用 normal equation 求出最优解；如果 $b$ 在列空间中（即方程组原本就有解），那 normal equation 还能使用吗？

由于 $b$ 在列空间中，我们有 $$b=At$$ 把式子代入 $b$ 在列空间中的投影 $p$ 有 $$p = A(A^TA)^{-1}A^T(At) $$ $$ = A((A^TA)^{-1}(A^TA))t = At = b$$ 的确得到了原本的解。说明 normal equation 在这个情况下仍然可以使用。

残差与方差

我们再来计算一下残差的均值和方差。

含有 $n$ 个未知数，$m$ 个方程的方程组可以这样表示：$$C\begin{bmatrix} 1 \\ 1 \\ \vdots \\ 1 \end{bmatrix} + D_1\begin{bmatrix} x_{1,1} \\ x_{2,1} \\ \vdots \\ x_{m,1} \end{bmatrix} + D_2\begin{bmatrix} x_{1,2} \\ x_{2,2} \\ \vdots \\ x_{m,2} \end{bmatrix} + \dots + D_n\begin{bmatrix} x_{1,n} \\ x_{2,n} \\ \vdots \\ x_{m,n}\end{bmatrix} = b$$ 显然，$A$ 的列空间中包含了一个全是 1 的向量，而残差向量 $(b-Ax)$ 与列空间正交，当然也与这个全是 1 的向量正交。我们有 $$[1 \quad 1 \quad \dots \quad 1](b-Ax) = 0$$ 也就是说，残差向量中的每一项加起来为 0，则残差的均值为 0。

当然，如果方程组没有待定的常数项，那么残差均值为 0 的性质就不一定成立。不过对于绝大对数 linear regression 来说，都会有待定的常数项。

来看方差，记投影到列空间的投影矩阵为 $P$，我们有 $Pb = Ax$。我们将残差向量与自身求点积：$$\sigma^2 = (b-Pb)^T(b-Pb) = b^T(I-P)^T(I-P)b$$ 很容易发现，$I-P$ 也是一个投影矩阵，它将向量投影到左零空间中。根据投影矩阵的性质（设投影矩阵为 $P$，有 $P^T=P$ 以及 $P^2=P$）：$$\sigma^2 = b^T(I-P)b$$ $$ = b^T(I-A(A^TA)^{-1}A^T)b$$ 当 $A$ 与 $b$ 确定后，方差就是一个定值。

也就是说，使用 normal equation 时，需要数据的分布满足误差均值为 0、方差为定值 $\sigma^2$，这样才会有较好的回归效果。这个分布听起来很像正态分布，虽然也可以是其它满足这个性质的分布，不过正态分布一般是一个较好的选择。

$A^TA$ 不可逆怎么办

在探究这个问题之前，首先证明以下性质：$A^TA$ 与 $A$ 的零空间相同。

若 $Ax = 0$，显然 $A^TAx = A^T(Ax) = 0$ 成立。

若 $A^TAx = 0$，我们有 $x^T(A^TAx) = (Ax)^T(Ax) = 0$，显然 $Ax = 0$。

根据上面的性质，如果 $A^TA$ 不可逆，则 $A$ 不满秩，那么 $Ax = b$ 解的个数就有两种情况：无解和有无穷多解。

$Ax = b$ 有无穷多解

如果 $Ax = b$ 有无穷多解，那么随便选一个解作为最优解即可。

$Ax = b$ 无解

如果 $Ax = b$ 无解，情况就比较复杂。此时碰到的问题是：残差向量的长度随着参数的增加（或减小），而逐渐趋近于最优值，然而最优值是永远达不到的。

举个例子：求两个点 (2, 1) 与 (2, 2) 的最佳回归直线 $y = C + Dx$。

将这个问题转化为方程组，我们有 $$\begin{bmatrix} 1 & 2 \\ 1 & 2 \end{bmatrix}\begin{bmatrix} C \\ D \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \end{bmatrix}$$ 这里的 $A$ 是不满秩的。

我们很容易看出最佳回归直线是 $x = 2$，然而根据解析几何知识我们也知道，$y = C + Dx$ 这个形式不能表示与 $x$ 轴垂直的直线，只能无限增大 $D$（即斜率）来趋近于目标直线。此时 normal equation 就无法获得最佳解。当然，此时我们可以使用伪逆矩阵等方式，获得一个解。

posted @ 2017-08-23 20:15 TsReaper 阅读(932) 评论(0) 编辑收藏举报

刷新页面返回顶部

TsReaper