4、Normal Equation 的向量投影解法与几何和直觉解释

参考：https://zhuanlan.zhihu.com/p/269232332

在线性回归的正交方程 ( Normal Equation ) 推导一文中提到使用 向量投影 的方法一步就能推导出 正交方程。从向量投影的角度，体现 线性回归 的本质。

预备知识：向量投影

平面A由基向量 $a_{1} 、a_{2}$ 所张成（Span ），换言之，平面A是 $[a_{1}, a_{2}]$ 的列空间。

$b$ 是平面外的一点， $p$ 是 $b$ 在平面上的投影， $p = A\tilde{x}$ ，求 $\tilde{x}$

$e$ 是 $b$ 和 $p$ 之间的距离： $e = b - p = b- A\tilde{x}$

用人话来解释下： $a_{1} 、a_{2}$ 构建了一个平面，平面内的任何向量，它俩均可通过 线性组合 构建出来，换言之，平面外的向量它俩就搞不定了。向量 $b$ 在 $a_{1} 、a_{2}$ 构建的平面外，不论 $a_{1} 、a_{2}$ 如何组合都不可能组合出 $b$ ，这个问题 无解。但是，可以组合出 $b$ 在平面内的投影 $p$ ，这是平面内最接近 $b$ 的点， $e$ 是 $b$ 和 $p$ 之间的偏差。于是，问题就变成了：如何找到组合 $\tilde{x}$ ，使 $A\tilde{x} = p$ 。

线性代数的初心是解决： $Ax = b$ ，在明显无解的情况下（方程数 > 变量数，超定），退而求其次，解一个可以解决的近似问题： $A\tilde{x} = p$ 。

$a_{1} 、a_{2}$ 垂直于 $e$

$a_{1}^{T}\cdot(b-A\tilde{x})= 0$

$a_{2}^{T}\cdot(b-A\tilde{x})= 0$

$\begin{bmatrix} a_{1}^{T} \\ a_{2}^{T}\end{bmatrix}(b-A\tilde{x})=\begin{bmatrix} 0 \\ 0\end{bmatrix}$

$A^{T}(b-A\tilde{x})=0$

$A^{T}b=A^{T}A\tilde{x}$

$\tilde{x} =(A^{T}A)^{-1}A^{T}b$

----------------------------------------------------------------------------------------------------------------------------------------------

言归正传，回到线性回归的问题：

线性回归要解决的问题是：找到合适的 $\theta$ ，使 $X\theta = {y}$

实际应用中，方程的数量（样本数）经常远大于变量 / 未知数的数量（特征数），例如以下数据情况：100条数据10个字段，意味着100个方程10个未知数，显然，这样的超定方程组是无解的（over determined ），所以我们不得不改变目标，寻找一个最“接近”的近似解 ${\theta}$ ，使得 $X\theta = \tilde{y}$ ， $\tilde{y}$ 是 $y$ 在 $x$ 的列空间的投影。

将 $X$ 代入 $A$ ，将 $y$ 代入 $b$ ，将 $\theta$ 代入 $\tilde{x}$ ，于是就得到 Normal Equation:

$\theta=(X^{T}X)^{-1}X^{T}y$

翻译成线性回归的语境：由于 $y$ 不在 $x_{1} 、x_{2}$ 所张成的空间内，不论 $x_{1} 、x_{2}$ 如何进行线性组合，都不可能组合出 $y$ ，但是，可以组合出 $y$ 在平面内的投影 $\tilde{y}$ ，线性回归的目标就是找到参数 $\theta$ ，使 $X\theta = \tilde{y}$ 。

在理解了线性回归的投影本质后，使用向量投影公式，只需一步就可以得到Normal Equation： $\theta=(X^{T}X)^{-1}X^{T}y$ 。

也可以表示为： $\theta=X^{\dagger}y$ ，其中 $X^{\dagger}=(X^{T}X)^{-1}X^{T}$ ，被成为伪逆矩阵。

---------------------------------------------------------------------------------------------------------------------------------------------------

最后从直觉的角度再来看一下 Normal Equation 和伪逆矩阵，方便记忆：

回顾我们的出发点 $X\theta = {y}$ ，如果 $X$ 可逆，两边同时乘以 $X^{-1}$ ，显然 $\theta = X^{-1}y$ 。

但在机器学习中，经常面对的是超定（ Overdetermined ）方程，方程数（数据点的数量，行，记录）大于未知数（即特征数，列，字段），非方阵， $X$ 不可逆。

$X^{T}X$ 是对称矩阵，也称 Gram 矩阵，它是 $n\times n$ 的方阵，大概率可逆，因此，我们很自然的希望在方程两边同时乘以 $X^{T}$ ，得到： $X^{T}X\theta=X^{T}y$ ，再两边同时乘以 $(X^{T}X)^{-1}$ 就能到 Normal Equation 。这个推导并不严谨， $X^{T}X$ 可能不可逆，但可作为快速记忆公式的方法。

posted @ 2022-06-26 17:42 zhangyuxue 阅读(38) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

shizyxya

4、Normal Equation 的向量投影解法与几何和直觉解释

公告