(数学)最小二乘的几何意义及投影矩阵
主要内容:
-
什么是最小二乘
-
最小二乘的几何意义
-
正交投影矩阵
什么是最小二乘?
假设我们手上有n组成对的数据,{(xi,yi):i=1…n},为了探究y变量与x变量的关系,我们希望用一个多项式来匹配它,可是多项式中的系数怎么确定呢?拿来拼凑肯定是不行的,最小二乘法告诉我们,这个多项式的系数应该让每个点的误差的平方之和最小。
(百度百科)最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
最小二乘的几何意义
最小二乘的几何意义:最小二乘法中的几何意义是高维空间中的一个向量在低维子空间的投影。
从上面的定义中,我们很难想象到最小二乘的几何意义,那么我们通过一个简单的例子来推导一下:
我们根据定义中的误差平方之和最小化来拟合直线:
每个点的误差表示:
最小误差的平方和:
要求解上面的最小化问题,我们可以通过求导的方式得到,最好是转化为矩阵表达形式:AX=b (这里x表示上述的系数a)
求得结果为:
如果通过超定方程的解法,很容易就可以得到上面结果。
先来说说向量表达形式:
小括号中表示:它是两个向量 [1, ... , 1]T 和 [x1, ... , xn]T 的线性组合,换句话说,它是这两个向量构成的二维子空间(想成一个平面就可以)的任意一点。
那么上面式子的几何含义:表示向量 [y1, ... , yn]T(表示空间中的一点) 到这个二维子空间任意一点的距离;(向量的长度)
最小化上面式子的平方(向量长度的最小化)的几何含义:寻找在 [1, ... , 1]T 和 [x1, ... , xn]T 构成的二维子空间上的一个点,使得向量 [y1, ... , yn]T 到这个点的距离最小。怎么找这个点呢?只要做一个几何投影就好了。(如下图)
如上图所示,在三维空间中给定一个向量 u,以及由向量 v1,v2 构成的一个二维平面,向量 p 为 u 到这个平面的投影,它是 v1,v2 的线性组合:
利用投影的垂直性质,我们可以得到关于系数C的两个方程:
令 V = [v1, v2], p = c1v1 + c2v2,将上述式子合并并转化为矩阵形式(更容易扩展到高维空间),得到:
因此系数c的表达式为:
有没有发现很熟悉?和式子 一模一样有木有!!!
好了,我们回到原来的例子,看看几何关系中的投影点和被投影的空间分别代表什么。
把图中的 u 替换成 [y1, ... , yn]T ,把 v1,v2 分别替换成 [1, ... , 1]T 和 [x1, ... , xn]T, 系数 c1 和 c2 也就是我们要求的 a0,a1。
所以,最小二乘法的几何意义是高维空间的一个向量(由y数据决定)在低维子空间(由x数据以及多项式的次数决定)的投影。
正交投影矩阵
上面提到了最小二乘的几何意义就是空间中的投影,其实投影在线性代数中也是存在其数学公式的,可以联系以下数学知识来理解最小二乘的几何意义。
张成子空间:
张成子空间的投影矩阵:
最小二乘的投影解释: