1 预备知识
假定,我们对最小二乘法的代数解释已经确定无疑。为什么需要几何解释?答案是首先从数学概念上讲,存在这样的知识体系,需要把他们挖掘出来。其次,(出于实用目的)为了数值计算的需要。
要对最小二乘法做几何解释,首先要引入一个概念,就是子空间的“张成”:
1)有N维线性空间ΩN,从ΩN中抽取k(k<N)个线性无关向量s1,s2,...,sm,则对于任意线性组合a1s1+a2s2,...+aksk构成ΩN的子空间,称x1,x2,...,在ΩN张成的子空间;
举例解释:比如在三维空间中,任意两个非退化并线性无关向量可以张成一个平面,凡是能平铺在平面上的向量,均可以用这两个向量线性表出;
第二个要引入一个概念,就是所谓“最佳逼近元”:
2)对于凸集合M外一个点P,P到集合M的距离,就是P到“P在集合M的投影点S”的距离;其中S叫做P对M的最佳逼近元;
2 最小二乘法的一般解释
最小二乘法恰好是一个寻早最佳逼近元的过程;下面以图解释这个寻优过程:
[问题] 如图,对于给定数据集合Ω={Di} i:={1,2,3,4},试给出它们的最佳直线模拟;
首先假定目标的直线方程为:y = Ax + B;A和B是待定系数;有了这个直线的表达式,就可以将误差的表达式写出:
E = ∑i( yi - y )2 , i:={1,2,3,4}, [注解] yi是原始数据Di点的y坐标输入值,比如y2=0.98,y3 = 1.76等;
等价写法: E = ∑i( yi - Axi - B )2 , i 属于 {1,2,3,4,5}
∂E/∂A = 2×∑i(yi - Axi - B)×(- xi )= 0 (式1)
∂E/∂B = 2×∑i(yi - Axi - B)×(- 1 )= 0 (式2)
这里通过(式1)和(式2)联立方程,消元法写出A和B的表达式,解出A和B,毫无几何意义可谈!
然而,本文要说的真正中心,从这里刚刚开始;让我们站在线性空间的立场,从原始输入数据开始,一步一步展开讨论;
3 最小二乘法的几何解释
原始数据的矩阵写法:(注意,一切运算结果,都出自这些原始数据,没有附加任何条件)
注意,原始数据是5个点,则X、Y就是5×1维,如果有N个原始数,X、Y就是N×1维向量,这一点须看清楚!因而下面讨论请把思维切换到N=5维的线性空间中;
对于y = Ax + B这个方程,将原始数据W的代入后:
显然,这是一组不相容方程组,这类方程看似无解,没有多大意义,其实不然!我们可以找到最佳的一组逼近系数(A,B)作为最后解;上述方程在五维空间中的表达如下:
在Y:=AX+BI中,“:=”这里表示“逼近”的意思;考察X和I两个向量:
X和I张成一个平面,这里起名为Sp平面; 注意:任何两个向量,只要超过1维,并且这两个向量不线性相关,就能张成一个平面(超平面)。
重复一下[最佳逼近投影定理] 如果有集合Ω和该集合外一点V,V到Ω的距离,就是V在Ω的投影V’到V的距离即:d(Ω,V) = d(V’,V);
所以,这里Y是Sp平面外的一点,Y’是Y在Sp的投影,Y到Sp的距离表示为D,如图:
在图中,Y’是具有桥梁作用的关键向量,首先:Y’在Sp平面内,因此它可以用X,I线性表示;其二:Y’是Y在Sp的投影,因此,D = Y-Y’垂直于X、I;
(Y-Y’)T . I = 0 和 (Y-Y’)T . X = 0
令W = [X,I],(Y-Y’)T . W = O , 其中O = [0,0] 表示零向量
C=[c1,c2]T, 以及Y' = Xc1 + Ic2,有:
(Y- Xc1 + Ic2)T . W = O , 有(Y- WC)T . W = O,
=>WT(Y-WC) = 0;
=>WTY-WTWC = 0;
=>WTY = WTWC ;
=> C = (WTW)-1WTY
到此,将C求出,等价写法C=[A,B],表明方程y = Ax + B中的系数A和B被矩阵解出。
4 结论
通过将二维平面上的二维回归问题,转化到N维线性空间中的不相容方程组的形式,在通过最佳逼近元原理将逼近系数通过向量变换解出,在数值计算中,有很大实际意义。