测绘线性代数(四):数学期望、协方差、PCA
数学期望
E(X) = ∑pixi,X为所有xi的集合,pi为xi对应的概率。
通常来说,xi都是离散的,除非像高斯分布,假设xi不是离散的,才用上式。
当xi是离散的,那么:
E(X) = 1 / n * ∑ xi,因为xi的概率都为 1 / n,这时数学期望相当于均值。
(那么高斯分布,E(X) = ∫ p(x)*x dx,∫其实就是sum中的s,只不过每次x的变化是dx,无限小。所以对于∫的看法,近似看作∑操作)
方差
D(X) = E{ [ X - E (X) ]2} (注:“{}”、“[]”只是代表括号的一个层次,不代表一种新的运算)
为了方便,令E(X) = μ
D(X) = E[ (X -μ )2]
等价于
D(X) = ∑ pi * ( xi - μ )²
当X为离散集合时,等价于
D(X) = 1/ n ∑ ( xi - μ )²
使用矩阵运算,代替∑操作,等价于
D(x) = 1 / n * [ x1 - μ , x2 - μ ... xn - μ ][ x1 - μ , x2 - μ ... xn - μ ] T
(那么高斯分布,自然是 D(X) = ∫ f(x) * [ x - E(X) ]2 dx)
通常,令 σx2 = D(x), σx又叫中误差
数学意义:
1、仅仅考虑离散的时候,当 ( xi - μ )² ,相当于xi 偏离均值μ的距离平方
2、1/ n ∑ ( xi - μ )² ,相当于 【偏离均值的距离平方】的均值。本质依然是【偏离均值μ的距离平方】。(平均身高,依然还叫身高的意思)
3、对以上开根号,即:sqrt ( D(X) )或 σx,那么,相当于【偏离均值μ的距离】
4、可以想象,其中xj..xk 波动特别大,甚至符号相反, σx也会特别大(即使E(X)=0), 所以, σx 一般用来形容数据的稳定程度 )
5、在高斯分布中,x 落在 [ μ - σ , μ + σ] 的概率大概是0.68
协方差
假如有:
X | Y | |
样本1 | 152 | 45 |
样本2 | 160 | 54 |
样本3 | 172 | 44 |
样本4 | 175 | 64 |
样本5 | 180 | 80 |
如何表示这种数据?
表示一:
表示二:
协方差定义:
Cov(x,y) = Var(X) = σxy = E{ [ X - E(X) ] [ Y - E(Y) ] } ((x,y)代表X和Y的集合,X代表样本点)
当XY均为离散点时:
σxy = 1 / n ∑ ( xi - μx ) ( yi - μy ),(单位:x的单位*y的单位)
其中
( xi - μx ) ( yi - μy ) 正正是面积,分正负,那么σxy 视为加权面积和
相关系数
ρ = σxy / (σx σy) ,没有单位 , -1 ≤ ρ ≤ 1
协方差矩阵
协方差矩阵,其实和协方差不是同样的东西,它包含了方差、协方差的数据,正确来说,应该称为【方差-协方差矩阵】
xx的意思是,两个不同的集合
计算办法:
n为样本数量
XX 2*n = [ X,Y ]T = [ [x1,x2,...xn] , [y1,y2,...yn] ]T
X - E(X) = [ X - E(X) , Y - E(Y)] T ,2 * n
Dxx = E { [ X - E(X) ][ X - E(X) ]T }
降维
SVD分解:SVD分解 - 耀礼士多德 - 博客园 (cnblogs.com)
奇异值分解,可视为:
Am*n = Um*nΣn*nVT n*m = σ1u1v1T + σ2u2v2T + σ3u3v3T +....
σ1 > σ2 > σ3
当σ1 >> σ2 时, Am*n ≈ σ1u1v1T
其中,u1 为 m*1向量,v1 T为 1 * n 向量 ,因此,对数据实现了降维,或者主成分提取
引用:(11 封私信 / 11 条消息) 如何通俗易懂地讲解什么是 PCA 主成分分析? - 知乎 (zhihu.com)
PCA
y = x,那么其实只要保留y就可以了
进行中心化,即 X = X - E(X)
达到了降维,注意,降维了之后,就不是“面积”、“房价”了。
( 直觉有一个向量是(1,1)或者(1,0),不知道这个向量是什么含义)
非理想降维
总有一组e1,e2 ,正交单位向量,使得:
对于每个样本数据 ai = [ xi , yi ][ e1 , e2 ]T = xie1 + yie2
注意:
1、a是一个向量,维度和样本点的维度是一样的。
2、无论e1,e2 是哪两个,只要附合正交单位向量,那么【a的长度】是固定的
3、【a的长度】,应该就是【降维】后的主元1,它的值恒等于一个值 di2 = xi2 + yi2
那么,降维的理想情况,要xi 尽量的大,即分配给e1尽量多,那么,在计算ai 时, yie2、 zie3 等等项,可以去掉。
最终要的成果是e1,以及降维后的一维数组[d1,d2,d3...]。
(如果多维,那么要e1,e2,以及两个数组D、E等)
设想:
(一)一个很扁的橄榄球,降维后只要一个平面,这个平面依然很像橄榄球。
(二)一堆二维点集,近似一条直线,降维后,只保留了D和e1,原来的数据量为 2 *n,现在只要 n + 2,d * e1依然看着是一条直线,只是部分偏离直线的样本失真了。
[X,Y]n*2 = [di] n*1e1T , e1为 2*1的列向量
这里先考虑二维:
那么,有如下目标: ∑ xi2 最大(等价于∑di2最大),i由1~n,表示有n个样本。而且这里的xi,是以e1、e2为基的坐标。
(假设样本,在e1,e2基下的坐标,为(xi,yi))
e1 = [e11,e12]T
xi2,其实就是各个样本中心化向量a、b、c、d,投影在e1 上的长度平方
假设有样本:
a = [a1,b1]T
b = [a2,b2]T
c = [a3,b3]T
(按照上边的原理,各个样本向量,应该是中心化后的)
∑ xi2 = (aTe1) 2 + (bTe1) 2 + (cTe1) 2
(aTe1 就是点积操作,点积的几何意义,ab = |a||b|cosθ,当|b|等于1时,就是a投影在b上的长度)
等价于
∑ xi2 = (a1e11 + b1e12)2 +(a2e11 + b2e12)2 + (a3e11 + b3e12)2
=( a12e112 + 2a1b1e11e12 + b12e122 ) + ( a22e112 + 2a2b2e11e12 + b22e122 ) + ( a32e112 + 2a3b3e11e12 + b32e122 )
= ( a12 + a22 + a32)e112 + 2 (a1b1 + a2b2 +a3b3 )e11e12 + (b12+b22+b32+)e122
等价于:
(ai = xi - μx , 相当于上面介绍的,就是X、Y的方差-协方差矩阵,只是没有乘以1/n,对于向量而然,各个分量乘以一个常数是不影响的)
那么,令中间的矩阵为P,因为P为【对称矩阵】,那么就可以对角化成:
P = UΣUT
U为正交矩阵
∑为对角矩阵,对角元素为 σ1, σ2 , 且 σ1 > σ2
三个都为2*2矩阵
代入P ,得到:
∑ xi2 = e1TUΣUTe1 =(UTe1)T Σ (UTe1)
N = [n1,n2]T = UTe1 = [u1,u2] [e11,e12]T
(单位正交向量,被单位正交向量的分量线性组合,也是单位向量,也即是 |n| = 1)
∑ xi2 = NT Σ N = σ1 n1 + σ2 n2
综合上述,需要满足如下条件,求得e1 : (求得e1后,样本向量点积,就能求得各个xi,实现降维)
(目标是求 n1,n2,又从P = UΣUT得到向量u1、u2,就可以求得e11,e12了)
(1)∑ xi2 = NT Σ N = σ1 n12 + σ2 n22最大
(2)σ1 > σ2
(3)|n| =1,也就是 n12 + n22 = 1
使用【拉格朗日乘数法】求【条件极值】:条件极值杀手——拉格朗日乘数法 - 知乎 (zhihu.com)
F = σ1 n12 + σ2 n22
条件:
φ = n12 + n22 - 1 = 0
解方程组:
F/dx + λ φ/dx = 0
F/dy + λ φ/dy = 0
φ = 0
解出x,y,λ,λ又叫【拉格朗日乘数】
当n1 =1 ,n2 =0 时 , 满足条件(怎么解以后再算)
那么:
n = [1,0]T = UTe1 = [u1,u2] [e11,e12]T
Un =UUTe1
因为U是正交单位阵,所以UUT = I
因此:
e1 = U[1,0]T
也就是e1, 取U的第一列,也就是奇异值最大的列。
(同理,如果令∑ xi2 最小,可以得到e2 )
求得:
e1 =(-0.78,-0.62)T
e2 =(-0.62,0.78)T
然后,用点积操作 x1 = aTe1 = [a1,b1] e1 , y1= aTe2 = [a1,b1] e2 , 点积,求出在以(e1, e2)基下的坐标。
例如:
x1 = 5.4*(-0.78) + 4.4*(-0.62) = -6.94
x1*e1 = (-6.94*-0.78 , -6.94*-0.62)T = (5.4132,4.3)T ≈ a
还原:
a = x1 e1 + y1 e2
a = (a1e11+b1e12)e1 + (a1e21 + b1e22) e2
现在可以忽略掉y1 e2 ,因为y1 是微小值,起不到什么作用,最终实现了降维,保留了新的X集合,以及最大奇异值对应的特征向量。
在几何上,e1 向量为直线方向,e2向量为垂直于直线方向。