线性代数

线性相关和生成子空间

  如果逆矩阵A-1存在,那么式子Ax = b肯定对于每一个向量b恰好存在一个解。但是,对于方程组而言,对于向量b的某些值,有可能无解或者存在无限多解。存在多于一个解但是少于无限多个解的情况是不可能发生的;因为如果xy都是某方程组的解,则 z = αx + (1-α)y,(α取任意实数)也是该方程组的解。

  形式上,一组向量的线性组合,是指每个向量乘以对应标量系数之后的和,即:∑i xv(i),一组向量的生成子空间(span)是原始向量线性组合后所能抵达的点的集合。在线性代数里,矢量空间的一组元素中,若没有矢量可用有限个其他矢量的线性组合所表示,则称为线性无关或线性独立 (linearly independent),反之称为线性相关(linearly dependent)。 

  例如在三维欧几里得空间R的三个矢量(1, 0, 0),(0, 1, 0)和(0, 0, 1)线性无关;但(2, 0, 1),(1, 0, 1)和(3, 1, 2)线性相关,因为第三个是前两个的和。

  确定 Ax = b 是否有解,相当于确定向量b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 的列空间 (column space)或者 A的值域(range)。

 

范数

  范数(norm)函数可以衡量向量大小。形式上,Lp范数定义如下:||x||= (∑i |xi|p)1/p,其中p ∈R,p ≥ 1

  范数是将向量映射到非负值的函数。直观上来说,向量x的范数衡量从原点到点x的距离。更严格地说,范数是满足下列性质的任意函数:

  • f(x) = 0    =>  x = 0
  • f( x+y ) ≤ f(x) + f(y) (三角不等式)
  • ∨α ∈R, f(αx) = |α| f(x)

  当p = 2时,L2范数被称为欧几里得范数它表示从原点出发到向量x确定的点的欧几里得距离。L2范数经常简化表示为 || x ||,省去下标2。平方L2范数也经常用来衡量向量的大小,可以简单地通过点积 xTx计算。

  L1范数:|| x ||= ∑| xi | ,经常作为表示非零元素数目的替代函数。

  L范数:|| x || = maxi | xi |,也称最大范数,表示向量中具有较大幅值的元素的绝对值。

  Frobenius范数:|| A ||= ( ∑i,j Ai,j)1/2,其类似于向量的L2范数

  两个向量的点积可以用范数来表示。具体地,

  xy =  || x || || y ||cosθ其中θ表示x和y之间的夹角。

 

特殊类型的矩阵和向量

  • 对角矩阵:只在主对角线上含有非零元素,其他位置都是零。形式上,矩阵D是对角矩阵,当且仅当对于所有的i ≠ j, Di,j = 0
  • 对称矩阵:转置和自己相等的矩阵,A = AT
  • 正交矩阵:行向量和列向量是分别标准正交的矩阵,AAT = ATA = I,A-1 = AT
  • 单位向量:具有单位范数的向量,||x||= 1,如果xTy = 0,那么向量x和向量y互相正交,A = AT如果两个向量都有非零范数,那么这两个向量之间的夹角是90度。

  在Rn中,至多有n 个范数非零向量互相正交。如果这些向量不仅互相正交,并且范数为1,那么我们称它们是标准正交。

 

特征分解

  特征分解是指将矩阵分解成一组特征向量和特征值,A = QΛQT

  方阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量v:Av = λv, 标量λ被称为这个特征向量的特征值。(类似的,可以定义左特征向量vTA = λ vT,但是通常我们更关注右特征向量)。如果v是A的特征向量,那么任何缩放后的向量sv(s∈R,s≠0)也是A的特征向量。此外,sv和v有相同的特征值。

  假设矩阵A有n个线性无关的特征向量{v(1),......,v(n)},对应着特征值{λ1,......,λn}。我们将特征向量连接成一个矩阵,使得每一列是一个特征向量:V= [v(1),......,v(n)]。类似地,我们也可以将特征值连接成一个向量λ = [λ1,......,λn]T。因此A的特征分解可以记为A = V diag(λ) V-1。

  每个实对称矩阵都可以分解成实特征向量和实特征值:A = QΛQT,其中Q是A的特征向量组成的正交矩阵,Λ是对角矩阵。虽然任意一个实对称矩阵A都有特征分解,但是特征分解可能并不唯一。

  特征分解唯一当且仅当所有的特征值都是唯一的。

  矩阵是奇异的当且仅当含有零特征值。实对称矩阵的特征分解也可以用于优化二次方程f(x) = xTAx,其中限制||x||2 = 1 。当x等于A的某个特征向量时,f将返回对应的特征值。在限制条件下,函数f的最大值是最大特征值,最小值是最小特征值。

  正定矩阵:所有特征值都是正数的矩阵;

  半正定矩阵:所有特征值都是非负数的矩阵;

  负定矩阵:所有特征值都是负数的矩阵;

  半负定矩阵:所有特征值都是非正数的矩阵。

  半正定矩阵保证x,xTA x ≥ 0。此外,正定矩阵保证xTA x = 0  => x = 0 。

  步骤:1)求取特征值,按对角线排序得Λ;2)求特征向量,按列向量排序得Q;3)A = QΛQT

 

奇异值分解(SVD)

  奇异值分解是指将矩阵分解为奇异向量和奇异值,A = UDVT,假设A是一个 m×n 的矩阵,那么U是一个 m×m 的矩阵,D是一个  m×n 的矩阵,V是一个 n×n 的矩阵。 UV都是酉矩阵,即满足UTU=I,VTV = I

  步骤:1)求矩阵ATAAAT;2)求AAT,ATA的特征值和对应特征向量ui,vi;3)AAT的特征向量(左奇异向量)组成矩阵U,ATA的特征向量(右奇异矩阵)组成矩阵V

     4)由于矩阵D除了对角线上是奇异值外,其余都为零,故求出每一个奇异值σi即可:

A = UDVT

AV = UDVTV

AV= UD

Avi = σiui

σ= Avi / ui

      求得每一个奇异值即可的奇异值矩阵;

     5)A = UDVT ==>  AT= VDUT   ==>  AT= VDUTUDVT = VD2VT ,可以看出特征值矩阵是奇异值矩阵的平方,

      可以不通过步骤4),直接通过σ= λi 1/2 求得奇异值。

 

Moore-Penrose伪逆

  矩阵A的伪逆定义:A+= limα↘0(ATA + αI)-1AT

  计算伪逆的实际算法:A+= limα↘0(ATA + αI)-1AT,其中,矩阵U,D,V是矩阵A奇异值分解后得到的矩阵。对角矩阵D的伪逆矩阵D+是其非零元素取倒数后再转置得到的。

  1)当矩阵A的列数大于行数时,使用伪逆求解线性方程是众多可能解法中的一种。特别地,x = A+y 是所有可行解中欧几里得范数||x||2最小的一个。

  2)当矩阵A的列数大于行数时,可能没有解。这种情况下,通过伪逆得到的x使得 Ax 和 y 的欧几里得距离|| Ax-y ||2最小。

 

迹运算

  迹运算返回的是矩阵对角元素的和:Tr(A) = ∑Ai,i

  迹运算提供了另一种描述矩阵Frobenius范数的方式:||A||F = (Tr(AAT))1/2

  迹运算在转置运算下是不变的:Tr(A) = Tr(AT)

  多个矩阵相乘得方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的(需要考虑挪动之后矩阵乘积依然定义良好):Tr(ABC) = Tr(CAB) = Tr(BCA)

  标量在迹运算后仍然是本身: a = Tr(a)。

 

行列式

  行列式,记作det(A),是一个将方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。

  若行列式是 0 ,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积;若行列式是 1 ,那么这个转换保持空间体积不变。

posted on 2018-03-28 14:31  小虫子12  阅读(760)  评论(0编辑  收藏  举报

导航