矩阵论补充知识点

知识点1:AB都是n阶方阵时,AB行列式的计算满足:

|AB|=|A||B|=|B||A|=|BA|

🐹 推广:三个矩阵都是方阵的时候,三个矩阵相乘的行列式等于各个矩阵的行列式相乘。

参考1.1:根据矩阵相乘的行列式等于分别行列式的乘积,这样写对吗? - 知乎

知识点2: 分块矩阵的行列式:

① 若AD是方阵:

|AOOD|=|AOD|=|AOD|=|A||D|

参考2.1:分块矩阵行列式公式 - 趣趣的文章 - 知乎
参考2.2:分块矩阵行列式的性质证明 - CSDN
参考2.3:分块矩阵计算行列式三板斧 - CSDN

知识点3: 分块矩阵(ABCD均是方阵)求逆:

① 准对角矩阵

[AOOD]1=[A1OOD1][OBCO]1=[OC1B1O]

② 分块上三角矩阵/分块下三角

[ABOD]1=[A1A1BD1OD1][AOCD]1=[A1OD1CA1D1]

参考3.1:分块矩阵怎么求逆? - 知乎

知识点4: 方阵A的多项式对应的特征值:

① 若λA的特征值,如果A可逆.则1λA1的特征值。

② 若λA的特征值,f(x)是一个多项式,则f(λ)f(A)的特征值。

参考4.1:第七课 线性代数 - 第 5 章 特征值与特征向量

知识点5: 代数重数与几何重数的理解

=dim{vVn(λIT)v=0}

=dim{vVnkN(N),使(λIT)kv=0}

(PS:我暂时认为上面的说法是正确的,想要深入研究并验证上述说法,可能需要彻底把下面的知识点6-Jordan标准型搞明白。)

从上面的几何和代数重数的计算可知,几何重数和代数重数其计算的公式就不一样,只不过是几何重数(一个特征值对应的特征空间)一定是包含在代数重数对应的特征空间中(因为代数重数中k可取k=1,2,3,),并且可以得到结论:代数重数 几何重数

或者我可以以一种不正确的表述方法描述我的理解:

也即:几何重数是代数重数的充分不必要条件,代数重数是几何重数的必要不充分条件。

参考5.1:如何理解几何重数和代数重数? - 知乎
参考5.2:为什么几何重数小于等于代数重数?当几何重数小于代数重数时,代数重数究竟有何意义? - 2422的回答 - 知乎
参考5.3:什么情况下特征值的几何重数小于代数重数? - 逸风晴的回答 - 知乎
参考5.4:矩阵特征值与矩阵本身的关系是什么? - 三川啦啦啦的回答 - 知乎

知识点6: Jordan标准型的理解:

(😥 PS:Jordan标准型整体知识十分复杂,暂时无法整理出概述本质的简要表述,因此这里先给出如下8个参考链接,日后如果有时间进行详细学习之后,再做回来补充,或者直接另写一个博客文章链接过去。)

参考6.1:【线性代数】包看包会的若当标准形证明(1)-引言 - bilibili
参考6.2:线性变换的Jordan标准形 - 高铭骏 - 个人博客
参考6.3:#9 Jordan标准型的几何构造、几何意义和构造方法 - 常俊基的文章 - 知乎
参考6.4:为什么要引入“若尔当标准型”? - 知乎
参考6.5:Jordan标准形的本质是什么? - 知乎
参考6.6:几何重数小于代数重数的原因分析 - 1313的文章 - 知乎
参考6.7:Jordan标准型的行列式计算方法 - 刻苦用功的大白 - bilibili
参考6.8:Jordan标准型的初等变换计算方法 - DX390609 - bilibili

知识点7: 矩阵二次型:

矩阵的二次型是指一个关于向量xRn的二次多项式,可以表示为:

q(x)=xTAx=i=1nj=1naijxixj

其中An×n的实对称矩阵,x=(x1,x2,,xn)Tn维列向量。aij是矩阵A的元素。矩阵A是二次型的系数矩阵。

💠 矩阵二次型在数学和工程领域有许多应用。以下是其中的一些:
   ① 物理学:矩阵二次型可用于描述力学系统和电磁场的动态性质,例如能量函数、势能函数等可以表示为二次型形式,而矩阵二次型的特征值和特征向量也在物理学中有很多应用。
   ② 统计学:矩阵二次型可用于多元统计分析中的方差分析、协方差矩阵、线性判别分析和主成分分析等。
   ③ 优化问题:矩阵二次型可用于优化问题的求解,例如线性规划、二次规划、整数规划和非线性规划等。
   ④ 信号处理:矩阵二次型可用于信号处理领域的自适应滤波和卷积运算等。
   ⑤ 机器学习:矩阵二次型在机器学习领域中被广泛应用,例如支持向量机(SVM)就是利用二次型来构造分类器的,而通过对二次型的特征分解可以得到数据的主成分,进而对数据进行降维处理。

🌂 正定二次型

正定二次型是指二次型函数的取值恒为正数,即对于二次型函数 Q(x)=xTAx,对于任意的非零向量xRn,都有Q(x)>0成立的情况。其中An×n的实对称正定矩阵。

👂 研究正定二次型的意义在于它在数学和应用中具有广泛的应用。以下是一些重要的应用:
   ① 优化问题:正定二次型在优化问题中发挥着重要作用。例如,在约束为线性的最优化问题中,如果目标函数是正定二次型,那么该问题的最优解可以通过求解线性方程组来得到。
   ② 物理学:正定二次型在物理学中具有广泛应用。例如,在势能函数中,正定二次型可以表示系统的稳定性。
   ③ 统计学:正定二次型在统计学中有着广泛应用,特别是在多元正态分布中。正定二次型可以用来描述协方差矩阵的特性。
   ④ 机器学习:在机器学习中,正定二次型被广泛应用于支持向量机、正则化等领域。例如,在支持向量机中,正定二次型可以用来定义核函数,进而将高维数据映射到低维空间。

🎁 正定二次型在几何上有以下理解:
   一个n维向量x,它在二次型Q(x)作用下得到的值Q(x)可被视为向量x的长度的平方,即Q(x)=|x|2,其中||表示向量的模长。

   如果二次型Q(x)是正定的,那么它在x取遍所有的非零向量时所得到的值都大于零,即Q(x)>0。这意味着对于所有的非零向量x,它在Q(x)作用下的结果都是正数,也就是说,向量x的长度的平方都大于零,即|x|2>0,即向量x的长度都大于零。因此,正定二次型可以被视为一种将向量长度映射到正实数上的函数,它在几何上对应着一个内积,即Q(x)=xTAx,其中A是一个对称正定矩阵,xT表示向量x的转置。

   因此,正定二次型在几何上的意义就是它定义了一个向量空间上的内积,它可以被用来描述向量的长度、角度、投影等几何性质,以及向量之间的正交性等性质。在实际应用中,正定二次型经常被用来表示优化问题的目标函数,因为它具有良好的数学性质,例如可以使用梯度下降等优化算法来求解极小值。

在几何上,正定二次型可以理解为一个椭圆或者一个超曲面,在每个点的函数值都是正数。具体来说,对于一个n元正定二次型Q(x1,x2,,xn)=i=1nj=1naijxixj,可以将它写成向量形式,即Q(x)=xTAx,其中x是一个n维列向量,A是一个n×n的对称矩阵,A=(aij)

因为A是对称矩阵,所以它可以通过正交对角化变成一个对角矩阵D,即A=PTDP,其中P是一个正交矩阵,即PTP=PPT=ID是一个对角矩阵,对角线上的元素为A的特征值。因此,原来的二次型可以写成:

Q(x)=x T Ax=xT PT DPx=(Px)T D(Px)

y=Px,则原来的二次型可以写成yTDy的形式,其中y的每个分量是x在正交基P下的坐标,D是一个对角矩阵,它的对角线上的元素是原二次型的特征值。因为原来的二次型是正定的,所以D的每个特征值都大于零,因此yTDy在每个点的函数值都是正数。

从几何角度来看,yTDy对应的是一个椭圆或者一个超曲面,而且在每个点的函数值都是正数。这个椭圆或超曲面的形状和大小与矩阵A的特征值有关。具体地,如果A的所有特征值都很大,则对应的椭圆或超曲面就很扁,而且长轴和短轴的比例比较大;如果A的某些特征值很小,那么对应的椭圆或超曲面就很圆。这种几何意义有助于理解正定二次型的性质,以及在优化问题中的应用。

参考链接7.1:二次型的意义是什么?有什么应用? - 知乎
参考链接7.2:记忆常用公式 - 博客侦探 - 博客园
参考链接7.3:深度科普 度规与时空(上):从二次型的几何直观说起 - PeiLingX的文章 - 知乎
参考链接7.4:二次型和特征值 - WHL的文章 - 知乎
参考链接7.5:线性代数-6.二次型 - 钱辰的文章 - 知乎

知识点8: 正交矩阵/对称矩阵/酉矩阵:
空间 实空间R 复(酉)空间C
变换 正交变换 (x,x)=(Tx,Tx)(x,y)=(Tx,Ty) 酉变换 (x,x)=(Tx,Tx)
对称变换 (Tx,y)=(x,Ty) 酉对称变换(Hermit变换) (Tx,y)=(x,Ty)
矩阵 正交矩阵 QTQ=IQT=Q1 酉矩阵 AHA=AAH=I
实对称矩阵 AT=A 厄米特(Hermite)矩阵 AH=A
正规矩阵 AHA=AAH

正交变换不会改变向量间的正交性,如果uv正交,则T(u)T(v)仍然是正交的。

知识点9: 欧氏空间与酉空间一些结论小结:

⓪ 过渡矩阵(我个人又称为基变换矩阵):旧基到新基的转换矩阵;度量矩阵:欧式空间的一组基之间的内积作为元素构成的矩阵。

① 欧式空间两个不同基对应的度量矩阵AB合同的,即AB

② 一个基为标准正交基的充要条件是它的度量矩阵为单位矩阵

③ 一个矩阵Q为正交矩阵的充要条件为它的列向量是两两相互正交的单位向量。

④ 正交矩阵非奇异、其逆矩阵仍是正交矩阵、两个正交阵相乘仍是正交阵;

⑤ 欧氏空间一个变换T为正交变换的充要条件是T对应于标准正交基下的矩阵是正交矩阵;

⑥ 正交变换在标准正交基下的矩阵才是正交矩阵,在别的基下不一定是正交矩阵;

⑦ 两个标准正交基之间的过渡矩阵是正交矩阵。

⑧ 欧式空间一个变换T为实对称变换的充要条件是T对于标准正交基的矩阵是实对称矩阵;

⑨ 实对称矩阵的特征值均为实数、实对称矩阵不同特征值对应的特征向量正交

⑩ 酉空间的正交变换被称为“酉变换”,酉变换在酉空间的标准正交基下的矩阵A是酉矩阵,即满足AHA=AAH=I

⑪ 酉矩阵的逆矩阵是酉矩阵、两个酉矩阵乘积是酉矩阵;

⑫ 酉空间的对称变换被称为“Hermite变换/酉对称变换”,Hermite变换在酉空间的标准正交基下的矩阵A是Hermite矩阵,即满足AH=A

⑬ Hermite矩阵的特征值均为实数、Hermite矩阵不同特征值对应的特征向量正交

Schur定理任意n阶方阵一定(酉)相似于上/下三角矩阵

  • 欧式空间中:设ARn×n的特征值为λ1,λ2,,λn,且λiR,则一定存在正交矩阵Q使得:

Q1AQ=QTAQ=[λ1λ2λn]

  • 酉空间中:设ACn×n的特征值为λ1,λ2,,λn,则一定存在酉矩阵P使得:

P1AP=PHAP=[λ1λ2λn]

n阶方阵(酉)相似于对角矩阵的充要条件:A为正规矩阵,即AHA=AAH

  • ARn×n,且A的特征值都是实数,则A正交相似于对角矩阵的充要条件是A为正规矩阵(在实数域就是实对称矩阵AA有n个线性无关的特征向量);

  • ACn×n,则A相似于对角矩阵的充要条件是A为正规矩阵。

⑯ 实对称矩阵一定能正交相似于对角矩阵。

T欧式空间的对称变换,则一定能找到一组基使T在该基下的矩阵为对角矩阵。

⑱ 复对称矩阵与实对称矩阵的显著区别之一是不一定能对角化。

⑲ 任何n阶方阵都可以相似于一个Jordan标准形矩阵。

⑳ 实矩阵的复特征值一定是成对共轭出现的。

知识点10: 常见向量范数和矩阵范数
向量范数 矩阵范数 关系 关系
0-范数 x0=
1-范数 x1=i|xi| A1=maxji=1m|aij|


从属范数;

相容;
从属范数的定义:A=maxxV=1AxV
此时与向量范数V相容

由于是从属范数,因此单位阵I的这三种范数均等于1:
I1=I2=I=1
2-范数 x2=i|xi|2 A2=λmaxλmax是矩阵AHA的最大特征值
-范数 x=max|xi| A=maxij=1n|aij|
Lp范数 xp=(i|xi|p)1p
m1范数 Am1=i=1mj=1n|aij|
m2范数
(F-范数)
Am2=AF=(i=1mj=1n|aij|2)12=(tr(AHA))12
m范数 Am=nmaxi,j|aij|

知识点11: 级数的收敛性

🍺 正项级数及其判敛法(重点部分)

在级数理论中,正项级数是非常重要的一种,对一般级数的研究有时可以通过对正项级数的研究来获得结果,就像非负函数广义积分和一般广义积分的关系一样。
所谓正项级数是这样一类级数:级数的每一项都是非负的。如果级数的各项都是负数,则它乘以-1后就得到一个正项级数,它们具有相同的敛散性。
正项级数收敛性的判别方法主要包括:利用部分和数列判别法、比较原则、比式判别法、根式判别法、积分判别法以及拉贝尔判别法等。
i=1ani=1bn为正项级数,其收敛性判断如下:

  • 比较审敛法

    • 基本形式
      • anbni=1bn收敛,则i=1an也收敛。
      • anbni=1bn发散,则i=1an也发散。
    • 极限形式
      • limnanbn=l(0<l<+),则级数i=1ani=1bn的敛散性相同。
    • 推论
      • limnanbn=0,且i=1bn收敛,则i=1an也收敛。
      • limnanbn=+,且i=1bn发散,则i=1an也发散。
  • 比值审敛法

    • limnan+1an=ρ
      • ρ<1,级数i=1an收敛;
      • ρ>1,级数i=1an发散;
      • ρ=1,级数i=1an可能收敛、可能发散,需另外判断。
  • 根值审敛法

    • limnann=ρ
      • ρ<1,级数i=1an收敛;
      • ρ>1,级数i=1an发散;
      • ρ=1,级数i=1an可能收敛、可能发散,需另外判断。

🎨 幂级数的收敛半径和收敛域
① 函数项级数
   定义:n=1un(x)=u1(x)+u2(x)++un(x)+
   收敛点xs:使函数项级数n=1un(xs)收敛的点。
   收敛点xf:使函数项级数n=1un(xf)发散的点。
   收敛域:D={xsn=1un(xs)},即所有收敛点的集合。

② 幂级数及其收敛性
   定义:n=0anxn=a0+a1x++anxn+
   收敛半径:若limn|an+1||an|=ρ,则有:
      1° 当0<ρ<+时,收敛半径为R=1ρ
      2° 当ρ=0时,收敛半径为R=+
      3° 当ρ=+时,收敛半径为R=0

在实际应用中,常常用R=limn|an||an+1|直接计算幂级数n=0anxn的收敛半径。另一方面,利用正项级数的根值判别法,收敛半径ρ也可以用极限limn|an|n来计算

🍭 绝对收敛级数与条件收敛级数:

绝对收敛和条件收敛的本质区别在于:是否满足“黎曼重排定理”。

  • 黎曼重排定理:
    • 如果一个实数项无穷级数若是条件收敛的,它的项在重新排列之后,重新排列后的级数收敛的值可能会收敛到任何一个给定的值,甚至发散;
    • 而对于一个绝对收敛级数,它的项在重新排列之后,收敛性不变,并且级数和不变。

此定理说明,我们不能随意排列一个级数,并且在级数求和时候尽量不能随机排列更不能轻易加括号(一个例子就是(1)n这个不收敛级数,如果在计算该级数和时加括号,则可能会导致得到一个收敛级数和)。

收敛半径。。。。。。。。。

转载11.1:绝对收敛级数与条件收敛级数有何本质区别? - 达瓦里希也喝脉动的回答 - 知乎
https://blog.csdn.net/HGGshiwo/article/details/105209452
数分笔记——6种数项级数的收敛性证明的基本方法 - Fiddie的文章 - 知乎
高等数学十:(1)无穷级数 - Lawliet的文章 - 知乎
高等数学十:(4)函数项级数的一致收敛 - Lawliet的文章 - 知乎

知识点12: 矩阵相关多项式的定义:

① 方阵A的多项式f(A)

f(t)=i=0naitif(A)=a0I+a1A++anAn=i=0naiAi

② 方阵A的特征矩阵:

A(λ)=λIA

③ 方阵A的特征多项式φ(λ)

φ(λ)=det(λIA)=|λIA|

④ 方阵A的特征方程:特征多项式φ(λ)=0

φ(λ)=det(λIA)=|λIA|=0

⑤ 方阵A的零化多项式ψ(λ)
   若存在一个多项式:

ψ(λ)=a0+a1λ++amλm

   使得

ψ(A)=a0I+a1A++amAm=O

   则ψ(λ)就是A的一个零化多项式。

📢 注意:凯莱-哈密顿(Cayley-Hamilton)定理:可以利用多项式长除法用于方阵幂次的计算An=?,其中n是一个很大的数。

      方阵A特征多项式φ(λ)是一个零化多项式,因为φ(A)=O

⑥ 方阵A的最小多项式m(λ)
   对于一个矩阵A,称它首项系数为1的次数最低的零化多项式是A的最小多项式。(关于最小多项式的较为详细知识请看知识点13)。

参考12.1:多项式矩阵 - 维基百科
参考12.2:矩阵多项式 - 维基百科
参考12.3:矩阵多项式与多项式矩阵 - 豆丁文档
参考12.4:零化多项式 - 中文数学Wiki
参考12.5:【矩阵论笔记】零化多项式 - CSDN
参考12.6:最小多项式 - 中文数学Wiki

知识点13: 方阵A的最小多项式

对于一个矩阵A,我们称它首项系数为1的次数最低的零化多项式是A的最小多项式,记作m(λ),显然有m(A)=O

🚩 m(λ)的几个性质:
   ① 最小多项式是零化多项式的因子;
   ② 相似矩阵具有相同的最小多项式,但是最小多项式相同的矩阵不一定相似,这一点和特征多项式是一样的,特征多项式相同的矩阵也不一定相似;
   ③ 最小多项式保留了特征根因式,即最小多项式整除特征多项式。

⭕ 最小多项式m(λ)的求法:
   ① 第一种方法:算出这个矩阵的Jordan标准型,设其特征值分别为λ1,λ2,,λk。如果Jordan标准型中以λi为对角元的Jordan块的最大阶数为ti,那么这个矩阵的最小多项式为:

m(λ)=(λλ1)t1×(λλ2)t2××(λλk)tk

   ② 第二种方法:判断A是否可以被I线性表示,如果不能,判断A2是否可以被AI线性表示,如果不能,判断A3是否可以被A2AI先行表示。以此类推,直到出现某个k,使得Ak可以被Ak1、···、AI线性表示,不妨设:

Ak=ak1Ak1++a1A+a0I

那么其最小多项式m(λ)为:

m(λ)=λkak1λk1a1λ+a0

例如:如果A2=2AI,那么A的最小多项式为m(λ)=λ22λ+1

   ③ 第三种方法:矩阵A的最小多项式就是A的特征矩阵的第n个不变因子dn(λ),这是求解一个矩阵的最小多项式的有效通法。

   ④ 第四种方法:矩阵的最小多项式为最后一个不变因子。由Smith标准型(不变因子)的定义,最后一个不变因子是所有初等因子的最小公倍式,而最小多项式是所有初等因子的最小公倍式,则最小多项式是最后一个不变因子。最小多项式最高次幂是一次,由前一个不变因子整除后一个不变因子,前面的所有不变因子是一次因式的乘积,即不变因子相乘得到的特征多项式都是一次因式的乘积 r级Jordan块的最小多项式是初等因子,所以在大范围内,Jordan标准型的最小多项式是所有初等因子的乘积。

参考13.1:最小多项式 - 中文数学Wiki
参考13.2:矩阵的最小多项式怎么求? - Morant的回答 - 知乎
参考13.3:这个矩阵怎么求最小多项式? - 悲伤的阿木木的回答 - 知乎
参考13.4:为什么矩阵的最小多项式为最后一个不变因子 - 百度知道
参考13.5:求极小多项式举例 - CSDN
参考13.6:「管理数学基础」1.5 矩阵理论:方阵的行列式因子、不变因子、初等因子:高等代数中给定一个矩阵求它的不变因子主要就两种方法:化成Smith标准型、求出行列式因子。

知识点14: 几种特殊子空间:

① 不变子空间:TVn上一个线性变换,V1Vn的一个子空间,若xV1,有TxV1,则V1是线性变换T的一个不变子空间。
   不变子空间的一些性质:
      a. 零空间和整个空间都是T的不变子空间,即 T(0)=0T(V)=V
      b. 交集和并集仍是T的不变子空间。即如果U1,U2T的不变子空间,则U1U2U1U2也是T的不变子空间;
      c. 如果UW都是T的不变子空间,则U+W也是T的不变子空间;
      d. 如果UT的不变子空间,则T(U)也是T的不变子空间。这条性质可以推广到Tn(U)仍是T的不变子空间;
      e. 对于每个特征值 λ,其对应的特征子空间是 T 的不变子空间。

② 特征子空间:Vn上一个线性变换T的属于特征值λi的所有特征向量+加零向量构成的子空间,即:

Vλi={xTx=λix,xVn}

   特征子空间的一些性质:
      a. 特征子空间一定是不变子空间,一个线性变换T,其特征值λ对应的特征子空间是T的不变子空间,即其中的向量经T作用后仍在该子空间内。
      b. 不同特征值对应的特征子空间是两两直和的。因为特征向量属于不同特征值对应的特征子空间之间线性无关,故它们的直和构成整个向量空间。
      c. 如果一个线性变换T是对称矩阵,那么其特征子空间是正交的。也就是说,属于不同特征值的特征向量是正交的。
      d. 把特征子空间Vλi的维数也称作对应特征根λi的几何重数,若一个矩阵的几何重数等于代数重数,就称这个矩阵是非亏损的,反之称为亏损的。

参考14.1:不变子空间 - 中文数学Wiki
参考14.2:高等代数中的各种空间 - 柿子君的文章 - 知乎

知识点15: 线性方程组有解:

一个线性方程组仅有零解的充分必要条件是该线性方程组的系数矩阵的行向量(或列向量)线性无关,即矩阵的秩等于未知量的个数。

具体来说,设线性方程组为Ax=b,其中A是一m×n的矩阵,xbn维和m维列向量。则该线性方程组仅有零解的充要条件为rank(A)=n,即A的列向量线性无关。

知识点16: 谱半径的理解

📜 请问矩阵的谱半径该如何理解,谱半径有没有几何意义?

   矩阵的谱半径可以理解为矩阵的所有特征值的绝对值的最大值。具体地,设A是一个n×n的矩阵,它的特征值为λ1,λ2,,λn,则A的谱半径定义为:

ρ(A)=maxi|λi|(i=1,2,,n)

   从几何意义上来看,矩阵的谱半径可以描述线性变换的“最大拉伸率”。设 A 是一个 n 维线性变换,如果对于所有向量 xRn,有 |Ax|K|x|,其中K是一个常数,则称KA的一个上界。而A的谱半径ρ(A)就是所有上界中最小的一个。也就是说,矩阵的谱半径描述了A的最大拉伸率,即所有向量长度的最大变化率。

   需要注意的是,矩阵的谱半径并不一定等于矩阵的模长的最大值。矩阵的模长定义为|A|=max|x|=1|Ax|,它表示在所有长度为1的向量上,A的最大拉伸率。而矩阵的谱半径是所有特征值的绝对值的最大值,因此它只和A的特征值有关,而不是和A的模长有关。

📚 矩阵谱半径有什么应用呢?

   矩阵谱半径在控制理论、信号处理、网络分析、优化等领域都有广泛的应用。

   ① 在控制理论中,矩阵谱半径可以用于判断系统的稳定性。当矩阵的谱半径小于1时,系统是稳定的,否则是不稳定的。

   ② 在信号处理中,矩阵谱半径可以用于信号去噪。通常情况下,信号是由一个稳定的矩阵变换得到的,因此矩阵的谱半径可以用于判断信号的稳定性。如果信号的谱半径较小,可以通过对信号进行矩阵变换,使得信号的谱半径变小,从而实现信号去噪的目的。

   ③ 在网络分析中,矩阵谱半径可以用于衡量网络的中心性。一些重要的网络指标,如中心性和影响力等,可以通过矩阵谱半径来计算。

   ④ 在优化中,矩阵谱半径可以用于判断优化算法的收敛性。如果优化算法收敛,那么矩阵的谱半径应该小于1,否则算法不收敛。因此,可以根据矩阵谱半径的大小来选择合适的优化算法。

📀 谱半径的一些性质:

   ① 矩阵A的2范数又可表示为谱半径的形式:

A2=λmaxλmaxAHAA2=ρ(AHA)=ρ(AAH)

   特别的,若A正规矩阵,则有A2=ρ(A)=maxi|λi|

   ② 设ACn×n,则对Cn×n上的任意矩阵范数都有:

ρ(A)A

   并且ρ(A)A的所有范数的下确界

   ③ 若对Cn×n上的某一矩阵范数MAM<1ρ(A)<1,则IA就是可逆的。

   ④ 对于任意的n阶矩阵A,其谱半径ρ(A)不超过其所有元素的模的最大值,即|ρ(A)||A|

   ⑤ 如果矩阵A是幂零矩阵,即存在正整数k,使得Ak=O,那么ρ(A)=0

   ⑥ 对于任意两个n阶矩阵AB,有ρ(AB)ρ(A)ρ(B)

   ⑦ 对于任意n阶方阵A,其谱半径等于A的转置矩阵AT的谱半径,即ρ(A)=ρ(AT)

   ⑧ 如果A是一个实对称矩阵,那么ρ(A)等于A的模最大的特征值的模,即ρ(A)=|λmax(A)|

   ⑨ 对于任意n阶矩阵A,都有ρ(A)i=1n|ai,i|n,其中ai,i是矩阵A的第i个对角元素。

参考16.1:对范数、矩阵谱半径的通俗化理解 - CSDN
参考16.2:向量与矩阵的范数
参考16.3:「管理数学基础」1.7 矩阵理论:方阵特征值估计、圆盘定理、谱与谱半径

知识点17: 矩阵的常见分解:
  • LU分解
具体内容 备注
定义及形式 对于n阶方阵A,若存在n阶单位下三角矩阵L和n阶上三角形矩阵U,使得A=LU,则称其为矩阵的LU分解,也称为Doolittle分解。 L是单位下三角矩阵,U为非奇异上三角矩阵;

计算方法
Gauss消元法
待定系数法
存在性 矩阵ARn×n存在的充要条件是A的所有顺序主子式都非奇异(行列式非零) 矩阵不一定存在LU分解
唯一性 若矩阵存在LU分解,其分解不是唯一的(因为A=LU=LD1DU=L^U^,注意,考虑此种情况时,L^U^均不是单位上/下三角,但若其中一个是单位上/下三角,则分解是唯一的) 但有如下定理:
当且仅当A的顺序主子式Δk0时,A可以唯一的分解为A=LDU,其中LU分别是单位上和单位下三角,D是对角矩阵,D=diag(d1,d2,,dn),其中dk=ΔkΔk1
应用 可用于求解线性方程组;也可以用于矩阵求逆;



其他说明
说明1:虽然定义是可逆方阵(非奇异矩阵),但是LU分解不但可以应用于方阵也可应用于非方阵,LU分解不但可以用于非奇异矩阵,还可以用于奇异矩阵。 参考16.5
说明2:条件更弱的LU分解定理(选主元LU分解)
在LU分解算法中,称akk(k1)为主元,若akk(k1)=0,则算法无法进行下去;此外若|akk(k1)|值非常小,则因为舍入误差导致结果误差非常大。可通过选主元来解决此问题。选主元需要引入置换矩阵。
选主元LU分解也不是一定存在的;
详细内容参考16.1。
  • QR分解
具体内容 备注
定义及形式 1、若实(复)非奇异矩阵A能够化成正交(酉)矩阵Q与实(复)非奇异上三角矩阵R的乘积,即A=QR
2、设Am×n实(复)矩阵,且其n个列线性无关(列满秩),则A可以分解为Am×n=Qm×nRn×n
3、奇异阵也可以通过Givens、Householder变换法化为QR的形式,但是所化成的上三角矩阵是奇异的。
定义2中,其中Q是实(复)矩阵,且满足QTQ=IQHQ=I(说明Q的列向量两两相互正交),Rn阶非奇异上三角矩阵。



计算方法
1、施密特(Schmidt)正交化方法
2、Givens变换方法
3、Householder变换方法
存在性 实际上任意矩阵都是可以进行QR分解的,但是我们一般考虑非奇异方阵和列满秩的矩阵求解QR分解。




唯一性
QR分解不唯一,但是对于n阶实(复)非奇异方阵,除去相差一个对角元素的模长全等于1的对角矩阵因子D外不考虑,可认为QR分解唯一。


如果A是一个列满秩矩阵,并且R的主对角元都为正数时,QR分解的结果唯一。
证明:
设矩阵A有两个QR分解:A=QR=Q1R1,则有:Q=Q1R1R1=Q1D,其中D=R1R1仍是可逆上三角矩阵,并且容易证明DHD=I,因此D为对角线元素模长为1的对角阵。
因此考虑上D的影响,则Q1=QD1R1=DR
应用 QR分解被广泛应用于线性最小二乘问题的求解和矩阵特征值的计算。
其他说明
  • 满秩分解
具体内容 备注
定义及形式 ACrm×n(r>0),若存在矩阵FCrm×rGCrr×n使得A=FG 式中F为列满秩、G为行满秩,它们的秩:rank(F)=rank(G)=r
计算方法 Hermite标准型(行最简型)方法求解FG(具体参考笔记)
存在性 任何非零矩阵一定存在满秩分解,证明参考:矩阵的分解:满秩分解和奇异值分解-CSDN博客
唯一性 满秩分解不唯一。
证:假设存在r阶可逆方阵D,则A=FG=F(DD1)G=(FD)(D1G)=FG
应用 满秩分解用途很广,尤其是后期的对于广义逆的学习来说非常重要;满秩分解可以用于数据压缩:满秩分解、奇异值分解(SVD)原理总结
其他说明
  • 特征值分解
具体内容 备注
定义及形式 矩阵特征值分解又可称作矩阵的对角化、谱分解,是将方阵分解为由其特征值和特征向量表示的矩阵积的方法。
对于一个秩为m的方阵A,应该存在m个这样的特征值,完备形式为:
A(x1,x2,,xm)=(λ1x1,λ2x2,,λmxm)=(x1,x2,,xm)(λ1000λ2000λm)
上面的式子可以写作AX=XΛA=XΛX1A=XΛXT
从变换的角度理解,从运动变换的角度理解,矩阵乘以向量可以分三步:
首先将这个向量使用特征向量组成的正交基向量进行分解
然后目标向量在每个特征向量方向上的分量分别进行拉伸操作
对所有特征向量方向上的拉伸结果进行合并
计算方法 计算方法相对简单,就是特征值分解,
存在性 不是任意方阵都存在特征值分解。
n阶方阵可以做特征值分解的充要条件是其有 n个线性无关的特征向量。
只要保证有n个线性无关的特征向量即可,方阵不一定需要满秩,例如方阵A=(1111)
唯一性 特征值分解不是唯一的,但所有的特征值分解都会共享相同的特征值。特征向量的选择和缩放可能会不同,从而导致不同的特征向量矩阵和对应的特征值矩阵。
应用
其他说明 一般而言,方阵特征值分解后特征向量组成的矩阵X一般是正交阵。
  • SVD分解
具体内容 备注
定义及形式 对于一个秩为r的矩阵A,必存在m×m的正交阵Un×n的正交阵Vm×n的矩阵Γ,使得
Am×n=Um×mΣm×nVn×nT=Um×m(Dr×rOOO)m×nVn×nT
其中,Dr×r=diag(λ1,λ2,,λr)
ACrm×nAHA的特征值为:
λ1λ2λr>λr+1==λn=0
σi=λi为矩阵A的奇异值。










计算方法
第一步:求出AHAn个特征值λ1,λ2,,λr,λr+1==λn=0(并按照从大到小排列)和对应的标准正交的特征向量v1,v2,,vr,vr+1,,vn
第二步:取标准正交的特征向量构成正交矩阵V=(v1,v2,,vr,vr+1,,vn),取正奇异值,即前r个奇异值,即非零特征值开根号构成D矩阵,Dr×r=diag(λ1,λ2,,λr),添加额外的0组成m×n的矩阵Σm×n=(Dr×rOOO)
第三步:构成前r个标准正交向量u1,u2,,ur,其中ui=1λiAvi,i=1,2,,r
第四步:按照标准正交基扩充的方法,将u1,u2,,ur扩充为m维向量空间Rm的标准正交基u1,u2,,ur,b1,,bmr组成正交矩阵Um×m=u1,u2,,ur,b1,,bmr,请参考链接16.9通过例子来理解扩充基方法
第五步:写出SVD的分解结果即可: Am×n=Um×mΣm×nVn×nT
存在性 任何矩阵都可以进行上面的奇异值分解,它是方阵对角化的推广。
唯一性 一个矩阵的奇异值分解一定存在,但不唯一。
应用 参考:奇异值分解(SVD)有哪些很厉害的应用? - 叶小飞的回答 - 知乎
其他说明
矩阵A的奇异值的个数等于A的列数,A的非零奇异值的个数等于rank(A)

参考17.1:矩阵分解算法 - 博客园
参考17.2:矩阵的几种分解方式 - 加强版 - 二圈妹的文章 - 知乎
参考17.3:【矩阵论】矩阵的各种分解汇总 - ohanlon的文章 - 知乎
参考17.4:常见的几种矩阵分解方式 - bitcarmanlee的文章 - CSDN
参考17.5:非方阵LU分解 - Cliven的文章 - CSDN
参考17.6:矩阵与数值计算(2)——矩阵三角分解LU、PALU、Cholesky三角分解、QR分解 - 乔胤博的文章 - 知乎
参考17.7:【矩阵论】UR(QR) 分解 - 施密特正交化 - ohanlon的文章 - 知乎行满秩矩阵的QR分解
参考17.8:奇异值分解(SVD)的定义、证明、求法(矩阵分解——3. 奇异值分解(SVD)) - Iterator的文章 - 知乎
参考17.9:【矩阵论】矩阵的奇异值分解 - ohanlon的文章 - 知乎
参考17.10:【线性代数】矩阵的特征值分解(对角化、谱分解)- CSDN

知识点18: 齐次/非齐次微分方程组的解:

① 齐次微分方程组的解

对于如下形式的齐次微分方程组:

ddtx(t)=Ax(t)

其中,A=(aij)n×nx(t)=(ξ1(t),ξ2(t),,ξn(t))T

其解空间为:

S={x(t)ddtx(t)=Ax(t)}

有以下2个结论:

  • 矩阵函数etA是可逆的,其n个列向量x1(t),,xn(t)S的一个基,也就是基础解系

  • 若给了初始条件ξ1(0)=γ1,ξ2(0)=γ2,,ξn(0)=γn,记c=(γ1,γ2,,γn)T,则称x(t)=etAc一般解/通解

x(t)=etAc=γ1x1(t)+γ2x2(t)++γnxn(t)

② 非齐次微分方程组的解

对于如下形式的非齐次微分方程组:

ddtx(t)=Ax(t)+b(t)

其中,b(t)=(β1(t),β2(t),,βn(n))T

x(t)是方程一般解/通解x~(t)是方程的一个特解

特解x~(t)的求解一般是通过常数变异法x~(t)=etAc(t)。最终可求得非齐次微分方程组的一个特解为:

x~(t)=etAt0tesAb(s) ds

综上,可得下面2条结论:

  • 非齐次微分方程组的一般解/通解为:

x(t)=etAk+x~(t)=etAk+etAt0tesAb(s) ds

  • 若给定初始条件:x(t0)=x0,则解为:

x(t)=etA(et0Ax0+t0tesAb(s) ds)

其中,k=(κ1,κ2,,κn)T为任意常数向量。

知识点19: 投影:

① 矢量向矢量投影:把矢量x投影到矢量a

Projax=a(a,x)a2=a(a,x)(a,a)=a(a,a)1(a,x)=a(aHa)1aHx

② 矢量向矩阵投影:把矢量x投影到矩阵A的列构成的空间中

ProjAx=A(AHA)1AHx

③ 矩阵向矩阵投影:把矩阵XA的列向量张成的子空间投影

ProjAX=A(AHA)1AHX

④ 矩阵向矩阵补空间投影:把矩阵XA的列向量张成的子空间的正交补空间投影

ProjA X=IA(AHA)1AHX

知识点20: 特征值与秩:

设方阵A阶数为n,特征值个数为k,其中有i重特征值λi,单个λ对应的无关特征向量个数为t,方阵的秩为r

  • 特征值

   ① 特征值个数k(包括重根和复根)与方阵的阶数n相等;

   ② 特征值个数k 所有无关特征向量数之和(因为i重特征值λi最多有i个线性无关的特征向量);

   ③ 特征值个数k与方阵的秩无关。

  • 特征向量

   ① 单个λ对应的无关特征向量个数t与方阵的秩r没有什么直接的关系,它们都小于等于方阵阶数n

  • 方阵的秩:方阵的秩r与它的特征值λi=0的重数i有关

   ① 当方阵A可以相似对角化时(这里自然是包括了方阵A为实对称矩阵的情况),i=nr

因为AΛ, 所以rank(A)=rank(Λ)。此时若rank(A)=rank(Λ)=r,意味着对角阵有r个不为零的特征值,即A也有r个不为零的特征值,进而得到Anr重特征值:λi=0

   ② 当方阵A不可相似对角化时,inr

首先,对于i重特征值λi最多有i个线性无关的特征向量,反过来说,同一特征值λi对应的线性无关的特征向量个数(设为t)t<=i。对于λi=0,有r(0EA)=rank(A)=rank(A)=r,所以,λi的线性无关特征向量个数t=nr,根据上一行的说法就有,λi=0的重数ti ,即inr

🧺 正交变换(正交矩阵)不改变秩、特征值、行列式、迹,另外它不改变向量的长度(保模长性质)

参考20.1:特征值个数,特征向量个数与矩阵的秩之间有什么关系? - 知乎

知识点21: 范德蒙(Vandermonde)矩阵和范德蒙行列式:

🎫 Vandermonde 矩阵具有以下形式:

A=[1x1x12x1m11x2x22x2m11xnxn2xnm1]n×mAT=[111x1x2xnx12x22xn2x1m1x2m1xnm1]m×n

具有如上A或者AT形式的矩阵称为范德蒙(Vandermonde)矩阵。

🏓 n阶Vandermonde矩阵的行列式计算

detAn=1j,in(xixj)

例如:

detA3=|1x1x121x2x221x3x32|=(x2x1)(x3x2)(x3x1)

🍰 范德蒙矩阵的秩

  • mn时,矩阵的秩为m,当且仅当所有的xi各不相等。
  • mn时,矩阵的秩为n,当且仅当至少nxi各不相等。

🏳‍🌈 范德蒙矩阵的应用

可应用于多项式最小二乘法拟合以及多项式插值。

参考资料21.1:范德蒙矩阵、范德蒙行列式 - 小时百科

知识点22: 秩1矩阵

秩为1的矩阵一定能分解成一个行矩阵和列矩阵的乘积:

A=uvT

n阶矩阵Arank(A)=1,则A的特征值一个是A的迹,其余都是0,即:

λ1=tr(A)=i=1naii,λ2=λ3==λn=0

秩1矩阵可对角化的条件:

  • λ1=tr(A)0,则秩1矩阵A可以矩阵对角化;

  • λ1=tr(A)=0,则秩1矩阵A不可以矩阵对角化;

参考22.1:关于秩为1矩阵的重要结论 - 小海考研人的文章 - 知乎
参考22.2:秩1矩阵的性质及其在统计学中的应用 - 文献
参考22.3:为什么秩为1的矩阵可以写成1列乘1行的情形呢? - 知乎



知识点23: 奇异值分解(SVD)
  • 矩阵对角化

矩阵对角化有很多应用:简化计算、解方程等等,但不是所有矩阵都可以对角化的,矩阵可对角化的条件参考本文知识点17_特征值分解矩阵可对角化的充要条件 - 我思故我在的文章 - 知乎。可对角化矩阵例:对称矩阵。

对于一般的m×n矩阵A,有没有类似的操作?

   ① 回忆线性代数的知识:方程Ax=b不一定有解,但是ATAx=ATb一定有解。

   ② 考虑方阵ATAAAT,它们都是半正定矩阵,所以可以对角化而且特征值大于等于0。

方阵ATAAAT可进行对角化:ATA=VΛ1VTAAT=UΛ2UT,也就有:

VTATAV=(AV)T(AV)=Λ1UTAATU=(UT)A(ATU)=Λ2

💦 猜测:找到正交矩阵UV使得m×n矩阵UTAV可以写成Σ?其中Σ是某种意义上的“对角”矩阵。

  • 奇异值

对于一个m×n的实矩阵A,则ATA是一个n×n的对称矩阵,{q1,q2,,qn}是由ATA的特征向量构成的Rn中的正交归一基,对应的实特征值为{λ1,λ2,,λn},假设λ1λ2λn0,则矩阵A的奇异值定义ATA的特征值的平方根:

σ1=λi

引入如下两个不加证明的定理:

定理1:对于一个m×n的矩阵A,其秩满足:rank(A)=rank(AT)=rank(AAT)=rank(ATA)

定理2:对于一个m×n的实矩阵A,其非0奇异值σ1σ2σr>0的个数r等于矩阵A的秩,r=rank(A)

  • 奇异值分解

广义对角矩阵m×n矩阵Σ

Σ=[D000]

其中,D是一个r×r的对角矩阵,Σ所有大于r的行和列的元素均为0。

定理(SVD)m×n矩阵A的秩为r。则存在一个形状如上的m×n矩阵ΣD的对角元是A的前r个(非零)的奇异值,m×m的正交矩阵Un×n的正交矩阵V,而且以上矩阵满足关系:

A=UΣVT

推论1{u1,u2,,um}是矩阵AAT的特征向量,{v1,v2,,vn}是矩阵ATA的特征向量,即UV分别是将AATATA对角化的正交矩阵。

推论2:
   ① {v1,v2,,vr}C(AT)的正交归一基,Vr=(v1,v2,,vr)
   ② {vr+1,vr+2,,vn}N(A)的正交归一基,Vnr=(vr+1,vr+2,,vn)
   ③ {u1,u2,,ur}C(A)的正交归一基,Ur=(u1,u2,,ur)
   ④ {ur+1,ur+2,,um}N(AT)的正交归一基,Umr=(ur+1,ur+2,,um)

推论3:AATATA的非0特征值都相同。

  • 奇异值分解的应用

数据压缩:假设rank(A)<min(m,n),则:

A=(Ur,Umr)[D000][VrTVnrT]=UrDVrT=i=1rσiuiviT

这意味着可以只用UrDVr三个子矩阵的总共r×(m+1+n)个分量完全决定A

例如:图像压缩
先考虑灰度图像,可以用一个m×n的矩阵描述,每个元素是该像素的灰度(0-255之间的整数,0是黑,255是白),如果r×(m+1+n)<mn,我们可以只储存或者传输UrDVr(无损)。例如矩阵秩为1的时候我们只需要储存一个行向量和一个列向量,甚至可以把很小的奇异值当成零忽略,进一步压缩图片(有损)。

矩阵伪逆:由于m×n的矩阵A=UΣVT,则其伪逆可直接求得:

A+=VΣ+UT=V(D1000)UT=k=1rσk1vkukT

   ① A+A=VΣ+UTUΣVT=V(Ir×r000)VT是投影到C(AT)的矩阵。

   ② AA+=UΣVTVΣ+UT=U(Ir×r000)UT是投影到C(A)的矩阵。

矩阵伪逆可以用来求解最小二乘问题:最小二乘ATAx=ATb的解为x+=A+b

矩阵的模:A=maxAxx=σ1(关于矩阵模的详细定义和性质请参考链接23.1)。

参考23.1:奇异值分解 - 颜文斌 - 清华大学(在线pdf文件)
参考23.2:矩阵之芯 SVD: 奇异值分解及其几何解释 - mathinside的文章
参考23.3:矩阵的奇异值分解与广义逆矩阵及其应用 - 知乎一文学会,线性回归超全总结,让你成为高手! - 知乎:这两篇文章内容相似,简要提及了SVD的自由度问题。



知识点24: 主成分分析(PCA)
  • 统计知识

假设一组数据来源于n个样本{μ1,μ2,,μn},其平均值μ¯=i=1nμin,标准差σ=i=1n(μiμ¯)n1

标准差有n1个自由度,因为平均值也是一个自由度;标准差越大,数据越分散。

假设n个样本,每个样本i我们得到两个数据μiρi(例所有同学的期中考试成绩μi和平时作业成绩ρi,则协方差可定义为:cov(μ,ρ)=i=1n(μiμ¯)(ρiρ¯)n1

协方差描述了μρ之间的相关性 —— (μ,ρ)>0正相关,(μ,ρ)<0负相关。

将数据存在一个m×n的矩阵A0中,每一行对应一种数据,每一列代表一个样本,将中心化之后的数据记为A(由A0的每一个元素减去它所在行的平均值得到):

Aij=(A0)ijk=1n(A0)ikn

则协方差矩阵(covariance matrix)可定义为:

S=AATn1

样本方差:Sii=σi2,第i种数据的标准差平方。Sij:第i种和第j种数据的协方差;
总方差(totalvariance):trS=iSii=iσi2

  • 主成分分析(PCA)

一般来说数据i和数据j可能会有相关,也就是说它们之间的协方差Sij不等于0,主成分分析就是要找到原有数据的一系列线性组合作为新的数据,新数据之间的协方差为0。

A的奇异值分解为A=UΣVT,定义新的数据矩阵B

B=UTA=ΣVT

此时,计算可得新的数据矩阵B的协方差为:

BBTn1=ΣVTVΣTn1=ΣΣTn1

因为ΣΣT是对角矩阵,因此B的数据之间的协方差为0,同时可得“新数据的方差 = A的奇异值平方/(n-1)”。

  • PCA的简要分析

原数据矩阵:A=(a1,a2,,an)

i列向量ai对应样本i的数据;

新数据矩阵:B=(b1,b2,,bn)=UTA=(UTa1,UTa2,,UTan)

B的第i列向量bi对应样本i的数据,这些数据由ai的分量决定:bi=UTai

因为U是正交矩阵UUT=UTU=Iai=Ub

   ① A的非零奇异值的数量是A的秩rr+1m的新数据的方差是0;

   ② 所有的数据都在Rmmr个平面j=1mUjixj=0,i=r+1,,m的交集上;

   ③ 所有数据点分布在一个r维的空间中,这个空间由{u1,u2,,ur}张成(是C(A)的正交归一基);

   ④ 如果第i个奇异值很接近0,说明数据很靠近平面j=1mUjixj=0,i=r+1,,m

主成分:{u1,u2,,ur},其中u1是所有数据变化最大的方向(对应的方差最大),u3次之……主成分是描述整组数据最重要的线性组合,而且互相独立;由于rm,所以虽然每个样本测了m个数据,里面只有r个是独立的。

{v1,v2,,vr}都是n维向量,每个分量对应一个样本:
   第一主成分的数值:u1TA=u1T(k=1rσkuiviT)=σ1v1T
   σ1v1的第i个分量是第i个样本的第一主成分的值,同理σjvj的第i个分量是第i个样本的第j个主成分的值;
   vj是单位向量,所以每个分量的绝对值小于等于1,数据的分散程度取决于σj



知识点25: Toeplitz矩阵的范德蒙德分解:

对于任意的秩满足rN的半正定Toeplitz矩阵T(u)CN×N,则有如下的r原子范德蒙德分解:

T(u)=k=1rpka(fk)aH(fk)=A(f)diag(p)AH(f)

其中,A(f)=[a(f1),a(f2),,a(fr)]。当r<N时,此分解是唯一的。

参考25.1:压缩感知的尽头: 原子范数最小化 - CSDN



知识点26: Kronecker积和矩阵向量化(拉直)Vec的相关性质:

Kronecker积的相关定理:

定理1:设矩阵ACm×n,BCp×q,则有rank(AB)=rank(A)rank(B)

定理2:设矩阵ACm×m,BCn×n,则有Tr(AB)=Tr(A)Tr(B)

定理3:设矩阵ACm×m,BCn×n,则有det(AB)=det(A)ndet(B)m

定理4:若A0,B0,则有AB0

矩阵的向量化Vec:

矩阵的Vec(A),一般是按列拉直(也可按照行拉直,根据具体情况分析),将矩阵A表示为排列成一个mn×1的列向量,即:

Vec(A)=[a11,a21,,am1,,a1n,a2n,,amn]T

定理5:Vec(xyT)=yxVec(Ab)=Vec(A)b

假定A,BRm×n,则这两个矩阵乘积的迹具有如下性质:

定理6:Tr(ATB)=Vec(A)TVec(B)Tr(ABC)=Vec(A)T(IpB)Vec(C)Tr(ABCD)=Vec(DT)T(CTA)Vec(B)=Vec(DT)T(ACT)Vec(BT)

定理7:设矩阵ACm×n,XCn×p,BCp×q,则有Vec(AXB)=(ABT)Vec(X)

推论7:设矩阵ACm×m,XCm×n,BCn×n,则有Vec(AX)=(AIn)Vec(X)Vec(XB)=(ImBT)Vec(X)Vec(AX+XB)=(AIn+ImBT)Vec(X)

参考26.1:矩阵Kronecker乘积性质与应用 - 豆丁
参考26.2:Kronecker积及矩阵论进阶 - 阿里多多的西瓜的文章 - 知乎第一弹第二弹第三弹



知识点27: 矩阵的特征值和奇异值:

设矩阵ARn×n,其特征值为(λ1,λ2,,λn)

矩阵AAT的特征值为(μ1,μ2,,μn)

矩阵A的奇异值为(σ1,σ2,,σn)=(μ1,μ2,,μn)



知识点28: 矩阵迹的相关定义与性质
  • 矩阵迹的定义

矩阵的迹 :就是矩阵的主对角线上所有元素的和,矩阵An×n的迹和AB的迹分别为:

Tr(A)=i=1naiiTr(AB)=i=1mj=1naijbji

矩阵的F范数为||A||F=i=1mj=1n|aij|2,F范数可以用矩阵的迹来表示:

||A||F=Tr(AAT)

  • 矩阵迹的运算和性质

    • 性质1:循环相乘迹不变 —— Tr(ABCD=Tr(DABC=Tr(CDAB=Tr(BCDA)
    • 性质2:若a为一个实数,则有 —— Tr(aA)=aTr(A)
    • 性质3:矩阵的迹等于矩阵特征值的和 —— 设矩阵A的特征值为(λ1,,λn),则Tr(A)=i=1naii=i=1nλi
  • 矩阵迹的求导公式

参考28.1:机器学习中常用的矩阵公式 - CSDN
参考28.2:关于矩阵迹的相关性质 - zzduang的文章 - 知乎



知识点29: 矩阵核范数的定义:

矩阵A的核范数记为||A||,具体定义为:

||A||=i=1nλi

其中,λi为矩阵A的奇异值,也即,矩阵A核范数为奇异值之和

线性代数中,向量空间的子空间的“和”与“直和”,这两个概念的区别是什么? - 知乎
https://www.zhihu.com/question/38577398



知识点30: 半正定矩阵

半正定矩阵是数学中的一个经典概念,是指对于任意非零向量x,都有xTAx0。在实际应用中,半正定矩阵经常出现在最优化、高维数据分析、微分方程等领域中。

介绍2种常见的半正定矩阵分解方法,它们分别是Cholesky分解、特征值分解。

  • Cholesky分解
    在Cholesky分解中,将半正定矩阵A分解为A=RTR的形式,其中R是一个上三角矩阵。

  • 特征值分解
    在特征值分解中,将半正定矩阵A分解为A=VΛVT的形式,其中VA的特征向量矩阵,ΛA的特征值矩阵。具体而言,特征向量是指一个非零向量在线性变换下仍保持在同一方向上的向量,而特征值是指特征向量在该变换下的伸缩比率。

参考30.1:半正定矩阵性质研究论文 - 北华大学本科毕设 - 人人文库
参考30.2:第3章 矩阵的分解 - PPT - 人人文库
参考30.3:半正定矩阵的性质 - 豆丁文档:同时介绍了hadamard积AB



知识点31: Schur补的性质

PS:这部分不少Schur补的基础知识,而是根据Schur补得到的一些性质或者推论。

给定任意的Hermition矩阵M=[ABBHC],则以下三个结论是等价的:

  • M0,即矩阵M半正定;
  • A0(IAA)B=0CBHAB0
  • C0(ICC)BH=0ABCBH0

参考31.1:The Schur Complement and Symmetric Positive Semidefinite (and Definite) Matrices

一些矩阵论的系统笔记或者博客:

【1】 高等代数葵花宝典
【2】 线性代数与矩阵论 - 个人博客 - 老齐

posted @   博客侦探  阅读(506)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示