线性代数_Part3
25 正交向量与正交子空间
进入第三单元学习,主题是正定矩阵及其应用。对称矩阵是其中最重要的矩阵之一,对称矩阵的特征值为实数并且拥有一套正交特征向量。正定矩阵的性质则比对称矩阵更好更好。
25.1 实对称矩阵 Symmetric matrices
包含特殊性质的矩阵,例如Markov矩阵,其特征值和特征向量往往拥有一定特性。对于对称矩阵来说有两个待证明性质:
- 对称矩阵的特征值是实数
- 有完全正交的特征向量
- 如果特征值互不相同,那么每个特征值的特征向量是在单独的一条线上,那些线是垂直正交的;如果特征值重复,那就有一整个平面的特征向量,在那个平面上可以选择垂直的向量;
- 可以将这组特征向量转化为标准正交向量。
例如:单位矩阵,单位矩阵是对称矩阵,特征值都为1,每一个向量都是特征向量。
如果
而对于对称矩阵,由于其特征向量是正交的,所以有:
上式
- 数学上叫这个为谱定理,谱就是指矩阵的特征值集合,一些纯东西组合。
- 力学上叫这个为主轴定理,从几何图形上看,它意味着如果给定某种材料,在合适的轴上来看,它就变成对角化的,方向就不会重复。
问题1:为什么实对称矩阵的特征值是实数
先假设特征值中存在复数。矩阵
上式说明实对称矩阵有特征值
将上式从右边乘
再对上述长式子中前面部分
上面两个式子一对比可知:等式左侧相同,因此右端也相等:
所以有
注意:上面推导的最后一步要保证
不等于0。这里我们简单带入数据可知 不等于0且为正数(一个向量为复向量,那么它乘以其共轭复向量得到实部的平方加上虚部的平方,为其长度平方)。
问题1延伸:性质好矩阵
本节中性质好矩阵是指"特征值为实数"、"特征向量正交垂直"。
那么什么矩阵是好的呢?
- 如果一个矩阵是实数矩阵,那么“性质好”的矩阵就是“实对称矩阵”,
- 如果一个矩阵是复数矩阵,那么“性质好”的矩阵就是“复对称矩阵”,
- 因为可以类比实矩阵的推导过程进行推导,这时可以发现对复数矩阵来说,只有当
成立时才可以推导出该复数矩阵"特征值为实数"。也就是说假设矩阵原来是复数矩阵,对称的等价条件是 ; - 这里就是想说:若给定一复矩阵,想让它和实对称矩阵有一样的性质,那该复矩阵就需要满足
。
- 因为可以类比实矩阵的推导过程进行推导,这时可以发现对复数矩阵来说,只有当
对于对称矩阵,
矩阵
当确认矩阵特征值为实数后,下一个要考虑的问题就是它是正还是负数,因为这影响着微分方程中体系的稳定与否。但是对于大型矩阵通过计算
注意:课程中老师并没有说“主元正负个数等于特征值正负个数”这个性质是如何证明的,可以不做深究。
但是简要证明可以参考:https://zhuanlan.zhihu.com/p/46023045
(对于对称阵主元与特征值符号相匹配这件事情,通常是用合同矩阵的惯性定理加以证明)
矩阵
25.2 正定矩阵 Positive definite matrices
正定矩阵是对称阵的一个子类,如果一个实对称矩阵的特征值都是正数,那么它是正定矩阵。其性质比普通对称阵更好一点,即其性质为:
- ① 特征值都为正数的对称矩阵,它的主元也均为正数;
- ② 正定矩阵的所有子行列式都是正数。
正定矩阵将方阵特征值,主元,行列式融为一体。
若将行列式作为正定的判据,则要求
本讲的内容将之前教授的主元、行列式和特征值的概念结合在了一起,对于正定矩阵这些都是正的,当完全掌握了它们的性质后会推广到非对称矩阵,甚至非方阵。
26 复数矩阵和快速傅里叶变换
实矩阵也可能有复特征值,因此无法避免在矩阵运算中碰到复数,本讲学习处理复数矩阵和复向量。
最重要的复矩阵是傅里叶矩阵,它用于傅里叶变换。而对于大数据处理快速傅里叶变换(FFT)显得更为重要,它将矩阵乘法的运算次数从
26.1 复向量 Complex vectors
对于给定的复向量
因此对于复向量而言,需要定义其模长为:
将复矩阵的“共轭转置”记为
与之相似,内积的定义也变为:
26.2 复矩阵 Complex matrices
上一讲中讲到了对于复矩阵
例如矩阵
此处向量标准正交的意思是:
用
这个复空间的正交矩阵
酉矩阵是实数上的正交矩阵在复数的推广。
26.3 酉矩阵的性质
- 性质1:
; - 性质2:酉矩阵亦必定可逆,且逆矩阵等于其共轭转置:
; - 性质3:酉矩阵的所有特征值,都是绝对值等于1的复数:
; - 性质4:由性质3可知,酉矩阵行列式的绝对值也是 1:
; - 性质5:酉矩阵不会改变两个复向量
和 的点积: 。
26.3 傅里叶变换Fourier transform
傅里叶矩阵:最著名的“酉矩阵”。
傅里叶级数是将周期函数或者信号变换为不同频率的三角函数的和函数。
在电子工程或者计算机科学中,矩阵的行和列从第0行和第0列开始计数,最后到第
也就是
矩阵的列向量正交。的方次分布在复平面的单位元上,只是幅角不同。当
从矩阵可以得到一个四点(离散的)傅里叶变换,它的逆矩阵就是反傅里叶变换。逆矩阵很容易计算,因为傅里叶矩阵列向量正交。实际上这个矩阵可以分解成一系列稀疏矩阵,并且它们的逆矩阵都很容易得到。
计算可知列向量的模不是1,矩阵除以2之后,向量标准正交:
它的逆矩阵就是共轭转置。 一个很好的性质:可以把傅里叶矩阵分解为一些列“稀疏矩阵”。
26.4 快速傅里叶变换 Fast Fourier transform
对于64阶傅里叶矩阵
其中
计算
27 正定矩阵和最小值
本讲学习正定矩阵,这部分内容将本课程之前的知识点:主元、行列式、特征值以及方程的稳定性融为一体。本讲介绍如何判定一个矩阵是否正定矩阵,以及当一个矩阵是正定矩阵时,其内涵和矩阵操作的效果有何特别之处。此外还有正定矩阵与几何的关系:椭圆和正定有关,双曲线与正定无关。
27.1 正定矩阵 Positive definite matrices
给定一个
- 特征值:所有特征值均大于0——
, ; - 行列式:所有子行列式均大于0——
, ; - 主元:主元要均大于0——
, ; - 表达式 :
——通常这就是正定的定义,而前三条是用来验证正定性的条件。
给定矩阵
- 当
时:
矩阵
再观察
之前讨论得都是线性方程
在本例的半正定矩阵中,当
- 当
时:
矩阵变为
- 当
时:
矩阵变为
其二次型

当年上课时候老师讲双曲面的鞍点,画的图不好,有个篮球队的哥们理解不了,于是下了课跑去问老师,老师指着他的热身篮球裤说,就你这种裤腿两侧能撕开的篮球裤,全部打开,拎起来,裤裆地方就是鞍点……算了,反正GS画图真心不行,看看Lay的吧:
![]()
微积分中判定最小值点的判据【海森矩阵(Hessian Matrix)?】:
- 一阶导数等于零:
; - 二阶导数为正:
。
线性代数中判据为二阶导数矩阵正定。
对于二次型我们可以用配方的办法来验证其是否具有最小值:
配方使得
对于
配方法其实就是消元:

主元就是平方项系数,
PS:虽然知道配方和消元数字上是的对上的,但我还是不太明白消元和配方过程上有啥联系……
消元和配方都是在去耦合吧,调配成最简略的关系
二阶导数的矩阵记为
3阶矩阵
主元是
PS:这是G. Strang最爱的矩阵之一,可以用来把二阶微分方程变成离散问题,因为它每一行都是差分方程
。
其二次型为:
是一四维图像,三个维度
27.2 小说明
对于三条判据可以判定正定:
- 判据1:所有特征值大于0
对称矩阵
代入得:
当特征值都大于零且
- 判据2:所有子行列式大于0
记
若矩阵
28 相似矩阵和若尔当标准型
本讲介绍相似矩阵,这些内容以及奇异值分解是线性代数最核心的概念。
Strang 老师说了, Jordan标准型不再是线性代数的核心,现代线性代数尤其是AI也不怎么用到他,所以此节略去Jordan型的内容。这一讲重点讲解相似矩阵。
28.1 正定矩阵
若矩阵
正定矩阵来自于最小二乘问题。有大量的实际问题用到了长方形矩阵,而最小二乘问题中用到了长方形矩阵的积
正定矩阵
如果
当且仅当
28.2 相似矩阵 Similar matrices
28.2.1 特征值互不相同 Distinct eigenvalues
若矩阵
例:
相似矩阵最重要的特性是:相似矩阵具有相同的特征值。事实上,所有特征值为3和1的二阶矩阵都是
证明:矩阵
矩阵
即矩阵
因此,相似矩阵具有相同的特征值,并且线性无关的特征向量的个数相同,但是特征向量往往不同。如果矩阵
28.2.2 重特征值 Repeated eigenvalues
如果矩阵有重特征值,则可能无法进行对角化。
例:二阶矩阵有重特征值
- 第一类:只与自己相似——
这个系列的相似矩阵仅包含其自身。
- 第二类:包含其它所有的重特征值为4的矩阵,其中最简洁的是 ——
元素1的位置换上其它数值仍然是相似矩阵。这个最优形式称为若尔当(Jordan form)标准型。有了这个理论,就可以处理不可对角化的矩阵,完成近似的“对角化”转化为若尔当标准型进行处理。
与
它们都不能对角化(因为若可以对角化则按照特征值可知结果为
28.2.3 若尔当标准型 Jordan form
更复杂的情况,一个四阶矩阵具有重特征值0:
矩阵
矩阵
但矩阵
若尔当块形如:
对角线上为重特征值
两个矩阵具有相同的特征值和特征向量个数,但是其若尔当块的尺寸不同,两者也并不是相似矩阵。如前述矩阵
若尔当理论:任意
说到了
和最小二乘问题就要解释一下G.Strang举的曲线拟合的例子,都是线性公式 ,但实际上最小二乘法也处理非线性方程,因为这里所谓的非线性是对 而言,而只要对于所求的参数是线性方程就可以。比如下面的例子中 的方幂组成的矩阵 只是一个系数矩阵,对于所求的参数 这仍是个线性方程组。


- 相似矩阵拥有相同的特征值,但是特向量一般不相等(如果特征向量也相等那估计就是同一个矩阵了);
- 如果两个矩阵拥有n个相同的特征值,那么他们必然相似于某个对角矩阵。
29 奇异值分解SVD

29.1 简介
本讲介绍奇异值分解(Singular value decomposition),简称SVD。这是矩阵最终也是最好的分解,任意矩阵可分解为
如果矩阵
29.2 对矩阵进行SVD分解
可将矩阵

找出矩阵
- 问题的核心就是找到行空间中一组特殊的正交基:
如果加入零空间的部分,等式就变为
-
选取的行空间的一组基向量为:
; -
零空间对应的正交基
,经过线性变换得到 ,对应矩阵 中对角线最后的特征值 。
在等式
现在的问题就是怎么找到符合要求的向量
为了得到这两个正交矩阵,考虑首先解决其中的一个,在等式
注意到
注意:上述求
或者 即——两侧分别乘上等式 的方法只能用于 或者 求解某一个,不能将 和 都用这种方法求解,这是因为确定特征向量的过程中,特征向量反向仍然符合要求,通过现在的方法无法确认向量的符号,但是一旦我们确认的 方向之后, 的方向也就随之确定,将 代入 计算 可以避免这种问题。 和 之间的符号联系在进行 的计算时被切断了,而用 计算可以避免此问题。 我们注意到,如果
的一个向量反向, 中的两个向量仍然是正交向量,且此时可以完成奇异值分解,这是因为在奇异值分解的过程中,一旦确认了 中向量的方向之后, 中向量的方向也一起被限定了,而在本例中,我们用一种和 无关的方式求得了 ,而这种方法并不一定总是有效,需要尝试改变向量的方向。通过将 代入 求得 ,可以避免这个问题。
29.3 小结语
做奇异值分解就是在矩阵的四个子空间中寻找到合适的基:
为行空间的标准正交基; 为列空间的标准正交基; 为零空间的标准正交基; 为左零空间的标准正交基。
奇异值分解在最小二乘法问题中有重要应用,因为在实际问题中常碰到矩阵
不是列满秩的状态,因此 不可逆,无法用之前的方法求最优解。即使是列满秩的情况当矩阵是超大型矩阵时, 的计算量太大,用奇异值分解的办法会降低计算量。

图为G.Strang给出的二阶方阵SVD的几何意义
关于该图的解释、奇异阵的意义、以及奇异阵为什么能丢掉请看一下链接:
【SVD的数学涵义及其应用实例 - 钱默吟的文章 - 知乎 https://zhuanlan.zhihu.com/p/57803955 】
【奇异值的物理意义是什么? - 知乎 https://www.zhihu.com/question/22237507 】
【为什么PCA中奇异值分解(SVD)和特征分解可以降低数据维度 https://blog.csdn.net/qq_41987033/article/details/81211574】
30 线性变换及对应矩阵
本讲介绍线性变换。在传统的线代课程中,线性变换会出现在的比矩阵还要早的位置,实际上可以在脱离坐标和具体数值的情况下讨论线性变换。但是面对科学计算的课题,还是要回到坐标上来。每个线性变换都对应于一个矩阵,矩阵概念的背后就是线性变换的概念。
无论是“线性变换”还是“矩阵”,对于初学者来说都是陌生而且突兀的概念。矩阵看起来直观,但是其运算规则总让人摸不着头脑;线性变换的概念显得抽象一些,但其实也可以描述得很朴素。G.Strang是从矩阵的概念出发,往求解线性方程组的方向引导大家,他最成功的地方是引入了列图像以及矩阵乘法的行操作、列操作,将矩阵运算变得不那么“没头没脑”。而之前推荐过的《线性代数应该这样学》是从线性变换的角度出发,用朴素的描述在更高的抽象层面讨论,很多原理与法则就变得比较简洁。个人认为两者都优于从行列式出发进入线性代数的路线。在《理解矩阵》中,作者写到矩阵的背后就是线性变换,相似矩阵描述的实际上是同一种线性变换。G.Strang说理解线性变换的本质就是找到它背后的矩阵。这实际上是一个意思,只是出发点和看问题的角度不同。当具体的矩阵和抽象的线性变换在大脑中合二为一的时候,才是对线代最本质的理解。 线性变换和矩阵的关系还可以参考以下课程,在2D空间中这个关系更容易描述:
30.1 几个小例子
- 正例1:投影 Projection
抛开矩阵,从线性变换的概念来讨论“投影”。通过线性变换使得平面内的一个向量变为平面内的另一个向量,这种变换关系通常称之为“映射”(mapping)。
线性代数只讨论线性变换,而线性变换符合如下规则:
对于任意向量
将两者结合就得到:
- 正例2:旋转45度 Rotation by 45
这个变换
- 反例1:平面平移 Shift whole plane
沿着某方向
- 反例2:求长度
这个变换,输入一个三维向量,得到一个数值(或者说一维向量),即
30.2 线性变换
对二维平面的图像做线性变换的操作示意图。

矩阵
整个平面可以通过矩阵的乘法完成变换。
例如,对上图的房子图像施加矩阵
理解线性变换的本质就是确定它背后的矩阵。
例:对某一线性变换
30.3 描述线性变换 Describing T(v)
在平面内,如果我们已经了解两个线性无关的向量
线性变换与坐标无关,而矩阵是与坐标有关的。选定一组基,则对于一个向量而言
如果用矩阵
- 例:投影
将二维平面内的向量投影到一条直线,选择输入空间基向量为
因此这个线性变换的矩阵就是
而如果我们以标准坐标为基,即
30.4 如何确定矩阵A Rule to find A
矩阵
这样矩阵
例如:
- 介绍一个特别的线性变换——求导,
- 输入:
,基: - 输出:
,基:
- 输入:
这是一个
矩阵
更普遍的来讲,矩阵的逆矩阵就是线性变换的逆变换,矩阵的乘积就是线性变换的乘积,矩阵乘法源自于线性变换。
31 基变换和图像压缩
本讲介绍基变换。选择合适的基向量会给计算制造便利。基变换的一个重要应用就是压缩,图像、影像、音频和其它一些数据都会因为基变换而得到更高效的压缩储存。本讲的主题仍旧是线性变换和矩阵的关联。
31.1 图像压缩 Compression of images
本讲涉及的压缩过程是有损压缩。例如一幅像素是
图像的标准压缩方式为JPEG(联合图像专家组 Joint Photographic Experts Group)。图像压缩的本质就是基变换。
压缩前图像采用的基向量是标准基。但是在图像中离得很近的区域,颜色是非常接近的,比如教学视频中黑板的一个区域,这些区域像素的灰度值很接近,但是用标准基来存储并没有利用上这一特点,这就给了我们压缩的空间。
标准基就是:
而显然对于灰度很接近的情况(即一幅图像的灰度基本都是一个值),
- 傅里叶基 Fourier basis
在JPEG中,将
以

傅里叶基(Fourier basis)就是之前讲过的傅里叶矩阵的列向量,每个元素为复数的幂。在8x8区块中有64个系数,64个基向量,在这个64维空间中做基变换。
首先对输入的信号
视频文件可以视为图像的序列,一幅一幅进行图像压缩即可。但这样做没有利用好视频的性质,因为视频是连续的,一幅图像和下一幅图像非常接近,因此可以存储一幅基础图像,随后只存储下一幅图像对它的修正部分。
- 小波 Wavelets
下面介绍另一组和傅里叶竞争的基向量——小波。
以
这个只是一个小波选择,还有很多更精细的选择,这一组基中有太多从+1跳转到-1的变化。线性代数要做的基变换,就是将标准基下的向量
好的基向量组要求:第一,可以快速求逆矩阵,例如快速傅里叶变换,这里也存在快速小波变换,因为小波矩阵列向量正交,因此可以转置得到逆矩阵;第二,要少量基向量就可以近似信号,可压缩的比例就比较高。
31.2 基变换 Change of basis
- 变换矩阵
已知一个线性变换
复习一下线性变换的内容:
矩阵
如果我们使用的基向量就是特征向量
之前我在线性变换和基变换这两讲后面留了很多具体文字,希望帮助大家理解和区分这些概念,但是有的小伙伴貌似反而被误导,所以我把另一门课程的几何描述放在这里,希望大家看了之后可以完全明白,基变换是在同一个空间中,改变对一个东西的描述方式而已。
31.3 线性变换与基变换的区别与联系
我们可以将基变换理解为特殊的线性变换,因为基变换其实是可逆线性变换,也就是说,始终是可逆矩阵。
- 线性变换:
将一个向量变换为另一个向量,是在同一个坐标系(基向量)下的两个不同向量,其中矩阵的列可以看为标准基变换后的基,从这个变换中我们能看出这个矩阵对应什么变换。
- 基变换:
基变换在变换前后描述的都是一个向量,它表示一个向量在原来的基下的表示(系数)变换为另一组基下的表示(系数)。其中基变换矩阵的列表示原来的基在新的基下的坐标。
。但是变换前的向量是在原来的基下的表示,变换后的向量的表示在新的基下的表示
线性代数的本质09 基变换 - 三少爷的键的文章 - 知乎 https://zhuanlan.zhihu.com/p/110975625
32 第三部分小结
主要内容
- 特征值和特征向量
; - 微分方程
和矩阵指数形式 ; - 对称矩阵
的特征值永远为实数,总有足够的特征向量实现矩阵的对角化 ; - 正定矩阵;
- 相似矩阵
,两矩阵具有相同的特征值,但是特征向量不同,矩阵的乘方形式很接近 ; - 奇异值分解SVD
。
几个知识点:
矩阵
对称阵、反对称阵、正交阵都满足上面条件。
投影矩阵的特征值等于0或者1,因为
例题参考:https://zhuanlan.zhihu.com/p/46124814
33 左右逆和伪逆
本节主要介绍左右逆矩阵和伪逆矩阵。
33.1 两侧逆矩阵 2-sided inverse
矩阵
33.1.1 左逆矩阵 Left inverse
现在我们考虑一个列满秩的矩阵
矩阵
33.1.2 右逆矩阵 Right inverse
现在我们考虑一个行满秩的矩阵
矩阵
通常情况下右乘左逆矩阵得不到单位阵,
同样的,左乘右逆矩阵得到的是
33.2 伪逆矩阵Pseudoinverse
33.2.1 什么是矩阵的伪逆
可逆矩阵的零空间和左零空间只有零向量。列满秩的矩阵的零空间只有零向量,行满秩的矩阵的左零空间只有零向量。但对于不满秩的矩阵(
因为逆矩阵的作用可以看作是原矩阵的逆操作,但是矩阵
对其零空间中向量操作后变为 ,这时没有逆操作能够恢复这一过程,所以带有零空间就不能取逆矩阵。
观察不满秩矩阵

问题的关键就是一一对应,有如下定理:
- 对于矩阵行空间中的向量
,其通过矩阵 映射到列空间得到的向量 。
上述定理说明了, 行空间中的向量可以通过
其中
实际上
证明:若行空间中存在向量
统计学家非常需要伪逆矩阵,因为他们要做很多最小二乘法进行线性回归的问题。如果矩阵不满秩,则矩阵
33.2.2 伪逆的求解
我们从SVD开始
求伪逆矩阵

矩阵右乘伪逆矩阵得到
而矩阵A的伪逆矩阵为
逆矩阵满足四个性质:
- 性质1:
- 性质2:
- 性质3:
- 性质4:
注意:
得到的并不是形如 这种对角线上只有1和0的对角阵,所得结果是 行空间的投影矩阵。
例如,通过奇异值分解计算可以得到 。而 。
参考链接:MIT—线性代数笔记33 左右逆和伪逆 - 三少爷的键的文章 - 知乎
参考链接:MIT 线性代数 Linear Algebra 32:左逆,右逆,伪逆
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!