线性代数及其应用 第五章

第 5 章 特征值与特征向量

本章的目的是剖析线性变换 AAx 的作用,把它分解为容易理解的元素。出现矩阵均为方阵。

5.1 特征向量与特征值

定义 An×n 矩阵,x 为非零向量,若存在数 λ 使 Ax=λx 有非平凡解 x,则称 λA 的特征值,x 称为对应于 λ 的特征向量。

验证 x 是否为 A 的特征向量是简单的。若要验证 λ 是否为 A 的特征值,只需求方程 Ax=λx 是否有非平凡解。于是 (AλI)x=0,观察 AλI 的各列是否线性相关即可。如果是的话,解这个方程就能得出所有 λ 对应的特征向量。

方程 (AλI)x=0 的解集就是矩阵 AλI 的零空间,它是 Rn 的子空间,称为 A 对应于 λ特征空间。特征空间由零向量和所有对应于 λ 的特征向量组成。

定理 1

三角形矩阵的主对角线的元素是其特征值。

假设 A3×3 上三角形矩阵,则

AλI=[a11λa12a130a22λa2300a33λ]

当方程 (AλI)x=0 存在非平凡解,主对角线元素至少有一个为零,当 λa11,a22,a33 满足条件,它们就是 A 的特征值。A 是下三角形矩阵是同理。得证。

0A 的特征值当且仅当 A 不可逆,也就是 Ax=0x=0 有非平凡解。

定理 2

λ1,λ2,,λrn×n 矩阵 A 相异的特征值,v1,v2,,vr 是与 λ1,λ2,,λr 对应的特征向量,那么向量集合 {v1,v2,,vr} 线性无关。

反证法。假设 {v1,v2,,vr} 线性相关。v1 非零,令 p 是最小的满足 vp+1 是前面向量的线性组合的下标。即存在 c1,c2,,cp 满足

c1v1+c2v2++cpvp=vp+1

左右同乘 A

c1λ1v1+c2λ2v2++cpλpvp=λp+1vp+1

将前式乘 λp+1,作差可得

c1(λ1λp+1)v1+c2(λ2λp+1)v2++cp(λpλp+1)vp=0

因为 {v1,v2,,vp} 线性无关,λ1,λ2,,λp+1 相异,i,ci=0,则 vp+1=0,矛盾。则 {v1,v2,,vr} 线性无关。得证。

特征向量与差分方程

对于一阶差分方程

xk+1=Axk(k=0,1,2,)

构造解的最简单方法是取 A 的一个特征向量 x0 与其对应特征值 λ,它的解就是

xk=λkx0(k=1,2,)

5.2 特征方程

n×n 矩阵 A 的特征值,即求出所有 λ 使得 det(AλI)=0。将行列式展开会得到关于 λ 的一个 n 次方程。称数值方程 det(AλI)=0A特征方程det(AλI)=0 称为 A特征多项式λA 的特征值的充要条件是 λ 是该方程的根。

A=[5000030000500001] 的特征方程是 (5λ)2(3λ)(1λ)=0,此时称特征值 5 有重数 2。把特征值 λ 作为特征方程根的重数称为 λ(代数)重数

相似性

下列定理说明了特征多项式的一个用途,为某些近似计算特征值的迭代算法提供了理论基础。

假设 A,Bn×n 矩阵,存在可逆矩阵 P 使得 P1AP=B(等价地,A=PBP1),称 A 相似于 B。同时 PBP1=AB 也相似于 A,说 AB相似的。把 A 变成 P1AP 的变换称为相似变换

定理 3

n×n 矩阵 AB 是相似的,那么它们有相同的特征多项式,从而有相同的特征值(和相同的重数)。

B=P1AP,那么

BλI=P1APλP1P=P1(AλI)P

det(BλI)=det(P1)det(AλI)det(P)=det(AλI)

一个广泛用来估计一般矩阵 A 的特征值的方法是 QR 算法。在适当条件下,它产生一个矩阵序列,其中矩阵全部相似于 A。矩阵几乎是上三角的,并且把主对角线上的元素近似于 A 的特征值。

其将 A(或另一个与 A 相似的矩阵)进行 QR 分解,有 A=Q1R1Q1T=Q11R1 是上三角矩阵,交换 Q1,R1 形成 A1=R1Q1,然后对 A1 进行上述操作,依此类推。因为 Q1AQ=RQA,A1, 是相似的。

应用到动力系统

A=[0.950.030.050.97],分析由 xk+1=Axk(k=0,1,2,),x0[0.60.4] 所确定的动力系统的长期发展趋势。


第一步解出 A 的特征值 λ=1,0.92,得到对应特征向量 v1=[35]v2=[11]

第二步,{v1,v2}R2 的基,将 x0 表示为它们的线性组合:

x0=[v1v2][c1c2]

得到

[c1c2]=[v1v2]1x0=[0.1250.225]

那么

xk=Ak(c1v1+c2v2)=c1v1+c2(0.92)kv2=0.125[35]+0.225(0.92)k[11]

xk 的显式公式就是差分方程的解。容易得到

kxk[0.3750.625]

5.3 对角化

分解式 A=PDP1D 为对角矩阵)能够在 k 较大时快速计算 Ak,还能用于分析(解耦)动力系统。

计算 Dk 是简单的。注意到 Ak=(PDP1)k=PDkP1,这就使得计算更为简单了。

如果方阵 A 相似于对角矩阵,即存在可逆矩阵 P 和对角矩阵 D 使得 A=PDP1,称 A 可对角化

定理 4(对角化定理)

n×n 矩阵 A 可对角化的充分必要条件是 An 个线性无关的特征向量。

事实上,A=PDP1D 为对角矩阵的充分必要条件是 P 的列向量是 An 个线性无关的特征向量。此时 D 的主对角线上的元素分别是 A 的对应于 P 中特征向量的特征值。

换句话说,A 可对角化的充要条件是有足够的特征向量形成 Rn 的基,称为特征向量基

P 是列为 v1,,vnn×n 矩阵,D 是对角线元素为 λ1,,λn 的对角矩阵,则

AP=[Av1Av2Avn]

PD=[λ1v1λ2v2λnvn]

假设 A 可对角化且 A=PDP1,则 APPD,可得

i=1,2,,n,Avi=λivi

由于 P 可逆,v1,,vn 线性无关。这说明 λ1,,λn 是特征值,v1,,vn 为相应的特征向量。命题必要性得证,而充分性也是简单的。

矩阵的对角化

对角化工作分为以下四步:

1. 求出 A 的特征值(可用计算机软件辅助)。

2. 求出 An 个线性无关的特征向量 v1,,vn。若不存在这样的 n 个向量则无法对角化。

3. 构造矩阵 P=[v1v2vn](向量的次序不重要)。

4. 用对应的特征值构造矩阵 D。特征值的出现次数等于它的重数。

验证正确性,只需满足 AP=PD。注意 P 应是可逆的。

定理 5

n 个相异特征值的 n×n 矩阵可对角化。

定理 6

An×n 矩阵,其相异的特征值是 λ1,λ2,,λp

a. 对于 1kpλk 的特征空间的维数小于或等于 λk 的代数重数。

b. 矩阵 A 可对角化的充分必要条件是所有不同特征空间的维数之和为 n。即 (i) 特征多项式可完全分解为线性因子,(ii) 每个 λk 的特征空间的维数等于 λk 的代数重数。

c.A 可对角化,Bk 是对应于 λk 的特征空间的基,则 B1,B2,,Bp 中所有向量的集合是 Rn 的特征向量基。

5.4 特征向量与线性变换

我们研究线性变换 T:VV 的特征值和特征向量,V 为任意向量空间。

线性变换的特征向量

特征值和特征向量在 V 中的定义相当于在 Rn 中的推广。

已知正弦波信号 {sk}={cos(kπ2)},kZ,左双移位线性变换 DD({xk})={xk+2} 定义。

{yk}=D{sk},利用三角函数公式可得 D{sk}={sk}={sk},这说明 {sk}D 的特征向量,其特征值为 1

线性变换的矩阵

目前只考虑与有限维向量空间相关的线性变换和矩阵。

n 维向量空间 V 和线性变换 T:VV,选择 V 的一组基 B

xV,坐标向量 [x]B,[T(x)]BRn。设 B={b1,,bn}x=r1b1++rnbn,那么

[x]B=[r1r2rn]

T(x)=r1T(b1)++rnT(bn)

由于坐标映射是线性的:

[T(x)]B=r1[T(b1)]B++rn[T(bn)]B

改写为

[T(x)]B=M[x]B

其中

M=[[T(b1)]B[T(bn)]B]

矩阵 MT 的矩阵表示,称为 T 相对于基 B 的矩阵

故就坐标向量而言,Tx 的作用相当于用矩阵 M 左乘 x

P2P2 的映射 TT(a0+a1t+a2t2)=a1+2a2t 是线性变换(T 是微分算子)。

若基 B={1,t,t2},写出 T(1),T(t),T(t2)B 坐标即可得到 TB 矩阵:

[T]B=[[T(1)]B[T(t)]B[T(t2)]B]=[010002000]

对一般多项式 p(t)=a0+a1t+a2t2,可以验证

[T(p)]B=[T]B[p]B

Rn 上的线性变换

定理 7(对角矩阵表示)

A=PDP1Dn×n 对角矩阵,若 Rn 的基 BP 的列向量构成,那么 D 是变换 xAxB 矩阵。

B={b1,b2,,bn}P=[b1b2bn]。此时 P 是 4.4 节中提到的坐标变换矩阵 PB,满足

P[x]B=x[x]B=P1x

xRnT(x)=Ax,则

[T]B=[[Ab1]B[Abn]B]=[P1Ab1P1Abn]=P1A[b1bn]=P1AP

由于 A=PDP1[T]B=P1AP=D

此时 xAxuDu 是相对于不同基的同一个线性变换。

矩阵表示的相似性

上一定理的证明与 D 是对角矩阵无关。因此只需 A 相似于 C,即 A=PCP1,且 BP 的列向量构成,C 就是变换 xAxB 矩阵。

于是 xP1[x]BC[Ax]BPAx

反之,若 RnRn 的变换 T:T(x)=AxBRn 的任意一个基,则 TB 矩阵相似于 A,从定理 7 的计算中也能发现这一点。因此,所有相似于 A 的矩阵的集合与变换 xAx 的所有矩阵表示的集合是相同的。

5.5 复特征值

考虑 n×n 矩阵的特征方程的复根,从 Rn 推广至 Cn

对复特征值的研究能够揭示某些实矩阵中隐藏的信息。这些问题包括很多蕴涵周期运动的实动力系统、振动或空间的某种旋转。

假设 A=[0110]R2 上的线性变换 xAx 将平面逆时针旋转 1/4 圈,其显然在 R2 中无特征向量。已知其特征方程

λ2+1=0

只有复根 λ=±i。让 A 作用于 C2,可以得到 ii 是特征值,[1i][1i] 是对应的特征向量。

A=[0.50.60.751.1],求其特征值及每个特征空间的基。


由行列式容易解得 λ=0.8±0.6i,对 λ=0.80.6i,有

AλI=[0.3+0.6i0.60.750.3+0.6i]

其给出了两个 x1x2 之间的等式。实际上它们一定描述同一个关系,由 0.75x1+(0.3+0.6i)x2=0,可得其对应特征空间的基为 [24i5],对于另一个特征值也用相同的方法即可,而验算结果是否正确是较为简单的。

向量的实部和虚部

向量 RexImx 称为复向量 x实部虚部,有

x=Rex+iImx

复数的共轭运算性质对复矩阵代数是成立的。

作用于 Cn 上的实矩阵的特征值和特征向量

An×n 实矩阵,则 Ax=Ax。若 λA 的特征值,x 是对应特征向量,则

Ax=Ax=λx=λx

λA 的特征值,x 是对应特征向量。这表明当 A 是实矩阵时,其复特征值以共轭复数对出现。

设非零实矩阵 C=[abba],它的特征值是 λ=a±bi,设 r=|λ|=a2+b2φλ 的辐角,有

C=r[a/rb/rb/ra/r]=[r00r][cosφsinφsinφcosφ]

变换 xCx 可视为旋转 φ 和倍乘 |λ| 的复合。

接着用前面的例子来揭示有复特征值的实矩阵中隐含的旋转:

A=[0.50.60.751.1],λ=0.80.6i,v=[24i5]

2×2 实矩阵 P,C

P=[RevImv]=[2450]

C=P1AP=[0.80.60.60.8]

可得

A=P[0.80.60.60.8]P1。旋转产生的是椭圆,因为由 P 的列确定的坐标系不是长方形的,在两个轴上没有相等的单位长。

定理 8

2×2 实矩阵 A 有复特征值 λ=abi(b0) 及对应的 C2 中复特征向量 v,那么

A=PCP1

其中

P=[RevImv],C=[abba]

首先 RevImv 显然是线性无关的,A(Rev)=ReAxA(Imx)=ImAxAv=λv,于是考虑证明 AP=PC

AP=[ARevAImv]=[ReλvImλv]=[aRev+bImvbRev+aImv]=PC

得证。

5.6 离散动力系统

在 5.2 节中有简单提到。

生态问题比物理或工程上的问题更容易描述和解释。控制系统中的稳态响应在工程上等价于动力系统 xk+1=Axk 的长期行为。

假设 A 可对角化,有 n 个线性无关的特征向量 v1,,vn 和对应特征向量 λ1,,λn(为了方便,令 |λi| 单调不升)。

对于初始向量 x0=c1v1++cnvn,有

xk=c1(λ1)kv1++cn(λn)kvn

若仅 i=1 时满足 |λ1|1c10,对足够大的 k

xk+1λ1xk

xkc1(λ1)kv1

解的几何意义

对于 2×2 对角矩阵 A,画出动力系统 xk+1=Axk 的若干条轨迹(由 x0,x1,x2, 组成的图形)。

  • 当两个特征值的绝对值均小于 1,轨迹趋于原点,称为动力系统的吸引子。过原点且特征值绝对值最小的特征向量 v2 的直线的方向是最大吸引方向。

  • 当两个特征值的绝对值均大于 1,轨迹远离原点,称为动力系统的排斥子。过原点且特征值绝对值最大的特征向量 v1 的直线的方向是最大排斥方向。

  • 当两个特征值的绝对值分别 >1<1,原点在某些方向有吸引解,某些方向有排斥解,称为鞍点。最大吸引、排斥方向同上。

在线性动力系统中只有原点可能是吸引子或排斥子,而在非线性的更一般的动力系统中可能存在多个吸引子和排斥子。

显然对于一般的 A,若其可对角化,动力系统的轨迹的区别在于用特征向量代替了标准基(以它们为坐标轴)。

A 有两个绝对值(模)小于 1 的复特征值,原点是排斥子,x0 的迭代绕原点向外作螺旋线旋转。若都小于 1,原点是吸引子,x0 的迭代绕原点向内作螺旋线旋转。

5.7 在微分方程中的应用

在很多应用问题中,某些量随时间连续变化,与下列微分方程组有关:

x1=a11x1+a12x2++a1nxnx2=a21x1+a22x2++a2nxnxn=an1x1+an2x2++annxn

xi 是关于 t 的可导函数,aij 为常数,将其写成矩阵微分方程

x(t)=Ax(t)

其中

x(t)=[x1(t)x2(t)xn(t)],A=[a11a12a1na21a22a2nan1an2ann]

方程显然是线性的,其解为向量值函数,定义在某实数区间。若 uv 都是解,cu+dv 也是方程的解。

零函数也是方程的(平凡)解。方程的解集是值属于 Rn 的所有连续函数组成的集合的子空间。

微分方程相关的教材证明了方程存在基础解系,它是解集的基,那么解集就是函数的 n 维向量空间。

若给定向量 x0初值问题就是构造一个(唯一)函数 x,满足 x=Axx(0)=x0

A 是对角矩阵,例如:

[x1(t)x2(t)]=[3005][x1(t)x2(t)]

则有 x1(t)=3x1(t)x2(t)=5x2(t),每个函数的导数依赖于其本身,称它是解耦的

关于函数的求解与动力系统的解耦需要微积分知识,暂且略过。

5.8 特征值的迭代估计

幂算法

适用于 n×n 矩阵 A严格占优特征值(或主特征值λ1 的情况,意思是其绝对值比其他特征值都大。该算法产生一个近似 λ1 的数列和一个近似对应的主特征向量的向量序列。

简单起见,令 A 可对角化,λ1 是主特征值,有

|λ1|>|λ2||λ3||λn|

显然地,

Akx=c1(λ1)kv1++cn(λn)kvn(kN+)

假设 c10

1(λ1)kAkx=c1v1+c2(λ2λ1)kv2++cn(λnλ1)kvn

则当 k 时,

(λ1)kAkxc1v1

Akv1 所在直线见夹角趋于零。

若对 Akx 进行倍乘使其最大分量为 1,则所得序列 {xk} 收敛于 v1 的倍数,它的最大分量也是 1

xk 接近 v1 时,Axk 接近 λ1xkAxk 的最大分量接近 λ1

估计严格占优特征值的幂算法

1. 选择一个最大分量为 1 的初始向量 x0

2.k=0,1,2,,

a. 计算 Axk

b.μkAxk 中绝对值最大的一个分量。

c. 计算 xk+1=(1/μk)Axk

3. 几乎对所有选择的 x0,序列 {μk} 近似于主特征值,而序列 {xk} 近似于对应的特征向量。

序列的收敛速度取决于 |λ2/λ1|

若随机的 x0 使得 c1=0,计算时的舍入误差可能使得所产生向量在 v1 上存在分量,最终 {xk} 收敛于 v1 的倍数。

逆幂法

A 有特征值 λ 和对应特征向量 vα 不是 A 的特征值:

Avαv=λvαv(AαI)v=(λα)v(AαI)1v=1λαv

在知道特征值 λ 的一个较好的初始估值 α 后,逆幂法也用来对任意特征值做近似估值。令 B=(AαI)1,若 λ1,,λnA 的特征值,B 的特征值是

1λ1α,,1λnα

对应特征向量不变。假设 α 最接近 λi1/(λiα) 将是 B 的主特征值。对 x0 的几乎所有选择都会快速逼近 λi

估计 A 的特征值 λ 的逆幂法

1. 选择一个非常接近于 λ 的初始估值 α

2. 选择一个最大分量为 1 的初始向量 x0

3.k=0,1,2,

a.(AαI)yk=xk 解出 yk

b.μkyk 中绝对值最大的分量。

c. 计算 vk=α+(1/μk)

d. 计算 xk+1=(1/μk)yk

4. 几乎对所有 x0{vk} 趋于 A 的特征值 λ{xk} 趋于对应特征向量。

5.9 在马尔可夫链中的应用

马尔可夫链在多种领域中做数学模型,这里略过一些简单的实用性例子。

定义 一个具有非负元素且各元素的数值相加等于 1 的向量称为概率向量随机矩阵是各列向量均为概率向量的方阵。

马尔可夫链是一个概率向量序列 x0,x1, 和一个随机矩阵 P,满足

x1=Px0,x2=Px1,

用一阶差分方程刻画:

xk+1=Pxk(k=0,1,2,)

xk 通常称为状态向量

预言遥远的未来

马尔可夫链最有趣的方面是对该链长期行为的研究。

定理 9(随机矩阵)

如果 P 是一个随机矩阵,那么 1P 的一个特征值。

PT 各行之和为 1e 是各元素为 1 的向量,那么 PTe=e,说明 ePT 的特征向量,对应特征值为 1。可以证明 PPT 有相同特征值,故 1P 的特征值。

稳态向量

随机矩阵 P稳态向量(或平衡向量)是满足 Pq=q 的概率向量 q。这说明 q1 的对应特征向量,而如何去求它是简单的。

我们称一个矩阵是正则的,如果矩阵的某次幂 Pk 仅包含严格正的元素。

定理 10

如果 P 是一个 n×n 的正则随机矩阵,则 P 具有唯一的稳态向量 q。此外,若 x0 是任一个初始状态,且 xk+1=Pxk(k=0,1,2,),则 k 时,马尔可夫链 {xk} 收敛到 q

它说明初始状态不影响马尔可夫链的长期行为。

本文作者:SE の 摆烂窝

本文链接:https://www.cnblogs.com/SError0819/p/18324216

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   SError  阅读(23)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起