MIT线性代数公开课学习笔记第21~25课
二十一、特征值和特征向量
1、特征值和特征向量的定义、求解
给出\(n\)阶方阵\(A\),若存在\(n\)维列向量\(x\)和标量\(\lambda\),有\(Ax=\lambda x\),则\(x\)是\(A\)的一个特征向量,\(\lambda\)是\(A\)对应于特征向量\(x\)的特征值。
需要注意的是,特征向量一定是非零向量,但特征值可以为0(可以为实数,也可以为虚数、复数)
国内线代教材都有特征值和特征向量的求解方法,这里不再赘述
2、特征值和特征向量的几何意义
对于\(Ax=\lambda x\),\(Ax\)可以视为对向量\(x\)的一个线性变换,则该式表明\(x\)经线性变换\(A\)后得到的\(Ax\)仍与\(x\)共线,且\(Ax\)是\(x\)数乘标量\(\lambda\)后得到的向量
对于某矩阵\(A\)而言,设\(C(A)\)空间对应的投影矩阵为\(P\),则:
-
(1)\(\forall x\in C(A)\),因为\(x\)在该空间内,所以\(Px=x\),\(x\)是一个特征向量,对应于其的特征值为1
-
(2)\(\forall x\perp C(A)\),因为\(x\)垂直于该空间,所以\(Px=0\),则\(x\)是一个特征向量,其特征值为0
二十二、对角化和A的幂
1、方阵对角化
对于n阶方阵A而言,若它有n个线性无关的特征向量,则它可以被可逆阵\(P\)对角化为对角阵\(\Lambda=P^{-1}AP\)
若这n个线性无关的特征向量\(x_1\cdots x_n\)对应的特征值为\(\lambda_1\cdots \lambda_n\),令\(P=(x_1,x_2,\cdots, x_n)\),\(\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)\),则\(AP=(Ax_1,Ax_2,\cdots,Ax_n)=(\lambda_1x_1,\lambda_2x_2,\cdots,\lambda_nx_n)=P\Lambda\)
将上式左右两边同时左乘\(P^{-1}\),得\(P^{-1}AP=\Lambda\)
2、利用对角化快速求方阵的幂
若n阶方阵A可以对角化,则\(A=P\Lambda P^{-1}\),\(A^n=P\Lambda ^n P^{-1}\),由于求\(\Lambda ^n\)只需要求每个主对角元的n次方,因此这一方法求A的幂速度更快
3、利用对角化快速求解差分方程
A为n阶方阵,\(u_i\)均为n维列向量,\(u_{i+1}=Au_i\),现已知A、\(u_0\),求解\(u_k\)
\(u_k=Au_{k-1}=\cdots=A^ku_0\)
若A可以对角化,则\(A=P\Lambda P^{-1}\),\(u_k=A^k u_0=P\Lambda ^k P^{-1}u_0\)
首先将\(u_0\)分解为n个线性无关的特征向量(由于\(\mathrm{dim}C(P)=n,C(P)=\mathbb{R}^n\),因此显然\(u_0\)可以用它们线性表示),令\(u_0=c_1x_1+\cdots+c_nx_n\),即
则\(u_k=P\Lambda^kc=\lambda_1^kc_1x_1+\cdots+\lambda_n^kc_nx_n\)
4、利用对角化快速计算斐波那契数列
斐波那契数列:
令\(u_k=\begin{pmatrix}F_{k+1}\\F_k\end{pmatrix}\)
再构造如下差分方程组:
于是有\(u_{k+1}=Au_k\),其中\(A=\begin{pmatrix}1 & 1\\1 & 0\end{pmatrix}\)
然后用(3)中的差分方程求解方法快速求解即可
由于这里A的特征值均大于1,因此\(\Lambda ^k\)中的元素将不断增长,从而可见该数列不是收敛的
二十三、微分方程和\(e^At\)
1、一阶微分方程
\(u=(u_1,u_2)^T\)为2维列向量,其中每个元素代表一个关于\(t\)的函数\(u_i(t)\),已知\(u(0)\)的值
微分方程
可以表示为:
其中A是上述方程组的系数矩阵
设A的两个特征值分别为\(\lambda_1,\lambda_2\),相对应的二维特征向量分别为\(x_1,x_2\)
最终解的形式为:\(u=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2\)
将\(t=0,u(0)\)代入上式:
这是一个只有唯一解的线性方程组,可以直接解出\(c_1,c_2\)
对于\(e^{a+bi}\)而言,\(|e^{a+bi}|=|e^a||e^{bi}|=e^a|cos(b)+isin(b)|=e^a\)(因为\(|cos(b)+isin(b)|=cos^2b+sin^2b=1\))
所以当\(\mathrm{Re}\lambda_1,\mathrm{Re}\lambda_2<0\)时,显然\(t\to +\infty\)时\(|e^{\lambda_1 t}|,|e^{\lambda_2 t}|\to 0\),则\(u(t)\to 0\),此时称函数可以达到稳定性
当\(\mathrm{Re}\lambda_1,\mathrm{Re}\lambda_2\)中至少一个为0(不妨设\(\lambda_1=0\)),其余小于0时(不妨设\(\lambda_2<0\)),显然\(t\to +\infty\)时\(|e^{\lambda_1 t}|\to 1,|e^{\lambda_2 t}|\to 0\),则\(u(t)\to 0\),此时称函数可以达到稳态
当\(\mathrm{Re}\lambda_1,\mathrm{Re}\lambda_2\)中至少一个大于0(不妨设\(\lambda_1>0\)),显然\(t\to +\infty\)时\(|e^{\lambda_1 t}|\to +\infty\),则\(u(t)\to +\infty\),此时称函数是发散的
这里我们可以通过二阶矩阵A的迹、行列式的值判断函数是否可以达到稳态。\(\mathrm{tr}(A)=\lambda_1+\lambda_2<0,\mathrm{det}(A)=\lambda_1\lambda_2>0\)时显然\(\lambda_1<0,\lambda_2<0\),则此时对应的函数\(u\)可以达到稳态
2、指数矩阵
A为n阶方阵,则其对应的指数矩阵为:
同一般的函数一样,指数矩阵也可以泰勒展开为:
该级数总会收敛于某个值
当A可对角化为\(\Lambda=P^{-1}AP=\mathrm{diag}(\lambda_1,\cdots,\lambda_n)\)时,\(e^{At}=Pe^{\Lambda t}P^{-1}\),证明如下:
所以有:
实际上\(e^{\Lambda t}=\mathrm{diag}(e^{\lambda_1 t},\cdots,e^{\lambda_n t})\),所以当A的n个特征值的实部都小于0时,\(e^{\Lambda t}\to 0(t\to +\infty)\)
3、微分方程的推广
对于更高阶的微分方程,如5阶微分方程
我们可以构造如下方程组:
则对应的向量和矩阵:
然后再类比2中的方法即可解出该方程
二十四、马尔可夫矩阵,傅立叶级数
1、马尔可夫矩阵
马尔可夫矩阵(Markov matrix)是一个与概率有关的n阶方阵,其中每个元素均非负,且每一列的元素之和等于1
马尔可夫矩阵性质1:一定有特征值等于1
- 证明:对于一个马尔可夫矩阵A而言,\(I-A\)每一列元素之和均为0,可见\((I-A)^T\)每一行元素之和均为0,取\(x=(1,\cdots,1)^T\),则\(x\in N((I-A)^T)\),即\((I-A)^Tx=0\)有非零解,所以\(\mathrm{det}((I-A)^T)=0\),从而\(\mathrm{det}(I-A)=0\),所以A必定有一个特征值等于1
马尔可夫矩阵性质2:其余特征值的模均小于1
- 证明涉及Gershgorin圆盘定理,非常复杂,这里略去
这两条性质决定了马尔可夫矩阵A可以对角化时(不妨设其特征值\(\lambda_1=1\),其余小于1)
\(u_k=A^ku_0=P\Lambda^kc=\lambda_1^kc_1x_1+\cdots+\lambda_n^kc_nx_n\)
当\(k\to +\infty\)时\(\lambda_2^k,\cdots,\lambda_n^k \to 0\),\(u_k\to c_1x_1\),最终将达到一个稳态
2、马尔可夫矩阵的应用
人口迁移问题:只考虑麻省人口\(u_m\)和加州人口\(u_c\)之间的迁移。每年加州有10%的人口迁往麻省,麻省有20%的人口迁往加州。
将最初加州和麻省的人口情况用一个二维列向量\(u_0\)表示:
设经过k年后加州和麻省的人口为二维列向量\(u_k\),则:
这里的矩阵
其特征值、特征向量分别为\(\lambda_1=1,x_1=(2,1)^T\);\(\lambda_2=0.7,x_2=(-1,1)^T\)
再把已知的\(u_0\)代入\(u_k=A^ku_0=P\Lambda^kc=\lambda_1^kc_1x_1+\lambda_2^kc_2x_2\)得\(c_1=\frac{1000}{3},c_2=\frac{2000}{3}\)
3、傅里叶级数
3.1 预备知识
n维列向量\(v\)在一组标准正交基\(q_1,\cdots,q_n\)上的投影\((x_1,\cdots,x_n)\)可以表示为\(v=x_1q_1+\cdots+x_nq_n\),在求解\(x_i\),等式左右同时左乘\(q_i^T\):
\(q_i^Tv=x_1q_i^Tq_1+\cdots+x_nq_i^Tq_n=x_iq_i^Tq_i=x_i\)
若令\(Q=(q_1,\cdots,q_n)\),则\(Q\)是一个正交矩阵,
则\((x_1,\cdots,x_n)^T=Q^{-1}v=Q^Tv\)
3.2 傅里叶级数
函数\(f(x)\)的傅里叶级数(Fourier series)是一个无穷级数:
这里的空间中每个元素为一个函数,两个函数的内积被定义为\(\int_0^{2\pi}f(x)g(x)dx\)
与向量空间不同,这里的空间是无限维的,但\(sinx,cosx,sin2x,cos2x,\cdots\)之间是相互正交的。如\(sinx\cdot cosx=\int_0^{2\pi}sin(x)cos(x)dx=0\)
因此这里我们也可以通过类似的方式求解\(a_i,b_i\),即把\(f(x)\)投影到一系列相互正交的函数上,如对等式两边同时内积\(cosx\):
得:
所以\(a_1=\frac{1}{\pi}\int_0^{2\pi}cos(x)f(x)dx\)