特征值和特征向量
将学习到什么
特征值和特征向量的定义,多角度理解其意义,以及相关重要性质。
从定义出发
第一步扔出定义
需要注意的是特征向量必须非零,而特征值可以为零。对于对角矩阵 \(D = \mathrm{diag}(d_1,d_2,\cdots,d_n)\),显然标准基 \(e_i,\, i=1,2,\cdots,n\) 就是 \(D\) 的特征向量,而 \(e_i\) 对应和特征值就是 \(d_i\).
从线性方程组的角度
定义的式子可以改写为齐次线性方程组:\(\lambda x-Ax=(\lambda I -A)x=0\),如果该方程组有非平凡解,那么 \(\lambda\) 就是 \(A\) 的一个特征值,且 \(\lambda I-A\) 就是奇异的。相反,如果 \(\lambda \in \mathbb{C}\) 且 \(\lambda I-A\) 是奇异的,那么就存在非零向量 \(x\),使得 $(\lambda I -A)x =0 $,即 \((\lambda,x)\) 是一个特征对。
如果 \((\lambda,x)\) 是一个特征对,给定非零纯量 \(c\), \((\lambda,cx)\) 也是一个特征对,通常情况下,我们取 \(c= 1 / \lVert x \rVert _2\),即标准化特征向量为单位向量:\(\xi=cx\),值得一提的是,标准化情况下特征向量也并不唯一,\((\lambda,\mathrm{e}^{\mathrm{i}\theta}\xi),\,\forall \theta \in \mathbb{R}\) 都是 \(A\) 的特征值-特征向量对。
从代数的角度
特征向量恰好是这样的非零向量:用 \(A\) 来表示与纯量 \(\lambda\) 相乘有相同的结果。
从代数基本定理出发
实系数或者复系数 \(k\) 次多项式
\begin{align}
p(t)=a_k t^k +a_{k-1}t^{k-1}+\cdots+a_1 t+a_0, \quad a_k \neq 0
\label{ppp}
\end{align}
此表达式可以拓展到给定的方阵上,即
\begin{align}
p(A)=a_k A^k +a_{k-1}A^{k-1}+\cdots+a_1 A+a_0, \quad a_k \neq 0
\end{align}
通用约定 \(A^0=I\), \(k\) 次多项式 \ref{ppp} 中,如果 \(a_k=1\),那就被说成是首一的,由于 \(a_k \neq 0\),故而 \(a_k^{-1}p(t)\) 总是首一的。
由代数基本定理知,次数为 \(k \geqslant 1\) 的任何首一多项式 \ref{ppp} 可以表示成恰好 \(k\) 个复的或者实的线性因子的乘积
\begin{align}
p(t)=(t-\alpha_1)\cdots(t-\alpha_k)
\end{align}
\(p(t)\) 的这个表达式除了因子的排列顺序外是唯一的,由此可知一个次数 \(k \geqslant 1\) 的多项式至多有 \(k\) 个不同的零点,因为有因子可能会重复。因子 \((t-a_j)\) 重复的次数就是 \(\alpha_j\) 作为 \(p(t)\) 零点的重数。
类似,下面给出 \(p(A)\) 的分解式
\begin{align}
p(A)=(A-\alpha_1 I)\cdots(A-\alpha_k I)
\end{align}
于是 \(p(A)\) 的特征值与 \(A\) 的特征值以一种简单的方式联系在一起。
证明: 我们有
\begin{align*}
p(A)x=a_kAkx+a_{k-1}Ax+\cdots+a_1Ax+a_0 x, \quad a_k \neq 0
\end{align*}
重复应用特征值-特征向量方程又有 \(A^jx=A^{j-1}Ax=A^{j-1}\lambda x=\lambda A^{j-1}x=\cdots=\lambda^j x\). 从而
\[
p(A)x=a_k \lambda^kx+\cdots+a_0 x=(a_k\lambda^k+\cdots+a_0)x=p(\lambda)x
\]
反过来,如果 \(\mu\) 是 \(p(A)\) 的一个特征值,那么 \(p(A)-\mu I\) 是奇异的。由于 \(p(t)\) 的次数 \(k\geqslant 1\),故而多项式 \(q(t)=p(t)-\mu\) 的次数 \(k \geqslant 1\),我们就可以将它分解成 \(q(t)=(t-\beta_1)\cdots(t-\beta_k)\) (对某些复数或者实数 \(\beta_1,\cdots,\beta_k\)). 由于 \(p(A)-\mu I=q(A)=(A-\beta_1 I)\cdots (A-\beta_k I)\) 是奇异的,故而它的某个因子 \(A-\beta_j I\) 是奇异的,这就意味着 \(\beta_j\) 是 \(A\) 的特征值。但是 \(0=q(\beta_j)=p(\beta_j)-\mu\),所以有 \(\mu=p(\beta_j)\).
这个性质非常重要,比如,如果 \(\sigma(A)=\{-1,1\}\),那么我们立马可以断定 \(\sigma(A^2)=\{1\}\). 但是对于特征向量不一样,考虑矩阵 \(A=\begin{bmatrix} 0&1 \\ 0&0\end{bmatrix}\),显然 \((0, e_1)\) 是 \(A\) 和 \(A^2\) 的特征对,\(e_2\) 是 \(A^2\) 的特征向量却不是 \(A\) 的特征向量,这也就是定理逆命题部分只提到了 \(p(A)\) 特征值的原因。
几个重要性质
![](https://images2017.cnblogs.com/blog/1255644/201710/1255644-20171015221858168-397947234.png)
![](https://images2017.cnblogs.com/blog/1255644/201710/1255644-20171015222141184-1750503397.png)
![](https://images2017.cnblogs.com/blog/1255644/201710/1255644-20171015224934684-483169202.png)
读完应该知道什么
- 特征向量必须非零,而特征值无此要求
- 如果 \((\lambda, x)\) 是 \(A \in M_n\) 的一个特征对,那么 \((p(\lambda) , x)\) 就是 \(p(A)\) 的一个特征对. 反过来,如果 \(k \geqslant 1\) 且 \(\mu\) 是 \(p(A)\) 的一个特征值,那么就存在 \(A\) 的某个特征值 \(\lambda\) 使得 \(\mu = p(\lambda)\). 此时对特征向量不成立
- 矩阵 \(A \in M_n\) 是奇异的,当且仅当 \(0 \in \sigma(A)\)
- 设给定 \(A \in M_n\) 以及 \(\lambda, \mu \in \mathbb{C}\). 那么,\(\lambda \in \sigma(A)\) 当且仅当 \(\lambda + \mu \in \sigma(A+\mu I)\)
- 每个复矩阵都有非空的谱
- 给定的 \(A\in M_n\) 可以求得一个次数最多为 \(n\) 的多项式,它至少有一个零点是 \(A\) 的特征值
写在最后的话
在这里用 Markdown 编辑时
- 空出一行用
- 空出一格用
 
,要空出两格就用两遍 - 分割线用
---
,并且前后行用回车键隔开