MIT 18.06 linear algebra lecture 21 特征值和特征向量 笔记
特征值和特征向量
矩阵 \(A\) 的作用类似函数,输入向量 \(\boldsymbol{x}\) ,输出 \(A\boldsymbol{x}\)。如果 \(\boldsymbol{x}\) 平行于 \(A\boldsymbol{x}\),则 \(\boldsymbol{x}\) 为特征向量(Eigenvector)
。用数学方式表达则为:
在上式中, \(\boldsymbol{x}\) 是 \(A\) 的特征向量, \(\lambda\) 是 \(A\) 的特征值(eigenvalue)
。
特征值 \(0\)
如果特征值 \(\lambda=0\) ,则 \(A\boldsymbol{x}=0\boldsymbol{x}=\boldsymbol{0}\)。特征值为 \(0\) 时,对应的向量组成了 \(A\) 的零空间,如果 \(A\) 是奇异的,则 \(0\) 是 \(A\) 的特征值。
例子
接下来,通过几个例子了解下特征值和特征向量。
假设 \(P\) 是一平面的投影矩阵,对于在该平面上的任意向量 \(\boldsymbol{x}\) ,有 \(P\boldsymbol{x}=\boldsymbol{x}\) , 所以 \(\boldsymbol{x}\) 为矩阵 \(P\) 的特征向量,对应的特征值为 \(1\) 。对垂直于平面的向量 \(\boldsymbol{x}\) ,有 \(P\boldsymbol{x}=\boldsymbol{0}\),此时 \(\boldsymbol{x}\) 也为特征向量,对应的特征值 \(\lambda = 0\) 。矩阵 \(P\) 的特征向量生成整个空间(并不是每个矩阵的特征向量都能生成整个空间)。
矩阵 \(B=\begin{bmatrix}0&1\\1&0\end{bmatrix}\) 有特征向量 \(\boldsymbol{x}=\left[\begin{array}{r}1\\1\end{array}\right]\) ,对应的特征值为 \(1\) ,另一个特征向量 \(\boldsymbol{x}=\left[\begin{array}{r}1\\-1\end{array}\right]\) ,特征值为 \(-1\) 。上述的特征向量互相垂直,生成整个空间,因为 \(B=B^T\) (文末进行了补充证明,对称矩阵的特征向量是正交的)。
\(\text{det}(A-\lambda I)=0\)
一个 \(n\times n\) 的矩阵有 \(n\) 个特征值,而且特征值之和等于矩阵对角线元素之和: \(a_{11}+a_{22}+\cdots+a_{nn}\) ,也称为矩阵的迹(trace)
。对于一个 \(2\times 2\)矩阵,知道其中一个特征值,可以利用迹,找到另一个特征值。
如何解 \(A\boldsymbol{x}=\lambda\boldsymbol{x}\)得到关于 \(A\) 的特征值和特征向量?在 \(\lambda\) 和 \(\boldsymbol{x}\) 未知的情况下,需要对问题的描述稍加变化:
为了使得 \(\boldsymbol{x}\) 为特征向量,则 \(A-\lambda I\) 必须是奇异的。换句话说,\(\text{det }(A-\lambda I)=0\)。通过求解行列式的等式,能够得到关于 \(\lambda\) 的 \(n\) 个值。如果运气好的情况下,这些奇异值互不相同;否则有一组或者多组重复特征值。
一旦求得特征值 \(\lambda\) ,可以将特征值回代到 \(A-\lambda I\) 中,通过消元法求其零空间。零空间中的向量是 \(A\) 的特征向量(当特征值为 \(\lambda\)时)。
计算特征值和特征向量
例如 \(A=\left[\begin{array}{rr}3&1\\1&3\end{array}\right]\) ,则:
注意到系数 \(6\) 是矩阵的迹,系数 \(8\) 是矩阵的行列式。通常情况下, \(2\times 2\) 矩阵的特征值是下面方程的解:
矩阵特征值之和恰好等于迹,特征值的乘积恰好等于行列式。
对于 \(A=\left[\begin{array}{rr}3&1\\1&3\end{array}\right]\) ,特征值 \(\lambda_1=4\) 和 \(\lambda_2=2\)。当 \(\lambda_1=4\) 时,特征向量 \(\boldsymbol{x}_1=\left[\begin{array}{r}1\\1\end{array}\right]\) 在 \(A-\lambda_1 I=\left[\begin{array}{rr}-1&1\\1&-1\end{array}\right]\)的零空间中。
对于 \(\boldsymbol{x}_2\) 在 \(A-\lambda_2 I=\left[\begin{array}{rr}1&1\\1&1\end{array}\right]\)的零空间中,该零空间为一条线,\(\boldsymbol{x}_2\)可以是这条线上的任意向量,比如\(x_2=\left[\begin{array}{r}-1\\1\end{array}\right]\)。
注意到这些特征向量与矩阵 \(B=\begin{bmatrix} 0&1\\ 1&0 \end{bmatrix}\)的特征向量相同,将 \(B\) 与 \(3I\) 相加后的矩阵,特征值会增加 \(3\) ,特征向量不会变化。因为 \(A\boldsymbol{x}=(B+3I)\boldsymbol{x}=\lambda\boldsymbol{x}+3\boldsymbol{x}=(\lambda+3)\boldsymbol{x}\)
注意
如果 \(A\boldsymbol{x}=\lambda\boldsymbol{x}\) 并且\(B\boldsymbol{x}=\alpha\boldsymbol{x}\) ,则 \((A+B)\boldsymbol{x}=(\lambda+\alpha)\boldsymbol{x}\) ,仅仅在 \(A、B\) 特征向量相同时成立。同样,\(AB\) 的特征值也并不一定等于 \(\lambda(A)\lambda(B)\)。
复数特征值
矩阵 \(Q=\left[\begin{array}{rr}0&-1\\ 1&0\end{array}\right]\) 会将平面中的向量旋转 \(90^{\circ}\),迹为 \(0=\lambda_1+\lambda_2\),行列式为 \(1=\lambda_1\cdot\lambda_2\)。唯一的实特征向量是零向量,其余的向量与 \(Q\) 相乘后均会旋转,方向改变。在这种情况下计算特征值会如何?
\(\text{det}(A-\lambda I)=0\) 的解为\(\lambda_1=i, \lambda_2=-i\) 。由于复数共轭的性质,如果一个矩阵有一特征值为 \(a+bi\) ,则 \(a-bi\)也为该矩阵的特征值。
对称矩阵的特征值为实数,对于类似 \(Q\) 的非对称矩阵,如果 \(A^T=A^{-1}\) ,则所有特征值均为复数( \(\lambda = bi\) )。
三角矩阵和重复特征值
对于三角矩阵,特征值是矩阵对角线上的元素。例如 \(A=\left[\begin{array}{rr}3&1\\0&3\end{array}\right]\),特征值是 \(3\) 和 \(3\) 。
所以 \(\lambda_1 = 3\), \(\lambda_2=3\) 。接下来求解特征向量:
求得 \(\boldsymbol{x}_1=\begin{bmatrix}1\\0\end{bmatrix}\) 。此时并没有另一个线性无关的特征向量 \(\boldsymbol{x}_2\) 。
补充
对称矩阵的特征向量正交
假设 \(\boldsymbol{x}_1\) 和 \(\boldsymbol{x}_2\) 是矩阵 \(A\) 的特征向量,对应的特征值为 \(\lambda_1\) 和 \(\lambda_2\) 。接下来证明 \(\boldsymbol{x}_1\perp\boldsymbol{x}_2\) 。
由给定的条件有:
分别乘以 \(\boldsymbol{x}_1\) 和 \(\boldsymbol{x}_2\) 的转置:
由于 \(A\) 是对称矩阵,则 \(A=A^T\) 。而 \((\boldsymbol{x}_2^TA\boldsymbol{x}_1)^T=\boldsymbol{x}_1^TA^T\boldsymbol{x}_2=\boldsymbol{x}_1^TA\boldsymbol{x}_2\) 。结合上式有:
因为 \(\boldsymbol{x}_2^T\boldsymbol{x}_1=\boldsymbol{x}_1^T\boldsymbol{x}_2\) , 而 \(\lambda_1\ne\lambda_2\) ,所以 \(\boldsymbol{x}_2^T\boldsymbol{x}_1=\boldsymbol{x}_1^T\boldsymbol{x}_2=0\) ,即证明 \(\boldsymbol{x}_1\perp\boldsymbol{x}_2\) 。
故对称矩阵的特征向量之间是正交的。
笔记来源:MIT 18.06 lecture 21