极小多项式和友矩阵
将学习到什么
介绍了极小多项式和友矩阵的相关概念以及基础性质。
极小多项式
多项式 \(p(t)\) 称为使 \(A\in M_n\) 零化,如果 \(p(A)=0\). Cayley-Hamilton 定理保证了:对每个 \(A \in M_n\), 存在一个 \(n\) 次的首 1 多项式 \(p_A(t)\)(特征多项式),使得 \(p_A(A)=0\). 当然可能也存在一个更低次数的首 1 多项式使 \(A\) 零化. 我们要找出使 \(A\) 零化的最低次数的首 1 多项式. 下面这个定理表明这个要找的多项式是唯一的.
定理 1: 设给定 \(A \in M_n\). 则存在唯一一个最小次数的首 1 多项式 \(q_A(t)\) 使 \(A\) 零化. \(q_A(t)\) 的次数至多为 \(n\). 如果 \(p(t)\) 是任何一个使 \(p(A)=0\) 成立的首 1 多项式,那么 \(q_A(t)\) 整除 \(p(t)\), 即对某个首 1 多项式 \(h(t)\) 有 \(p(t)=h(t)q_A(t)\).
证明:次数不大于 \(n\) 没什么好说的,因为存在 \(n\) 次的一定满足. 如果 \(p(t)\) 是任何一个使 \(A\) 零化的首 1 多项式,又如果 \(q(t)\) 是一个使 \(A\) 零化的 \(m\) 次(设为最低次)首 1 多项式,那么 \(p(t)\) 的次数是 \(m\) 或者更高. Euclid 算法确保存在一个首 1 多项式 \(h(t)\) 以及一个次数严格小于 \(m\) 的多项式 \(r(t)\) 使得 \(p(t)=q(t)h(t)+r(t)\). 但是 \(0=p(A)=q(A)h(A)+r(A)=0h(A)+r(A)\), 所以 \(r(A)=0\). 如果 \(r(t)\) 不是零多项式,我们就能将它规范化得到一个次数小于 \(m\) 的首 1 零化多项式,这是一个矛盾. 所以 \(r(t)\) 是零多项式,从而 \(q(t)\) 整除 \(p(t)\), 商为 \(h(t)\). 如果存在两个最小次数的使 \(A\) 零化的首 1 多项式,这个论证表明它们每一个都整除另外一个,由于它们次数相同,其中一个必定是另一个的纯量倍数. 但由于两者都是首 1 的,纯量因子必为 \(+1\), 从而它们是相等的.
定义 1: 设给定 \(A\in M_n\). 使 \(A\) 零化的唯一的最小次数首 1 多项式 \(q_A(t)\) 称为 \(A\) 的极小多项式.
推论 1: 相似矩阵有相同的极小多项式
证明: 如果 \(A,B,S \in M_n\), 且 \(A=SBS^{-1}\), 那么 \(q_B(A)=q_B(SBS^{-1})=Sq_B(B)S^{-1}=0\), 所以 \(q_B(t)\) 是一个使 \(A\) 零化的首 1 多项式,从而 \(q_A(t)\) 的次数小于或等于 \(q_B(t)\) 的次数. 但是 \(B=S^{-1}AS\),所以相同的推理表明 \(q_{B}(t)\) 的次数小于或等于 \(q_A(t)\) 的次数. 从而 \(q_A(t)\) 与 \(q_B(t)\) 都是使 \(A\) 零化的最小次数的首 1 多项式,故而由定理 1 知它们是相等的.
需要注意的是,矩阵 \(A\) 与 \(B\) 有相同的极小多项式,不代表它们一定相似,比如 \(A=J_2(0) \oplus J_2(0) \in M_4\) 与 \(B=J_2(0) \oplus 0_2(0) \in M_4\).
推论 2: 对每一个 \(A \in M_n\), 极小多项式 \(q_A(t)\) 整除特征多项式 \(p_A(t)\). 此外,\(q_A(\lambda)=0\) 当且仅当 \(\lambda\) 是 \(A\) 的特征值,故而 \(p_A(t)=0\) 的每个根都是 \(q_A(t)\) 的根.
证明: 由于 \(p_A(A)=0\), 则存在一个多项式 \(h(t)\) 使得 \(p_A(t)=h(t)q_A(t)\). 这个分解式使得 \(q_A(t)=0\) 的每个根都是 \(p_A(t)=0\) 的你根这一事实变得显然,从而 \(q_A(t)=0\) 的每个根都是 \(A\) 的特征值. 如果 \(\lambda\) 是 \(A\) 的一个特征值,又如果 \(x\) 是与之相伴的特征向量,那么 $Ax=\lambda x $, 且 \(0=q_A(A) x=q_A(\lambda) x\), 所以 \(q_A(\lambda)=0\).
上面这个推论表明,如果特征多项式 \(p_A(t)\) 被完全分解成
\begin{align} \label{e1}
p_A(t)=\prod_{j=1}d(t-\lambda_i),\quad 1 \leqslant s_i \leqslant n, \quad s_1+s_2+\cdots+s_d =n
\end{align}
其中 \(\lambda_1,\lambda_2,\cdots,\lambda_d\) 各不相同,那么极小多项式 \(q_A(t)\) 必定有形式
\begin{align} \label{e2}
q_A(t)=\prod_{i=1}d(t-\lambda_i), 1\leqslant r_i \leqslant s_i
\end{align}
这就从理论上对寻求给定矩阵 \(A\) 的极小多项式给出一个算法:
1. 首先计算 \(A\) 的特征值,包括它们的重数,这或许通过求出特征多项式并将其完全分解即可得到. 用某种方法确定分解式 \ref{e1}.
2. 存在有限多个形如 \ref{e2} 的多项式. 从所有 \(r_i=1\) 的乘积出发,用显示计算来确定使 \(A\) 零化的最小次数的乘积,这就是极小多项式.
从数值计算上来说,对于大矩阵计算过于复杂,但在处理简单的小矩阵的徒手计算时还是非常有效的.
在 \(A\in M_n\) 的标准型与 \(A\) 的极小多项式之间存在密切的联系. 假设 \(A=SJS^{-1}\) 是 \(A\) 的 Jordan 标准型,又首先假设 \(J=J_n(\lambda)\) 是单独一个 Jordan 块. \(A\) 的特征多项式是 \((t-\lambda)^n\), 由于当 \(k<n\) 时有 \((J-\lambda I)^k \neq 0\), 所以 \(J\) 的极小多项式仍然是 \((t-\lambda)^n\). 然而,如果 \(J=J_{n_1}(\lambda) \oplus J_{n_2}(\lambda) \in M_n\)(其中 \(n_1 \geqslant n_2\)), 则 \(J\) 的特征多项式仍然是 \((t-\lambda)^n\), 但现在有 \((J-\lambda I)^{n_1}=0\), 且没有更低次的幂变为零. 这样一来,\(J\) 的极小多项式是 \((t-\lambda)^{n_1}\). 如果对特征值 \(\lambda\) 有多个 Jordan 块,则有相同结论:\(J\) 的极小多项式是 \((t-\lambda)^r\), 其中 \(r\) 是与 \(\lambda\) 对应的最大 Jordan 块的阶. 如果 \(J\) 是一般的 Jordan 矩阵,其极小多项式必定包含因子 \((t-\lambda_i)^{r_i}\)(对每一个不同的特征值 \(\lambda_i\));而 \(r_i\) 必定是与 \(\lambda_i\) 对应的最大 Jordan 块的阶;没有更低的幂能零化与 \(\lambda_i\) 对应的所有 Jordan 块,而且也不需要更高的幂. 由于相似矩阵有相同的极小多项式,我们就证明了下面的定理.
定理 2: 设 \(A \in M_n\) 是一个给定的矩阵,其不同的特征值是 \(\lambda_1\cdots \lambda_d\). 则 \(A\) 的极小多项式是
\begin{align} \label{e3}
q_A(t)=\prod_{i=1}d(t-\lambda_i)
\end{align}
其中 \(r_i\) 是 \(A\) 的与特征值 \(\lambda_i\) 对应的最大 Jordan 块的阶.
实际上,这个结果在计算极小多项式时没有太多的帮助,因为通常确定一个矩阵的 Jordan 标准型比确定它的极小多项式更为困难. 的确,如果仅仅知道矩阵的特征值,它的极小多项式就可以通过简单的试错法确定. 然而,这个结果有一些有重要理论价值的推论. 由于一个矩阵可对角化当且仅当它所有 Jordan 块的阶均为 1, 所以矩阵可对角化的一个充分必要条件就是式 \ref{e3} 中所有的 \(r_i=1\).
推论 3: 设 \(A \in M_n\) 有不同的特征值 \(\lambda_1\cdots \lambda_d\). 又令
\begin{align} \label{e4}
q(t)=(t-\lambda_1)(t-\lambda_2)\cdots (t-\lambda_d)
\end{align}
那么,\(A\) 可对角化当且仅当 \(q(A)=0\)
这个判别法对于判断一个给定的矩阵是否可以对角化是有实际用途的,只要我们知道它不同的特征值:构造多项式 \ref{e4} 并观察它是否使 \(A\) 零化. 如果它使 \(A\) 零化,它必定就是 \(A\) 的极小多项式,这是因为没有更低次数的多项式能以 \(A\) 的所有不同特征值作为其零点了. 如果它不能使 \(A\) 零化,那么 \(A\) 不可对角化. 将此结果总结成若干等价的形式是有益的.
推论 4: 设 \(A \in M_n\), 而 \(q_A(t)\) 是它的极小多项式,则以下诸结论等价:
(a) \(q_A(t)\) 是不同线性因子的乘积
(b) \(A\) 的每一个特征值作为 \(q_A(t)=0\) 的根的重数都是 1
(c) 对 \(A\) 的每个特征值 \(\lambda\), 都有 \(q'_A(\lambda) \neq 0\)
(d) \(A\) 可以对角化
友矩阵
对给定的 \(A\in M_n\), 我们迄今正在考虑的是寻求使 \(A\) 零化的最小次数的首 1 多项式. 但是对于其逆,我们能说什么呢?给定一个首 1 多项式
\begin{align}\label{e5}
p(t)=tn+a_{n-1}t+a_{n-2}t^{n-2}+\cdots+a_1t+a_0
\end{align}
是否存在一个矩阵 \(A\), 使得它以 \(p(t)\) 作为它的极小多项式呢?若如是,则 \(A\) 的大小必定至少是 \(n \times n\). 考虑
\begin{align} \label{e6}
A=\begin{bmatrix} 0 &&&& -a_0 \\ 1 & 0 &&& -a_1 \\ & 1 & \ddots && \vdots \\ && \ddots & 0 & -a_{n-2} \\ 0 &&& 1 & -a_{n-1}\end{bmatrix} \in M_n
\end{align}
并注意到
\begin{align}
& I e_1 &= \, &e_1 =\quad A^0e_1 \notag \\
& A e_1 &= \, &e_2 = \quad Ae_1 \notag\\
& A e_2 &= \, &e_3 = \quad A^2 e_1 \notag \\
& A e_3 &= \, &e_4 = \quad A^3 e_1 \notag \\
& \,\,\, \vdots & \notag \\
& A e_{n-1} &= \,& e_n = \quad A^{n-1}e_1 \notag
\end{align}
进一步有
\begin{align}
Ae_n &=-a_{n-1}e_n-a_{n-2}e_{n-1}-\cdots -a_1e_2-a_0e_1 \notag \\
&=-a_{n-1}A{n-1}e_1-a_{n-2}Ae_1 -\cdots -a_1Ae_1-a_0 e_1 \notag \\
&=(A^n-p(A))e_1
\end{align}
于是
\begin{align}
p(A)e_1 &=(a_0e_1+a_1Ae_1+a_2A^2e_1+\cdots +a_{n-1}A{n-1}e_1)+Ane_1 \notag \\
&=(p(A)-An)e_1+(An-p(A))e_1 \notag \\
&=0
\end{align}
此外,对每个 \(k=1,2,\cdots,n\) 有 \(p(A)e_k=p(A)A^{k-1}e_1=A^{k-1}p(A)e_1=A^{k-1}0=0\). 由于对每个基向量 \(e_k\) 有 \(p(A)e_k=0\), 我们断定有 \(p(A)=0\). 从而 \(p(t)\) 是使 \(A\) 零化的 \(n\) 次首 1 多项式. 如果存在一个更低次数 \(m<n\) 且使 \(A\) 零化的多项式 \(q(t)=t^m+b_{m-1}t^{m-1}+\cdots+b_1t+b_0\), 那么
\begin{align}
0&=q(A)e_1=Ame_1+b_{m-1}Ae_1+\cdots+b_1Ae_1+b_0e_1 \notag \\
&=e_{m+1}+b_{m-1}e_m+\cdots+b_1e_2+b_0e_1=0
\end{align}
而这是不可能的,因为 \(e_1,\cdots,e_{m+1}\) 是线性无关的. 我们断言:\(n\) 次多项式 \(p(t)\) 是使 \(A\) 零化的最低次数的首 1 多项式,所以它就是 \(A\) 的极小多项式. 特征多项式 \(p_A(t)\) 也是一个使 \(A\) 零化的 \(n\) 次首 1 多项式,故而定理 1 确保 \(p(t)\) 也是矩阵 \ref{e6} 的特征多项式.
定义 2: 矩阵 \ref{e6} 称为多项式 \ref{e5} 的友矩阵.
我们已经证明了下面的结论:
定理 3:每一个首 1 多项式既是它的友矩阵的极小多项式,又是它的友矩阵的特征多项式.
如果 \(A \in M_n\) 的极小多项式的次数为 \(n\),那么 \ref{e3} 中的指数满足 \(r_1+\cdots+r_d=n\);也就是说,与每一个特征值对应的最大的 Jordan 块就是与每一个特征值对应的唯一的 Jordan 块. 这样的矩阵是无损的. 特别地,每一个友矩阵都是无损的. 当然,不一定每个无损的矩阵 \(A\in M_n\) 都是友矩阵,但是 \(A\) 与 \(A\) 的特征多项式的友矩阵 \(C\) 有同样的 Jordan 标准型(与每一个不同的特征值 \(\lambda_i\) 对应的只有一个分块 \(J_{r_i}(\lambda_i)\)), 所以 \(A\) 与 \(C\) 相似.
定理 4:设 \(A \in M_n\) 有极小多项式 \(q_A(t)\) 以及特征多项式 \(p_A(t)\). 则下面诸结论等价:
(a) \(q_A(t)\) 的次数为 \(n\)
(b) \(p_A(t)=q_A(t)\)
(c) \(A\) 是无损的
(d) \(A\) 与 \(p_A(t)\) 的友矩阵相似
应该知道什么
- 极小多项式存在且唯一
- 相似矩阵具有相同的极小多项式,反之不成立
- 友矩阵是以事先给定多项式为极小多项式的矩阵
- 每一个首 1 多项式既是它的友矩阵的极小多项式,又是它的友矩阵的特征多项式