矩阵范数

将学习到什么

矩阵范数相关.

 


基础

 
函数 \(\lVert \cdot \rVert\)\(M_n \rightarrow \mathbb{R}\) 称为一个矩阵范数,如果对所有 \(A,B \in M_n\),它满足如下五条公理:
  (1) \(\lVert A \rVert \geqslant 0\),非负性
  (1a) \(\lVert A \rVert = 0\) 当且仅当 \(A=0\),正性
  (2) 对所有 \(c \in \mathbb{C}\)\(\lVert cA \rVert = \lvert c \rvert \lVert A \rVert\),齐性
  (3) \(\lVert A+B \rVert \leqslant \lVert A \rVert+\lVert B \rVert\),三角不等式
  (4) \(\lVert AB \rVert \leqslant \lVert A \rVert \lVert B \rVert\),次积性
 
矩阵范数有时称为环范数. 不满足性质 (4) 的矩阵上的范数称为矩阵上的向量范数,有时也称为广义矩阵范数,比如 \(l_{\infty}\). 矩阵半范数以及广义矩阵半范数也可以通过去掉公理 (1a) 来定义.
 
由于对任何矩阵范数 \(\lVert A^2 \rVert \leqslant \lVert A \rVert \lVert A \rVert =\lVert A \rVert ^2\),由此推出:对于满足 \(A^2=A\) 的任何矩阵 \(A\),都有 \(\lVert A \rVert \geqslant 1\),特别地,对任何矩阵范数都有 \(\lVert I \rVert \geqslant 1\). 如果 \(A\) 是非奇异的,那么 \(I = AA^{-1}\),所以 \(\lVert I \rVert = \lVert AA^{-1} \rVert \leqslant \lVert A \rVert \lVert A^{-1} \rVert\),我们就有下界估计:\(\lVert A^{-1} \rVert \geqslant \dfrac{\lVert I \rVert }{\lVert A \rVert }\),此不等式对任何矩阵范数都成立.
 
  定义 1:\(\lVert \cdot \rVert\)\(\mathbb{C}^n\) 上的一个范数. 在 \(M_n\) 上用
\begin{align} \label{e1}
\lVert A \rVert = \max\limits_{\lVert x \rVert=1} \lVert Ax \lVert
\end{align}
定义范数 \(\lVert \cdot \rVert\).
 
  定理 2: 定义 1 中定义的函数 \(\lVert \cdot \rVert\) 有如下性质:
  (a) \(\lVert I \rVert =1\)
  (b) 对任意的 \(A \in M_n\) 以及任意的 \(y \in \mathbb{C}^n\),有 \(\lVert Ay \rVert \leqslant \lVert A\rVert \lVert y \rVert\)
  (c) \(\lVert \cdot \rVert\)\(M_n\) 上的一个矩阵范数
  (d) \(\lVert A \rVert = \max\limits_{\lVert x \rVert=\lVert y \rVert^D=1} \lvert y^*Ax \rvert\)
 
  证明:(b) 结论中的不等式对 \(y=0\) 成立,故设给定 \(y \neq 0\) 并考虑单位向量 \(y / \lVert y \rVert\). 我们有 \(\lVert A \rVert = \max\limits_{\lVert x \rVert=1} \lVert Ax \lVert \geqslant \left\lVert A \dfrac{y}{\lVert y \rVert} \right\rVert = \lVert Ay \rVert / \lVert y \rVert\). 所以 \(\lVert Ay \rVert \leqslant \lVert A\rVert \lVert y \rVert\).
  (c) 依次验证五条公理即可
  (d) 利用对偶定理计算
\begin{align}
\max\limits_{\lVert x \rVert=\lVert y \rVert^D=1} \lvert y^*Ax \rvert &= \max\limits_{\lVert x \rVert=1} ( \max\limits_{\lVert y \rVert^D=1} \lvert y^*Ax \rvert) = \max\limits_{\lVert x \rVert=1} \lVert Ax \rVert ^{DD} \notag \\
&= \max\limits_{\lVert x \rVert=1} \lVert Ax \rVert = \lVert A \rVert
\end{align}
 
  定义 3: 定义 1 中定义的函数 \(\lVert \cdot \rVert\) 是由向量范数 \(\lVert \cdot \rVert\) 诱导的矩阵范数,它有时也称为与向量范数 \(\lVert \cdot \rVert\) 相伴的算子范数或者最小上界(Lub)范数. 定理 2(b) 是说:向量范数与矩阵范数是相容的,表明:给定 \(\mathbb{C}^n\) 上任何范数,都存在 \(M_n\) 上一个相容的矩阵范数
 
矩阵上满足 \(\lVert I \rVert =1\) 的范数称为是单位的,定理 2 是说:每个诱导的矩阵范数都是单位的. 矩阵上的 \(l_{\infty}\) 范数是单位范数,但不是矩阵范数. 矩阵上的诱导范数永远是矩阵范数. 这样一来,证明 \(M_n\) 上一个非负值函数是矩阵范数的一种方法是证明它是由某个向量范数按照 \ref{e1} 中指定的方式产生出来的. 在下面的关于这个原理的每个例子中,我们都取 \(A=[a_{ij}] \in M_n\).
 
\(M_n\) 上的最大列和矩阵范数 \(\lVert \cdot \rVert _1\) 定义为
\begin{align}
\lVert A \rVert_1 = \max\limits_{1 \leqslant j \leqslant n} \sum_{i=1}^n \lvert a_{ij} \lvert
\end{align}
它是由 \(\mathbb{C}^n\) 上的 \(l_1\) 范数诱导的,从而它是一个矩阵范数.
 
\(M_n\) 上的最大行和矩阵范数 \(\lVert \cdot \rVert _{\infty}\) 定义为
\begin{align}
\lVert A \rVert_{\infty} = \max\limits_{1 \leqslant i \leqslant n} \sum_{j=1}^n \lvert a_{ij} \lvert
\end{align}
它是由 \(\mathbb{C}^n\) 上的 \(l_{\infty}\) 范数诱导的,从而它是一个矩阵范数.
 
\(M_n\) 上的谱范数 \(\lVert \cdot \rVert _2\) 定义为
\begin{align}
\lVert A \rVert_2 = \sigma_1(A),A \text{的最大奇异值}
\end{align}
它是由 \(\mathbb{C}^n\) 上的 \(l_2\) 范数诱导的,从而它是一个矩阵范数.
 

深入一点

 
接下来我们给出一个定理:通过向任何矩阵范数中插入一个固定的相似,可以产生出新的矩阵范数.
 
  定理 4: 假设 \(\lVert \cdot \rVert\)\(M_n\) 上一个矩阵范数,而 \(S \in M_n\) 是非奇异的. 那么函数
\begin{align}
\lVert A \rVert_S = \lVert SAS^{-1} \rVert, \text{对所有}\,\,A \in M_n
\end{align}
是一个矩阵范数. 此外,如果 \(\lVert \cdot \rVert\) 是由 \(\mathbb{C}^n\) 上的范数 \(\lVert \cdot \rVert\) 诱导的,那么矩阵范数 $\lVert A \rVert_S $ 是由 \(\mathbb{C}^n\) 上的范数 \(\lVert \cdot \rVert_S\) 诱导的
 
矩阵范数的一个重要的应用是对矩阵的谱半径提供界限. 如果 \(\lambda\)\(A\) 的任意一个特征值,\(Ax=\lambda x\),且 \(x \neq 0\),考虑秩 1 矩阵 \(X=x\mathrm{e}^T=[x \quad \cdots \quad x] \in M_n\),并注意到 \(AX=\lambda X\). 如果 $\lVert \cdot \rVert $ 是任意一个矩阵范数,那么
\begin{align}
\lvert \lambda \rvert \lVert X \rVert = \lVert \lambda X \rVert = \lVert AX \rVert \leqslant \lVert A \rVert \lVert X \rVert
\end{align}
于是 \(\lvert \lambda \rvert \leqslant \lVert A \rVert\). 由于存在某个特征值 \(\lambda\) 使得 \(\lvert \lambda \rvert=\rho(A)\),由此推出 \(\rho(A) \leqslant \lVert A \rVert\). 现在假设 \(A\) 是非奇异的,且 \(\lambda\)\(A\) 的任意一个特征值. 我们知道 \(\lambda^{-1}\)\(A^{-1}\) 的一个特征值,从而 \(\lvert \lambda^{-1} \rvert \leqslant \lVert A^{-1} \rVert\). 我们就证明了下面的定理.
 
  定理 5: 假设 \(\lVert \cdot \rVert\)\(M_n\) 上一个矩阵范数. 设 \(A \in M_n\) ,又设 \(\lambda\)\(A\) 的一个特征值. 那么
  (a) \(\lvert \lambda \rvert \leqslant \rho(A) \leqslant \lVert A \rVert\)
  (b) 如果 \(A\) 是非奇异的,那么 \(\rho(A) \geqslant \lvert \lambda \rvert \geqslant 1/\lVert A^{-1} \rVert\)
 
尽管谱半径函数本身并不是 \(M_n\) 上的范数,对每个 \(A \in M_n\),它是 \(A\) 的所有矩阵范数的值的最大下界.
 
  引理 6: 设给定 \(A \in M_n\) 以及 \(\varepsilon >0\),则存在一个矩阵范数 \(\lVert \cdot \rVert\) 使得 \(\rho(A) \leqslant \lVert A \rVert \leqslant \rho(A) + \varepsilon\).
 
我们对于满足 \(A^k \rightarrow 0\)(当 \(k \rightarrow \infty\) 时)的矩阵 \(A\) 的刻画很感兴趣. 下面给出一个引理.
 
  引理 7: 设给定 \(A \in M_n\). 如果存在一个矩阵范数 \(\lVert \cdot \rVert\) 使得 \(\lVert A \rVert <1\),那么 \(\lim\limits_{k \rightarrow \infty} A^k =0\),也即当 \(k \rightarrow \infty\) 时,\(A^k\) 的每个元素都趋于零.
 
  证明: 关于范数 \(\lVert \cdot \rVert\)\(A^k \rightarrow 0\),由于 \(n^2\) 维赋范线性空间 \(M_n\) 上所有的范数都是等价的,由此推出:关于 \(M_n\) 上的向量范数 \(\lVert \cdot \rVert_{\infty}\)\(A^k \rightarrow 0\).
 
使得 \(\lim\limits_{k \rightarrow \infty} A^k =0\) 成立的矩阵 \(A \in M_n\) 称为收敛的,它们在迭代过程分析以及其它许多应用中是非常重要的. 它们的特征可以用谱半径不等式加以刻画.
 
  定理 8:\(A \in M_n\). 那么 \(\lim\limits_{k \rightarrow \infty} A^k =0\) 当且仅当 \(\rho(A) <1\).
 
  证明:如果 \(A^k \rightarrow 0\),且如果 \(x \neq 0\) 是使得 \(Ax=\lambda x\) 成立的一个向量,那么仅当 \(\lvert \lambda \rvert <1\) 时才有 \(A^kx=\lambda ^k x \rightarrow 0\). 由于这个不等式必须对 \(A\) 的每一个特征值成立,这就得出 \(\rho(A) <1\). 反之,如果 \(\rho(A) <1\),那么引理 6 就确保存在某个矩阵范数 \(\lVert \cdot \rVert\) 使得 \(\lVert A \rVert <1\),从而引理 7 就确保当 \(k \rightarrow \infty\) 时有 \(A^k \rightarrow 0\).
 
有时我们需要知道当 \(k \rightarrow \infty\)\(A^k\) 的元素大小的界限. 一个有用的上界就是上一定理的一个直接推论.
 
  推论 9:设给定 \(A \in M_n\) 以及 \(\varepsilon >0\). 则存在一个常数 \(C=C(A,\varepsilon)\),使得对所有 \(k=1,2,\cdots\) 以及所有 \(i,j=1,\cdots,n\) 都有 \(\lvert (A^k)_{ij} \rvert \leqslant C(\rho(A)+\varepsilon)^k\).
 
  证明: 考虑矩阵 \(\tilde{A}=[\rho(A)+\varepsilon]^{-1}A\),它的谱半径严格小于 \(1\). 我们知道当 \(k \rightarrow \infty\) 时有 \(\tilde{A}^k \rightarrow 0\). 特别地,序列 \(\\{\tilde{A}^k\\}\) 是有界的,所以存在某个有限的 \(C>0\),使得对所有 \(k=1,2,\cdots\) 以及所有 \(i,j=1,\cdots,n\) 都有 \(\lvert (A^k)_{ij} \rvert \leqslant C\).
 
尽管说 \(A^k\) 的单个元素的性状与 \(k \rightarrow \infty\)\(\rho(A)^k\) 的性状相仿是不够精确的,对于任何矩阵范数 \(\lVert \cdot \rVert\),序列 \(\\{\lVert A^k\rVert\\}\) 的确都有这个渐近性质.
 
  推论 10(Gelfand 公式):\(\lVert \cdot \rVert\)\(M_n\) 上一个矩阵范数,又设 \(A \in M_n\). 那么 \(\rho(A)=\lim\limits_{k \rightarrow \infty} \lVert A^k\rVert^{1/k}\).
 
  证明:由于 $\rho(A)k=\rho(Ak) \leqslant \lVert A^k \rVert $,故而对所有 \(k=1,2,\cdots\) 都有 \(\rho(A) \leqslant \lVert A^k\rVert^{1/k}\). 如果给定 \(\varepsilon >0\),则矩阵 \(\tilde{A}=[\rho(A)+\varepsilon]^{-1}A\) 的谱半径严格小于 \(1\),故而它是收敛的. 这样一来,当 \(k \rightarrow \infty\) 时有 \(\lVert A^k \rVert \rightarrow 0\),且存在某个 \(N=N(\varepsilon, A)\),使得对所有 \(k \geqslant N\) 都有 $\lVert \tilde{A}^k \rVert \leqslant 1 $. 这正好就是如下命题:对所有 \(k \geqslant N\) 都有 \(\lVert \tilde{A}^k \rVert \leqslant (\rho(A)+\varepsilon)^k\),或者说对所有 \(k \geqslant N\) 都有 \(\lVert A^k \rVert^{1/k} \leqslant \rho(A)+\varepsilon\). 由于 \(\varepsilon >0\) 是任意的,且对所有 \(k\)\(\rho(A) \leqslant \lVert A^k\rVert^{1/k}\),我们就推出极限 \(\lim\limits_{k \rightarrow \infty} \lVert A^k\rVert^{1/k}\) 存在且等于 \(\rho(A)\).
 


应该知道什么

  • 不满足次积性的矩阵上的范数称为矩阵上的范数(比如 \(l_{\infty}\)),跟矩阵范数不一样
  • 谱半径函数本身并不是 \(M_n\) 上的范数,对每个 \(A \in M_n\),它是 \(A\) 的所有矩阵范数的值的最大下界
  • \(A \in M_n\). 那么 \(\lim\limits_{k \rightarrow \infty} A^k =0\) 当且仅当 \(\rho(A) <1\)
  • \(\lVert \cdot \rVert\)\(M_n\) 上一个矩阵范数,又设 \(A \in M_n\). 那么 \(\rho(A)=\lim\limits_{k \rightarrow \infty} \lVert A^k\rVert^{1/k}\)
posted @ 2017-12-27 10:22  小鱼吻水  阅读(2818)  评论(0编辑  收藏  举报