变分特征以及子空间的交

将学习到什么

从 Hermite 矩阵的实特征值出发,刻画了 Rayleigh 商定理. 进介绍了描述子空间与特征值大小关系的 Courant-Fischer 极小极大定理.

 


Rayleigh 商定理

 
由于 Hermite 矩阵 \(A \in M_n\) 的特征值是实的,我们可以约定按照代数非减的次序排列:
\begin{align} \label{e1}
\lambda_{\min}=\lambda_1 \leqslant \lambda_2 \leqslant \cdots \leqslant \lambda_{n-1} \leqslant \lambda_n =\lambda_{\max}
\end{align}
当讨论中涉及若干个 Hermite 矩阵时,可以按上述次序标记特征值:\(\{\lambda_i(A)\}_{i=1}^n\), \(\{\lambda_i(B)\}_{i=1}^n\), 如此等等.

Hermite 矩阵 \(A\) 的最小的和最大的特征值可以被刻画成与Rayleigh 商 \(x^*Ax / x^*x\) 有关的极小与极大问题的解. 支持 Rayleigh 商定理的基本事实如下:对于 Hermite 矩阵 \(A\in M_n\), \(A\) 的不同特征值相伴的特征向量是自动正交的(左右特征向量的双正交定理),\(A\) 与单独一个特征值 \(\lambda\) 相伴的特征向量组成的任何一个非空集合所生成的子空间都包含一组与 \(\lambda\) 相伴的特征向量组成的标准正交基,且存在 \(\mathbb{C}^n\) 的一组由 \(A\) 的特征向量组成的标准正交基.
 
  定理1(Rayleigh):\(A \in M_n\) 是 Hermite 的,令 \(A\) 的特征值排序如 \ref{e1} 那样,设 \(i_1,\cdots,i_k\) 是给定的整数,\(1 \leqslant i_1 < \cdots < i_k\leqslant n\), 设 \(x_{i_1},\cdots,x_{i_k}\) 是标准正交的,且使得对每个 \(p=1,\cdots,k\) 都有 \(Ax_{i_p}=\lambda_{i_p}x_{i_p}\), 又设 \(S=\mathrm{span} \{x_{i_1},\cdots,x_{i_p}\}\). 那么
  (a)
\begin{align}
\lambda_{i_1} & = \min\limits_{\{x:0\neq x \in S\}} \frac{x*Ax}{x*x} = \min\limits_{\{x:x\in S \text{且}\lVert x \rVert _2 =1 \}} x^*Ax \notag \\
& \leqslant \max\limits_{ \{ x:x\in S \text{且}\lVert x \rVert _2 =1 \}} x^*Ax = \max \limits_{\{x:0\neq x \in S\}} \frac{x*Ax}{x*x} = \lambda_{i_k}
\end{align}
  (b) 对任何单位向量 \(x \in S\) 都有 \(\lambda_{i_1} \leqslant x^*Ax \leqslant \lambda_{i_k}\),右边(左边)不等式中的等式当且仅当 \(Ax=\lambda_{i_k}x\)\(Ax=\lambda_{i_1}x\))时成立
  (c) 对任何单位向量 \(x \in \mathbb{C}^n\) 都有 \(\lambda_{\min} \leqslant x^*Ax \leqslant \lambda_{\max}\),右边(左边)不等式中的等式当且仅当 \(Ax=\lambda_{\max}x\)\(Ax=\lambda_{\min}x\))时成立. 此外,我们有
\begin{align}
\lambda_{\max}=\max_{x\neq 0} \frac{x*Ax}{x*x} \text{以及} \lambda_{\min}=\min_{x\neq 0} \frac{x*Ax}{x*x}
\end{align}
 
  证明:不妨令 \(x \in S\) 是给定的任何非零的单位向量. 存在纯量 \(\alpha_1, \cdots, \alpha_k\), 使得 \(x=\alpha_1 x_{i_1}+\cdots +\alpha_k x_{i_k}\), 标准正交性确保 \(1=x^*x= \sum\limits_{p,q=1}^k \bar{\alpha}_p \alpha_q x_{i_p}^* x_{i_q}=\lvert \alpha_1 \rvert ^2 + \cdots + \lvert \alpha_k \rvert ^2\). 那么
\begin{align}
x^*Ax=(\alpha_1 x_{i_1}) + \cdots + \alpha_k x_{i_k})^* (\alpha_1 \lambda_{i_1} + \cdots + \alpha_k \lambda_{i_k}x_{i_k})= \lvert \alpha_1 \rvert ^2 \lambda_{i_1} + \cdots + \lvert \alpha_k \rvert ^2 \lambda_{i_k} \notag
\end{align}
就是实数 $ \lambda_{i_1},\cdots, \lambda_{i_k} $ 的一个凸组合,所以它介于这些数中最小值($ \lambda_{i_1} $)以及最大值( \(\lambda_{i_k}\))之间. 此外,$x^*Ax=\lvert \alpha_1 \rvert ^2 \lambda_{i_1} + \cdots + \lvert \alpha_k \rvert ^2 \lambda_{i_k} = \lambda_{i_k} $ 当且仅当只要 \(\lambda_{i_p} \neq \lambda_{i_k}\) 就有 $\alpha_p = 0 $, 当且仅当 \(x = \sum\limits_{\{p:\lambda_{i_p}=\lambda_{i_k}\}} \alpha_px_{i_p}\), 当且仅当 \(x \in S\)\(A\) 的一个与特征值 \(\lambda_{i_k}\) 相伴的特征向量. 类似地推理就对 \(x^*Ax=\lambda_{i_1}\) 建立了等式成立的情形. (c) 中的结论可以从 (b) 中的结论推出,这是因为如果 \(k=n\), 就有 \(S = \mathbb{C}^n\).
 
上个定理中 (c) 的几何解释是:\(\lambda_{\max}\) 中连续实值函数 \(f(x)=x^*Ax\)\(\mathbb{C}^n\) 中的单位球面(这是一个紧集)上的最大值(而 \(\lambda_{\min}\) 则是最小值).

 

Courant-Fischer 极小极大定理

 

在关于 Hermite 矩阵的特征值的讨论中,需要借助于关于子空间交的如下基本结果.
 
  引理1(子空间的交):\(S_1, \cdots, S_k\)\(\mathbb{C}^n\) 的给定的子空间. 如果 \(\delta = \mathrm{dim} S_1 + \cdots + \mathrm{dim} S_k -(k-1)n \geqslant 1\), 则存在标准正交向量 \(x_1,\cdots, x_{\delta}\), 使得对每个 \(i=1,\cdots, k\), 都有 \(x_1,\cdots, x_{\delta} \in S_i\). 设 \(x_1,\cdots, x_{\delta}\)\(S_1 \cap \cdots \cap S_k\) 的一组标准正交基中任意 \(\delta\) 个元素.
 
理解引理,关于 \(\delta\) 这个数值,不妨举俩例子,如果 \(k=1\), 说明这个子空间不能是零空间,\(\delta\) 就是这个非零空间的维数, 如果 \(k=2\), 说明这两个子空间维数之和要严格大于 \(n\), 而 \(\delta\) 表示这个差值. 引理的意思就是存在 \(\delta\) 个标准正交向量是这些子空间共有的, 即子空间的维数.
 
由变分特征所产生的不等式通常是那些有关一个适当的实值函数 \(f\) 以及一个非空集合 \(S\) 简单结论. 这个结论是:如果用更大的集合 \(S' \supset S\) 代替 \(S\), 则 \(\sup\{f(x):x \in S\}\) 不减( \(\inf\{f(x):x \in S\}\) 不增). 即定义域变大了,值域也变大.
 
  引理2:\(f\) 是集合 \(S\) 上的一个有界实值函数,并假设 \(S_1\)\(S_2\) 是使得 \(S_1\) 非空且满足 \(S_1 \subset S_2 \subset S\) 的集合. 那么
\begin{align}
\sup_{x \in S_2} f(x) \geqslant \sup_{x \in S_1} f(x) \geqslant \inf _{x \in S_1} f(x) \geqslant \inf_{x \in S_2} f(x)
\end{align}

 
在有关 Hermite 矩阵 \(A\) 的许多特征值不等式中,\(A\) 的特征值的下界可以通过 \(-A\) 的特征值的上界得出. 在这方面有下面的结论.
 
  结论1:\(A \in M_n\) 是 Hermite 矩阵且有特征值 \(\lambda_1 (A) \leqslant \cdots \leqslant \lambda_n(A)\), 按 \ref{e1} 中那样排序. 那么 \(-A\) 的有序排列的特征值是 \(-\lambda_n (A) \leqslant \cdots \leqslant -\lambda_1(A)\), 即 \(\lambda_k(-A)=-\lambda_{n-k+1}(A)\),\(k=1,\cdots,n\).
 
下面利用上面的引理的 Rayleigh 商定理给出 Courant-Fischer 极小极大定理.
 
  定理2(Courant-Fischer 极小极大定理):\(A \in M_n\) 是 Hermite 矩阵,且设 \(\lambda_1 \leqslant \cdots \leqslant \lambda_n\) 为它的按照次序排列的特征值. 设 \(k \in \{1,\cdots,n\}\)\(S\) 表示 \(\mathbb{C}^n\) 的一个子空间. 那么就有
\begin{align} \label{e5}
\lambda_k = \min_{\{S:\mathrm{dim}S=k\}} \max_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x}
\end{align}
以及
\begin{align} \label{e4}
\lambda_k = \max_{\{S:\mathrm{dim}S=n-k+1\}} \min_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x}
\end{align}
 
  证明:\(x_1,\cdots, x_n \in \mathbb{C}^n\) 是标准正交的,且对每个 \(i=1,\cdots, n\) 都有 \(Ax_i = \lambda_i x_i\). 设 \(S \in \mathbb{C}^n\) 的任意一个 \(k\) 维子空间,又令 \(S' = \mathrm{span} \{x_k,\cdots, x_n\}\). 那么
\begin{align}
\mathrm{dim} S + \mathrm{dim} S' = k+ (n-k+1) =n+1
\end{align}
所以 \(\{x:0 \neq x \in S \cap S'\}\) 是非空的. 借助引理 1 和 Rayleigh 商定理,我们看到
\begin{align}
\sup_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x} & \geqslant \sup_{\{x:0 \neq x \in S \cap S'\}} \frac{x*Ax}{x*x} \geqslant \inf _{\{x:0 \neq x \in S \cap S'\}} \frac{x*Ax}{x*x} \notag \\
& \geqslant \inf _{\{x:0 \neq x \in S'\}} \frac{x*Ax}{x*x} = \min _{\{x:0 \neq x \in S'\}} \frac{x*Ax}{x*x} = \lambda_k
\end{align}
它蕴含
\begin{align} \label{e3}
\inf _{\{S: \mathrm{dim}S=k\}} \sup_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x} \geqslant \lambda_k
\end{align}
然而,\(\mathrm{rank} \{x_1,\cdots, x_k\}\) 包含特征向量 \(x_k\), \(\mathrm{rank} \{x_1,\cdots, x_k\}\) 是对于子空间 \(S\) 的一种选择,且 \(x_k^*Ax_k / x^*x_k = \lambda_k\), 所以不等式 (\ref{e3}) 实际上是等式,其中的下确界和上确界是达到的:
\begin{align}
\inf _{\{S:\mathrm{dim}S=k\}} \sup_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x}=\min _{\{S:\mathrm{dim}S=k\}} \max_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x} = \lambda_k
\end{align}
结论 (\ref{e4}) 可通过将 (\ref{e5}) 与 结论 1 应用于 \(-A\) 得出:
\begin{align}
-\lambda_k & = \min _{\{S:\mathrm{dim}S=n-k+1\}} \max_{\{x:0 \neq x \in S\}} \frac{x*(-A)x}{x*x} = \min _{\{S:\mathrm{dim}S=n-k+1\}} \max_{\{x:0 \neq x \in S\}} \left(-\frac{x*Ax}{x*x}\right) \notag \\
&= \min _{\{S:\mathrm{dim}S=n-k+1\}} \left(- \min _{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x}\right) = -\left( \max_{\{S:\mathrm{dim}S=n-k+1\}} \min_{\{x:0 \neq x \in S\}} \frac{x*Ax}{x*x} \right)
\end{align}
由此就得出 (\ref{e4}).
 
如果在 (\ref{e5}) 中有 \(k=n\), 或者在 (\ref{e4}) 中有 \(k=1\), 就可以略去外层的最优化并置 \(S=\mathbb{C}^n\), 因为这是仅有的 \(n\) 维子空间.
 
极小极大定理通俗地说:对于一个 \(n\) 维空间,则有 \(C_n^k\)\(k\) 维子空间,将这个 \(k\) 维子空间记为 \(S\),则 \(x^*Ax /x^*x\)\(x \in S\), 有一个最大值,那么共有 \(C_n^k\) 个最大值,这 \(C_n^k\) 个最大值中最小的那个就是 \(\lambda_k\);或者说,我任选一个 \(n-k+1\) 维的子空间 \(S\), 则 \(x^*Ax /x^*x\)\(x \in S\), 有一个最小值,那么共有 \(C_n^{n-k+1}\) 个最小值,这 \(C_n^{n-k+1}\) 个最小值中最大的那个就是 \(\lambda_k\).
 
如果有一个 Hermite 矩阵 \(A \in M_n\) 以及它的 Hermite 型 \(x^*Ax\) 在一个子空间上的界,就可以对它的特征值来谈点什么.
 
  定理3:\(A \in M_n\) 是 Hermite 矩阵, \(A\) 的特征值按照增加的次序排列,设 \(S\)\(\mathbb{C}^n\) 的一个给定的 \(k\) 维子空间,又设给定 \(c \in \mathbb{R}\).
  (a) 若对每个单位向量 \(x \in S\) 都有 \(x^*Ax \geqslant c\)\(x^*Ax > c\)), 则 \(\lambda_{n-k+1}(A) \geqslant c\)\(\lambda_{n-k+1}(A) > c\)).
  (b) 若对每个单位向量 \(x \in S\) 都有 \(x^*Ax \leqslant c\)\(x^*Ax < c\)), 则 \(\lambda_k(A) \leqslant c\)\(\lambda_k (A) < c\)).
 
  证明:\(x_1,\cdots, x_n \in \mathbb{C}^n\) 是标准正交的,且对每个 \(i=1,\cdots, n\) 都有 \(Ax_i = \lambda_i(A) x_i\). 又设 \(S_1 = \mathrm{span} \{x_1,\cdots, x_{n-k+1}\}\). 那么 $\mathrm{dim} S + \mathrm{dim} S_1 = k+(n-k+1)=n+1 $ , 所以存在一个单位向量 \(x \in S \cap S_1\). 我们在 (a) 中的假设 \(x^*Ax \geqslant c\,\,(x\in S)\) 以及 Rayleigh 商定理(\(x \in S_1\))合在一起就确保有
\begin{align}
c \leqslant x^*Ax \leqslant \lambda_{n-k+1}(A)
\end{align}
所以 \(\lambda_{n-k+1} \geqslant c\), 如果 \(x^*Ax > c\), 则有严格不等式成立. (b) 中有关 \(A\) 的特征值的上界的结论可通过将 (a) 应用于 \(-A\) 得出.
 
  推论1:\(A \in M_n\) 是 Hermite 矩阵,如果对一个 \(k\) 维子空间中所有的 \(x\) 都有 \(x^*Ax \geqslant 0\), 那么 \(A\) 至少有 \(k\) 个非负的特征值. 如果对一个 \(k\) 维子空间中所有非零的 \(x\) 都有 \(x^*Ax >0\), 那么 \(A\) 至少有 \(k\) 个正的特征值.
 
  证明: 上面的定理确保 \(\lambda_{n-k+1}(A) \geqslant 0\)\(\lambda_{n-k+1}(A) >0\)), 以及 \(\lambda_n(A) \geqslant \cdots \geqslant \lambda_{n-k+1}(A)\).
 


应该知道什么

  • Hermite 矩阵特征值的最值可以用该矩阵的 Rayleigh 商刻画
  • Courant-Fischer 极小极大定理表明 Hermite 矩阵的特征值可与相应的子空间联系起来
posted @ 2017-12-12 15:57  小鱼吻水  阅读(1634)  评论(0编辑  收藏  举报