数学系列:瑞利商和广义瑞利商(含证明)

瑞利定理(Rayleigh theorem)

定义瑞利商(Rayleigh quotient)为

\[R({A,x}) = \frac{x^HAx}{x^Hx} \tag{1} \]

其中,\(x\in\R^n\)为非零向量,\(A\in\R^{n\times n}\) 为Hermitian矩阵,即满足\(A^H=A\)\(A\)的特征向量即是函数 \(R(A,x)\)的驻点(critical point),特征向量相对应的特征值即为函数在该驻点的值。由此,我们可知\(R(A,x)\)的最大值等于矩阵 \(A\)的最大特征值,而最小值等于矩阵\(A\) 的最小特征值,即

\[\lambda_{\min} \leq \frac{x^HAx}{x^Hx} \leq \lambda_{\max} \]

当向量\(x\)是标准正交基时,即满足\(x^Hx=1\)时,瑞利商为

\[R(A,x)=x^HAx \]

证明:

​ 由Hermitian矩阵的性质\(A^H=A\)易得\(x^HAx\in\R\)\(x^Hx\in\R\),因而\(R(A,x)\)为实数。

​ 下面分析\(R(A,x)\)的驻点,即求

\[\frac{dR(A,x)}{dx}=\bf 0 \tag{2} \]

​ 为了方便推导,令\(x=x_R+ix_I\),其中\(x_R\in\R^n\)是向量\(x\)的实部向量,\(x_I\in\R^n\)是向量\(x\)的虚部向量。式(1)可以改写为

\[\begin{eqnarray} R(A,x)&=&\frac{(x_R+ix_I)^HA(x_R+ix_I)}{(x_R+ix_I)^H(x_R+ix_I)}\nonumber\\ &=&\frac{x_R^TAx_R+x_I^TAx_I}{x_R^Tx_R+x^T_Ix_I} \tag{3} \end{eqnarray} \]

​ 根据微分法则,式(2)可改写为

\[\frac{dR(A,x)}{dx_R}=\bf{0} \]

\[\frac{dR(A,x)}{dx_I}=\bf{0} \]

​ 根据式(3)的形式,分析其中一个即可,利用矩阵微分法则:

\[\frac{d(x^TWx)}{dx}=2x^TW \]

易得

\[\begin{eqnarray} \frac{dR(A,x)}{dx_R}&=&\frac{d}{dx_R}\left(\frac{x_R^TAx_R+x_I^TAx_I}{x_R^Tx_R+x^T_Ix_I}\right)\nonumber\\ &=&\frac{2x_R^TA(x^Hx)-(x^HAx)2x_R^T}{\left(x^Hx\right)^2}\nonumber\\ &=&\frac{2x_R^TA-\frac{x^HAx}{x^Hx}2x_R^T}{x^Hx}=\bf0 \tag{4} \end{eqnarray} \]

​ 因为\(x\)为非零向量,故式(4)等价于

\[x_R^TA-\frac{x^HAx}{x^Hx}x_R^T=\bf0 \tag{5} \]

​ 同理可得

\[x_I^TA-\frac{x^HAx}{x^Hx}x_I^T=\bf0 \tag{6} \]

​ 根据\(x=x_R+ix_I\)\(A^H=A\),式(5)和式(6)可合并为

\[Ax=R(A,x)x \]

​ 这样一切明了,\(R(A,x)\)的最大值和最小值分别取决于矩阵\(A\)的最大特征值和最小特征值,且\(A\)的特征向量即函数\(R(A,x)\)的驻点。

广义瑞利商

定义广义瑞利商为

\[R({A,B,x}) = \frac{x^HAx}{x^HBx} \tag{7} \]

其中,\(x\in\R^n\)为非零向量,\(A\in\R^{n\times n}\)\(B\in\R^{n\times n}\) 为Hermitian矩阵,\(B\)为正定矩阵。\(B^{-1/2}AB^{-1/2}\)的特征向量即是函数 \(R(A,B,x)\)的驻点,特征向量相对应的特征值即为函数在该驻点的值。\(R(A,B,x)\)的最大值等于矩阵\(B^{-1/2}AB^{-1/2}\)的最大特征值,而最小值等于矩阵\(B^{-1/2}AB^{-1/2}\)的最小特征值。

证明:

​ 有了前面瑞利商的性质,广义瑞利商就很容易理解了。令\(y=B^{1/2}x\),可得

\[\begin{eqnarray} x^HAx &=& y^HB^{-1/2}AB^{-1/2}y\nonumber\\ x^HBx &=& y^Hy\nonumber \end{eqnarray} \]

代入式(7),可得瑞利商的形式:

\[R(A,B,y)=\frac{y^HB^{-1/2}AB^{-1/2}y}{y^Hy} \]

参照上文中瑞利商的性质即可完成证明。

附:

瑞利商和广义瑞利商还有另外一种解法。由于对\(x\)幅值的调节并不会影响\(x\)是函数\(R(A,B,x)\)的驻点的方向,同时也不会影响\(R(A,B,x)\)的值。所以,以求最大值为例,可以把式(7)的优化问题转化为

\[\begin{eqnarray} \max &\ & x^HAx\\ s.t. &\ & x^HBx=c\neq0 \end{eqnarray} \]

引入拉格朗日(Lagrange)乘子将其转化为拉格朗日函数的无约束极值问题:

\[\mathcal{L}(x,\lambda)=x^HAx-\lambda(x^HBx-c) \tag{8} \]

在式(8)的极值处,应满足

\[\frac{\partial\mathcal{L}(x,\lambda)}{\partial x}=0 \]

根据矩阵微分法则易得

\[Ax-\lambda Bx=0 \]

整理可得

\[B^{-1}Ax = \lambda x \]

由此可得,\(x\)\(B^{-1}A\)的特征向量,其最大的拉格朗日乘子即\(R(A,B,x)\)的最大值,也是\(B^{-1}A\)的最大特征值。

posted @ 2022-03-21 10:29  不秃头的程序员不秃头  阅读(1630)  评论(1编辑  收藏  举报