条件极值(1):隐函数极值问题
本文主要参考了高木贞治的《高等微积分》.为了内容的连续性,我们把第四篇小结里推广的隐函数存在定理重叙如下:
Theorem1(隐函数存在定理的推广)设$f:\mathbf{R}^{n+m}\rightarrow\mathbf{R}^m$为连续可微函数,$\mathbf{R}^{n+m}$中的元素写成$(x_1,\cdots,x_{n+m})$的形式.当$f(a_1,\cdots,a_{n+m})=\mathbf{0}$时,我们把$f$在点$(a_1,\cdots,a_{n+m})$处的雅可比矩阵的第$i_1,\cdots,i_m$列挑选出来$(i_1<i_2<\cdots<i_m)$,按原来的顺序重新排成一个矩阵,这样就形成了$f$在点$(a_1,\cdots,a_{n+m})$处的雅可比矩阵的一个$m\times m$的子方阵,如果该子方阵可逆,那么我们可以在点$(a_1,\cdots,a_{n+m})$附近定义一个$(x_{i_1},x_{i_2},\cdots,x_{i_m})$关于点$(x_{j_1},x_{j_2}\cdots,x_{j_n})$的函数$g$,其中$j_1<j_2<\cdots<j_n$,且$\{j_1,\cdots,j_n\}\bigcup\{i_1,\cdots,i_m\}=\{1,\cdots,m+n\}$,使得只要$f(x_1,\cdots,x_{m+n})=0$,我们就有$g(x_{j_1},\cdots,x_{j_n})=(x_{i_1},\cdots,x_{i_m})$.严格地说,就是存在$(a_{j_1},\cdots,a_{j_n})$和$(a_{i_1},\cdots,a_{i_m})$的邻域$U$和$V$,使得$g$是从$U$到$V$的函数,并且$g$的函数图像满足\begin{align*}&\{((x_{j_1},\cdots,x_{j_n}),g(x_{j_1},\cdots,x_{j_n}))\}=\{((x_{j_1},\cdots,x_{j_n}),(x_{i_1},\cdots,x_{j_m}))|f(x_1,\cdots,x_{n+m})=0\}\cap(U\times V).\end{align*}
Remark1注意,当我们建立$(x_{i_1},x_{i_2},\cdots,x_{i_m})$关于$(x_{j_1},x_{j_{2}}\cdots,x_{j_n})$的函数$g$时,变量$x_{j_1},x_{j_2},\cdots,x_{j_n}$已经处于函数无关的状态.
设$D$是$\mathbf{R}^n$的开子集,$f:D\rightarrow\mathbf{R}$和$g:D\rightarrow\mathbf{R}^m$都是连续可微函数.且对于$D$中的每一点$\mathbf{x}$,都存在相应的$1\leq i_1<\cdots<i_m\leq m$,使得当我们把$g$在$\mathbf{x}$处的雅可比矩阵中的第$i_1,\cdots,i_m$列挑选出来,按原来的顺序重新排成一个矩阵的时候,可以形成$g$在点$\mathbf{x}$处的雅可比矩阵的一个$m\times m$的可逆子方阵.
我们有约束条件$g(\mathbf{x})=\mathbf{0}$,其中$x\in\mathbf{R}^n$,这样的约束条件确定了一个区域$D'$.在$D'$内的所有点都满足该约束条件,而在$D\backslash D'$中的所有点都不满足该约束条件.我们试图找出 $f|D'$ 在区域$D'$上的极值,其中$f|D'$表示函数$f$在区域$D'$上的限制.设$\mathbf{x}=(p_1,\cdots,p_n)$.且设$\mathbf{x_0}$是$f|D'$在$D'$上的极值点.由于$g$在$\mathbf{x_0}$处满足定理1的条件,因此我们可以在点$\mathbf{x_{0}}$附近定义一个$(p_{i_1},p_{i_2},\cdots,p_{i_m})$关于点$(p_{j_1},p_{j_2},\cdots,p_{j_{n-m}})$的函数$h$,其中$j_1<j_2<\cdots<j_{n-m}$,且
${\displaystyle \{j_1,\cdots,j_{n-m}\}\bigcup\{i_1,\cdots,i_m\}=\{1,\cdots,n\},}$
使得只要$g(\mathbf{x_{0}})=0$,我们就有$h(p_{j_1},\cdots,p_{j_{n-m}})=(p_{i_1},\cdots,p_{i_m})$.为了简化论述,不失一般性地,我们不妨设$j_1<\cdots<j_{n-m}<i_1<\cdots<i_m$.于是我们就可以把上述的在约束条件$g(\mathbf{x})=\mathbf{0}$下求$f$的极值问题转化为求
${\displaystyle z=f(p_{j_1},\cdots,p_{j_{n-m}},h(p_{j_1},\cdots,p_{j_{n-m}}))\\\\\ (1)}$
的极值问题,根据注1,我们知道$p_{j_1},\cdots,p_{j_{n-m}}$函数无关.为了求1的极值,我们有两种其实是完全一样的方案.但是,我愿意不劳辛辞地把它们通通写出来.我们先来介绍第一种.为了求1的极值,只需要令
${\displaystyle \frac{\partial z}{\partial p_{j_1}}=0,\cdots,\frac{\partial z}{\partial p_{j_{n-m}}}=0.\\\\\ (2)}$
根据复合函数的求导法则,可得$\forall r\in\{1,\cdots,n-m\}$,我们有\begin{align*}\frac{\partial z}{\partial p_{j_r}}&=\begin{pmatrix}\frac{\partial f}{\partial p_{j_1}}&\cdots&\frac{\partial f}{\partial p_{j_{n-m}}}&\frac{\partial f}{\partial p_{i_1}}&\cdots&\frac{\partial f}{\partial p_{i_{m}}}\end{pmatrix}\begin{pmatrix}
0\\
\vdots\\
1\\
\vdots\\
0\\
\vdots\\
0\\
\frac{\partial p_{i_1}}{\partial p_{j_1}}\\
\vdots\\
\frac{\partial p_{i_m}}{\partial p_{j_1}}\\
\end{pmatrix}(n-m-1\mbox{个}0,1\mbox{位于第}r\mbox{行.})\\&=\frac{\partial f}{\partial p_{j_{r}}}+\sum_{k=1}^{m}\frac{\partial f}{\partial p_{i_k}}\frac{\partial p_{i_k}}{\partial p_{j_{r}}}.
\end{align*}
于是条件2化为如下:$\forall r\in\{1,\cdots,n-m\}$,
${\displaystyle \frac{\partial f}{\partial p_{j_r}}+\sum_{k=1}^{m}\frac{\partial f}{\partial p_{i_k}}\frac{\partial p_{i_k}}{\partial p_{j_{r}}}=0.\\\\\ (3)}$
第二种方案只不过是对第一种方案的符号简化:为了求1的极值,我们先令$\mathbf{t}=(p_{j_1},\cdots,p_{j_{n-m}})$.则式1化为
${\displaystyle z=f(\mathbf{t},h(\mathbf{t})).\\\\\ (4)}$
为了求式1的极值,只用让
${\displaystyle \frac{\partial z}{\partial \mathbf{t}}=0.\\\\\ (5)}$
根据复合函数的求导法则,式5即
${\displaystyle \frac{\partial f}{\partial \mathbf{t}}+\frac{\partial f}{\partial h(\mathbf{t})}\frac{\partial h(\mathbf{t})}{\partial \mathbf{t}}=0.\\\\\ (6)}$
式6和方程组3是一样的.于是与其看繁琐的方程组3,我们不如来看式5.事情做到这一步,其实还没完,因为$\frac{\partial h(\mathbf{t})}{\partial \mathbf{t}}$是很难知道的,因为我们很难确定$h$.幸运的是,根据隐函数定理,我们能继续求出$\frac{\partial h(\mathbf{t})}{\partial \mathbf{t}}$.下面具体地来做.我们知道,
${\displaystyle g(\mathbf{x})=\mathbf{0},}$
即
${\displaystyle g(\mathbf{t},h(\mathbf{t}))=\mathbf{0},}$
${\displaystyle \frac{\partial g}{\partial \mathbf{t}}+\frac{\partial g}{\partial h(\mathbf{t})}\frac{\partial h(\mathbf{t})}{\partial \mathbf{t}}=0.\\\\\ (7)}$
${\displaystyle \frac{\partial f}{\partial \mathbf{t}}=\frac{\partial f}{\partial h(\mathbf{t})}(\frac{\partial g}{\partial h(\mathbf{t})})^{-1}\frac{\partial g}{\partial \mathbf{t}}.\\\\\ (8)}$