此处即为吾之天国。

\[\newcommand{\bf}{\mathbf} \newcommand{\d}{\mathrm d} \newcommand{\p}{\part} \newcommand{\D}{\mathrm D} \newcommand{\scr}{\mathscr} \]

I.极限与连续与一致连续

对于任何“定义域和值域上均有满足正定、对称、三角形不等式的距离函数”的映射,都可以定义极限和连续。

这里的空间可以是一些很抽象的东西,比如说区间上全体划分和代表点构成的 Riemann 和集合,距离被定义为两划分中最粗分段的长度差的绝对值。甚至,可以往空间里强行塞一些诸如无穷之类的概念,通过恰当地定义无穷与其它东西间的距离、和差之类的概念,也可以把趋于无穷的极限兼容。

现在来一些符号表示。对于 \(F:A\to B\),其在 \(x\to x_0\) 时趋于 \(y\),如果

  • 对于每个 \(\epsilon>0\),存在 \(\delta\),使得 \(x_0\)\(\delta\)-邻域中所有元素均映到 \(y\)\(\epsilon\)-邻域中。

然后是一致极限的概念。对于 \(F:(A\times B)\to C\),其在 \(x\to x_0\) 时关于 \(B\) 一致趋于 \(f(y)\),如果:

  • 对于每个 \(\epsilon>0\),存在仅与 \(\epsilon\) 有关的 \(U(\epsilon)\),使得对于一切 \(y\in B\),使得 \(x_0\)\(U(\epsilon)\)-邻域中所有元素均映到 \(f(y)\)\(\epsilon\)-邻域中。

两极限是否可以换序,依赖于如下的分析:

对于任何定义于某种距离有定义的空间上的函数 \(\bf F(\bf x,\bf y)\),如果:

  • \(\lim\limits_{\bf x\to\bf x_0}\bf F(\bf x,\bf y)=\phi(\bf y)\),且该极限关于 \(\bf y\) 一致成立。
  • \(\lim\limits_{\bf y\to\bf y_0}\bf F(\bf x,\bf y)=\Phi(\bf x)\)

那么 \(\lim\limits_{\bf y\to\bf y_0}\phi(\bf y)\), \(\lim\limits_{\bf x\to\bf x_0}\Phi(\bf x)\) 存在且相等。

对于任何 \(\epsilon\),存在仅与 \(\epsilon\) 有关的 \(U(\epsilon)\) 使得对于一切 \(\bf y\) 都有在 \(\bf x_0\)\(U(\epsilon)\)-邻域内,\(\|\bf F(\bf x,\bf y)-\Phi(\bf y)\|<\epsilon\)

对于任何 \(\epsilon\)\(\bf x_1,\bf x_2\),存在 \(V(\epsilon,\bf x_1,\bf x_2)\) 使得在 \(\bf y\)\(V(\epsilon,\bf x_1,\bf x_2)\)-邻域内,\(\|\bf F(\bf x_1,\bf y)-\phi(\bf x_1)\|<\epsilon,\|\bf F(x_2,\bf y)-\phi(\bf x_2)\|<\epsilon\)

对于 \(U(\epsilon)\)-邻域中的 \(\bf x_1,\bf x_2\),取 \(V(\epsilon,\bf x_1,\bf x_2)\)-邻域中的 \(\bf y\),则

\[\|\phi(\bf x_1)-\phi(\bf x_2)\| \\\leq\|\phi(\bf x_1)-\bf F(\bf x_1,\bf y)\|+\|\bf F(\bf x_1,\bf y)-\Phi(\bf y)\|+\|\phi(\bf x_2)-\bf F(\bf x_2,\bf y)\|+\|\bf F(\bf x_2,\bf y)-\Phi(\bf y)\| \\\leq4\epsilon \]

这表明其满足 Cauchy 引理,于是有 \(\lim\limits_{\bf x\to\bf x_0}\phi(\bf x)\) 存在,可设之为 \(\bf A\)。于是,对于 \(\epsilon\),取 \(U(\epsilon)\) 中的 \(\bf x_1\),则有 \(\|\phi(\bf x_1)-\bf A\|\leq4\epsilon\)

而,取定 \(U(\epsilon)\)-邻域中的 \(\bf x_1\),考虑 \(V(\epsilon,\bf x_1)\) 邻域中的 \(\bf y\),则

\[\|\Phi(\bf y)-\bf A\| \\\leq\|\Phi(\bf y)-\bf F(\bf x_1,\bf y)\|+\|\bf F(\bf x_1,\bf y)-\phi(\bf x_1)\|+\|\phi(\bf x_1)-\bf A\| \\\leq\epsilon+\epsilon+4\epsilon \\\leq6\epsilon \]

那么 \(\lim\limits_{\bf y\to\bf y_0}\Phi(\bf y)=A=\lim\limits_{\bf x\to\bf x_0}\phi(\bf x)\),也即两极限可以换序。

有界闭集上连续函数必然一致连续,因此视情况而定一致连续的条件也有可能退化为连续。

II.同阶

认为当 \(x\to x_0\) 时,\(f(x)=O(g(x))\),如果存在 \(x_0\) 的邻域以及 \(0<A<B\),使得 \(A\|g(x)\|\leq \|f(x)\|\leq B\|g(x)\|\)

存在不牛的教材认为必须得 \(\lim\limits_{x\to x_0}\dfrac{\|f\|}{\|g\|}=C\);但是这会导致若干东西之间无法比较,而这是不牛的。

认为 \(f=o(g)\),如果对于任意 \(\epsilon\) 都存在 \(x_0\) 的邻域使得 \(\|f\|\leq\epsilon\|g\|\)

阶的定义仍然与基无关。

几种常用的“标准”阶,为 \(\|x\|^k\) 之类的。

所有的范数间彼此同阶。

III.微分

微分 \(\D f(x_0)(x)\),是满足 \(f(x_0+x)=f(x)+\D f(x_0)(x)+o(\|x\|)\) 的、在第二维上线性的函数。

因为线性函数就仅仅是满足 \(\lambda L(x)=L(\lambda x),L(x)+L(y)=L(x+y)\) 的函数,所以微分的定义与基无关。

但是,微分的维数太高,人类无法准确地描述它。为了刻画它,我们尝试在某条直线上定义之。

沿着向量 \(v\) 的导数,是 \(\lim\limits_{t\to0}\dfrac{f(x_0+tv)-f(x_0)}t\)。仅当 \(v\) 是单位向量时,其可以被称作方向 \(v\) 的方向导数,可以记作 \(\p_vf,\dfrac\p{\p v}f\) 之类各种说法。

在微分存在时,方向导数有着很好的性质,比如说 \(\p_vf(x_0)=\D f(x_0)(v)\) 之类的。事实上,这个性质不仅对于方向导数生效,对于沿向量导数也是有效的。但是,沿向量导数往往没有类似于 \(\dfrac\p{\p v}f\) 之类简洁的符号表达,这是因为向量长度乘以 \(\lambda\),沿向量导数也会乘以 \(\lambda\),与这个“分数”形式的式子显得有些格格不入。相反,一维的时候,诸如 \(\dfrac{\d y}{\d x}\) 之类的定义,其实是 \(\dfrac{\Delta y}{\Delta x}\) 趋于 \(0\) 时的结果,\(x\) 这个东西确确实实是在分母上的,因此 \(\dfrac{\d y}{\d(\lambda x)}\) 之类的说法在一维时是合法的;但是在高维时,类似的说法是不存在的。

方向导数也是不依赖坐标系而独立存在的。——尽管在坐标系下,方向导数可能有着更牛的某些性质,更简单的刻画之类的。

线性函数总是可以用任一组基底处的值来唯一刻画。这其中,如果我们特意选取单位正交基,那么就有着如下优雅的性质:

  • \(\part_i\)\(f\) 沿着第 \(i\) 个基底向量的导数(这种导数被称作 偏导数。偏导数仅在基底确定时有定义。视情况而定,可能有 \(\p_{x^i}\)\(\dfrac{\p}{\p x^i}\) 之类的记法。)
  • 则,对于 \(\bf x=\sum\xi_i\bf e_i\) 的场合,有 \(\D f(\bf x_0)(\bf x)=\sum\limits_{i=1}^n\xi_i\p_i(\bf x_0)\)

在值域是一维的场合,有对应的梯度向量 \(\nabla f(x_0)=\sum\p_i(x_0)\bf e_i\)。梯度向量有着 \(L(\bf x_0)(\bf x)=\nabla f(x_0)\cdot\bf x\) 的优秀性质。在梯度非零时,梯度方向是函数值变化最剧烈的方向。

梯度本身其实亦是与坐标系无关的,因为任意线性函数都可以被转为与某一向量的内积,这一向量即为梯度。然而,具体对梯度的计算还是在坐标系下进行的。

在值域一维的情形下,梯度可以完美刻画微分。值域高维的情况下,使用 Jacobi 矩阵来刻画微分。

Jacobi 矩阵是在对值域和定义域同时建立坐标系后才有定义。对值域正交坐标系刻画后,\(\bf F(\bf x)\) 就被变成了若干个 \(F_i(\bf x)\) 构成的列向量。对每个列向量分开求偏导数,最终得到 Jacobi 矩阵

\[JF(\bf x_0)=\begin{bmatrix}\p_1F_1(\bf x_0)&\p_2F_1(\bf x_0)&\dots\\\p_1 F_2(\bf x_0)&\p_2F_2(\bf x_0)&\dots\\\vdots&\vdots&\ddots\end{bmatrix} \]

Jacobi 矩阵是 \(n\times m\) 矩阵,其中 \(n\) 是值域维数,\(m\) 是定义域维数。值域一维时,Jacobi 矩阵是行向量,其实就是梯度的转置。定义域一维时,Jacobi 矩阵是列向量,其实对应着“高维导数”,即向量导数的概念;值域、定义域均只有一维时,就是普通的一维导数。

值域是高维时,偏导是列向量,Jacobi 矩阵是偏导数向量的拼接。

由 Jacobi 矩阵可以直接刻画微分,即 \(L(\bf x_0)(\bf x)=JF(\bf x_0)\bf x\),其中后者是直接的矩阵乘法,直接乘出来就得到微分(的向量表示)。回到微分的定义式,便有 \(F(\bf x_0+\bf x)=F(\bf x_0)+JF(\bf x_0)\bf x+o(\|\bf x\|)\);如果是梯度,则有 \(f(\bf x_0+\bf x)=f(\bf x_0)+\nabla f(\bf x_0)\cdot\bf x+o(\|\bf x\|)=f(\bf x_0)+\nabla f(\bf x_0)\bf x^T+o(\|\bf x\|)\)

微分的定义式比较难以应用。有微分的存在性定理,即如果每一维偏导数均存在,且所有偏导数均连续(注意这里是连续而非偏连续),则微分必然存在(事实上,可以有至多一维存在但不连续,证明使用 Lagrange 中值定理);但是反之不亦然,即不存在连续偏导数则微分也可能存在。但是,如果偏导数不存在,则微分必然不存在。

特别地,多元函数本身就可以将每一维看作一个线性维度,不同的维度被类似于笛卡尔积一样的东西组合在一起,其实本质上也是一种坐标系展开罢了。不同的是,这里的坐标系是“内嵌”于函数定义域中的,不太能够随意变换。因此,下一节中,我们将使用函数嵌套的思想,来处理这种内嵌坐标系的变换。

IV.坐标系变动与函数嵌套

首先思考同一个线性空间下的坐标系变换。线性空间下坐标系变换可以用矩阵 \(A\) 刻画,事实上有 \(J'=JA\)

更多的其实是非线性的变换,比如说 \(\bf y=\bf F(\bf x)\)\(\bf z=\bf G(\bf y)\)。这时,通过一些推导,我们可以得到 \(\D\bf G(\bf F(\bf x_0))(\bf x)=\D\bf G(\bf y_0)\circ\D\bf F(\bf x_0)(\bf x)=\D\bf G(\bf y_0)(\D\bf F(\bf x_0)(\bf x))\)。或者,经历一些恼人的省略后,我们得到 \(\D\bf G(\bf F)=\D\bf G\circ\D\bf F\)。如何展开这一坨东西可以参考本人之前的作品。

比如说,我们来求偏导。

\[\dfrac{\p}{\p x_i}\bf G(\bf F(\bf x_0)) \\=\D\bf G(\bf y_0)(\dfrac\p{\p x_i}\bf F(\bf x_0)) \\=J\bf G(\bf y_0)\dfrac\p{\p x_i}\bf F(\bf x_0) \\=\sum\left(\dfrac\p{\p x_i}\bf F(\bf x_0)\right)_j\dfrac{\p}{\p y_j}\bf G(\bf y_0) \\=\sum\dfrac{\p y_j}{\p x_i}\dfrac{\p}{\p y_j}\bf G(\bf y_0) \]

一种思考方式是,\(\bf G\) 的线性近似,其实是所有的 \(\bf y_i\) 方向按照 \(\p_{\bf y_i}\bf G\) 的系数的线性组合;现在要对 \(\bf x\) 对应的基底处理,就可以先做一遍线性近似,展成各个 \(\bf y_i\),然后再对 \(\bf y_i\) 分开在 \(\bf x\) 的每一项处理,即得上式。

写成矩阵的形式就是 \(JG(F)=JG\times JF\)

V.高阶导数与 Taylor 展开

微分是普罗米修斯,为混沌的映射带来的线性的最初曙光。人有了火,就会想着去研发原子弹。Taylor 展开就是把线性完全撕碎,纠缠的高阶导数迸发的能量足以令人头晕目眩。

微分与原本函数并非同一类型:如果原函数是 \(U\to V\),则微分是 \(U\times U\to V\)。但是,偏导数却和原始函数有相同的类型,都是 \(U\to V\) 的函数。因此,偏导数可以再求偏导,不论是与原本偏导同向还是换向。

称函数 \(\in\scr C^1\),如果其在定义域中连续可偏导(指存在连续的一阶偏导数)。称 \(\in\scr C^k\),如果所有的偏导函数都 \(\in\scr C^{k-1}\)。称 \(\in\scr C^\infty\),如果任意高阶可微。

高阶偏导 \(f_{k_1,\dots,k_r}=\dfrac{\p^r}{\p x_{k_r}\dots\p x_{k_1}}f=\dfrac\p{\p x_{k_r}}\dfrac\p{x_{k_{r-1}}}\dots\dfrac\p{\p x_{k_1}}f\)。永远是靠近 \(f\) 的先求导。\(m\) 元函数的 \(r\) 阶偏导有 \(m^r\) 种。

Clairaut 定理:若对于同一组求偏导的元素,任意交换求偏导顺序得到的偏导函数全部都连续,则其全部都相等。于是有 \(\dfrac{\p^r}{\p x_1^{t_1}\dots\p x_n^{t_n}}f\) 这样的写法。

带 Peano 余项的 \(r\) 阶 Taylor 公式

\[f(\bf x_0+\bf v)=\sum\limits_{i=0}^r\sum\limits_{\sum t=i}\dfrac{\p^i}{\p x_1^{t_1}\p x_2^{t_2}\dots\p x_{n}^{t_n}}f(\bf x)\dfrac{\bf v_1^{t_1}\bf v_2^{t_2}\dots\bf v_n^{t_n}}{t_1!t_2!\dots t_n!}+o(\|\bf v\|^r) \]

带 Lagrange 余项的 \(r\) 阶 Taylor 公式

\[f(\bf x_0+\bf v)=\sum\limits_{i=0}^r\sum\limits_{\sum t=i}\dfrac{\p^i}{\prod\p x_i^{t_i}}f(\bf x)\prod\dfrac{\bf v_i^{t_i}}{t_i!}+\sum\limits_{\sum t=r+1}\dfrac{\p^{r+1}}{\prod\p x_i^{t_i}}f(\bf x_0+\theta\bf v)\prod\dfrac{\bf v_i^{t_i}}{t_i!} \]

特别需要注意不能忽略 Taylor 展开的阶乘系数

VI.常义含参积分与换序初步

对于定义于矩形 \([a,b]\times[c,d]\) 上的函数 \(f(x,y)\),可以定义对应的常义含参积分 \(I(y)=\int_a^bf(x,y)\d x\)\(J(y)=\int_a^bf(x,y)\d y\)

只要函数连续,常义含参积分就连续。这不仅适用于定义于矩形上的含参积分,更适用于某闭集上的 \(\bf x\) 乘以某闭区间 \([a,b]\) 上的 \(y\) 关于 \(\int_a^b\) 的含参积分,并直接知函数连续时,极限与积分可以交换。

两常义含参积分在函数连续时亦可以换序。

在原函数和偏导数均连续时,常义含参积分可以与偏导换序。这是因为求偏导只在意邻域附近的值,然后 \([a,b]\) 又是闭区间,所以连续可以推出一致连续。

由此得到变上下限含参积分导数求法:

\[F(y)=\int_{u(y)}^{v(y)}f(x,y)\d x \]

\(G(u,v,y)=\int_u^vf(x,y)\d x\),则由 Newton-Leibniz 公式,\(\p_uG=-f(u,y),\p_vG=f(v,y)\),且 \(\p_yG=\int_u^v\p_yf(x,y)\d x\)

现在存在 \(u=u(y)\)\(v=v(y)\) 的函数,于是 \(F(y)'=u'\p_uG+v'\p_v G+\p_yG=v'f(v,y)-u'f(u,y)+\int_{u(y)}^{v(y)}\p_yf(x,y)\d x\)

同时,如果有一个孤立的不易计算的积分,可以尝试将其嵌入一族积分中,对该族积分求偏导并将偏导数移入积分内,求出偏导值再积分回去得到原积分。

VII. Hesse 矩阵与极值分析

Fermat 引理在多元时仍然成立。如果梯度非零,则顺梯度方向在充分小邻域内函数增,逆梯度方向则在充分小邻域内减,于是极值点必是零梯度点。零梯度点被称作 驻点临界点

同一元时一致,要想分析极值点的性质,得展开到二阶。驻点附近的二阶 Taylor 展开是 \(f(\bf x_0+\bf v)=f(\bf x_0)+\dfrac12\sum\limits_i\sum\limits_j\p_{i,j}f(\bf x_0)\bf v_i\bf v_j+o(\|\bf v\|^2)\)

Hesse 矩阵或者 Hessian 是二阶偏导构成的矩阵 \(H_f(\bf x_0)=[\p_{i,j}f(\bf x_0)]\)。Hesse 矩阵是对称的,对称矩阵总有实特征值。

套用 Hesse 矩阵,得到 \(f(\bf x_0+\bf v)=f(\bf x_0)+\dfrac12\bf v^TH\bf v+o(\|\bf v\|^2)\)

对于 \(\bf v\),希望可以在特征空间里分解,分解为特征向量的线性组合。沿着 \(\xi_i\bf r_i\)——其中 \(\bf r_i\) 是对应特征值 \(\lambda_i\) 的特征向量——走,\((\xi_i\bf r_i)^T H(\xi_i\bf r_i)=(\xi_i\bf r_i)^T\lambda_i(\xi_i\bf r_i)=\lambda_i\|\xi_i\bf r_i\|^2\)。因此,这个值的正负性全看 \(\lambda_i\) 的正负性。

如果全体特征值均为正,则分解后得到的每一项也为正,于是向所有方向跑的增量都为正,则为极小值。均为负,则为极大值。某些特征值为正某些为负,则是鞍点。如果存在零特征值,则对应特征向量方向可能需要更细致的高阶展开。

于是得到:

  • Hesse 矩阵正定是极小值的充分条件。
  • Hesse 矩阵半正定是极小值的必要条件。

同理,负定、半负定是极大值的充分、必要条件。

如何快速判定正定性?对于 \(2\times2\) 对称矩阵 \(\begin{bmatrix}a&b\\b&c\end{bmatrix}\),当 \(ac\neq b^2\) 时其非退化,此时:

  • \(a>0,ac>b^2\) 则其正定。
  • \(a<0,ac>b^2\) 则其负定。
  • \(ac<b^2\) 则其不定。

VIII.函数的凹凸性

凸集,是任意两点连线上所有点都在集合内的集合。

凸集上定义的凸函数才有意义。取任意两点,如果其连线上点的函数值总是在该两点连线及其下方,则称其是凸函数。如果除了端点外其余点都在连线严格下方,则称其严格凸。凹函数的负函数是凸函数。

对于 \(\scr C^2\) 函数,若 Hesse 矩阵总是半正定,则其凸;若总是正定,则其严格凸。前者反之亦然:即凸函数的任意内点均有半正定 Hesse 矩阵;但后者反之不亦然,严格凸函数的 Hesse 矩阵并不需要处处正定。

\(\scr C^2\) 凸函数的临界点必为极小值、最小值。若严格凸,则必为唯一最小值。证明凸函数可以用于应对一些 Hesse 矩阵退化(即存在零特征值)的场合,因为零特征值 Hesse 矩阵处无法单靠 Hesse 矩阵判断极值性。

IX.隐函数定理与逆映射定理

如果说微分像火,高阶微分像原子弹:研究能量的尺度不断精细化;那么,隐函数定理就是火球术,其背后站着一整套完善的魔法体系——即线性代数相关内容。火球术虽然不起眼,但是却为我们打开了用火的新思路。

隐函数定理告诉我们,当 \(\bf F(\bf x,\bf y)=\bf 0\) 时,在任意解 \(\bf x_0,\bf y_0\) 处,若 \(\dfrac{\p\bf F}{\p\bf y}\) 对应的 Jacobi 矩阵可逆(这首先要求 \(\bf y,\bf F\) 的维数相同),则在解周围存在由 \(\bf x\) 唯一决定 \(\bf y\) 的方法 \(\bf y=\bf y(\bf x)\)

隐函数定理使得我们可以用一种 恰当 的方式对方程进行线性近似,即对方程两侧同时关于 \(\bf x\) 求偏导,得到 \(\dfrac{\p\bf F}{\p\bf x}+\dfrac{\p\bf F}{\p\bf y}\dfrac{\p\bf y}{\p\bf x}=\bf 0\),进而 \(\dfrac{\p\bf y}{\p\bf x}=-\left(\dfrac{\p\bf F}{\p\bf y}\right)^{-1}\dfrac{\p\bf F}{\p\bf x}\)。隐函数定理保证此式有定义。

  • 如何简单求逆?Cramer 法则表明,\(\begin{bmatrix}a&b\\c&d\end{bmatrix}^{-1}=\dfrac{\begin{bmatrix}d&-b\\-c&a\end{bmatrix}}{\det\begin{bmatrix}a&b\\c&d\end{bmatrix}}\)

同理有逆映射定理。逆映射定理其实比起隐函数定理,更好体现了线性近似的原则:若 \(\bf y=\bf F(\bf x)\),则其线性近似为 \(\bf y-\bf y_0= J\bf F(\bf x_0)(\bf x-\bf x_0)\);如果 Jacobi 矩阵 \(J\bf F(\bf x_0)\) 可逆(这首先要求 \(\bf x,\bf y\) 的维数相同),则逆映射满足 \(J\bf F^{-1}(\bf y_0)=J\bf F(\bf x_0)^{-1}\)

目前没啥用处(?)的整体微分同胚定理:对于开集 \(U\in\R^n\),考虑 \(F:U\to\R^n\)\(\scr C^r\) 映射,则以下两陈述等价:

  • \(F\) 是开集到开集的微分同胚,即存在有相同高阶可微性的逆映射。
  • \(F\) 是单射,且 Jacobi 矩阵处处可逆。

微分同胚是一种非线性的可逆坐标变化。

X.曲面与切空间与法空间

高维的曲面,是一组点集,满足:

  • 对于点集中每个点,考虑其邻域中所有点集里的点,这些点总是可以由一部分变量确定另一部分变量的值。

如果总是可以由 \(m\) 个变量确定剩下变量的值,那么这个曲面被称作 \(m\) 维曲面。如果这 \(m\) 个变量在邻域内彼此独立,且该性质对于曲面中每个点及其邻域均与 \(m\) 无关地成立,那么这个曲面被称作 \(m\) 维正则曲面。

常见的定义曲面的方式有三种,即显式表现法(直接对平面内每个点给出一部分坐标由另一部分坐标决定的法则)、正则水平集法(满足 \(\bf F(\bf x)=\bf 0\) 的元素集合),和正则参数方程法(参数 \(\bf t\) 对应曲面中某点 \(\bf x(\bf t)\))。其中后两者比较有价值。

我们主要研究曲面的线性近似,即切平面。切空间是过原点的线性平面,其平移后得到过切点的仿射空间,是为切平面。切平面中任一向量为切向量。与切空间正交的空间是法空间,其平移后同样得到过切点的仿射空间,是为法平面。研究曲面的性质,大部分是在研究切空间与法空间相关性质。

正则水平集法,其刻画了正则曲面,如果 Jacobi 矩阵满行秩,此时直接由隐函数定理,可以摘出那些在秩里的列,由这些列对应的向量刻画其它向量。正则水平集的 Jacobi 矩阵是一个扁胖的矩阵,因为矩阵的每一行是一条限制,让点集失去一个自由度;因此,如果 Jacobi 矩阵满行秩,则在此点附近正则水平集刻画一列数减行数维的曲面。

正则水平集的线性近似是 Jacobi 矩阵的(列)零空间。事实上,这表明正则水平集的场合,切空间就是 Jacobi 矩阵的零空间:这是切空间的隐式表示。切空间如果要显式表示,那么就需要求零空间的一组基,然后用基的线性组合表示零空间。同理,法空间是零空间的正交空间,即 Jacobi 矩阵的行空间。我们习惯把空间当成列空间来看,因此思考法空间的列表示,发现 Jacobi 矩阵的每一行都对应着正则水平集方程组 \(\bf F(\bf x)=\bf 0\) 的某行的行方程,该行方程的梯度的转置。于是,法空间的列形式,就是方程组中所有方程的梯度的线性组合。同理,这是一组显式表示,如果要求隐式表示就要加以转化。

而,正则参数方程法,仅在 Jacobi 矩阵满列秩时刻画正则曲面,此时可以摘出若干行,由逆映射定理,可以由这些行的变量反推参数,然后由参数推出剩余变量。正则参数方程的 Jacobi 矩阵是一个瘦高的矩阵,因为矩阵的每一列本身就是一个自由元;因此,Jacobi 矩阵满列秩时,正则参数方程刻画一列数维曲面。

正则参数方程的线性近似是 Jacobi 矩阵的列空间,也即其切空间。于是,其切空间即为各个偏导的线性组合,此乃显式表示。因为正则所以偏导数线性无关,则如果曲面是超曲面(维度为空间维度减一,即 \(\bf t\) 的维度恰为 \(\bf x\) 的维度减一),切向量 \(\bf v\) 能被线性表出当且仅当方阵 \([\bf v\quad J\bf x]\) 不可逆,也即行列式为零。关于第一列作代数余子式展开,得到切平面的隐式形式 \(\sum\bf v_i\det J\bf x\setminus i=0\),其中 \(J\bf x\setminus i=\dfrac{\p(\bf x_{i+1},\dots,\bf x_n,\bf x_1,\dots,\bf x_{i-1})}{\p\bf t}\)。此时,法平面为一维,也即直线,且有法向量 \([J\bf x\setminus i]^T\),隐式法线方程 \(\dfrac{\bf v_1}{J\bf x\setminus 1}=\dots=\dfrac{\bf v_n}{J\bf x\setminus n}\),显式方程即为法向量的任意倍数。

XI. Lagrange 乘子法

Lagrange 乘子法用于求某个曲面上的最值。考虑要最小/最大化 \(f(\bf x)\),且 \(\bf x\) 位于 \(\bf F(\bf x)=\bf 0\) 的曲面上。

  • 为什么曲面是正则水平集而不是正则参数?因为正则参数 \(\bf x(\bf t)\) 可以直接代入 \(\bf f\) 的式子中,变成最值化 \(f(\bf t)\)

此时,\(f(\bf x)\) 的最值不再需要梯度为零,只需要梯度与曲面的切平面正交即可,也即梯度向量位于法平面中,即可以被 \(\bf F(\bf x)\) 的梯度向量们线性表出。考虑令 \(\Lambda\) 向量表示每个梯度前的线性系数,则得到 Lagrange 函数 \(L(\bf x,\Lambda)=f(\bf x)-\Lambda\cdot\bf F(\bf x)\),则极值点必是 \(L\) 函数的驻点。

但是,此等分析只在内点有效,倘若曲面被加诸了比较“粗糙”的边界,则边界上点需要加诸额外限制并分析。

倘若只要求最值,那么一般而言不需要判定驻点的极值点类型,只需一股脑求出全体驻点并对它们求最值,并尝试处理趋于边界时的取值即可。同时,灵活运用“有界闭集上连续函数必然存在最大最小值”以及“当边界时函数值趋于负无穷时,连续函数存在最大值”及其相反条件可以省掉很多讨论。

但是问题在于,有些时候不得不判定极值点类型。这时就要分析切平面中 Hesse 矩阵的性质了。

从头开始推论。倘若在 \(\bf x^*\) 处满足 \(\bf F(\bf x^*)=0\),则我们不妨假定 \(J\bf F(\bf x^*)\) 满行秩,这样可以应用隐函数定理,将 \(\bf x\) 中变量分成 \(\bf u,\bf v\) 两半,满足在 \(\bf x_0\) 周围存在隐函数 \(\bf v=\bf v(\bf u)\)。于是,\(f(\bf x)=f(\bf u,\bf v)=f(\bf u,\bf v(\bf u))=:\Phi(\bf u)\),且此时新定义的 \(\Phi(\bf u)\) 即失去了 \(\bf F\) 加诸的性质,可以直接应用 Hesse 矩阵加以分析。

\(\Phi\) Taylor 展开,得到

\[\Phi(\bf u^*+\bf w)=f(\bf u^*+\bf w,\bf v(\bf u^*+\bf w)) \\=f(\bf u^*,\bf v^*)+\p_1f(\bf u^*,\bf v^*)+\p_2f(\bf u^*,\bf v^*)\D\bf v(\bf u^*)\bf w \\+\dfrac12\p_2f(\bf u^*,\bf v^*)\D^2\bf v(\bf u^*)\bf w+\dfrac12\p_{1,2}^2f(\bf u^*,\bf v^*)(\bf v,\D\bf v(\bf u^*)\bf w)+o(\|\bf v\|^2) \]

\(\bf z=\D\bf v(\bf u^*)\bf w,\Lambda^*=(\p_2f(\bf x^*,\bf y^*)\p_2\bf F(\bf x,\bf y)^{-1})^T\),则极值点处的 \(\Phi\) 满足梯度为零,即 \(\p_1f(\bf x^*,\bf y^*)-\Lambda^{*T}\p_1\bf F(\bf x^*,\bf y^*)=0\)。其实就是 Lagrange 乘子的 \(\p_1L(\bf x,\Lambda)=0\)。也就是说,上述 Taylor 展开所需要的 \(\Lambda^*\) 刚好可以被 Lagrange 乘子表出。

二阶导一通推后,得到 \(\bf w^T(H_L)_\bf x\bf w\)

考虑在驻点处的切平面是 \(\Xi\),由 \(\bf F(\bf x)=\bf 0\) 以及极值点位置最终可以得到 \(G\Xi=\bf 0\) 的限制,其中 \(G\) 是常系数矩阵。应用上述推论,计算 \(\Xi^T(H_L)_\bf x\Xi\),代入 \(\Xi\) 的性质(例如 \(G\Xi=\bf 0\))来验证此式是否对于 \(\Xi\neq\bf0\) 恒正或恒负。

XII.广义含参积分

广义含参积分 \(\int_a^\omega f(x,y)\d y\)\(\lim\limits_{b\to\omega}\int_a^bf(x,y)\d y\)。称 \(f\)\(A\) 上逐点收敛,如果对于一切 \(x\in A\) 都有 \(\lim\limits_{b\to\omega}\int_a^bf(x,y)\d y\) 收敛。称 \(f\)\(A\) 上一致收敛,如果对于一切 \(\epsilon\),都存在共同的 \(\delta\),使得在 \(\omega\)\(\delta\)-邻域内的一切 \(b\),对于一切 \(x\in A\),都有 \(\int_a^bf(x,y)\d y\) 与最终极限的差不超过 \(\epsilon\)

判定一致收敛有所谓的 Cauchy 准则:若 \(\int_a^\omega f(x,y)\d y\)\(A\) 上一致收敛,当且仅当对于一切 \(\epsilon>0\),存在常数 \(\delta\) 使得一切在 \(\omega\)\(\delta\)-邻域内的 \(b_1,b_2\) 都有 \(|\int_{b_1}^{b_2}f(x,y)\d y|<\epsilon\) 成立,不论 \(x\) 取何值。

一致绝对收敛:取绝对值后的函数仍然一致收敛。

Weierstrass 判别法:如果 \(|f(x,y)|<F(y)\)\(\int_a^\omega F(y)\d y\) 收敛,则广义含参积分一致(绝对)收敛。

Dirichlet 判别法和 Abel 判别法是衡量乘积 \(f(x,y)g(x,y)\) 的一致收敛性的方法。

其中,Dirichlet 判别法的条件为:

  • \(\int_a^bf(x,y)\d x\) 一致有界,也即对于一切 \(a<b<\omega\) 和一切 \(x\),该式均被常数 \(B\) 限制。
  • \(g(x,y)\)\(y\) 固定时,关于 \(x\) 单调。
  • \(x\to\omega\) 时,\(g\) 关于 \(y\) 一致趋于 \(0\)

而 Abel 则为:

  • \(\int_a^bf(x,y)\d x\) 一致收敛。
  • \(g(x,y)\)\(y\) 固定时,关于 \(x\) 单调。
  • \(g\) 一致有界。

定义 \(g(x)=\int_a^\omega f(x,y)\d y\)。对于开集或闭集上的 \(g\),如果 \(g(x)\) 一致收敛且 \(f\) 连续,则 \(g\) 连续。这同时得到推论,极限可以和广义含参积分换序。

当函数连续且积分一致收敛时,广义积分可以和 Riemann 积分换序。

当满足下文中提到性质时,广义积分可以和广义积分换序。

XIII.换序大全

我们最开始介绍了万能换序公式:对于任何含距离空间上的 \(\bf f(\bf x,\bf y)\),只要其中一者有一致的极限、另一者有极限,则累次极限均存在且相等。

换序的两方可能是以下东西中任意两个:极限、Riemann 积分、偏导、广义积分。我们不仅在意函数被操作的维数,更在意在未操作的维数上的信息。

但是大概率不会涉及到这么复杂的东西。

  • 极限与极限的换序。

最经典的一集。

函数:\(f(x,y)\),定义域可以看作某点 \((x_0,y_0)\) 的邻域 \(A\times B\)

\[\lim_{x\to x_0}\lim_{y\to y_0}f(x,y)=\lim_{y\to y_0}\lim_{x\to x_0}f(x,y) \]

一个充分条件是,\(\lim_{y\to y_0}f(x,y)=A(x)\) 此式对于一切 \(x\in A\) 一致且有 \(\lim_{x\to x_0}f(x,y)=B(y)\)

如果还牵扯到一些无关变量 \(z\),想要分析 \(g(z)=\lim_{x\to x_0}\lim_{y\to y_0}f(x,y,z)\) 的连续性等性质怎么办?

凉拌。

  • 极限与 Riemann 积分的换序。

定义域:\(A\times[a,b]\)

\[\lim_{x\to x_0}\int_a^bf(x,y)\d y=\int_a^b\left(\lim_{x\to x_0}f(x,y)\right)\d y \]

需要 \(\lim_{x\to x_0}f(x,y)\) 的极限一致。

需要 \(f\) 连续。这本质是因为,\(f\) 连续推出常义含参积分连续。

  • 极限与偏导的换序。

定义域:有界闭区间,\(y_0\) 的有界闭邻域,有界闭集合 \(C\)

\[\p_x\lim_{y\to y_0}f(x,y,z)=\lim_{y\to y_0}\p_x f(x,y,z) \]

要求在 \(y_0\) 邻域内等度可导(?)(指导数收敛速度可以被同一个东西所 bound(?))

其实,一个充分条件是,导数及其偏导数均连续即可。

  • 事实上需要的是一致连续,不过因为定义域的有界闭性所以由连续可以推出有界闭。
  • 其实,本质还是因为导数是局部性质,对要分析导数的每一点取邻域展开即可。

另一种更常见(?)的离散形式是,若函数列 \(\{f_n(x)\}\)\((a,b)\) 收敛于 \(f(x)\),且 \(f_n(x)\) 的导数连续且一致收敛,则导函数的极限等于极限的导函数。

  • 极限与广义积分的换序。

\[\lim_{x\to x_0}\int_a^\omega f(x,y)\d y=\int_a^\omega\left(\lim_{x\to x_0}f(x,y)\right)\d y \]

要求 \(f\) 连续,且广义积分一致收敛。

这里本质是因为,\(f\) 连续且广义积分一致收敛则广义积分函数也连续。

  • Riemann 积分与 Riemann 积分的换序。

\[\int_a^b\int_c^df(x,y)\d y\d x=\int_c^d\int_a^bf(x,y)\d x\d y \]

(Fubini 定理)最简单的一集,只要连续即可,因为连续即推出一致连续。

  • Riemann 积分与偏导的换序。

\(f\in\scr C^r[\alpha,\beta]\times[\lambda,\mu]\times[a,b]\),则 \(\dfrac{\part^k}{(\part x)^i(\part y)^j}\int_a^bf(x,y,z)\d z=\int_a^b\dfrac{\part^k}{(\part x)^i(\part y)^j}f(x,y,z)\d z\),其中 \(i+j=k\leq r\)

  • Riemann 积分与广义积分的换序。

\[\int_a^b\int_c^\omega f(x,y)\d y\d x=\int_c^\omega\int_a^bf(x,y)\d x\d y \]

需要连续,且关于 \(\omega\) 一致收敛。

  • 偏导与偏导的换序。

\[\p_x\p_y=\p_y\p_x \]

Clairaut 定理,两个偏导数均连续是偏导可换序的充分条件。

  • 偏导与广义积分的换序。

\[\p_x\int_a^\omega f(x,y)\d y=\int_a^\omega\p_xf(x,y)\d y \]

要求:\(f\)\(\p_xf\) 均连续、\(\int_a^\omega f(x,y)\d y\) 逐点收敛、\(\int_a^\omega\p_xf(x,y)\d y\) 一致收敛,则上式成立,且偏导连续。

事实上,\(\int_a^\omega f(x,y)\d y\) 逐点收敛可以弱化为在 \(A\) 内单点收敛,只需单点收敛即可推出逐点收敛。

如果只想求出单点导数,可以对于每个要求导数的点取其邻域。一些积分,可能在例如 \((0,+\infty)\) 这样的场合不一致收敛,但是你取点 \(t\) 的邻域 \(t_1<t<t_2\),在 \([t_1,t_2]\) 内函数就可能是一致收敛的,此时就可以推出在 \(t\) 处偏导的换序性;对每个 \(t\) 应用上述分析,就得到处处偏导的换序性。

  • 广义积分与广义积分的换序。

\[\int_a^{\omega_1}\int_b^{\omega_2}f(x,y)\d x\d y=\int_b^{\omega_2}\int_a^{\omega_1}f(x,y)\d y\d x \]

  1. \(f(t,s)\)\([a,\omega_1)\times[\alpha,\omega_2)\) 上连续;
  2. 关于两维的积分分别一致收敛(即,\(\int_a^{\omega_1}f(t,s)\d s\)\([\alpha,\omega_2)\) 一致收敛,另一个同理);
  3. 至少有一个绝对收敛。(即,\(\int_a^{\omega_1}\int_\alpha^{\omega_2}|f(t,s)|\d s\d t\)\(\int_\alpha^{\omega_2}\int_a^{\omega_1}|f(t,s)|\d t\d s\) 至少一个收敛)

则上式成立。

INF.总结

这里有可能放一些东西。这里确实放了一些东西。

某些特殊积分的计算:

  • 含参积分可以尝试把参数作为变量然后开导。

  • 有些是隐含参积分。如果看到一些奇怪的、多次出现的常数,例如 \(\dfrac12\) 之类,可以尝试将其作为参数处理。

  • 如果函数具有“重复相减”的片段,那么可能对应着 Newton-Leibniz 公式的展开:

    \[\int_0^{+\infty}\dfrac{\arctan bx-\arctan ax}x\d x \\=\int_0^{+\infty}\dfrac{\int_{ax}^{bx}\dfrac1{1+y^2}\d y}x\d x \\=\int_0^{+\infty}\int_a^b\dfrac1{1+(xy)^2}\d y\d x \\=\int_a^b\int_0^{+\infty}\dfrac1{1+(xy)^2}\d x\d y&(这步换序需要说明广义积分一致收敛) \\=\int_a^b\dfrac1y\arctan(xy)|_0^{+\infty}\d y \\=\dfrac\pi2\ln(\dfrac ba) \]

等高线意味着沿等高线处处切方向导数为零;反之,如果一阶偏导满足齐次线性方程,那么该方程确定了一条等高线。

\[\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}\d t \\\Beta(P,Q)=\int_0^1x^{P-1}(1-x)^{Q-1}\d x \\\Beta(P,Q)=\dfrac{\Gamma(P)\Gamma(Q)}{\Gamma(P+Q)} \\\Gamma(n+1)=n! \]

余元公式:\(\Beta(x,1-x)=\Gamma(x)\Gamma(1-x)=\dfrac\pi{\sin(\pi x)}\)

posted @ 2024-04-12 15:17  Troverld  阅读(49)  评论(0编辑  收藏  举报