微分
微分学的基本思想就是“丢掉高阶无穷小”。但是牛顿说过:“在数学中最微小的误差也不可忽略。”于是我们要问:“高阶无穷小为什么可以忽略?”为了说明“丢掉高阶无穷小”的确是可行的,必须建立严格的微分理论。
无穷小
首先我们需要严格刻画“无穷小”这个概念。无穷小显然不能通过“某个实数”这样静态地来刻画,它的“无限接近”只能通过动态的方式来被表达。因此很自然,我们必须用数列的极限或者函数的极限来描述它。任何一个在极限过程中趋向0的数列或者函数(它们是一回事)都是无穷小。
无穷小有许多种,\(n\to +\infty\)时,\(\dfrac{1}{n}\)是无穷小,\(\dfrac{1}{n^{100}}\)也是无穷小,\(\dfrac{1}{e^n}\)也是无穷小。我们从直观上(图像上)就能发现,如果\(n\)的步调一致,它们趋向0的速度是不一样的。为了描述这种速度的不同,我们可以把两个无穷小作比较,把它们相除看它们比值的极限。如果比值是0,意味着分子上的更快些;如果比值是无穷,那么分母上的更快些;如果比值是个有界实数,意味着它们速度差不多;特别地,如果比值是1,意味着它们速度完全相同。严格地来说,如果有\(\lim \dfrac{g(x)}{f(x)}=0\),就说\(g(x)\)是比\(f(x)\)“高阶”的无穷小,并把这个表达式简写为\(g(x)=o(f(x))\)。如果要更直接地看这意味着什么,我们可以把\(g(x)\)看作某个\(\alpha(x) \cdot f(x)\),其中\(\alpha(x)\)是一个在极限过程中趋向0的函数。也就是说,某个函数的高阶无穷小就等价于这个函数乘上一个无穷小。
微分与微分记号d
我们研究的话题是,当自变量变化时函数值如何变化。更精确地,如何用正实数\(h\)刻画\(f(x+h)-f(x)\),尤其是当\(h\)可以小于任意给定的正数的时候。
“连续性”是最粗糙的刻画,它只向我们揭示当\(h\)逼近0的时候\(f(x+h)-f(h)\)也逼近0。为了更精确地描述这个过程,我们要考虑“更高阶”的变化因素。给表达式除上\(h\)。如果对于\(x_0\),存在极限
存在,我们就说\(f(x)\)在\(x_0\)处可导,并把这个极限记为\(f'(x_0)\),称为\(f(x)\)在\(x_0\)处的导数。
根据极限的运算法则,\(f'(x_0)=\lim\limits_{h \to 0}\dfrac{f(x_0+h)-f(x_0)}{h}\)可以移项,写作
用\(h\)的高阶无穷小来表示,就得到(所谓高阶无穷小,就是这个函数可以看成某个函数本身乘上了某个无穷小量,有定义式\(\lim\limits_{h \to 0}\dfrac{o(h)}{h}=0\))
\((3)\)式的含义是:如果\(f(x)\)在\(x_0\)处可导,那么当自变量从\(x_0\)变到\(x_0+h\)时,函数值的变化就一定可以分解成两部分。第一部分就等于\(h\)与一个常量的乘积;第二部分是一个比\(h\)更快地趋向无穷小的量,即\(h\)的高阶无穷小。\(f(x_0+h)-f(x)\)完全描述了函数值的整个变化,称为全改变量,记为\(\Delta f \big|_{x=x_0}\);第一部分\(f'(x_0)h\)与自变量的变化量呈线性关系,称为线性改变量。
我们发现,这样的函数可以用比“连续”更精确的方式来描述。它向我们揭示了,“可导”的函数值的变化量一定是某个线性改变量与某个高阶小量的和。
于是,我们就把线性改变量称为函数在这点处的“微分”,记为\(df \big|_{x=x_0}\)。对于所有可导函数,都可以写出
如果有\((4)\)式,就说\(f\)在这一点处是可微的。
所以微分记号d的定义是:把记号d放在某个可导函数前,表示这个函数在某点处变化时的线性改变量。可见,\(df\)不是“某个实数”,而是某个“无穷小量函数”,它是一个函数,一个关于\(h\)的线性函数。
唯一性
我们知道由\(f\)可导可以推出\((4)\)式,即“可导”可以推出“可微”。而假如已知可微,即已知\(f(x_0+h)-f(x_0)=f'(x_0)h+o(h)\),那么两边同时除以\(h\)可以得到\(\dfrac{f(x_0+h)-f(x_0)}{h}=f'(x_0)+\dfrac{o(h)}{h}\),两边同时让\(h \to 0\),得到\(\lim\limits_{h \to 0}\dfrac{f(x_0+h)-f(x_0)}{h}=f'(x_0)\),可见可微可以可出可导。
综上,可导与可微是等价的。
从上述过程中也可以发现,假如有某个常数使得
那么一定有
即只要函数可微,\(df\)的这个函数就是唯一确定的。
微分的运算法则
微分记号d本质上是个函数,函数可以有对应的运算法则,这就是微分的运算法则。微分的计算法则可以理解为一个形式上的法则,即左右两边的“形式”是恒等的,可以在计算的过程中做从左到右或者从右到左的替换。而我们在证明这些法则的过程中,没有必要用到除了微分定义以外的任何工具,是微分的定义决定了微分的运算法则。
导数与微商的代换
我们考虑函数\(f(x) \equiv x\)。此时也有\(\Delta f = df + o(h)\),只不过\(\Delta f\)就等于\(h\),\(df\)也等于\(h\),因此\(o(h)\)这一项就是0了。所以\(h\)就可以同时被写成\(\Delta x\)或者\(dx\)。因此我们可以写出
由于\(df,dx\)都只不过是关于\(h\)的线性函数,并且始终不等于0,因此一切实数中对于等式成立的恒等变形都是成立的。比如,我们而可以写出
这代表导数实际上就是函数的微分与自变量的微分相除。\(df\)可以用导数和\(dx\)相乘来表示;导数可以用\(df\)与\(dx\)相除来表示。
线性代换
如果\(f(x),g(x)\)可微,那么做代换
\(\begin{aligned}\Delta (\alpha f+\beta g)\big|_{x=x_0}&=\alpha f(x_0+h)+\beta g(x_0+h)-\alpha f(x_0)-\beta g(x_0)\\&=\alpha [f(x_0+h)-f(x_0)]+\beta [g(x_0+h)-g(x_0)]\\&=\alpha [f'(x_0)h+o(h)]+\beta[g'(x_0)h+o(h)]\\&=\alpha df\big|_{x=x_0}+\beta dg\big|_{x=x_0}+o(h) \end{aligned}\)
因此\(d(\alpha f+\beta g)\big|_{x=x_0}=\alpha df\big|_{x=x_0}+\beta dg\big|_{x=x_0}\)
Leibniz's Rule代换
如果\(f(x),g(x)\)可微,那么可以做代换
\(\begin{aligned}\Delta (fg)\big|_{x=x_0}&=f(x_0+h)g(x_0+h)-f(x_0)g(x_0\\&=[f(x_0)+f'(x_0)h+o(h)][g(x_0)+g'(x_0)h+o(h)]-f(x_0)g(x_0)\\&=f(x_0)g'(x_0)h+g(x_0)f'(x_0)h+o(h)\\&=g(x_0)(df)\big|_{x=x_0}+f(x_0)(dg)\big|_{x=x_0}+o(h) \end{aligned}\)
因此\(d(fg)\big|_{x=x_0}=g(x_0)(df)\big|_{x=x_0}+f(x_0)(dg)\big|_{x=x_0}\)
除法代换
如果\(f(x),g(x)\)可微且\(g(x) \neq 0\),那么可以做代换
\(\begin{aligned}\Delta (\dfrac{f}{g})\big|_{x=x_0}&=\dfrac{f(x_0+h)}{g(x_0+h)}-\dfrac{f(x_0)}{g(x_0)}\\&=\dfrac{f(x_0+h)g(x_0)-f(x_0)g(x_0+h)}{g(x_0+h)g(x_0)}\\&=\dfrac{g(x_0)[f(x_0)+f'(x_0)h+o(h)]-f(x_0)[g(x_0)+g'(x_0)h+o(h)]}{g(x_0)[g(x_0)+g'(x_0)h+o(h)]}\\&=\dfrac{f'(x_0)h\cdot g(x_0)-g'(x_0)h \cdot f(x_0)+o(h)}{g^2(x_0)+g(x_0)\cdot g'(x_0)h+o(h)}\\&=\left[\dfrac{f'(x_0)h\cdot g(x_0)-g'(x_0)h \cdot f(x_0)}{g^2(x_0)}+o(h)\right]\cdot \dfrac{g^2(x_0)}{g^2(x_0)+g(x_0)\cdot g'(x_0)h+o(h)}\\&=\left[\dfrac{f'(x_0)h\cdot g(x_0)-g'(x_0)h \cdot f(x_0)}{g^2(x_0)}+o(h)\right]\left[1-\dfrac{g(x_0)\cdot g'(x_0)h+o(h)}{g^2(x_0)+g(x_0)\cdot g'(x_0)h+o(h)}\right]\\&=\left[\dfrac{f'(x_0)h\cdot g(x_0)-g'(x_0)h \cdot f(x_0)}{g^2(x_0)}+o(h)\right]\left[1-\dfrac{g(x_0)\cdot g'(x_0)h}{g^2(x_0)+g(x_0)\cdot g'(x_0)h+o(h)}+o(h)\right]\\&=\dfrac{f'(x_0)h\cdot g(x_0)-g'(x_0)h \cdot f(x_0)}{g^2(x_0)}-\dfrac{(f'(x_0)g(x_0)-g'(x_0)f(x_0))g(x_0)g'(x_0)}{g^2(x_0)(g^2(x_0)+g(x_0)g'(x_0)h+o(h))}h^2+o(h)\\&=\dfrac{f'(x_0)h\cdot g(x_0)-g'(x_0)h \cdot f(x_0)}{g^2(x_0)}+o(h)\end{aligned}\)
因此\(d(\dfrac{f}{g})\Big|_{x=x_0}=\dfrac{df \cdot g - dg \cdot f}{g^2}\Bigg|_{x=x_0}\)
链式法则代换
如果\(f(x),u(x)\)可微,那么可以做代换
\(f\)要能看作\(u\)的函数,则\(f\)是内嵌了\(u\)的关于\(x\)的复合函数,即证\(d(f(u(x_0)))=f'(u(x_0))u'(x_0)dx\)
\(\begin{aligned}\Delta (f(u(x))) \Big|_{x=x_0}&=f(u(x_0+h))-f(u(x_0))\\&=f(u(x_0)+u'(x_0)h+o(h))-f(u(x_0))\\&=f'(u(x_0))[u'(x_0)h+o(h)]+o(u'(x_0)h+o(h))\\&=f'(u(x_0))u'(x_0)h+o(h)\end{aligned}\)
根据微分的定义我们知道\(u'(x_0)dx\)可以代换为\(d(u(x))\Big|_{x=x_0}\),因此
可以写作
可见在一个微分表达式中我们可以直接把自变量\(x\)通通替换成一个关于\(x\)的函数,则原来成立的表达式现在依然成立。这称为一阶微分形式不变性,可以理解为求微分与选用的自变量无关。
微分是对变化的函数值的一种描述,这种描述止步于线性,并以导数的方式表现出来。事实上我们知道,对于函数值的变化还有更精确的描述。我们的“逼近”可以拓展到\(n\)阶无穷小,这就是微分学的顶峰——Taylor公式。如果从Taylor公式的视角来看微分,就会发现微分只不过是我们用来表示一阶Taylor公式时用的一个简便记号而已。如果愿意,我们也可以用某个记号来简便表达Taylor公式的前两项、前三项,来得到一个二阶、三阶的“微分”。
正是由于这样,所以在一元微积分中并不需要争论\(d\)的含义究竟是某个记号,还是某个线性函数,还是某个线性映射,我们知道它是刻画函数变化量的其中一部分就好了。我们看到了,在等式中我们可以把微分就当作某个“函数”来运算,它可以被除到分母上,可以左右调换位置,只要我们的操作是符合我们严格证明了的法则的,就不必提心吊胆。我们也看到了,微分的运算也可以原模原样地运用在积分和微分方程中。到头来,微分只是我们为了方便而用来书写简便的一个函数,有什么神秘的呢?