函数项级数
函数项级数的点态收敛性
在一个数项级数中,每个项都是一个常数:\(a_1+a_2+\cdots+a_n+\cdots\)。现在有一系列数项级数,我们可以把每一项都看作是关于某个自变量\(x\)的函数\(a_i(x)\),这样我们也得到一个“级数”\(a_1(x)+a_2(x)+\cdots+a_n(x)+\cdots\)。我们发现如果这个和是收敛的,那么这个和本身也是一个关于\(x\)的函数。我们就把这个“级数”称为函数项级数。它就定义为\(S(x)=\lim\limits_{n \to +\infty}\sum\limits_{i=1}^{n}u_i(x)\)。
不同的数项级数,有的收敛有的发散,因此对于不同的\(x\),函数项级数\(S(x)\)的敛散性也可能不同。如果对于某个\(x_0\),\(S(x_0)\)是收敛的,就称\(x_0\)是收敛点。如果定义域上的每个\(x\)都是收敛点,那么称这个函数是“点态收敛”的。之所以不简单地把它称为“收敛”是因为我们发现,这种“点态收敛”似乎并不是一个非常好的性质——
我们的函数项级数\(S(x)\)本身是一个关于\(x\)的函数,因此我们想要研究它的分析性质:连续性、导数、Riemann可积性等等。一个很自然的想法是, 能否由级数的“项”的分析性质直接推出级数的性质?这是我们的猜想,我们的猜想是基于这一想法在有限个数的时候是成立的(有限个连续函数的和依然连续,有限个函数的导数的和等于和的导数,有限可积函数的和依然可积)。而级数是无限个数的求和,是先求和再取极限的过程。我们的“分析性质”本身也是一个极限过程。所以当我们试图从项的分析性质推到级数的分析性质时,其实是在问:我们对每一项做某个极限再对整体求和的极限,是否等价于先对整体求和取极限,再进行我们刚才对每个项所作的极限?更简单地说,我们能否交换取极限的顺序?遗憾的是,我们发现一个仅仅满足“点态收敛”函数项级数是不能这样交换求极限的顺序的。我们分别举出三个反例,对应这三个性质(其中\(S_n(x)\)表示\(u_n(x)\)的前缀和,这两种描述方式是等价的):①\(S_n(x)=x^n\),则对于\(x \in (-1,1)\)都有\(S(x)=0\),而\(S(1)=1\),可见尽管\(x^n\)关于\(x\)连续但\(S(x)\)却在\(x=1\)处间断了;②\(S_n(x)=\dfrac{\sin nx}{\sqrt{n}}\),根据Abel-Dirichlet判别法它对任意\(x\)都收敛于0,因此\(S(x) \equiv 0\),\(S'(x) \equiv 0\);然而\(S'_n(x)=\sqrt{n}\cos nx\),显然不恒等于0。可见不能由每一项的导数之和推出和的导数。③依次列出\([0,1]\)上的有理数\(q_1,q_2,\cdots,q_n,\cdots\),\(S_n(x)=1\)当且仅当\(x \in \{q_1,\cdots,q_n\}\),否则\(S_n(x)=0\)。对于\([0,1]\)上的任意一个\(x\),如果\(x\)是无理数那么\(S_n(x)\)恒为0,因此收敛于0;如果\(x\)是有理数,那么当\(n\)充分大以后\(S_n(x)\)恒为1,因此收敛于1。可见\(S(x)\)其实就是Dirichlet函数,它是不可积的。但是对于每个\(S_n(x)\),此时我们\(n\)没有做极限过程,因此是有限的,它只有当\(x\)取\(q_1,\cdots,q_n\)这有限个点时不为0,因此是可积的。可见每个函数都可积不能推出它们的和也可积。
我们在从更高的角度来看我们遇到的问题。点态收敛是在每个自变量上级数收敛,级数收敛就是数列收敛,数列收敛是一种度量,因此点态收敛也是某种度量,它度量的是两个“函数”间的距离,判定一列函数\(S_n(x)\)能够以点态收敛的方式“逼近”\(S(x)\)。 但是,一列Riemann可积的函数在点态收敛的条件下求和变得Riemann不可积,这说明Riemann可积这种操作在这种度量下是“不完备”的。想要让不完备变得完备有两种方法,一种是加强操作,一种是加强度量。人们发现如果把Riemann可积加强为Lebesgue可积,那么就变得完备了。这类似于在“数列极限”的度量下只有把有理数推广至无理数才能实现完备化。而在连续的例子中,我们的问题是连续函数在点态收敛的度量下是不完备的,这时人们发现如果把“点态收敛”这一度量加强为“一致收敛”,我们就再次实现了完备化。 现在我们就来讨论一致收敛。
函数项级数的一致收敛性
类似于“一致连续”的概念,不保证“一致”的函数在不同点极限速度不同。在“点态收敛”中,不同的\(x\)对应的数项级数可能在趋向极限的速度上相差很大,一致连续就是为了保证速度的差别不能太大。如果把点态收敛用\(\varepsilon-\delta\)语言叙述,那么不同的\(x\)对应的\(N\)不仅取决于\(\varepsilon\)还取决于\(x\)。如果能找到不依赖于\(x\)的\(N\)那么就实现了一致收敛——即如果\(\forall \varepsilon\)都能找到\(N\)使得\(n>N\)时\(|S_n(x)-S(x)|<\varepsilon\)对所有的\(x\)恒成立,就称这个函数项级数一致收敛。几何上表现为,当\(n\)充分大时\(S_n(x)\)必须被包裹在\(S(x)\)上下波动\(\varepsilon\)的带状区域里。
进一步观察一致连续的定义发现,“\(|S_n(x)-S(x)|<\varepsilon\)对所有的\(x\)恒成立”这句话其实是对两个函数\(S_n,S\)进行某种度量。如果我们把这种度量专门给出一个定义,那么我们就可以抛开\(x\)直接谈论这两个函数了。这时函数直接成了我们讨论的对象,而不用思考它背后的意义。这个定义自然就是\(d(f,g):=\sup\limits_{x \in D} |f(x)-g(x)|\)(因为考虑到了在非紧集中最大值可能不存在,所以写成上确界的形式)。此时我们惊奇的发现,当我们把“函数项级数”按照这种方式来度量时,“一致收敛”这一概念在形式上与“数列的收敛”完全吻合。也就是我们可以把函数当作一个数字来看待。更伟大的是,由于这一定义的结构的吻合性, 所有关于数列的定理此时都可以搬到函数项级数上,只要把数列极限中距离的度量修改为\(d\),把数列的收敛修改为函数项级数的一致收敛!
Cauchy收敛原理
于是我们根据数列的Cauchy收敛原理——数列收敛的等价描述——直接得到函数项级数一致收敛的等价描述:\(\forall \varepsilon>0\),如果存在\(N\)使得\(\forall m>n>N\)都有\(d(S_n,S_m)<\varepsilon\)恒成立,那么\(S(x)\)一致收敛。它同样帮助我们抛开极限值来判定收敛。
Weierstrass判别法
根据Cauchy收敛原理,如果某个函数项级数\(\sum u_i(x)\)满足\(|u_i(x)| \leq a_i\)恒成立,其中\(\sum a_i\)是一个收敛的数项级数(非负项级数),那么我们可以直接推知\(\sum u_i(x)\)一致收敛。因为当\(n,m\)足够大时\(|u_n|+\cdots+|u_m| \leq a_n+\cdots+a_m\),如果对\(a_i\)也用Cauchy收敛原理就会得到右侧是任意小的,所以左侧也被迫任意小, 这就符合了函数项级数一致收敛(本质上也是Cauchy收敛原理)的判定条件了。(不仅如此,我们还可以得出\(\sum |u_i(x)|\)也是一致收敛的,这个结论更强。)这就是Weierstrass判别法,它告诉我们如果能用一个收敛的数项级数来bound函数项级数,那么这个函数项级数就一致收敛——因为这个数项级数迫使这些函数项级数以相同的步调趋向极限,不能有人落队。
Abel-Dirichlet判别法
Weierstrass判别法可以类比为函数项级数中的比较判别法,我们只能用正项级数来进行夹逼得到收敛。而对于正负摆动的函数,比较判别法就无法发挥作用。这时候就再次需要Abel-Dirichlet判别法,我们把它从数项级数推广到函数项级数。在这个推广的过程中,对于原本的“有界”、“收敛”等条件都必须相应地变成“一致有界”(即存在一个实数\(M\)使得\(|u_n(x)| \leq M\)对所有\(x\)恒成立)、“一致收敛”:
Abel判别法:如果在\(D\)上\(a_n(x)\)单调且一致有界,\(\sum b_n(x)\)一致收敛,那么\(\sum a_n(x)b_n(x)\)一致收敛。
Dirichlet判别法:如果在\(D\)上\(a_n(x)\)单调一致收敛于0,\(\sum b_n(x)\)一致有界,那么\(\sum a_n(x)b_n(x)\)一致收敛。
这个判别法相比于数项级数没有任何新的东西,其核心依然是Abel变换,现在的变换对象是函数项级数。而在我们保证了对“有界”和“收敛”的概念的描述都是“一致”的以后,我们可以代入定义验证一下,如果像当初证明数项级数一样重复一遍我们的证明,一切就都完好地成立了。
当我们判断一个函数项级数有界时,经常碰到三角函数求和的问题:\(\sum\limits_{k=1}^{n}\cos kx\)。我们在高中的时候直到配凑一个\(\sin \dfrac{x}{2}\)然后恰好积化和差然后相消这样一个技巧,现在我们可以从更高的视角来看这个问题:欧拉公式告诉我们三角函数本质上是虚指数的一个分量而已,因此这个技巧本质上就是虚指数的等比数列求和:\(\cos kx=\R[e^{ikx}]\)。因此\(\sum\limits_{k=1}^{n}\cos kx=\R[\sum\limits_{k=1}^{n}(e^{ix})^k]=\R[e^{ix}\cdot \dfrac{1-e^{inx}}{1-e^{ix}}]=\R[e^{ix}\dfrac{1-e^{inx}}{1-\cos x-i\sin x}]\)\(=\R[e^{ix}\dfrac{(1-e^{inx})(1-\cos x+i\sin x)}{(1-\cos x)^2-i^2\sin^2 x}]=\R[\dfrac{e^{ix}(1-e^{inx})(1-e^{-ix})}{2-2\cos x}]\)\(=\R[\dfrac{e^{ix}-e^{i(n+1)x}-1+e^{inx}}{2-2\cos x}]=\dfrac{\cos x-\cos (n+1)x-1+\cos nx}{2(1-\cos x)}\)\(=-\dfrac{1}{2}+\dfrac{\sin \left((n+1/2)x\right)}{2\sin x/2}\)。因此它确实是有界的(只要\(x \neq 2m\pi\),即\(\cos kx\)不恒等于1)。
连续性
现在我们可以证明,在\(S_n(x)\)一致收敛于\(S(x)\)的前提下,如果在区间\([a,b]\)上每个\(S_n(x)\)都连续则\(S(x)\)也连续。
这是因为,一致收敛保证了存在一个充分大的\(n\)使得\(|S_n(x)-S(x)|<\varepsilon\),在相邻的一点\(x+h\)处也有\(|S_n(x+h)-S(x+h)|<\varepsilon\),而由\(S_n\)本身的连续性可得\(h\)充分小时\(|S_n(x+h)-S_n(x)|<\varepsilon\)。所以\(|S(x+h)-S(x)| \leq |S(x+h)-S_n(x+h)|+|S_n(x+h)-S_n(x)|+|S_n(x)-S(x)| < 3\varepsilon\)。我们之后还会多次碰到这样的拆分技巧。
如果\(S_n(x)\)在闭区间\([a,b]\)上连续,并在\((a,b)\)上一致收敛,我们可以由Cauchy收敛原理(取振幅,取极限)推出\(S(x)\)在区间端点处也具有点态收敛,进一步推出在\([a,b]\)上一致收敛。它的逆否命题可以用来在不考虑和函数到底是什么的前提下判定一个数列不一致收敛:如果连续函数的函数项级数在端点处发散,那么在区间上不一致收敛。
如果\(S_n(x)\)只是在开区间\((a,b)\)上连续,我们也想保证\(S(x)\)在\((a,b)\)上连续,此时如果一致收敛在开区间上满足,那么一切都没有问题。而事实上,我们有更宽松的条件。只要函数在开区间上满足“内闭一致收敛”,即如果在\((a,b)\)内的每个闭区间\([c,d]\)上\(S_n(x)\)都一致收敛,那么由于我们可以推出\(S(x)\)在每个\([c,d]\)上都连续,因此自然也在\((a,b)\)上连续。
内闭一致收敛和一致收敛是有本质区别的,尽管它们看上去相似。从几何意义来看,一致收敛是指当\(n\)充分大后函数项可以充分逼近和函数上下的带状区域。而“内闭”只能保证这个逼近在开区间内的任何闭区间上有效,无论我们怎么选择闭区间,它总会“漏掉”两端的一小截,如果这个函数在这“一小截”上怎么也无法逼近和函数,那么就永远无法“一致收敛”了。
积分
在\(S_n(x)\)一致收敛于\(S(x)\)的前提下,如果在区间\([a,b]\)上每个\(S_n(x)\)都Riemann可积,那么\(S(x)\)也Riemann可积,且\(\displaystyle\int_{a}^{b}S(x)dx=\lim\limits_{n \to \infty} \displaystyle\int_{a}^{b}S_n(x)dx\)。
要证\(S(x)\),就是要使得\(\sum\limits_{i}\omega_i^S \Delta x\)能任意小,其中\(\omega_i^S=\sup |S(x_1)-S(x_2)|\)\(=|S(\alpha)-S(\beta)|\leq |S(\alpha)-S_n(\alpha)|+|S_n(\alpha)-S_n(\beta)|+|S_n(\beta)-S(\beta)|\)。当\(n\)充分大时第一项和第三项都是可以任意小的,而第二项就是\(S_n\)的振幅。因为\(S_n\)是可积的,我们总能找到这样的划分使得\(\omega_i^S \leq \omega_i^{S_n}+\varepsilon\)。因此\(\sum\limits_{i}\omega_i^S \Delta x \leq \sum\limits_{i}\omega_i^{S_n}\Delta x + \varepsilon(b-a)\),因此可以任意小。既然可积,那么\(\left|\displaystyle\int_a^b S_n(x)dx-\displaystyle\int_a^b S(x)dx\right|\leq \displaystyle\int_a^b \left|S_n(x)-S(x)\right|dx\leq(b-a)\varepsilon\),因此直接得到了\(\lim\limits_{n \to \infty} \displaystyle\int_{a}^{b}S_n(x)dx\)就是\(\displaystyle\int_{a}^{b}S(x)dx\)。
可积对区间的边界没有要求,因此无需区分“一致收敛”与“内闭一致收敛”。
导数
导数的定理和连续和积分有所不同,导数的定理不要求\(S_n(x)\)一致收敛,而是要求其导数\(S'_n(x)\)一致收敛。我们的定理是:如果\(S_n(x)\)点态收敛于\(S(x)\),而\(S'_n(x)\)一致收敛于函数\(\sigma(x)\),且\(S'_n(x)\)连续,那么\(S'(x)\)也存在且等于\(\sigma(x)\)。
由于保证了\(S'_n(x)\)连续,根据一致收敛的连续性\(\sigma(x)\)也连续。因此\(\lim\limits_{h \to 0}\dfrac{S(x+h)-S(x)}{x}=\lim\limits_{h \to 0}\dfrac{S(x+h)-S_n(x+h)+S_n(x+h)-S_n(x)+S_n(x)-S(x)}{x}\),而\(S(x+h)-S_n(x+h)\)以及\(S_n(x)-S(x)\)本身就可以任意小,因此在\(n \to \infty\)的过程中可以略去,得到\(\lim\limits_{h \to 0}\dfrac{S_n(x+h)-S_n(x)}{x}=S_n'(x)\),当\(n \to \infty\)时\(\to \sigma(x)\)。
和连续性一样,这种“逐点定义”的极限对开区间和闭区间有要求。在导数的情形下,如果在区间的端点处不可导则一致收敛弱化为内闭一致收敛。
幂级数
下面我们开始讨论一类特殊的函数项级数,它形如\(\sum\limits_{n=1}^{\infty}a_nx^n\),称为幂级数。
幂级数的点态收敛
我们首先关注幂级数何时满足点态收敛。假设\(a_n\)被固定为常数,我们想问当\(x\)如何取值时幂函数点态收敛?一个直觉是\(|x|\)越小幂级数越容易收敛,这是正确的,事实上这可以看作是比较判别法的直接结果。如果对于某个固定的\(\xi\),能够满足\(\sum\limits_{n=1}^{\infty}a_n\xi^n\)收敛,那么对于任何\(x\)幂级数\(\sum\limits_{n=1}^{\infty}a_n x^n\)都可以等价地写作\(\sum\limits_{n=1}^{\infty}a_n \xi^n \cdot \dfrac{x^n}{\xi^n}\)。由于\(a_n\xi^n\)必然有界(不然不可能收敛),那么一定有某个\(M\)满足\(\sum\limits_{n=1}^{\infty}\left| a_n \xi^n \cdot \dfrac{x^n}{\xi^n}\right| \leq M\sum\limits_{n=1}^{\infty}\left|\dfrac{x^n}{\xi^n}\right|\)。那么只要\(|x|<|\xi|\),这就是一个收敛的等比级数。因此我们证明了对于一切\(|x|<|\xi|\),\(\sum\limits_{n=1}^{\infty}a_n x^n\)都是点态收敛的(并且是绝对收敛)。取它的逆否命题,如果存在一个\(|x|<|\xi|\)使得\(\sum\limits_{n=1}^{\infty}a_nx^n\)发散,那么\(\sum\limits_{n=1}^{\infty}a_n \xi^n\)一定发散。这称为Abel第一定理。
由此可见,能使幂级数收敛的可行\(x\)在区间上具有“单调性”。一旦找到了一个能使幂级数收敛的\(x\),我们就能立即得到\((-|x|,|x|)\)区间内的所有点都是收敛点;一旦找到了一个使幂级数发散的\(x\),又立即得到\((-\infty,-|x|)\cup(|x|,+\infty)\)中的所有点都发散。因此能使幂级数收敛的\(x\)的取值范围是以某个实数\(R\)为“半径”的区间\((-R,R)\)(端点需要单独验证),这个\(R\)是幂级数收敛和发散的临界点,称为“收敛半径”。特别强调,根据我们的论证,收敛半径内的幂级数不仅收敛而且是绝对收敛的。
幸运的是,我们找到了一种求出收敛半径的直接方法,而不需要一一尝试(或是二分答案)所有的\(x\)。根据数项级数的Cauchy判别法,如果\(\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_nx^n|}<1\)则级数收敛,所以满足\(\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_n|}\cdot |x|=|x|\cdot\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_n|} <1\)的\(x\)都落在收敛半径内。而Cauchy判别法也指出如果\(\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_nx^n|}>1\)则级数发散。因此我们发现这就是我们要找的临界点。如果\(\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_n|}\)有限且为正,那么收敛半径就是\(\dfrac{1}{\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_n|}}\)。如果\(\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_n|}\)是正无穷,那么永远都不能收敛,除非\(x \equiv 0\),因此收敛半径为0;如果\(\overline\lim\limits_{n \to \infty}\sqrt[n]{|a_n|}=0\),那么无论\(x\)去什么值都能收敛,收敛半径为无穷大。
既然用Cauchy判别法可以得到收敛半径,那么用其它的数项级数审敛法也应当可以得到,我们可以根据情境不同选择方便的来使用。比如同样是基于等比数列的d'Alembert判别法是根据\(\overline\lim\limits_{n \to \infty}\left|\dfrac{f_{n+1}}{f_n}\right|\)与1的关系来判别的,代入幂级数当中即判断\(|x|\cdot \overline\lim\limits_{n \to \infty}\left|\dfrac{a_{n+1}}{a_n}\right|\)与1的关系,得到收敛半径也可以写作\(R=\dfrac{1}{\overline\lim\limits_{n \to \infty}\left|\dfrac{a_{n+1}}{a_{n}}\right|}\)。
幂级数的一致收敛
幂级数是用来展示函数项一致收敛的非常好的例子,因为我们将会看到点态收敛的幂级数几乎都是一致收敛的。这意味着在收敛半径内我们可以几乎随意地对幂级数进行整体或局部的求导和积分。
假设幂级数的点态收敛半径为\(R\),那么可以推出它在\((-R,R)\)上内闭一致收敛,如果它在端点处点态收敛,那么可以把内闭一致收敛的区间拓广至该端点。这称为Abel第二定理,它可以简单地表述为“幂级数在收敛域内的任何闭区间上一致收敛”。因为,取\((-R,R)\)中的任意一个闭区间\([a,b]\),令\(\xi=\max\{|a|,|b|\}\),那么\(|a_nx^n| \leq |a_n\xi^n|\)恒成立,而根据条件\(\sum\limits_{n=1}^{\infty}a_n\xi^n\)必然是绝对收敛的,因此我们就找到了一个与\(x\)无关的“数项级数bound”,应用Weierstrass判别法就能得到原幂级数在\([a,b]\)上一致收敛,这样我们就证明了它在\((-R,R)\)上内闭一致收敛。而如果幂级数在\(x=R\)时也收敛, 那么对于整个区间\([0,R]\),\(\sum a_nx^n = \sum (a_nR^n)\left(\dfrac{x^n}{R^n}\right)\),根据Abel-Dirichlet判别法,因为\(\sum a_n R^n\)一致收敛(因为它本来就是收敛数列,并且与\(x\)无关)而\(\dfrac{x^n}{R^n}\)显然一致有界, 因此它在这个闭区间上一致收敛。
于是,我们可以把一致收敛的性质运用到幂级数上:由于幂函数的每一项都是连续函数,因此我们可以直接得到在收敛半径内其和函数也是连续函数;由于幂函数是Riemann可积函数,因此其和函数在收敛半径内也是Riemann可积函数;由于幂函数是可导函数,因此其和函数在收敛半径内也是可导函数。求导和积分是会改变函数的操作,此时我们发现对幂级数进行了这两项操作并不会改变收敛半径——这是由于幂函数的求导和积分只不过是将所有的指数减小或增加一个1,并在前面添加一个系数,此时如果我们再次使用Cauchy判别法或d'Alembert判别法,前者是开\(n\)次根号,因此添加的系数不会影响结果;后者是前后两项之比,添加的系数也不会影响结果,综合来看收敛半径确实不会发生改变。但是收敛半径不变并不代表收敛域不变,可以举出反例,一个在收敛半径端点处收敛的幂级数进行求导或积分后在端点处发散了。
函数的幂级数展开
一个幂级数能够收敛于某个函数\(f(x)\),而我们知道函数的增量在某点附近是可以(如果可导)用多项式逼近的,Taylor公式为我们提供了这样逼近的方法。如果Taylor公式的余项在\(n \to \infty\)时趋向0,那么Taylor公式实际上提供了一个函数项级数。特别要强调的是,我们直观上总是认为这个级数就应当收敛于这个“被展开”的函数本身,但有反例告诉我们这不总是正确的(\(e^{-\frac{1}{x^2}}\))。但对于大多数情况,我们可以相信这是没有问题的。我们还需要注意,由于Taylor公式是微分公式,它只描述局部,余项是否趋向0是与\(x\)的取值往往有很大关系。只有对那些能使得余项趋向0的\(x\)这个幂级数才是收敛到函数本身的。
函数的多项式逼近
在组合数学课上我们用概率方法(切比雪夫不等式)证明了Weierstrass第一逼近定理:
这告诉我们一个闭区间上的连续函数可以用一个多项式来逼近。