...

傅里叶变换与不确定性

(来源:哲学园,作者:木遥)

        在现代数学中有一个很容易被外行误解的词汇:信号 (signal)。当数学家们说起「一个信号」的时候,他们脑海中想到的并不是交通指示灯所发出的闪烁光芒或者手机屏幕顶部的天线图案,而是一段可以具体数字化的信息,可以是声音,可以是图像,也可是遥感测量数据。简单地说,它是一个函数,定义在通常的一维或者多维空间之上。譬如一段声音就是一个定义在一维空间上的函数,自变量是时间,因变量是声音的强度,一幅图像是定义在二维空间上的函数,自变量是横轴和纵轴坐标,因变量是图像像素的色彩和明暗,如此等等。

        在数学上,关于一个信号最基本的问题在于如何将它表示和描述出来。按照上面所说的办法,把一个信号理解成一个定义在时间或空间上的函数是一种自然而然的表示方式,但是它对理解这一信号的内容来说常常不够。例如一段声音,如果单纯按照定义在时间上的函数来表示,它画出来是这个样子的:

        这通常被称为波形图。毫无疑问,它包含了关于这段声音的全部信息。但是同样毫无疑问的是,这些信息几乎没法从上面这个「函数」中直接看出来,事实上,它只不过是巴赫的小提琴无伴奏 Partita No.3 的序曲开头几个小节。下面是巴赫的手稿,从某种意义上说来,它也构成了对上面那段声音的一个「描述」:

        这两种描述之间的关系是怎样的呢?第一种描述刻划的是具体的信号数值,第二种描述刻划的是声音的高低(即声音震动的频率)。人们直到十九世纪才渐渐意识到,在这两种描述之间,事实上存在着一种对偶的关系,而这一点并不显然。

        1807 年,法国数学家傅立叶 (J. Fourier) 在一篇向巴黎科学院递交的革命性的论文 Mémoire sur la propagation de la chaleur dans les corps solides (《固体中的热传播》)中,提出了一个崭新的观念:任何一个函数都可以表达为一系列不同频率的简谐振动(即简单的三角函数)的叠加。有趣的是,这结论是他研究热传导问题的一个副产品。这篇论文经拉格朗日 (J. Lagrange)、拉普拉斯 (P-S. Laplace) 和勒让德 (A-M. Legendre) 等人审阅后被拒绝了,原因是他的思想过于粗糙且极不严密。1811 年傅立叶递交了修改后的论文,这一次论文获得了科学院的奖金,但是仍然因为缺乏严密性而被拒绝刊载在科学院的《报告》中。傅立叶对此耿耿于怀,直到 1824 年他本人成为了科学院的秘书,才得以把他 1811 年的论文原封不动地发表在《报告》里。

        用今天的语言来描述,傅立叶的发现实际上是在说:任何一个信号都可以用两种方式来表达,一种就是通常意义上的表达,自变量是时间或者空间的坐标,因变量是信号在该处的强度,另一种则是把一个信号「展开」成不同频率的简单三角函数(简谐振动)的叠加,于是这就相当于把它看作是定义在所有频率所组成的空间(称为频域空间)上的另一个函数,自变量是不同的频率,因变量是该频率所对应的简谐振动的幅度。

        这两个函数一个定义在时域(或空域)上,一个定义在频域上,看起来的样子通常截然不同,但是它们是在以完全不同的方式殊途同归地描述着同一个信号。它们就象是两种不同的语言,乍一听完全不相干,但是其实可以精确地互相翻译。在数学上,这种翻译的过程被称为「傅立叶变换」。

        傅立叶变换是一个数学上极为精美的对象:

  • 它是完全可逆的,任何能量有限的时域或空域信号都存在唯一的频域表达,反之亦然。

  • 它完全不损伤信号的内在结构:任何两个信号之间有多少相关程度(即内积),它们的频域表达之间也一定有同样多的相关程度。

  • 它不改变信号之间的关联性:一组信号收敛到一个特定的极限,它们的频域表达也一定收敛到那个极限函数的频域表达。

        傅立叶变换就象是把信号彻底打乱之后以最面目全非的方式复述出来,而一切信息都还原封不动的存在着。要是科幻小说作家了解这一点,他们本来可以多出多少有趣的素材啊。

        在傅立叶变换的所有这些数学性质中,最不寻常的是这样一种特性:一个在时域或空域上看起来很复杂的信号(譬如一段声音或者一幅图像)通常在频域上的表达会很简单。这里「简单」的意思是说作为频域上的函数,它只集中在很小一块区域内,而很大一部分数值都接近于零。例如下图是一张人脸和它对应的傅立叶变换,可以看出,所有的频域信号差不多都分布在中心周围,而大部分周边区域都是黑色的(即零)。

        这是一个意味深长的事实,它说明一个在空域中看起来占满全空间的信号,从频域中看起来很可能只不过占用了极小一块区域,而大部分频率是被浪费了的。这就导出了一个极为有用的结论:一个看起来信息量很大的信号,其实可以只用少得多的数据来加以描述。只要对它先做傅里叶变换,然后只记录那些不接近零的频域信息就可以了,这样数据量就可以大大减少。

        基本上,这正是今天大多数数据压缩方法的基础思想。在互联网时代,大量的多媒体信息需要在尽量节省带宽和时间的前提下被传输,所以数据压缩从来都是最核心的问题之一。而今天几乎所有流行的数据压缩格式,无论是声音的 mp3 格式还是图像的 jpg 格式,都是利用傅立叶变换才得以发明的。从这个意义上说来,几乎全部现代信息社会都建立在傅立叶的理论的基础之上。

        这当然是傅立叶本人也始料未及的。

        傅立叶变换这种对偶关系的本质,是把一块信息用彻底打乱的方式重新叙述一遍。正如前面所提到的那样,一个信号可能在空域上显得内容丰富,但是当它在频域上被重新表达出来的时候,往往就在大多数区域接近于零。反过来这个关系也是对称的:一个空域上大多数区域接近于零的信号,在频域上通常都会占据绝大多数频率。

        有没有一种信号在空域和频域上的分布都很广泛呢?有的,最简单的例子就是噪声信号。一段纯粹的白噪声,其傅立叶变换也仍然是噪声,所以它在空域和频域上的分布都是广泛的。如果用信号处理的语言来说,这就说明「噪声本身是不可压缩的」。这并不违反直觉,因为信号压缩的本质就是通过挖掘信息的结构和规律来对它进行更简洁的描述,而噪声,顾名思义,就是没有结构和规律的信号,自然也就无从得以压缩。

        另一方面,有没有一种信号在空域和频域上的分布都很简单呢?换句话说,存不存在一个函数,它在空间上只分布在很少的几个区域内,并且在频域上也只占用了很少的几个频率呢?(零函数当然满足这个条件,所以下面讨论的都是非零函数。)

        答案是不存在。这就是所谓的 uncertainty principle(不确定性原理)。

        这一事实有极为重要的内涵,但是其重要性并不容易被立刻注意到。它甚至都不是很直观:大自然一定要限制一个信号在空间分布和频率分布上都不能都集中在一起,看起来并没有什么道理啊。

        这个原理可以被尽量直观地解释如下:所谓的频率,本质上反应的是一种长期的全局的趋势,所以任何一个单一的频率,一定对应于一个在时空中大范围存在的信号。反过来,任何只在很少一块时空的局部里存在的信号,都存在很多种不同的长期发展的可能性,从而无法精确推断其频率。

        让我们仍然用音乐来作例子。声音可以在时间上被限制在一个很小的区间内,譬如一个声音只延续了一刹那。声音也可以只具有极单一的频率,譬如一个音叉发出的声音(如果你拿起手边的固定电话,里面的拨号音就是一个 440Hz 的纯音加上一个 350Hz 的纯音,相当于音乐中的 A-F 和弦)。但是不确定性原理告诉我们,这两件事情不能同时成立,一段声音不可能既只占据极短的时间又具有极纯的音频。当声音区间短促到一定程度的时候,频率就变得不确定了,而频率纯粹的声音,在时间上延续的区间就不能太短。因此,说「某时某刻那一刹那的一个具有某音高的音」是没有意义的。

        这看起来像是一个技术性的困难,而它实际上反映出却是大自然的某种本质规律:任何信息的时空分辨率和频率分辨率是不能同时被无限提高的。一种波动在频率上被我们辨认得越精确,在空间中的位置就显得越模糊,反之亦然。

        这一规律对于任何熟悉现代多媒体技术的人来说都是熟知的,因为它为信号处理建立了牢不可破的边界,也在某种程度上指明了它发展的方向。既然时空分辨率和频率分辨率不能同时无限小,那人们总可以去研究那些在时空分布和频率分布都尽量集中的信号,它们在某种意义上构成了信号的「原子」,它们本身有不确定性原理所允许的最好的分辨率,而一切其他信号都可以在时空和频率上分解为这些原子的叠加。这一思路在四十年代被 D. Gabor (他后来因为发明全息摄影而获得了 1971 年的诺贝尔物理奖)所提出,成为整个现代数字信号处理的奠基性思想,一直影响到今天。

        但是众所周知,不确定性原理本身并不是数学家的发明,而是来自于量子物理学家的洞察力。同样一条数学结论可以在两个截然不相干的学科分支中都产生历史性的影响,这大概是相当罕见的例子了。

        不确定性原理事实上不是一个单独的定理,而是一组定理的统称。基本上,凡是刻划一个信号不能在时空域和频域上同时过于集中的命题都可以称为不确定性原理,由于这里「集中」这一性质可以有不同的数学描述,也就对应着不同的数学定理。但是在所有冠以「不确定性原理」之名的定理中,最著名的当然是海森堡 (W. Heisenberg) 在 1927 年所提出的影响物理学发展至深的那个版本。它精确的数学描述是:

        假定一个信号的总能量为 1,则这个信号和它的傅立叶变换的能量的方差之积不小于 1/16π2。

        换言之,两者各自的能量都可能很集中,但是不能同时很集中。如果时空域中能量的方差很小(亦即集中在一起),那么频域上能量的方差就不会太小(亦即必然会弥散开),反之亦然。

        对这个定理在量子物理中的意义的详细讨论超出了本文的话题范围,坊间相关的著作已有不少。不过,下面简单胪列了一些相关的历史事实:

  • 海森堡在 1927 年的那篇文章标题为 Ueber den anschaulichen Inhalt der quantentheoretischen Kinematik und Mechanik(《量子理论运动学和力学的直观内容》)。这篇文章很大程度上是对薛定谔 (E. Schrödinger) 在 1926 年所提出的薛定谔波动方程的回应。相较于海森堡的矩阵力学而言,薛定谔的方程很快由于它物理上的直观明晰而吸引了越来越多物理学家的赞赏。海森堡对此极为失落。在 1926 年 6 月 8 日海森堡写给泡利 (W. Pauli) 的信中他说:「我对薛定谔的理论想得越多我就越觉得恶心。」因此,他迫切需要给他自己的理论配上一幅更直观的图象。

  • 海森堡的这篇文章提出了后来被人们所熟悉的关于为什么无法同时测量一个电子的位置和动量的解释,但是并未给出任何严格的数学证明。他把他的结论笼统地表达为 Δx Δp ≥ ħ,其中 x 是位置,p 是动量,ħ 是普朗克常数。但他并没有详细说明 Δx 和 Δp 的严格意思,只针对若干具体情形做了一些直观的讨论。

  • 第一个从数学上证明不确定性原理的物理学家是 E. Kennard。他在 1927 年证明了文章开头所描述的定理,指出 Δx 和 Δp 的数学意义其实是方差。这种解释很快就成了海森堡不确定性原理的标准数学表达,海森堡本人 1930 年在芝加哥所做的演讲中也使用了这种数学推导来佐证他的立论。需要说明的是,海森堡尽管很快接收了这一数学解释,但是后来人们发现在他本人原先的论文里所举的那些例子中,有很多被他用 Δx 和 Δp 笼统概括的含混概念其实是无法被解释成方差的。在他心目中,不确定性原理首先是一个经验事实,其次才是一个数学定理。

  • 海森堡并未将他的发现命名为不确定性「原理」,而只是称之为一种「关系」。爱丁顿 (A. Eddington) 在 1928 年似乎第一个使用了原理一词,将之称为 principle of indeterminacy,后来 uncertainty principle 这种说法才渐渐流行起来。海森堡本人始终称之为 ungenauigkeitsrelationen/unbestimmtheitsrelationen(相当于英语的 inaccuracy/indeterminacy relations),直到五十年代才第一次接受了 principle 这种叫法。

海森堡


        有趣的是,即使很多信号处理或者量子力学领域的专家也不知道自己平时所讨论的不确定性原理和对方的其实是一回事。这两者之间的联系也的确并不太显然,一个关注信号的时空和频域分布,一个关注粒子的运动和能量。它们之间的相关性只有从数学公式上才看起来比较明显。在海森堡的时代当然并不存在「信号处理」这一学科,数学家们也只把不确定性原理当作一条纯数学的结论来对待。他们什么时候最先注意到这一定理并不是很清楚。有记录表明维纳 (N. Wiener) 1925 年在哥廷根的一次讲座中提到了类似的结论,但是那次讲座并没有任何纸面材料流存下来。外尔 (H. Weyl) 在 1928 年名为《群论与量子力学》的论著中证明了这一定理,但他将之归功于泡利的发现。直到 1946 年 D. Gabor 的一篇名为《通讯理论》的经典论文才真正让这个定理以今天信号处理领域的专家们所熟悉的方式流传开来。

左:Weyl; 右:Gabor

        正如前面说过的那样,在数学上不确定性原理不仅仅有海森堡这一个版本,而其实是一组定理的统称。譬如哈代 (G. Hardy) 在 1933 年证明了一个和海森堡原理类似的定理,今天一般称为哈代不确定性原理。海森堡和哈代的定理都只约束了信号在时空域和频域的大致分布,而并没有限制它们同时集中在有限大的区域内。M. Benedicks 第一个证明了信号在时空域和频域中确实不能同时集中在有限大的区域内,而这已经是 1974 年的事情了。

        到二十世纪末,人们对「信号」这个词的理解已经发生了微妙的变化。如果在二十世纪上半叶的时候提到一个信号,人们还倾向于将它理解为一个连续的函数。而到下半叶,信号已经越来越多地对应于一个离散的数组。毫无疑问,这是电子计算机革命的后果。

在这样的情形下,「不确定性原理」也有了新的形式。在连续情形下,我们可以讨论一个信号是否集中在某个区域内。而在离散情形下,重要的问题变成了信号是否集中在某些离散的位置上,而在其余位置上是零。数学家给出了这样有趣的定理:

        一个长度为 N 的离散信号中有 a 个非零数值,而它的傅立叶变换中有 b 个非零数值,那么 a+b ≥ 2√N。

        也就是说一个信号和它的傅立叶变换中的非零元素不能都太少。毫无疑问,这也是某种新形式的「不确定性原理」。

        在上面的定理中,如果已知 N 是素数,那么我们甚至还有强得多的结论(它是 N. Chebotarev 在 1926 年证明的一个定理的自然推论):

        一个长度为素数 N 的离散信号中有 a 个非零数值,而它的傅立叶变换中有 b 个非零数值,那么 a+b > N。


        不幸的是这里「素数」的条件是必须的。对于非素数来说,第二条命题很容易找到反例,这时第一条命题已经是能够达到的最好结果了。

        这些定理有什么用呢?如果它仅仅是能用来说明某些事情做不到,就像它字面意思所反映出的那样,那它的用处当然相对有限。可是——这无疑是辩证法的一个好例证——这样一系列宣称「不确定」的定理,事实上是能够用来推出某些「确定」的事实的。

         设想这样一种情况:假定我们知道一个信号总长度为 N,已知其中有很大一部分值是零,但是不知道是哪一部分(这是很常见的情形,大多数信号都是如此),于此同时,我们测量出了这个信号在频域空间中的 K 个频率值,但是 K<N (也就是我们的测量由于某些原因并不完整,漏掉了一部分频域信息)。有没有可能把这个信号还原出来呢?

         按照传统的信号处理理论,这是不可能的,因为正如前面所说的那样,频域空间和原本的时空域相比,信息量是一样多的,所以要还原出全部信号,必须知道全部的频域信息,就象是要解出多少个未知数就需要多少个方程一样。如果只知道一部分频域信息,就像是只知道 K 个方程,却要解出 N 个未知数来,任何一个学过初等代数的人都知道,既然 K<N,解一定是不唯一的。

        但是借助不确定性原理,却正可以做到这一点!原因是我们关于原信号有一个「很多位置是零」的假设。那么,假如有两个不同的信号碰巧具有相同的 K 个频率值,那么这两个信号的差的傅立叶变换在这 K 个频率位置上就是零。另一方面,因为两个不同的信号在原本的时空域都有很多值是零,它们的差必然在时空域也包含很多零。不确定性原理(一个函数不能在频域和时空域都包含很多零)告诉我们,这是不可能的。于是,原信号事实上是唯一确定的!

        这当然是一个非常违反直觉的结论。它说明在特定的情况下,我们可以用较少的方程解出较多的未知数来。这件事情在应用上极为重要。一个简单的例子是医学核磁共振技术(很多家里有重病患者的朋友应该都听说过这种技术)。核磁共振成像本质上就是采集身体图像的频域信息来还原空间信息。由于采集成本很高,所以核磁共振成像很昂贵,也很消耗资源。但是上述推理说明,事实上核磁共振可以只采集一少部分频域信息(这样成本更低速度也更快),就能完好还原出全部身体图像来,这在医学上的价值是不可估量的。

        在今天,类似的思想已经被应用到极多不同领域,从医学上的核磁共振和 X 光断层扫描到石油勘测和卫星遥感。简而言之:不确定性可以让测量的成本更低效果更好,虽然这听起来很自相矛盾。

        糟糕的是,本篇开头所描述的那个不确定性定理还不够强,所能带来的对频域测量的节省程度还不够大。但是数学上它又是不可改进的。这一僵局在本世纪初被打破了。E. Candès 和陶哲轩等人证明了一系列新的不确定性原理,大大提高了不等式的强度,付出的代价是……随机性。他们的定理可以粗略叙述为:

        一个长度为 N 的离散信号中有 a 个非零数值,而它的傅立叶变换中有 b 个非零数值,那么 a+b 以极大概率不小于 N/√(log N) 乘以一个常数。

        这里的「极大概率」并不是一个生活用语,而是一个关于具体概率的精确的数学描述。换言之,虽然在最倒霉的情况下不确定性可以比较小,但是这种情况很罕见。一般来说,不确定性总是很大。于是可以带来的测量上的节约也很大。

        这当然也是一种「不确定性原理」,而且因为引入了随机性,所以在某种意义上来说比原先的定理更「不确定」。在他们的工作的基础上,一种被称为「压缩感知」的技术在最近的五六年内如火如荼地发展起来,已经成为涵盖信号处理、信息提取、医学成像等等多个工程领域的最重要的新兴工程技术之一。

        不过,这些后续的发展估计是远远超出海森堡的本意了。


posted @ 2017-03-13 13:12  回声小站  阅读(893)  评论(0编辑  收藏  举报