博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

原文:https://learning.oreilly.com/library/view/digital-signal-processing/9780750674447/xhtml/B9780750674447500388.htm#cesectitle1

数字信号处理是将在21世纪塑造科学和工程的最强大的技术之一。在广泛的领域中已经发生了革命性的变化:通信、医学成像、雷达和声纳、高保真音乐再现和石油勘探,仅举几例。这些领域中的每一个都发展了深入的DSP技术,有自己的算法、数学和专门技术。这种广度和深度的结合使得任何一个人都不可能掌握所有已开发的DSP技术。DSP教育包括两项任务:学习适用于整个领域的一般概念,以及学习你感兴趣的特定领域的专门技术。本章通过描述DSP在几个不同领域产生的巨大影响,开始了我们进入数字信号处理世界的旅程。这场革命已经开始了。

DSP的根基

数字信号处理与计算机科学的其他领域的区别在于它使用的独特的数据类型:信号。在大多数情况下,这些信号源于现实世界的感官数据:地震振动、视觉图像、声波等。DSP是数学、算法,以及在这些信号被转换成数字形式后用来操作它们的技术。这包括各种各样的目标,如:视觉图像的增强、语音的识别和生成、存储和传输的数据压缩等等。假设我们将一个模数转换器连接到一台计算机上,并使用它来获取一大块真实世界的数据。DSP回答了这个问题。下一步是什么?

DSP的根源在于20世纪60年代和70年代,当时数字计算机刚刚问世。在这个时代,计算机很昂贵,而DSP只限于少数关键的应用。在四个关键领域做出了开创性的努力:雷达和声纳,国家安全受到威胁;石油勘探,可以赚大钱;太空探索,数据是不可替代的;医疗成像,可以拯救生命。20世纪80年代和90年代的个人计算机革命使DSP在新的应用中爆炸性增长。与其说DSP是受军事和政府需求的驱动,不如说它突然受到了商业市场的驱动。任何认为自己能在这个迅速扩大的领域中赚钱的人突然成为了DSP供应商。DSP通过移动电话、光盘播放器和电子语音信箱等产品进入公众视野。图1-1说明了其中一些不同的应用。

图1-1 DSP已经彻底改变了科学和工程的许多领域。这里显示了其中一些不同的应用。

这场技术革命是自上而下发生的。在20世纪80年代初,DSP被作为电子工程专业的研究生课程来教授。十年后,DSP已经成为本科生课程的一个标准部分。今天,DSP是许多领域的科学家和工程师都需要的基本技能。作为一个类比,DSP可以被比作以前的技术革命:电子学。虽然仍属于电子工程的范畴,但几乎每个科学家和工程师都有一些基本的电路设计背景。没有它,他们就会在技术世界中迷失方向。DSP也有同样的未来。

这段最近的历史不仅仅是一种好奇心,它对你学习和使用DSP的能力有巨大的影响。假设你遇到了一个DSP问题,并求助于教科书或其他出版物来寻找解决方案。你通常会发现一页又一页的方程式、晦涩的数学符号和陌生的术语。这简直是一场恶梦! 许多DSP文献甚至对那些在该领域有经验的人来说也是令人困惑的。这并不是说这些材料有什么问题,它只是为一个非常专业的读者准备的。最先进的研究人员需要这种详细的数学知识来理解工作的理论意义。

本书的一个基本前提是,大多数实用的DSP技术可以在没有详细数学和理论的传统障碍下学习和使用。数字信号处理。工程师和科学家的实用指南》是为那些想把DSP作为一种工具,而不是一种新职业的人写的。

本章的其余部分说明了DSP产生革命性变化的领域。当你浏览每一个应用时,注意到DSP是非常跨学科的,依赖于许多相邻领域的技术工作。如图1-2所示,DSP和其他技术学科之间的边界并不明确,而是模糊不清,相互重叠。如果你想专攻DSP,这些是你还需要学习的盟友领域。

图1-2 数字信号处理与科学、工程和数学的许多其他领域有着模糊和重叠的边界。

电信

电信是指将信息从一个地方传输到另一个地方。这包括许多形式的信息:电话交谈、电视信号、计算机文件和其他类型的数据。为了传输信息,你需要在两个地点之间有一个通道。这可能是一对电线,无线电信号,光纤,等等。电信公司因传输客户的信息而获得报酬,同时他们必须支付建立和维护通道的费用。财务底线很简单:他们能通过单一渠道传递的信息越多,他们赚的钱就越多。DSP在许多领域给电信业带来了革命性的变化:信号音的生成和检测、频带转换、消除电力线嗡嗡声的过滤等。这里将讨论电话网络的三个具体例子:复用、压缩和回声控制。

多路复用

世界上大约有10亿部电话。只需按下几个按钮,交换网络就可以在几秒钟内将其中的任何一个连接到其他任何一个。这项任务的艰巨性令人难以置信。直到20世纪60年代,两个电话之间的连接需要将模拟语音信号通过机械开关和放大器。一个连接需要一对电线。相比之下,DSP将音频信号转换为串行的数字数据流。由于比特可以很容易地交织在一起,然后再分开,许多电话对话可以在一个通道上传输。例如,一种被称为T-carrier系统的电话标准可以同时传输24个语音信号。每个语音信号每秒被采样8000次,使用8位压缩(对数压缩)的模数转换。这导致每个语音信号被表示为64,000比特/秒,所有24个通道被包含在1.544兆比特/秒中。这个信号可以使用22号铜线的普通电话线传输约6000英尺,这是一个典型的互连距离。数字传输的经济优势是巨大的。电线和模拟开关都很昂贵;数字逻辑门则很便宜。

压缩

当语音信号以8000次/秒的速度被数字化时,大部分的数字信息是多余的。也就是说,任何一个样本所携带的信息在很大程度上被邻近的样本所重复。数十种DSP算法已被开发出来,以将数字化的语音信号转换成需要更少比特/秒的数据流。这些被称为数据压缩算法。匹配的解压缩算法用于将信号恢复到其原始形式。这些算法在实现的压缩量和产生的声音质量上有所不同。一般来说,将数据率从64千比特/秒降低到32千比特/秒,不会导致音质的损失。当压缩到8千比特/秒的数据率时,声音会受到明显的影响,但仍可用于长途电话网络。可实现的最高压缩率约为2千比特/秒,导致声音高度失真,但可用于某些应用,如军事和海底通信。

回声控制

回声是长途电话连接中的一个严重问题。当你对着电话说话时,代表你声音的信号会传到连接的接收器,其中一部分会以回声的形式返回。如果连接在几百英里之内,接收回声的时间只有几毫秒。人耳习惯于听到具有这些小时间延迟的回声,而且连接听起来很正常。随着距离变大,回声变得越来越明显和刺激。对于洲际通信来说,延迟可以达到几百毫秒,而且特别令人讨厌。数字信号处理通过测量返回的信号并产生一个适当的反信号来消除违规的回声来解决这类问题。同样的技术允许免提电话用户在听和说的同时不会出现音频反馈(尖叫)。它也可用于减少环境噪声,通过数字生成的反信号来消除它。

音频处理

人类的两个主要感官是视觉和听觉。相应地,DSP的大部分内容与图像和音频处理有关。人们既听音乐又听语音。DSP在这两个领域都有了革命性的变化。

音乐

从音乐家的麦克风到发烧友的扬声器的路径是非常长的。数字数据的表示对于防止通常与模拟存储和操作有关的退化非常重要。对于任何一个比较过磁带和光盘的音乐质量的人来说,这一点是非常熟悉的。在一个典型的情况下,一首音乐作品是在录音室里用多个通道或音轨录制的。在某些情况下,这甚至涉及到单独的乐器和歌手的录制。这样做是为了给音响工程师在创作最终产品时提供更大的灵活性。将各个音轨合并成最终产品的复杂过程被称为混音。在混音过程中,DSP可以提供几种重要的功能,包括:滤波、信号加减、信号编辑等。

在音乐准备中,最有趣的DSP应用之一是人工混响。如果将各个通道简单地加在一起,所产生的作品听起来就会很虚弱和淡化,就像音乐家在户外演奏一样。这是因为听众会受到音乐中回声或混响内容的极大影响,而这种影响在录音室中通常被最小化。DSP允许在混音过程中加入人工回声和混响,以模拟各种理想的聆听环境。延迟几百毫秒的回声给人以大教堂般的感觉。添加延迟为10-20毫秒的回声可提供更多中等规模的聆听室的感觉。

语音生成

语音生成和识别用于人类和机器之间的交流。与其使用你的手和眼睛,不如使用你的嘴和耳朵。当你的手和眼睛应该做别的事情时,这非常方便,例如:开车、做手术,或者(不幸的是)向敌人发射武器。有两种方法用于计算机生成语音:数字录音和声道模拟。在数字录音中,人类说话者的声音被数字化并存储,通常是以压缩的形式。在回放过程中,存储的数据被解压缩并转换回模拟信号。一整小时的语音记录只需要大约三兆字节的存储空间,甚至在小型计算机系统的能力范围内。这是目前最常用的数字语音生成方法。

声道模拟器更为复杂,试图模仿人类创造语音的物理机制。人类的声道是一个声腔,其共振频率由声腔的大小和形状决定。声音以两种基本方式之一起源于声道,称为发声和摩擦声。对于发声,声带振动产生近乎周期性的空气脉冲进入声腔。相比之下,摩擦音源于狭窄的收缩处(如牙齿和嘴唇)的嘈杂空气湍流。声道模拟器通过产生类似这两种激励的数字信号来操作。通过将激励信号通过具有类似共振的数字滤波器来模拟共鸣室的特性。这种方法被用于非常早期的DSP成功案例之一,即Speak & Spell,一种广泛销售的儿童电子学习辅助工具。

语音识别

人类语音的自动识别比语音生成要难得多。语音识别是人脑做得好而数字计算机做得不好的一个典型例子。数字计算机可以存储和调用大量的数据,以极快的速度进行数学计算,并在不感到无聊或效率低下的情况下完成重复性任务。不幸的是,现今的计算机在面对原始感官数据时表现得非常糟糕。教会一台计算机给你发送每月的电费单很容易。教会同一台计算机理解你的声音是一项重大的任务。

数字信号处理通常分两步来处理语音识别问题:特征提取和特征匹配。传入的音频信号中的每个词都被分离出来,然后进行分析,以确定激励和共振频率的类型。然后将这些参数与以前的口语例子进行比较,以确定最接近的匹配。通常情况下,这些系统只限于几百个单词;只能接受单词之间有明显停顿的语音;并且必须为每个说话人重新训练。虽然这对许多商业应用来说是足够的,但与人类的听觉能力相比,这些限制是令人惭愧的。在这个领域有大量的工作要做,对那些成功的商业产品有巨大的经济回报。

回声定位

获取远程物体信息的一个常见方法是将波反弹到它身上。例如,雷达是通过发射无线电波脉冲来操作的,并检查接收的信号是否有来自飞机的回波。在声纳中,声波通过水的传输来探测潜艇和其他水下物体。长期以来,地球物理学家通过引爆爆炸和倾听来自深埋的岩石层的回声来探测地球。虽然这些应用有一个共同点,但每个应用都有自己的具体问题和需求。数字信号处理在这三个领域都产生了革命性的变化。

雷达

雷达是RAdio Detection And Ranging的首字母缩写。在最简单的雷达系统中,一个无线电发射器产生一个几微秒长的无线电频率能量脉冲。这个脉冲被送入一个高度定向的天线,由此产生的无线电波以光速传播开来。该波路径上的飞机会将一小部分能量反射到位于发射点附近的接收天线上。与物体的距离是根据发射脉冲和接收回波之间的时间来计算的。找到物体的方向更简单;你知道在收到回波时定向天线指向哪里。

雷达系统的工作范围由两个参数决定:初始脉冲中的能量有多大,以及无线电接收器的噪声水平。不幸的是,增加脉冲中的能量通常需要使脉冲变长。反过来,较长的脉冲会降低经过时间测量的准确性和精确度。这导致了两个重要参数之间的冲突:在远距离探测物体的能力,以及准确确定物体距离的能力。

DSP在三个方面对雷达进行了革新,所有这些都与这个基本问题有关。首先,DSP可以在接收到脉冲后对其进行压缩,在不减少工作范围的情况下提供更好的距离测定。第二,DSP可以对接收到的信号进行过滤以减少噪音。这就增加了范围,而不会降低距离测定的效果。第三,DSP能够快速选择和生成不同的脉冲形状和长度。除其他事项外,这使得脉冲可以针对特定的检测问题进行优化。现在令人印象深刻的部分是:这大部分是在与所使用的无线电频率相当的采样率下完成的,高达几百兆赫兹!这就是DSP。当涉及到雷达时,DSP是关于高速硬件设计的,就像它是关于算法的一样多。

声纳

声纳是SOund NAvigation and Ranging的首字母缩写。它分为两类,主动和被动。在主动声纳中,2千赫兹和40千赫兹之间的声音脉冲被传送到水中,并对产生的回声进行检测和分析。主动声纳的用途包括:探测和定位海底物体、导航、通信和绘制海底地图。典型的最大工作范围为10至100公里。相比之下,被动声纳只是倾听水下的声音,其中包括:自然湍流,海洋生物,以及来自潜艇和水面舰艇的机械声。由于无源声纳不发射能量,它是秘密行动的理想选择。你想探测到对方,而他却没有探测到你。被动声纳最重要的应用是在探测和跟踪潜艇的军事监视系统中。被动声纳的典型特点是

反射地震学

早在20世纪20年代,地球物理学家就发现可以用声音来探测地壳的结构。勘探者可以引爆爆炸,并记录来自地表下10多公里的边界层的回声。这些回声地震图由原眼解释,以绘制地下结构图。反射地震法迅速成为定位石油和矿藏的主要方法,至今仍然如此。

在理想的情况下,送入地面的声脉冲对脉冲经过的每个边界层产生一个单一的回波。不幸的是,情况通常不是这么简单。每一个返回地表的回波都必须经过它的发源地以上的所有其他边界层。这可能导致回波在层间反弹,引起在表面检测到的回波的回波。这些二次回波会使检测到的信号非常复杂,难以解释。自20世纪60年代以来,数字信号处理已被广泛用于将反射地震图中的一级回波与二级回波分开。早期的地球物理学家们在没有DSP的情况下是如何做到的?答案很简单:他们在容易的地方寻找,在那里,多重反射被最小化。DSP使石油能够在困难的地方被发现,例如在海底。

图像处理

图像是具有特殊特征的信号。首先,它们是对空间(距离)参数的测量,而大多数信号是对时间参数的测量。其次,它们包含大量的信息。例如,存储一秒钟的电视视频需要超过10兆字节。这比类似长度的语音信号要大一千多倍。第三,质量的最终判断往往是人的主观评价,而不是客观标准。这些特殊的特点使图像处理成为DSP中一个独特的子组。

医学

1895年,威廉-康拉德-伦琴发现X射线可以穿过大量的物质。医学因能够观察活人的身体内部而发生了革命。医学X射线系统在短短几年内就普及到全世界。尽管它取得了明显的成功,但在20世纪70年代DSP和相关技术出现之前,医学X射线成像受到四个问题的限制。首先,身体中的重叠结构可能隐藏在彼此的后面。例如,心脏的一部分可能在肋骨后面看不到。第二,并不总是能够区分类似的组织。例如,它可能能够将骨骼与软组织分开,但不能将肿瘤与肝脏区分开来。第三,X射线图像显示的是解剖学,即身体的结构,而不是生理学,即身体的运作。活人的X射线图像与死人的X射线图像一模一样! 第四,X射线照射会导致癌症,要求少用,而且要有适当的理由。

1971年,随着第一台计算机断层扫描器(以前称为计算机轴向断层扫描器,或CAT扫描仪)的问世,结构重叠的问题得到解决。计算断层扫描(CT)是数字信号处理的一个典型例子。来自许多方向的X射线穿过被检查的病人的身体部分。这些信号不是简单地用检测到的X射线形成图像,而是被转换成数字数据并存储在计算机中。然后,这些信息被用来计算出似乎是身体切片的图像。这些图像显示出比传统技术更多的细节,使诊断和治疗效果明显提高。CT的影响几乎与最初引入的X射线成像本身一样大。在短短几年内,世界上每家大医院都有一台CT扫描仪。1979年,CT的两位主要贡献者Godfrey N. Hounsfield和Allan M. Cormack共同获得诺贝尔医学奖。这就是好的DSP!

最近的三个X射线问题已经通过使用X射线以外的穿透能量,如无线电和声波,得到了解决。DSP在所有这些技术中发挥了关键作用。例如,磁共振成像(MRI)使用磁场与无线电波结合来探测人体内部。适当地调整磁场的强度和频率,使人体局部区域的原子核在量子能量状态之间产生共振。这种共振导致了二次无线电波的发射,用放置在人体附近的天线进行检测。这个检测到的信号的强度和其他特征提供了关于共振的局部区域的信息。调整磁场可以使共振区域在整个身体内被扫描,绘制内部结构图。这些信息通常以图像形式呈现,就像在计算机断层扫描中一样。除了在不同类型的软组织之间提供出色的区分,核磁共振成像可以提供有关生理学的信息,如通过动脉的血液流动。核磁共振成像完全依赖于数字信号处理技术,没有这些技术就无法实现。

太空

有时,你只需在一张糟糕的照片上做出最大的努力。从无人卫星和太空探索飞行器拍摄的图像经常是这种情况。没有人会为了调整相机上的旋钮而派维修人员去火星。DSP可以通过多种方式提高在极其不利条件下拍摄的图像的质量:亮度和对比度调整、边缘检测、降噪、焦点调整、减少运动模糊等。有空间畸变的图像,如拍摄球形行星的平面图像时遇到的情况,也可以被扭曲成正确的表示。许多单独的图像也可以合并到一个数据库中,允许以独特的方式显示信息--例如,模拟在一个遥远的星球表面进行空中飞行的视频序列。

商业成像产品

图像中的大量信息内容对于大量出售给公众的系统来说是一个问题。商业系统必须是廉价的,而这与大内存和高数据传输率并不匹配。解决这一难题的一个办法是图像压缩。就像语音信号一样,图像包含大量的冗余信息,可以通过算法来减少表示它们所需的比特数。电视和其他移动图片特别适合压缩,因为大部分图像在帧与帧之间保持不变。利用这一技术的商业影像产品包括:视频电话、显示移动图片的计算机程序和数字电视。