DSP为什么快?
为什么说DSP特别适合数字信号处理呢?为什么它的运算速度这么快?
原来DSP在硬件结构上做了优化,使得其运算效率非常高。
下面我从各家DSP硬件共同点、各家硬件特点、和通用CPU共同点来说说DSP硬件结构。其实你只要掌握了任何一家的DSP硬件结构,就可以触类旁通理解其他厂家的DSP,因为只要是DSP,就有很多共同点。当然,各家也有各自的特色,我们一并对比介绍。通用CPU上也有加快运算速度的优化结构,这里列举的硬件结构主要是指和通用CPU不一样的部分。
1、DSP采用哈佛结构总线,程序存储器和数据存储器分开,取指和数据访问同时进行。通用CPU采用冯.诺依曼型总线,程序和数据总线共享同一总线,取指和数据访问不能并发。
2、流水线操作(pipeline),取指、译码、寻址、取数、运算、存储流水操作,等效单周期完成指令,而通用CPU通常一条指令需要几个时钟周期才可以完成。当然,流水线操作引入了一些新问题,比如需要在适当位置加NOP空操作指令或者调整指令位置以确保流水操作能顺利完成。
3、独立的硬件乘法器。卷积、数字滤波、FFT、相关、矩阵运算等算法中,大量重复乘法和累加。MAC指令(取数、乘法、累加)在单周期内完成(通过流水线等效实现),比用软件乘法快很多。
4、独立的DMA总线和控制器。通用CPU中的总线是共享的,DMA使用了总线则CPU就要等待,而DSP中的DMA使用独立的DMA总线通路,可以和CPU core并发操作。独立的源、目的地址寄存器、长度寄存器,自动计算地址和循环。光DSP处理器运算速度快还不行,还与数据吞吐率有关。
5、中心算术逻辑单元CALU。DSP中有很多ALU,如DMA控制器、地址发生器中就含有可做乘加运算的ALU,这样他们就不用占用CALU了。DSP中的ALU非常简单,地址、乘法、移位都不管了,只管算术与逻辑运算。
6、移位:通用CPU每次移动1bit,DSP可在一个机器周期内左移/右移多个比特。可用来对数字定标,使之放大或缩小以保证精度和防止溢出,还可以用来做定点数和浮点数之间的转换。
7、溢出:通用CPU中,溢出发生后,设置溢出标志位,不带符号位时回绕,带符号位时反相,带来很大误差。此时,溢出已经发生,无法挽回。DSP把移位输出的最高位(MSB)存放在一个位检测状态寄存器中,检测到MSB=1时,就通知下一次会发生溢出,此时溢出还未发生,来得及采取措施防止。
8、数据地址发生器(DAG)。取数不光要占用数据总线,还要计算地址。通用CPU数据、地址的产生和数据的处理都由ALU来完成。DSP中,设置了专门的数据地址发生器(实际上就是专门的ALU),来产生所需要的数据地址,节省公共的ALU时间。CALU主要做运算而不是做这些辅助的工作。
9、外设(peripherals)
时钟发生器、定时器、软件可编程等待状态发生器、GPIO、同步串口与异步串口、JTAG。
10、CSSU比较、选择、存储单元。用于维特比译码,通信中常用算法,专门设计一个硬件单元用于此算法。
11、片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问。片内RAM同片外存储器相比,有以下优点:(1)片内RAM的速度较快,可以保证DSP无等待运行;(2)对于C2000/C3x/C5000系列,部分片内存储器可以在一个指令周期内访问两次,使得指令可以更加高效;(3)片内RAM运行稳定,不受外部的干扰影响,也不会干扰外部。 4)DSP片内多总线,在访问片内RAM时,不会影响其它总线的访问,效率较高。
12、具有低开销或无开销循环及跳转的硬件支持。
13、快速的中断处理和硬件I/O支持。
当然,与通用微处理器相比,DSP芯片的其他通用功能相对较弱些。
以上讲的是各家DSP共同点,其实,每家厂商或者同一家厂商的不同系列的DSP都有各自特点。比如:MOTOROLA DSP56系列是24bit(3字节),而TI是16bit(2字节)。MOTOROLA分成X、Y两块数据存储器同时操作,提高速度,而TI是在一个周期内访问2次,异曲同工。TI的C2000(C20x、C24x)侧重于控制;C5000(C54x、C55x)侧重于低功耗、有效性能(手机使用可以省电延长电池寿命,不用风扇散热体积小);C6000(C62xx、C67xx、C64xx)侧重于高性能;OMAP侧重于嵌入式。此外,还有一些专用DSP和多处理器DSP芯片。
CACHE是DSP和通用处理器都使用的技术,就不多讲了。经过前面的讨论,再遇到新的DSP就不怕了。
此外还要注意:
定点DSP和浮点DSP,定点DSP中经常要考虑溢出问题,浮点基本不用考虑。浮点用指数表示,定点用小数表示。浮点DSP功耗高、设计难度大、价格高,手机里用定点DSP,功耗小、成本低。
多处理器接口
VLIW超长指令字,TMS320C6701高达256bit指令要分到8个处理单元去处理,效率高。
预测图表,型号、制程(微米)、MIPS、RAM、Price、Power(mW/MIPS)
DSP的发展受到应用需求多样化和集成电路技术发展的双重推动。更高的运行速度和信号处理速度;多DSP协同工作;更方便的开发环境;DSP Core;更高性价比;更广泛应用。
总之,DSP硬件结构均围绕着怎么样提高数字信号处理器运算速度这个目的设计的。由此可见,DSP的确比通用处理器和单片机MCU更适合更有效地做实时数字信号处理。
原来DSP在硬件结构上做了优化,使得其运算效率非常高。
下面我从各家DSP硬件共同点、各家硬件特点、和通用CPU共同点来说说DSP硬件结构。其实你只要掌握了任何一家的DSP硬件结构,就可以触类旁通理解其他厂家的DSP,因为只要是DSP,就有很多共同点。当然,各家也有各自的特色,我们一并对比介绍。通用CPU上也有加快运算速度的优化结构,这里列举的硬件结构主要是指和通用CPU不一样的部分。
1、DSP采用哈佛结构总线,程序存储器和数据存储器分开,取指和数据访问同时进行。通用CPU采用冯.诺依曼型总线,程序和数据总线共享同一总线,取指和数据访问不能并发。
2、流水线操作(pipeline),取指、译码、寻址、取数、运算、存储流水操作,等效单周期完成指令,而通用CPU通常一条指令需要几个时钟周期才可以完成。当然,流水线操作引入了一些新问题,比如需要在适当位置加NOP空操作指令或者调整指令位置以确保流水操作能顺利完成。
3、独立的硬件乘法器。卷积、数字滤波、FFT、相关、矩阵运算等算法中,大量重复乘法和累加。MAC指令(取数、乘法、累加)在单周期内完成(通过流水线等效实现),比用软件乘法快很多。
4、独立的DMA总线和控制器。通用CPU中的总线是共享的,DMA使用了总线则CPU就要等待,而DSP中的DMA使用独立的DMA总线通路,可以和CPU core并发操作。独立的源、目的地址寄存器、长度寄存器,自动计算地址和循环。光DSP处理器运算速度快还不行,还与数据吞吐率有关。
5、中心算术逻辑单元CALU。DSP中有很多ALU,如DMA控制器、地址发生器中就含有可做乘加运算的ALU,这样他们就不用占用CALU了。DSP中的ALU非常简单,地址、乘法、移位都不管了,只管算术与逻辑运算。
6、移位:通用CPU每次移动1bit,DSP可在一个机器周期内左移/右移多个比特。可用来对数字定标,使之放大或缩小以保证精度和防止溢出,还可以用来做定点数和浮点数之间的转换。
7、溢出:通用CPU中,溢出发生后,设置溢出标志位,不带符号位时回绕,带符号位时反相,带来很大误差。此时,溢出已经发生,无法挽回。DSP把移位输出的最高位(MSB)存放在一个位检测状态寄存器中,检测到MSB=1时,就通知下一次会发生溢出,此时溢出还未发生,来得及采取措施防止。
8、数据地址发生器(DAG)。取数不光要占用数据总线,还要计算地址。通用CPU数据、地址的产生和数据的处理都由ALU来完成。DSP中,设置了专门的数据地址发生器(实际上就是专门的ALU),来产生所需要的数据地址,节省公共的ALU时间。CALU主要做运算而不是做这些辅助的工作。
9、外设(peripherals)
时钟发生器、定时器、软件可编程等待状态发生器、GPIO、同步串口与异步串口、JTAG。
10、CSSU比较、选择、存储单元。用于维特比译码,通信中常用算法,专门设计一个硬件单元用于此算法。
11、片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问。片内RAM同片外存储器相比,有以下优点:(1)片内RAM的速度较快,可以保证DSP无等待运行;(2)对于C2000/C3x/C5000系列,部分片内存储器可以在一个指令周期内访问两次,使得指令可以更加高效;(3)片内RAM运行稳定,不受外部的干扰影响,也不会干扰外部。 4)DSP片内多总线,在访问片内RAM时,不会影响其它总线的访问,效率较高。
12、具有低开销或无开销循环及跳转的硬件支持。
13、快速的中断处理和硬件I/O支持。
当然,与通用微处理器相比,DSP芯片的其他通用功能相对较弱些。
以上讲的是各家DSP共同点,其实,每家厂商或者同一家厂商的不同系列的DSP都有各自特点。比如:MOTOROLA DSP56系列是24bit(3字节),而TI是16bit(2字节)。MOTOROLA分成X、Y两块数据存储器同时操作,提高速度,而TI是在一个周期内访问2次,异曲同工。TI的C2000(C20x、C24x)侧重于控制;C5000(C54x、C55x)侧重于低功耗、有效性能(手机使用可以省电延长电池寿命,不用风扇散热体积小);C6000(C62xx、C67xx、C64xx)侧重于高性能;OMAP侧重于嵌入式。此外,还有一些专用DSP和多处理器DSP芯片。
CACHE是DSP和通用处理器都使用的技术,就不多讲了。经过前面的讨论,再遇到新的DSP就不怕了。
此外还要注意:
定点DSP和浮点DSP,定点DSP中经常要考虑溢出问题,浮点基本不用考虑。浮点用指数表示,定点用小数表示。浮点DSP功耗高、设计难度大、价格高,手机里用定点DSP,功耗小、成本低。
多处理器接口
VLIW超长指令字,TMS320C6701高达256bit指令要分到8个处理单元去处理,效率高。
预测图表,型号、制程(微米)、MIPS、RAM、Price、Power(mW/MIPS)
DSP的发展受到应用需求多样化和集成电路技术发展的双重推动。更高的运行速度和信号处理速度;多DSP协同工作;更方便的开发环境;DSP Core;更高性价比;更广泛应用。
总之,DSP硬件结构均围绕着怎么样提高数字信号处理器运算速度这个目的设计的。由此可见,DSP的确比通用处理器和单片机MCU更适合更有效地做实时数字信号处理。