流媒体 1——概述+声音数字编码(pcm,dm......)

1.1.基本概念:

1.2.多媒体系统:

1.3.多媒体数据压缩与编码:

(1).熵编码:不考虑数据源的无损数据压缩技术。其核 心思想是按照符号出现的概率大小给符号分配长度 合适的代码,对常用的符号给它分配长度较短(即位 数较少)的代码,对不常用的符号给它分  配长度较长 (即位数较多)的代码。最常见的熵编码技术是霍夫曼编码和算术编码

(2).源编码:考虑数据源特性的数据压缩技术。编码时考虑信号源的特性和信号的内容,因此也称基于语 义的编码(semantic-based coding)”。例如,图像编码 考虑相邻像素的值可能完全相同或相近,视像相邻 帧之间的变化不大,也可能完全相同。为获得比较 大的压缩比,通常采用有损数据编码技术。

(3). 混合编码:组合源编码和熵编码的数据有损压缩技术。影视、图像和声音媒体几乎都采用这种编码方 式,如JPEG,MPEG-VideoMPEG-Audio

 

 

2.数字声音编码

2.1 声音信号数字化

(1).声音的频率:

    

(2).采样——量化——编码:

采样频率:奈奎斯特理论指出,采样频率不应低于声音信号最高频率 的两倍,这样就能把以数字表达的声音还原成原来的声 音,这叫做无损数字化(lossless digitization)

采样精度:每个声音样本的位数(bps)  

数据量(字节/秒)= (采样频率(Hz)*采样位数(bit)*声道数)/ 8   ,  声卡对声音的处理质量可以用三个基本参数来衡量,即采样频率、采样位数和声道数。 
  采样频率是指单位时间内的采样次数。采样频率越大,采样点之间的间隔就越小,数字化后得到的声音就越逼真,但相应的数据量就越大。声卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的采样频率。
   采样位数是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。
   采样的声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流,而立体声则需要左、右声道的两个数据流。显然,立体声的效果要好,但相应的数据量要比单声道的数据量加倍。

2.2.声音文件的存储格式:

 

 

2.3.话音编译码器

(1).波形编译码器:

  不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在16 kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。最简单的波形编码是脉冲编码调制(pulse code modulation,PCM),它仅仅是对输入信号进行采样和量化。

(2).音源编译码器

  音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器叫做声码器 (vocoder)。在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器(time-varying filter),它由白噪声—无声话音段激励,或者由脉冲串——有声话音段激励。因此需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有 声话音的音节周期,并且每隔10~20 ms更新一次。声码器的模型参数既可使用时域的方法也可以使用频域的方法确定,这项任务由编码器完成。这种声码器的数据率在2.4 kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。

(3).混合编译码器

  混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。波形编译码器虽然可提供高话音的质量,但数据率低于16 kb/s的情况下,在技术上还没有解决音质的问题;声码器的数据率虽然可降到2.4 kb/s甚至更低,但它的音质根本不能与自然话音相提并论。为了得到音质高而数据率又低的编译码器,历史上出现过很多形式的混合编译码器,但最成功并且普 遍使用的编译码器是时域合成-分析(analysis-by-synthesis,AbS)编译码器

 

 

3. 脉冲编码调制(pulse code modulation,PCM)

3.1,概念

  脉冲编码调制(pulse code modulation,PCM)是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。PCM的编码原理比较直观和简单,它的输入是模拟声音信号,它的输出是PCM样本。

  “防失真滤 波器”是一个低通滤波器,用来滤除声音频带以外的信号;

  “波形编码器”可暂时理解为“采样器”,

  “量化器”可理解为“量化阶大小(step-size)” 生成器或者称为“量化间隔”生成器。

3.2. 量化

  声音数字化有两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数 字值。一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量 也就不同。因此,可以说量化也是一种压缩数据的方法。

(1).均匀量化

  如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。



  用这种方法量化输入信号时,无论对大的输入信号还是小的输 入信号一律都采用相同的量化间隔。为了适应幅度大的输入信号,同时又要满足精度要求,就需要增加样本的位数。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。为了克服这个不足,就出现了非均匀量化的方法,这种方法也叫做非线性量化。

(2). 非均匀量化

  非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为 m 律压扩(companding)算法,另一种称为A律压扩算法。

m 律压扩

  m 律(m -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:
    
  式中:x为输入信号幅度,规格化成-1≤x≤1 ;
  sgn(x)为x的极性;
  m 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100 £ m £ 500。
  由于m 律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。具体计算时,用m=255,把对数曲线变成8条折线以简化计算过程。

 A律压扩

  A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:
         0 £ |x| £ 1/A
       1/A < |x| £ 1
  式中:x为输入信号幅度,规格化成 -1 £ x £ 1;
  sgn(x)为x的极性;
  A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。
  A律压扩的前一部分是线性的,其余部分与m 律压扩相同。具体计算时,A=87.56,为简化计算,同样把对数曲线部分变成折线。详细计算请看参考文献[17]。
   对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用m 律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制(Pulse Code Modulation (PCM) of Voice Frequences)。

 

3.3.pcm应用

 

 PCM编码早期主要用于话音通信中的多路复用。一般来说,在电信网中传输媒体费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题。提高线路利用率通常用下面两种方法:
(1). 频分多路复用 (frequency-division multiplexing,FDM)
   这种方法是把传输信道的频带分成好几个窄带,每个窄带传送一路信号。例如,一个信道的频带为1400 Hz,把这个信道分成4个子信道(subchannels):820~990 Hz, 1230~1400 Hz, 1640~1810 Hz和2050~2220 Hz,相邻子信道间相距240 Hz,用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。

(2). 时分多路复用(time-division multiplexing,TDM)
   这种方法是把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。这是数字通 信的主要手段。例如,话音信号的采样频率f=8000 Hz,它的采样周期=125 m s,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格:24路制和30路制。

 


 24路PCM的帧结构

 

  24路制的重要参数如下:

 

   ●每秒钟传送8000帧,每帧125 m s。
   ●12帧组成1复帧(用于同步)。
   ●每帧由24个时间片(信道)和1位同步位组成。
   ●每个信道每次传送8位代码,1帧有24 × 8 +1=193位(位)。
   ●数据传输率R=8000×193=1544 kb/s。
   ●每一个话路的数据传输率=8000×8=64 kb/s。
  
30路制的重要参数如下:
   ●每秒钟传送8000帧,每帧125 ms。

   ●16帧组成1复帧(用于同步)。
   ●每帧由32个时间片(信道)组成。
   ●每个信道每次传送8位代码。
   ●数据传输率:R=8000×32×8=2048 kb/s。
   ●每一个话路的数据传输率=8000×8=64 kb/s。
   时分多路复用(TDM)技术已广泛用在数字电话网中,为反映PCM信号复用的复杂程度,通常用“群(group)”这个术语来表示,也称为数字网络的等级。PCM通信方式发展很快,传输容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384 路)...。图中的N表示话路数,无论N=30还是N=24,每个信道的数据率都是64 kb/s,经过一次复用后的数据率就变成2048 kb/s(N=30)或者1544 kb/s(N=24)。在数字通信中,具有这种数据率的线路在北美叫做T1远距离数字通信线,提供这种数据率服务的级别称为T1等级,在欧洲叫做E1远距离数字通信线和E1等级。T1/E1,T2/E2,T3/E3,T4/E4和T5/E5.

 

 

4. 增量调制和自适应增量调制

4.1 增量调制( DM):

  “斜率过载”(slope overload):当输入信号的变化速度超过反馈回路输出信号的最大变化速度时,就会出现斜率过载。之所以会出现这种现象,主要是反馈回路输出信号的最大变化速率受到量化阶大小的限制,因为量化阶的大小是固定的。
  粒状噪声(granular noise):在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种噪声是不可能消除的。

  为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;相反,如果要减小粒状噪声,就要减小量化阶Δ,这又会使斜率过载更加严重。这就促进了对自适应增量调制(adaptive delta modulation,ADM)的研究

 

4.2自适应增量调制(ADM):

 

 

5. 自适应差分脉冲编码调制

 G.711使用A律或μ律PCM方法对采样率为8 kHz的声音数据进行压缩,压缩后的数据率为64 kb/s。为了提高充分利用线路资源,而又不希望明显降低传送话音信号的质量,就要对它作进一步压缩,方法之一就是采用ADPCM。

5.1 自适应脉冲编码调制(APCM)的概念

  自适应脉冲编码调制(adaptive pulse code modulation,APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。
   改变量化阶大小的方法有两种:一种称为前向自适应(forward adaptation),另一种称为后向自适应(backward adaptation)。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传 送边信息。前向自适应和后向自适应APCM的基本概念,如图所示。图中的s(k)是发送端编码器的输入信号,sr(k)是接收端译码器输出的信号。


(a) 前向自适应

(b) 后向自适应

5.2 差分脉冲编码调制(DPCM)的概念

  差分脉冲编码调制DPCM(differential pulse code modulation) 是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信 号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的 是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或 存储的数据量。此外,它还能适应大范围变化的输入信号。
  图中,差分信号d(k)是离散输入信号s(k)和预测器输出的估算值se(k-1)之差。注意,se(k-1)是对s(k)的预测值,而不是过去样本的实际值。DPCM系统实际上就是对这个差值d(k)进行量化编码,用来补偿过去编码中产生的量化误差。DPCM系统是一个负反馈系统,采用这种结构可以避免量化误差的积累。重构信号sr(k)是由逆量化器产生的量化差分信号dq(k),与对过去样本信号的估算值se(k-1)求和得到。它们的和,即sr(k)作为预测器确定下一个信号估算值的输入信号。由于在发送端和接收se(k-1)端都使用相同的逆量化器和预测器,所以接收端的重构信号sr(k)可从传送信号I(k)获得。


5.3 自适应差分脉冲编码调制(ADPCM)

  ADPCM(adaptive difference pulse code modulation) 综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量 化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的 差值总是最小。它的编码简化框图如图3-15所示。
  接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。

 
posted @ 2015-06-24 13:26  zxqstrong  阅读(1037)  评论(0编辑  收藏  举报