音频编码(转载)
频率
不同频率的正弦波,下部分比上部分频率高频率是单位时间内某事件重复发生次数的度量,在物理学中通常以符号罗马字f 或希腊字ν表示,其国际单位为赫兹(Hz)。设 t 时间内某事件重复发生 n 次,则此事件发生的频率为 f = n/t赫兹。又因为周期定义为重复事件发生的最小间隔,故频率也可以周期的倒数表示,即 f = 1/T ,其中 T 表示周期。
60X=n=> x= n/60
在国际标准单位里,频率的单位——赫兹,是以海因里希?鲁道夫?赫兹的名字命名。1 赫兹表示事件每一秒发生一次。
每秒一个振动周期称为1HZ,人耳可听到的音频约为20HZ到20KHZ。 每秒20~20000振动周期。
音频 - 声音信息数字化
音频数字化就是将模拟的声音波形数字化,以便计算机处理,包括采样、量化、编码三个步骤。
(1)采样
以固定的时间间隔(采样周期)抽取模拟信号的幅度值。采样后得到的是离散的声音振幅样本序列,仍是模拟量。采样频率越高,声音的保真度越好,但采样获得的数据量也越大。在MPC中,采样频率标准定为:11,025KHz,22,05KHz,44,1KHz。
(2)量化
把采样得到的信号幅度的样本值从模拟量转换成数字量。数字量的二进制位数是量化精度。在MPC中,量化精度标准定为8位,16位。
采样和量化过程称为模/数(A/D)转换。
(3)编码
把数字化声音信息按一定数据格式表示,它的实现方法是靠各种不同的压缩方法将数据编码压缩。[1]
音频 - 影响因素
(1)采样频率:采样频率是指单位时间内的采样次数。采样频率越大,采样点之间的间隔就越小,数字化后得到的声音就越逼真,但相应的数据量就越大。声音采样频率以KHz(千赫兹)衡量。
(2)量化位数(采样位数):量化位数是模拟量转换成数字量之后的数据位数。量化位数表示的是声音的振幅,位数越多,音质越细腻,相应的数据量就越大。量化位数主要有8位和16位两种。
(3)声道数:声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流,而立体声则需要左、右声道的两个数据流。显然,立体声的效果要好,但相应的数据量要比单声道的数据量加倍。
声音数据量一般都被称为海量数据。这是因为对音质要求越高,数据量就越大。[
解读音频属性
采样精度
什么是采样精度?因为wav使用的是数码信号,它是用一堆数字来描述原来的模拟信号,所以它要对原来的模拟信号进行分析,我们知道所有的声音都有其波形,数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”,赋予每一个点以一个数值,这就是“采样”,然后把所有的“点”连起来就可以描述模拟信号了,很明显,在一定时间内取的点越多,描述出来的波形就越精确,这个尺度我们就称为“采样精度”。我们最常用的采样精度是44.1kHz,它的意思是每秒取样44100次。之所以使用这个数值是因为经过了反复实验,人们发现这个采样精度最合适,低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。一般为了达到“万分精确”,我们还会使用48kHz甚至96kHz的采样精度,实际上,96kHz采样精度和44.1kHz采样精度的区别绝对不会象44.1kHz和22kHz那样区别如此之大,我们所使用的CD的采样标准就是44.1kHz,目前44.1kHz还是一个最通行的标准,有些人认为96kHz将是未来录音界的趋势。
比特率
比特率是大家常听说的一个名词,数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”?我们知道声音有轻有响,影响声音响度的物理要素是振幅,作为数码录音,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。“比特(bit)”就是这样一个单位,16比特就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,就可以用数字来表示了。和采样精度一样,比特率越高,越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级,表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”,它其实指的是一首乐曲最响和最轻的对比能达到多少,我们也常说“动态范围”,单位是dB,而动态范围和我们录音时采用的比特率是紧密结合在一起的,如果我们使用了一个很低的比特率,那么就只有很少的等级可以用来描述音响的强弱,当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是;比特率每增加1比特,动态范围就增加6dB。所以假如我们使用1比特录音,那么我们的动态范围就只有6dB,这样的音乐是不可能听的。16比特时,动态范围是96dB。这可以满足一般的需求了。20比特时,动态范围是120dB,对比再强烈的交响乐都可以应付自如了,表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特,但是和采样精度一样,它不会比20比特有很明显的变化,理论上24比特可以做到144 dB的动态范围,但实际上是很难达到的,因为任何设备都不可避免会产生噪音,至少在现阶段24比特很难达到其预期效果。
音频文件格式的特点。 要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频的最大带宽是20KHZ,故而采样速率需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位(16bit,即96dB)的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。
|
|
|
--------------------------------------------------------------------------采样
|
|比特率
音频编码
自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。
有损和无损
根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。
为什么要使用音频压缩技术
要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。
频率与采样率的关系
采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20KHz的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。
PCM编码
PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。
WAV
我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。
MP3编码
MP3简介
MP3作为目前最为普及的音频压缩格式,为大家所大量接受,
编码:用代码表示信息的过程。
解码:将信息从已经编码的形式恢复到编码前原状的过程。
数字模式下,音频的初始信号是PCM(例如wav),但是PCM体积庞大,不利于传输,于是经过编码使其体积变下,例如wav编码成mp3。
解码,就是编码的逆过程,例如播放mp3时,是先将mp3解码成pcm,然后播放。
音频格式也分无损和有损,mp3就是有损的音频编码,mp3还原成pcm时,与之前的是pcm有差别!感觉上就是音质下降!
音频编码