音视频转换常用基础术语全解 - 菰☆淚

公告

现在绝大多数人都会遇到歌曲或电影太大或者是格式不支持，而需要进行格式转换，有的也叫音频转换或视频转换；现在，绝大多数转换器都会使用术语。对不了解这些的用户而言，往往会造成极大困扰，在这里，我就将针对音视频转换中现在常用到的基础术语，及其变动对音视频文件所产生的影响，尽量用浅显简明的语言做一下集中解释。

一般来说，视频转换的常用术语包括直接影响画质、音质的帧大小和速率、比特率等（主帖），影响压缩率及画质的编码器等（一楼），主要影响播放体验的格式等（二楼），还有就是影响转码速度某些设置（三楼）。为了照顾大多数童鞋，再加上个人水平有限，有些专业性特别强的内容不够准确，但大意应该是对的。

一、与画质、音质等有关的术语

这些术语术语包括帧大小、帧速率、比特率及采样率等。

1、帧

一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。

帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。

帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。

2、比特率

比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。

在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。

在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。

视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

3、采样率

这个基本在视频转换中出现，少数音频或视频中的转换时会出现。

声音是一种波，有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，在数字编码过程中，需要抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，所能描述的声波频率就越高。

一般来说，广播使用22050Hz，CD使用44100，DVD使用48000。

4、综述

一般来说，视频文件播放起来的清晰度，主要就是有着两个决定。帧越大，视频分辨率就越大，画面越精细；帧速率越高，画面就越流畅；码率越高，视频播放就越不容易出现色块、锯齿等影响画质的因素。

二、视频转换常用到的编码器

未经压缩的视频基本上是无法进行传播的，特别的是放到网上更是几乎不可能。举个例子，我大二下学期学的视频编辑，当时不知道，直接从母带导出进行编辑，一个多小时有十来个G。视频压缩现在一般是解码后通过编码器对视频进行重编码，以压缩视频体积。常用的和常见到的视频编码器有H.264、Xvid、mpeg4、WMVideo、Real Media等。音频编码器由于常常与格式同名，故放在二楼说明。

1、压缩方式

压缩一般分软件压缩和硬件压缩，这里只说软件压缩。

软件压缩不是说用什么压缩软件，而是用什么编码器。压缩的方式主要分两种：

一是对帧和音频进行压缩，对帧的压缩主要是提取视频中的关键帧，并通过某些图像算法对帧进行压缩；音频压缩是指是指降低信号动态以滤除噪声和避免动态过大的失真。

二是针对各种冗余，表现为除了对段时间内的除了对单幅图像进行编码，还有帧重构，以及利用基于块的运动估计、运动补偿、帧内编码和熵编码等技术，还有去除人感觉不到的图像细节和频段，或通过制造听觉和视觉上的错觉，从而大幅度降低音视频文件的大小。

2、H.264

H.264标准的主要目标是：与其它现有的视频编码标准相比，在相同的带宽下提供更加优秀的图象质量。为此，H.264与充分利用了包括统计冗余和视觉生理冗余在内的各种冗余。

这种压缩方式能够在低码率的情况下提供高质量的图像，并且具有较强的容错能力和网络适应性。这个简单的说就是，H.264编码的视频文件，在相同画质下会比其他编码方式得到的视频文件更小，同时不容易出现花屏或不能播放。但缺点是，H.264的视频相对于其他编码的视频，同样画质的文件，对硬件配置的要求更高。但对现在的硬件而言，基本都只是在将视频转换为H.264的视频是会更慢一点，播放一般都没问题。

3、MPEG-4

MPEG-4最开始只是一个视频编解码标准，但现在不只是视频编解码标准，参与者及分支众多，但这里只讨论运动图像专家组MPEG的mpeg-4视频编解码方面，其他不管。这个视频编解码器利用很窄的带宽，通过帧重建、运动估计、运动补偿等技术，压缩数据，以求以最少的数据获得最佳的图像质量。

在相同码率下，这种编码方式的视频将比其他编码方式的视频有更高的画质、音质，同时具有较好的容错性和网络适应能力，转换出来的视频对硬件的要求也较低。但是由于当前某些技术的限制，在压缩比较高时，会出现色块。

另外，mpeg-4并不是一个死的标准，它每年都有一定的改进。（不会影响到旧视频的播放）

4、Xvid

Xvid（旧称为XviD）是MPEG-4一类的视频编解码器，Xvid支持多种编码模式，支持量化和范围控制，运动侦测、动态关键帧距和曲线平衡分配等众多编码技术。

Xvid作为世界上第一个第一个真正开放源代码的，通过GPL协议发布的视频编解码器。近五年来，XviD一直是世界上最流行的视频编码器。估计在BT(BitTorrent)和eMule上至少90%的电影、电视剧是用XviD压制的。

使用的技术不同，视频的质量和大小都不同，一般视频转换器的所使用的xvid编码器，转换出来的视频就画质与大小而言，与转化器中的mpeg-4并无多少差别。

5、WMVideo

WMVideo是软件巨人微软的产品，其最新的几个版本的压缩率已经同H.264相当。现在微软的WMA-HD和H.264已成为下一代DVD，即HD－DVD技术的强制执行标准。

值得注意得是，少数系统或平台不支持这个，同时，容错性与前面几个相对要低一点，而且在网络上的加载速度要比其他标准都低一点。

6、Real Media

Real Media是Real公司开发的一种一种高压缩比的视频格式，其最初的想法是用来在低速率的网络实时传输活动视频影像和在极低的网络带宽下提供不间断的画质较高的音视频。

Real Media压缩标准在相当长一段时间内，其压缩率都居于全球之冠，一度在全球非常有名，在国内也长期占据是使用率最高的音视频编码标准（目前貌似还是）。但是由于该标准本身存在色彩还原度不高（即转换后的视频色彩上有细微变动）、容易出现色块、快速运动图像容易模糊的问题，而且目前H.264、mpeg-4、Xvid、WMV-9及其以后版本等视频编解码器的压缩率都不低于它，再加上这个标准的版权在Real（严重鄙视某几个知名播放器的盗版行为），所以目前这个标准的使用率每况日下。

7、其他标准

除了上面这几个，当然还有其他的编解码器，如中国的AVS、苹果公司的Sorenson和Cinepak、英特尔的Indeo Video、H.263等。但由于使用范围过窄，应用了这些标准的播放器不多，因此就不予介绍了。

三、音视频转换时常见到的格式

（一）音频转换

音频转换中常用的格式主要有APE、FLAC、midi、WAV、MP3、WMV、RA、OGG等，于视频不同，音频转换的格式往往是与编码方式相对应的。

1、WAV
WAV是微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。WAV格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道。标准格式的WAV文件音质和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。播放这种文件，推荐使用Winamp、foobar2000等专业级的播放器，并配备好一些的音箱和耳机。

2、FLAC及APE

FLAC即是Free Lossless Audio Codec的缩写，中文可解为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码，其特点是无损压缩，也就是说当你将从音频CD上读取的音频数据文件压缩成FLAC格式后，你还可以再将FLAC格式的文件还原，而还原后的音频文件与压缩前的一模一样。APE也是一直无损压缩音频技术。这两者格式的文件大小大概为CD的一半，但是随着宽带的普及，它们受到了许多音乐爱好者的喜爱，特别是对于希望通过网络传输音频CD的朋友来说，二者可以帮助他们节约大量的资源。
现在二者已被很多软件及硬件音频产品所支持。播放这两种文件，同样推荐使用Winamp、foobar2000等专业级的播放器，并配备好一些的音箱和耳机。

这两者中，APE的压缩率更高一点，但容错性稍低，解码速度稍慢。

3、MP3

MP3格式诞生于八十年代的德国，所谓的MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层，分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。

MPEG音频文件的压缩是一种有损压缩，MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用*.mp3格式来储存，一般只有*.wav文件的1/10，而音质要次于CD格式、WAV格式及无损的声音文件。

由于其文件尺寸小，音质好；所以在它问世之初还没有什么别的音频格式可以与之匹敌，因而为mp3格式的发展提供了良好的条件。直到现在，这种格式还是风靡一时，作为主流音频格式的地位难以被撼动。但是树大招风，MP3音乐的版权问题也一直是找不到办法解决，因为MP3没有版权保护技术，说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。

4、WMA

WMA (Windows Media Audio) 格式以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1：18左右。

WMA这种格式在录制时可以对音质进行调节。同一格式，音质好的可与CD媲美，压缩率较高的可用于网络广播。此外WMA的支持内容提供商通过DRM方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等；另外WMA还支持音频流技术，适合在网络上在线播放。

Windows操作系统和Windows Media Player无缝集成，直接使用Windows Media Player播放即可。

5、RealAudio

RealAudio主要适用于在网络上的在线音乐欣赏，主要有这么几种：有RA、RM、RMX，还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较富裕的听众获得较好的音质。
但由于随着网络带宽的普遍改善，RealAudio又不能提供同等大小下的更好音质，目前已很少看见了。

6、OGG

OGG格式完全开源，完全免费，和mp3不相上下的新格式。与MP3类似，OGGVorbis也是对音频进行有损压缩编码，但通过使用更加先进的声学模型去减少损失，因此，相同码率编码的OGGVorbis比MP3音质更好一些，文件也更小一些。

另外，MP3格式是受专利保护的。发布或者销售MP3编码器、MP3解码器、MP3格式音乐作品，都需要付专利使用费。而OGGVorbis就完全没有这个问题。目前，OGGVorbis虽然还不普及，但在音乐软件、游戏音效、便携播放器、网络浏览器上都得到广泛支持。

7、MIDI

MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音，而是记录声音的信息，然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5～10KB。

当前，MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。mid文件重放的效果完全依赖声卡的档次。mid格式的最大用处是在电脑作曲领域。mid文件可以用作曲软件写出，也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里，制成mid文件。

8、AAC

AAC（Advanced Audio Coding）是一种专为声音数据设计的文件压缩格式。利用AAC格式，可使人感觉声音质量没有明显降低AAC标志的前提下，更加小巧。相对于MP3，AAC可提供最多48个全音域声道，最高支持96KHz的采样频率，解码播放所占的资源更少。

在杜比实验室的测试中，128Kbps的AAC立体声音乐被专家认为不易察觉到与原来未压缩音源的区别；AAC格式在96Kbps码率的表现超过了128Kbps的MP3格式；同样是128Kbps，AAC格式的音质明显好于MP3；AAC是目前唯一一个，能够在所有的EBU试听测试项目的获得“优秀”的网络广播格式。

目前该编码格式广泛运用于电影、电视剧、动漫新番的封装中。

9、AC-3

AC-3全称“杜比AC-3”（Dolby Surround Audio Coding-3），是杜比公司开发的新一代家庭影院多声道数字音频编码方式。杜比数字AC-3是根据感觉来开发的编码系统多声道环绕声。它将每一种声音的频率根据人耳的听觉特性区分为许多窄小频段，在编码过程中再根据音响心理学的原理进行分析，保留有效的音频，删除多作的信号和各种噪声频率，使重现的声音更加纯净，分离度极高。

杜比数字AC-3系统可用前置的左、右音箱，中置音箱产生极有深度感和定位明确的音场，用两个后置或侧置的环绕音箱和超低音箱表现宽广壮阔的音场，而六个声道的信息在制作和还原过程中全部数字化，信息损失的很少。

目前它已被美国采用作为高清晰电视（HDTV）音频系统，最新DVD机也包含杜比数字AC-3。相当多的MKV高清视频封装时也会采用AC-3格式。

（二）、视频转换中的常见格式

常用到的格式主要有AVI、MP4、MKV、WMV、RMVB、FLV、MOV等。

1、AVI

AVI即音频视频交错格式。是将语音和影像同步组合在一起的文件格式。采用一种有损压缩方式，压缩比较高，画面质量不是太好，但由于绝大多数视频编辑及转换软件导入导出avi格式较快，有些可以直接编辑AVI格式。因此这个格式在某些领域运用的非常广泛。

另外，AVI格式也是一般的设备和系统都能支持的基础格式。

2、MP4和RMVB
MP4大多使用mpeg-4或H.264视频编码器压缩。RMVB使用Real Media视频编码器压缩。这几种的优劣楼上已说明，就不再说了。

这两个在现在一般是电影、电视剧、动漫在刚出来时，发布资源时用的。其中RMVB格式用的越来越少了。

MP4格式一般的手机或其他设备、播放器、系统都可以直接播放（不一定流畅）。

3、MKV

MKV严格的来说并不是一个视频格式，它是多媒体封装格式，最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流，它可将多种不同编码的视频及16条以上不同格式的音频和不同语言的字幕流封装到一MKV文件当中。

大多数字幕组发布DVD片源及BD片源的日漫、欧美大片时，特别是发布该资源的最终版本时，基本上都会使用这个格式。

目前绝大多数播放器都能支持该格式。

4、FLV

FLV 是FLASH VIDEO的简。由于形成的文件极小、加载速度极快，在网络视频中，运用极为广泛，是目前增长最快、最为广泛的视频传播格式，但基本仅用于网络视频。

同样，绝大多数播放器都支持该格式。

5、MOV

QuickTime具有跨平台、存储空间要求小等技术特点，采用了有损压缩方式的MOV格式文件，画面效果较AVI格式要稍微好一些。

目前基本仅见于IOS、Mac和专门面向二者的网站上，但大多数播放器仍然支持该格式。

6、其它格式

以上这些就是具有代表性的几种格式。除了这些还有RM、ASF、3GP等.

四、影响转码速度某些设置及其他相关

相当多的播放器为获得更好的转换效率，都有写加快转换效率的设置，主要有硬件加速、流直通等。同时还会有一些提升播放体验的设置，但其中的某些功能会导致视频转换速度大大降低，如将字幕硬性混入视频，二次编码等。

1、硬件加速

硬件加速是指在计算机中通过把计算量非常大的工作分配给专门的硬件来处理来减轻中央处理器的工作量的技术。

使用硬件加速，可以将CPU从视频流的转换中部分解放出来，从而加快视频转换的速度和降低转码时的资源占用。但是开启硬件加速在极少数情况下，可能会导致画质降低。另外，大多数视频转换软件都只支持nVIDIA显卡。

2、流直通

一个视频文件，一般是由一个视频流，可能有的多个音频流，以及可能被封装到视频中的字幕流，在这里面，视频流占了视频文件体积的大部分；但转换视频时，有相当长的时间和CPU资源会消耗在音频转换上面。

很多时候，转换视频格式，都只是因为分辨率、文件大小或者是文件格式的问题，并不一定需要转换音频流，所以大多数稍微专业一点的播放器，都有流直通复制的选项。选中该选项后，音频流将被直接复制新的视频文件中，从而将部分CPU资源解放出来，降低转换时的CPU占用和转换时间。

另外，进行视频合并及视频分割时，如果视频流的编码器、码率、分辨率等，音频流的码率、编码器、采样率等，字幕流格式一致，那么某些音视频转换工具可以直接合并流，而不进行重新编码。这回极大地加快合并或分割速度，一般只需要不到十秒。但我只知道QQ影音自带的转换器可以。

3、字幕硬性混入视频

当视频与字幕放到同一个文件夹下时，有些转换软件可以将字幕硬性混入视频（一般要文件名相同）。这个字幕硬性混入视频是指将字幕文件或字幕流混入到视频流中，也就是将字幕叠加到相应的帧上去，其好处在于，字幕在视频上，只要视频能播放，字幕就能显示。这么做，将会加大视频转换所需的时长和转换时的CPU占用。

4、二次编码

在视频转换时我们会用到一次编码（CBR）或二次编码（VBR）。
一次编码CBR（固定码率）：保持码率基本维持在平均码率。实现简单，对复杂场景会因码率不足造成马赛克现象，对于简单场景则不能充分利用编码空间。(这里讲的复杂场景是指细节/边缘丰富以及快速变化场景）。
二次编码VBR, (2-pass VBR), 在第一次其实是检测收集运动啊亮度等相关数据，这样在第二次编码的时候就会针对不同的场景来进行动态的压缩编码。二次编码比一次编码质量要好一些的。但是编码时间也会增加不少。使用二次编码可以把变化不大的画面转换时码率低一些（如静态画面），而变化大的码率高一些（如打斗动作部分），这样码率是变化的，可以使整部影片的清晰度比较均匀。
二次编码将会使转码所需要的时间加大一半还多。

posted on 2013-08-13 18:46 菰☆淚阅读(923) 评论(0) 编辑收藏举报

刷新页面返回顶部