多媒体基本概念

多媒体容器

多媒体容器也称为多媒体封装格式,用于标识和交错组织不同的数据类型。简单一点的容器格式可以包含不同类型的音频格式,而更高级的容器格式则可以支持多个音频和视频流、字幕、章节信息和元数据,以及同时回放各种流所需的同步信息。

有些容器是音频专用的:

  • AIFF (IFF 文件格式,广泛应用于Mac OS平台,后缀为 .aiff、 .aif、.aifc)
  • WAV(RIFF 文件格式,广泛应用于Windows平台,后缀为 .wav、.wave)
  • MP3 (MPEG-1 Audio Layer III or MPEG-2 Audio Layer III,后缀为 .mp3)
  • FLAC(Free Lossless Audio Codec, 后缀为 .flac)

有些容器专用于静态图像:

  • FITS(Flexible Image Transport System,后缀为 .fits、.fit、.fts)静态图像、原始数据和关联的元数据。
  • TIFF (Tagged Image File Format,后缀为 .tiff、.tif)静态图像和关联的元数据。

其它的容器可以容纳多种类型的音频和视频以及其他媒体类型数据,如今流行的多媒体容器有:

  • 3GP(许多手机上使用,后缀为 .3gp,基于ISO基本媒体文件格式)
  • ASF(Microsoft WMA 和 WMV的容器,后缀为 .asf、.wma、.wmv)
  • AVI(标准的 Microsoft Windows 容器,后缀为 .avi,基于RIFF 文件格式)
  • Flash 视频(FLV、F4V)(Adobe 系统的视频和音频容器,后缀为 .flv、.f4v、.f4p、.f4a、.f4b)
  • Matroska(MKV)(后缀为.mkv、.mk3d、.mka、.mks,不限于任何编码格式,因为它几乎可以容纳任何内容,是一种开放的标准容器格式)
  • QuickTime 文件格式(苹果公司的标准 QuickTime 视频容器,后缀为 .mov、.qt)
  • MPEG 节目流(MPEG-1 和 MPEG-2 在存储介质上的标准容器,也用于 DVD 视频光盘,后缀为 .mpg、.mpeg、.m2p、.ps)
  • MPEG-2 传输流(又称 MPEG-TS)(数字广播和媒体传输的标准容器,也用于蓝光光盘视频,通常包含多个视频和音频流以及电子节目指南,后缀为 .ts、.tsv、.tsa)
  • MP4(MPEG-4 多媒体组合的标准音频和视频容器,基于 MPEG-4 Part 14 定义的 ISO 基本媒体文件格式,后缀为 .mp4、.m4a、.m4p、.m4b、.m4r、.m4v)。
  • Ogg(Xiph.org音频格式 Vorbis 和 Opus 以及视频格式 Theora 的标准容器,后缀为 .ogg、.ogv、.oga、.ogx、.ogm、.spx、.opus)
  • RM(RealMedia、RealVideo 和 RealAudio 的标准容器,后缀为 .rm)
  • VOB(Video Object,后缀为 .vob,是DVD视频媒体中的容器格式,可以包含数字视频、数字音频、字幕、DVD菜单和导航内容)
  • WebM(基于 Matroska,后缀为 .webm)

多媒体编解码

编解码器(Codec)是一个能够对数据流或信号进行编码或解码的设备或计算机程序。Codec 是 coder-decoder 的组合。编码器对数据流或信号进行编码以用于传输或存储,而解码器则将编码反转以用于回放或编辑。除了对信号进行编码外,编解码器还可以压缩数据以减少传输带宽或存储空间。

压缩编解码器主要分为有损编解码器和无损编解码器。无损编解码器通常用于以压缩形式存档数据,同时保留原始流中的所有信息。许多流行的编解码器都是有损耗的,它们降低质量以最大限度地压缩数据。数字媒体中应用最广泛的有损数据压缩技术是基于离散余弦变换(DCT),用于 JPEG 图像、H.26x 和MPEG 视频、MP3 和 AAC 音频等压缩标准。

音频压缩格式

  • PCM(Pulse-code modulation),LPCM(Linear pulse-code modulation)
  • MP2(MPEG-1 Audio Layer II,MPEG-2 Audio Layer II)
  • MP3(MPEG-1 Audio Layer III ,MPEG-2 Audio Layer III)
  • AAC (Advanced Audio Coding)
  • HE-AAC (High-Efficiency Advanced Audio Coding)
  • AC3(Dolby Digital,Dolby AC-3)
  • E-AC3(Dolby Digital Plus,Enhanced AC-3)
  • WMA (Windows Media Audio)
  • Vorbis
  • DTS(Digital Theater Systems),DTS-HD
  • FLAC(Free Lossless Audio Codec)
  • Opus

视频压缩格式

分辨率

分辨率,泛指量测或显示系统对细节的分辨能力。日常用语中,分辨率多用于视频的清晰度。分辨率越高代表视频质量越好,越能表现出更多的细节;但相对的,因为纪录的信息越多,文件也就会越大。

分辨率可以从显示分辨率与图像分辨率两个方向来分类。

图像分辨率,是单位英寸中所包含的像素点数,其定义更趋近于分辨率本身的定义。典型的是以每英寸的像素数(PPI,pixel per inch)来衡量。

显示分辨率(屏幕分辨率)是屏幕图像的精密度,是指显示器所能显示的像素有多少。由于屏幕上的点、线和面都是由像素组成的,显示器可显示的像素越多,画面就越精细,同样的屏幕区域内能显示的信息也越多,4k(4096×2160),8k(7680×4320)。

帧率

视频实质上是在时间轴上一组图像序列的组合,视频中的每幅图像被称为一帧。由于人眼的视觉暂留特性,当以超过每秒 25 帧的速度连续播放静止图像时,在人脑中就形成连续运动的视频效果。

帧率(Frame rate)指数字视频序列帧与帧之间出现的频率,是用于测量显示帧数的量度,即在1秒钟时间里传输的图片的数量,也可以理解为图形处理器每秒钟能够刷新几次,通常用 fps(Frames Per Second)表示。

高的帧率可以得到更流畅、更逼真的动画。每秒钟帧数(fps)愈多,所显示的动作就会愈流畅。

码率

Bit rate 也称码率,指视频或音频文件在单位时间内使用的数据流量,该参数的单位通常是 Kbps 或者 Mbps。一般来说同样分辨率下,视频文件的码率越大,精度就越高,画面质量就越高。当然,码率越大,文件体积也越大,其计算公式是:文件体积 = 时间 x 码率 / 8。例如,一部 90 分钟 1Mbps 码流的 720P 视频文件,其体积 = 5400 秒 × 1Mb/8 = 675MB。

  • CBR (Constant Bit Rate) 固定码率:指的是编码器的输出码率(或者解码器的输入码率)应该是固定制(常数)。
  • VBR( Variable Bit Rate)可变码率:编码器的输出码率(或者解码器的输入码率)可以根据编码器的输入源信号的负责度自适应的调整,目的是达到保持输出质量保持不变而不是保持输出码率保持不变。
  • OBR(Overall Bit Rate)混合码率,指视频文件中视频和音频混合后的整体平均码率。
  • ABR(平均码率)音频或视频的平均码率,可以简单的认为等于文件大小除以播放时间。

采样率

采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。

采样率越高,数字化后声波就越接近于原来的波形,即声音的保真度越高。

比特率 = 采样率 x 采用位数 x 声道数

I、P、B 帧

  • I 帧(关键帧),帧内编码帧,它是一个全帧压缩编码帧,解码时仅用 I 帧的数据就可重构完整图像。
  • P 帧,前向预测编码帧,P 帧是以 I 帧(或 P 帧)为参考帧。
  • B 帧,双向预测内插编码帧,B 帧以前面的 I 或 P 帧和后面的 P 帧为参考帧。

DTS 与 PTS

  • DTS( Decode Time Stamp ), DTS 主要用于视频的解码,在解码阶段使用。
  • PTS( Presentation Time Stamp ) PTS 主要用于视频的同步和输出。在显示的时候使用,在没有 B 帧的情况下,DTS 和 PTS 的输出顺序是一样的。
posted @ 2024-02-29 15:08  kitsum  阅读(13)  评论(0编辑  收藏  举报