视频压缩和H264
一.视频压缩
1.1 为什么需要压缩视频?
假设一个2小时未压缩的高清视频,1920×1080p的电影,我们来计算一下他的存储容量。先介绍一下帧率(frame rate或者是 FPS)概念,也就是每秒传输图片的帧数,也可以理解为图形处理器每秒能够刷新几次。由于人眼的特性-视觉暂留,帧率要在20以上才会感觉流畅。之前的电影帧率一般是24。拓展:为什么游戏帧数要60才流畅,而电影只需要24
2小时×60分钟×60秒×25 帧率×1920×1080 像素 ×3/2 每像素字节数 = 5599GB
一部高清电影占了这么大空间,不能忍。
所以,为了存储和传输方便,压缩视频,必不可少。
1.2 如何压缩视频?
接下来回答怎么进行视频压缩。
介绍最基本的概念:
信息压缩是通过去除资料中的冗余信息而达成。就视频而言,冗余信息可以分成四类:
-
时间上的冗余信息(temporal redundancy)
在视频中,相邻的帧(frame)与帧之间通常有很强的关连性,这样的关连性即为时间上的冗余信息。这即是上一次学习中的帧间压缩。连续的图像往往非常相近,由于一些小运动造成了细小差别。这种减小冗余的方法可以存储和上一帧或者下一帧不同的地方。这样就可以减少存储了。这个过程就称作运动补偿。位移是利用运动向量得出的。 -
空间上的冗余信息(spatial redundancy)
在同一张帧之中,相邻的像素之间通常有很强的关连性,这样的关连性即为空间上的冗余信息。这即是上一次学习中的帧内压缩。比如一个像素点是绿色,那它相邻的像素点可能就是深绿或者浅绿,甚至就是绿。 -
统计上的冗余信息(statistical redundancy)
统计上的冗余信息指的是欲编码的符号(symbol)机率分布是不均匀(non-uniform)的。 -
感知上的冗余信息(perceptual redundancy)
感知上的冗余信息是指在人在观看视频时,人眼无法察觉的信息。
视频压缩(Video compression)是指运用压缩技术将数位视频中的冗余信息去除,降低表示原始视频所需的存储量,以便视频资料的传输与储存。实际上,原始视频资料的容量往往过大,例如未经压缩的电视品质视频的位元率高达216Mbps,绝大多数的应用无法处理如此庞大的容量,因此视频压缩是必要的。目前最新的视频编码标准为ITU-T视讯编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)所提出的H.264/AVC。
一个典型的视频编码器:在进行当前信号编码时,编码器首先会产生对当前信号做预测的信号,称作预测信号(predicted signal),预测的方式可以是时间上的预测(interprediction),亦即使用先前帧的信号做预测,或是空间上的预测 (intra prediction),亦即使用同一张帧之中相邻像素的信号做预测。得到预测信号后,编码器会将当前信号与预测信号相减得到残余信号(residual signal),并只对残余信号进行编码,如此一来,可以去除一部份时间上或是空间上的冗余信息。接着,编码器并不会直接对残余信号进行编码,而是先将残余信号经过变换(通常为离散余弦变换)然后量化以进一步去除空间上和感知上的冗余信息。量化后得到的量化系数会再透过熵编码,去除统计上的冗余信息。
二.h264编码标准的提出
H264是新一代的编码标准,以高压缩高质量和支持多种网络的流媒体传输著称。
在编码方面,我理解的他的理论依据是:参照一段时间内图像的统计结果表明,在相邻几幅图像画面中,一般有差别的像素只有10%以内的点,亮度差值变化不超过2%,而色度差值的变化只有1%以内。所以对于一段变化不大图像画面,我们可以先编码出一个完整的图像帧A,随后的B帧就不编码全部图像,只写入与A帧的差别,这样B帧的大小就只有完整帧的1/10或更小!B帧之后的C帧如果变化不大,我们可以继续以参考B的方式编码C帧,这样循环下去。这段图像我们称为一个序列(序列就是有相同特点的一段数据),当某个图像与之前的图像变化很大,无法参考前面的帧来生成,那我们就结束上一个序列,开始下一段序列,也就是对这个图像生成一个完整帧A1,随后的图像就参考A1生成,只写入与A1的差别内容。
在H264协议里定义了三种帧,完整编码的叫做I帧,参考之前的I帧生成的只包含差异部分编码的帧叫P帧,还有一种参考前后的帧编码的帧叫B帧。
H264采用的核心算法是帧内压缩和帧间压缩,帧内压缩是生成I帧的算法,帧间压缩是生成B帧和P帧的算法。
参考链接:
1. 视频压缩基本概念