2021 年音视频技术与发展

2021 年音视频技术与发展

2021 年,音视频技术的应用场景已随处可见,从游戏场景「吃鸡」、电商场景直播连麦、教育场景授课答题,再到金融场景银行视频开户等都有身影。那么,回望今年音视频领域到底有哪些突破性技术表现?未来,音视频赛道在流畅性、海量并发等存在诸多技术痛点的地方是否会迎来拐点呢?能否从各种角度和领域来盘点一下。

2021 年,音视频技术的应用场景已随处可见,从游戏场景「吃鸡」、电商场景直播连麦、教育场景授课答题,再到金融场景银行视频开户等都有身影。那么,回望今年音视频领域到底有哪些突破性技术表现?未来,音视频赛道在流畅性、海量并发等存在诸多技术痛点的地方是否会迎来拐点呢?能否从各种角度和领域来盘点一下。

 

 

 总体来看,目前,全球主流的视频压缩技术有H.26x、AVS系列、AV1三大类。上图展示了视频编码标准的发展历程。其中,AVS是中国自主制订的数字音视频编解码标准,在国内市场有很大的发展潜力。另外,相较于H.26x系列高昂的专利费和复杂的专利政策,免费开源的AV1被认为将会得到更为广泛的应用。

二、视频编解码器---应该怎么压缩视频?

2.1 实现视频压缩的基础——视频冗余

在最开始有说到,由摄像器材捕捉的原始视频流经数字化后,数据量非常庞大,对视频信号的存储、传输与处理都带来了极大的挑战。因此,需要对原始的数字视频信号进行压缩编码。根据香农信息论,自然界的信息普遍存在大量的冗余,而对视频信号来说,会体现在比如时间冗余、空间冗余、视觉冗余、编码冗余等等方面。视频存在信息冗余,也是实现视频编码压缩数据量的基础。

时间冗余:

时间冗余指的是在时间上重复的信息,在视频中的表现就是时间上相邻帧之间的图像很相似,造成了冗余。一般,每秒30帧的话,视频中两个相邻帧的图像间隔是30毫秒多一点,变化很微小。

 

 

 

 

 比如,上面两幅图像就是从一段视频序列中截取出的相邻两帧图像,不论是主体内容还是具体结构都非常相似,因此包含了许多的时间上的冗余信息。

空间冗余:

空间冗余是指一帧图像内相邻像素、结构间所具有的相关性。与时间冗余不同,空间冗余在视频信号中的表现为同一帧图像中很多空间区域所具有的相互关联性。

 

 

 比如在上面这一张风景图中被红框圈起来的几个部分,不论是框内还是框周围,色彩与图像内容都非常近似。

视觉冗余:

觉冗余与人类视觉系统的特点相关,人类视觉系统对于图像的变化,并不是都能感知的。例如,对于图像的编码和解码处理时,由于压缩阶段引入了噪声而使图像发生了一些变化,如果这些变化不能为视觉所感知,则仍认为图像足够好,这类冗余称为视觉冗余

通常情况下,人类视觉系统对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降。对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。

编码冗余:

要了解编码冗余,首先需要了解一些信息论的知识点。在信息论中,信息熵指的是数据所携带的信息量,这个信息量的单位通常用bit比特来表示。简单理解,某段数据信息熵就是对该数据进行无失真编码所得平均码长的下限,但这个下限很难达到。

因此,表达某一信息所需要的比特数往往比理论上表示该信息所需要的最少比特数要大,则之间的差距就是信息熵冗余,也被称为编码冗余。

2.2 混合编码框架

如果说以上介绍的冗余,是能够实现视频压缩的基础,那么,要以怎么样的方法才能把冗余去除?到目前为止,尽管世界上有着各种不同的视频编码标准,但大体上都是基于一个通用的框架——混合编码框架。经典的混合编码框架如下图所示:

 

 

 整个编码框架被大致分为了三个部分:预测编码、变换编码与熵编码。这几种编码手段分别对应了不同类型信息冗余的压缩需求:

1. 预测编码(包含帧内与帧间预测):帧内预测可以压缩空间冗余;帧间预测可以压缩时间冗余;

2. 变换编码(包含变换与量化):变换可以将图像从空间域变换到变换域;量化可以压缩视觉冗余;

3. 熵编码:压缩编码冗余;

2.2.1 预测编码

首先来了解一下预测编码,这种编码方式利用了图像中相邻像素的时间或空间相关性,用已编码的像素对当前正在编码的像素进行预测,然后对预测值与真实值的差——预测残差进行编码和传输。真实信号、预测信号与预测残差间的关系可以参考如下的例子:

真实信号序列:55, 69, 78, 67, 70, 59, 63, 64, 72, 60

预测信号序列:66, 66, 66, 66, 66, 66, 66, 66, 66, 66

预测残差序列:-11, 3, 12, 1, 4, -7, -3, -4, 6, -5

从上面这个例子可以看出,如果通过预测编码,对预测残差序列进行编码和传输,可以显著降低信号的数据量。视频编码中所使用的预测编码基本原理框图如下图所示:

 

 

 预测编码主要包括帧内预测和帧间预测,分别用于压缩用于上文提到的空间冗余和时间冗余。

正如前文空间冗余部分所述,视频每一帧的图像中,总有许多区域是相互关联的。也就是说,视频图像中,相邻像素之间的变化一般都很小,存在着极强的空间相关性。因此,要编码某一片区域中的像素值,可以使用周围已编码区域的像素值对这片区域中的像素值进行预测,然后获取预测残差进行编码。帧内预测的基本过程如下所示:

 

 

 上图中绿色区域是已经编码的像素值,红色问号区域代表将要被编码的区域。

 

 

 如果使用垂直方向上的已编码像素值对待编码区域像素值进行预测,就可以获得待编码区域的预测信号,图中箭头方向代表预测方向。

 

 

 通过获得的预测像素值,与原有的实际像素值做差,就获得了帧内预测残差。显而易见,预测残差矩阵的数据量更小,原本需要用8bit存储的数据,经过预测后,预测残差可能只需要2bit。

帧内预测在一定程度上减少了空间冗余,而在帧间预测中,主要是对原始视频信号中的时间冗余进行压缩。通常来说,视频信号相邻帧中包含的内容非常相似,最大的差异主要来自于物体在空间中的运动。因此,帧内预测中使用了运动补偿对视频中的运动特性进行编码。用两张图来简单的解释这个过程。

 

 上图代表了视频中正在进行帧间编码的一帧,其中红色编码块内包含一个运动物体。

 

 

 运动补偿首先在参考帧中寻找能够最佳匹配红色编码块的粉色匹配块,并计算二者间的运动矢量(Motion Vector, MV)。在结束该帧编码后,只需要传输帧间预测残差和运动矢量信息,这大大缩减了视频信号中的时间冗余信息。

2.2.2 变换与量化

上面提到的预测编码大多是在空间域与时间域内进行的,而变换编码指将空间域中描述的图像,经过某种变换,变换为变换域(通常指的是DCT域),从而达到改变数据分布的作用。接下来,给出了对图像像数值进行DCT变换的一个实际例子:

 

 

 上图中,左图是原图每个像素所对应亮度分量的实际值,右图是该亮度图像进行DCT变换所获得的系数矩阵。可以看到,经过DCT变换,图像大部分能量都集中在频域中的直流分量与低频分量上(左上角部分),高频分量部分的能量却很少,基本接近于0或等于0。

经过上一步从从空域变换到频域后,得到了一个新的矩阵。对于变换后得到的数据,再通过量化进行进一步的压缩处理,把具有连续幅度值的输入信号,转换到只具有有限个幅度值的输出信号,可以大大减小数据量。

2.2.3 熵编码

在上面提到,在编码器的整个编码流程中,各种预测编码和变换编码都可以看成是通过解除空间或时间上的相关性,将原始信号转换成另一种形式(预测误差或变换系数)来表达。那么,在这种新形式下,信源可以近似认为是无记忆的,即各样值之间已没有相关性。再经过量化操作后,信源只产生有限个数的符号,因此,经过量化后的信号可近似看成是一个离散无记忆信源。对于离散无记忆信源,只要各事件出现的概率不相等,该信源就仍然有冗余存在,还有进一步进行数据压缩的可能性,这就是在熵编码中所考虑的问题。

三、 编码技术大战——2021年MSU世界视频编码器大赛

在当前,每个视频所包含的信息量、数据量都在大幅的增加。一部时长两个小时未经压缩的分辨率为1080p,帧率为60Hz的YUV视频,大约会占用1920*1080*1.5*60*60*120 Byte,约134GByte的存储空间。面对如此大的数据量,为了在传输过程中不造成过大的带宽占用,并且要尽量提供与网速一致的交互体验,就需要依靠高效的视频编码。所以,视频编码的研究和标准制定是推动业内的发展的基础。

由于视频应用相关产业的迅速发展,视频编码技术作为视频应用背后的关键支撑,也受到各大厂商的重点关注,提供视频内容的科技公司也纷纷着力于研发自己的视频编码器,视频编码器的“技术大战”,也一直拥有极高的关注度。作为世界顶级视频编码器大赛,MSU编码器大赛是由莫斯科国立大学(Moscow State University)举办的,迄今为止已连续举办十六届,是视频编码器领域极具权威的赛事。2021年MSU世界视频编码器大赛的竞争非常的激烈,参赛团队来自世界TOP级别的科技公司包括腾讯等各大互联网公司等。

2021年10月30日,权威赛事2021 MSU世界视频编码器大赛成绩公布。在H.265赛道,腾讯研发的Tencent V265编码器处于行业领先,各项指标排名全部第一;在AV1赛道,腾讯推出的VAV1自研编码器也实现全部指标第一;腾讯自研的Tencent266编码器也在竞争激烈的高清离线赛道中夺得两项第一名的成绩。

 

 

 上图是MSU大赛中全高清客观指评价[4]和主观质量评价[5]的结果。可以看到,腾讯公司的TencentV265编码器,不论在客观质量压缩,还是在主观质量压缩,在快速档赛道(Fast, 30fps)中都取得了所有评判标准中第一的突出成绩。

 

 

 1)上图是MSU世界编码器大赛中不同视频编码器使用数量的比较。可以看出,视频编码标准从H.26x系列的一家独大,逐渐转变为到AV1、HEVC(H.265)、VVC(H.266)三足鼎立的竞争局面。

2)视频内容的分辨率越来越高,数据量越来越庞大。2021年的视频编码主流分辨率从720P, 1080P的高清图像(H.264)已经升级到2K, 4K, 8K超高清图像编码(HEVC, VVC, AV1);

3)由于多媒体内容中视频图像越来越大,帧率越来越高。支持并行编码以及便于实现硬件加速编解码的视频编码器会越来越流行。

可以从技术趋势中发现,开源的编码标准、面向超高清视频的编码标准以及硬件加速编码愈发流行,而这三者,都是由越来越丰富的视频应用、越来越高清的视频催生的。正如“技术永远和需求挂钩,技术驱动,需求拉动,同时用市场加速,这是这个时代的核心特征”。在视频编码领域,亦是如此。编码技术的发展,也往往由新的视频应用需求驱动。迄今为止,视频应用已经渗透到生活的各个领域,也催生了视频编码新的技术需求。比如,从2019爆发的新冠疫情至今,国内外的很多会议都由线下转至线上举行,许多行业对视频会议都有强烈的需求,视频会议需要进行低延迟、高质量的视频传输,同时,屏幕共享功能也要求视频编码器能对屏幕内容进行高效高质量的编码。

与视频会议相似的还有超高清视频的传输。随着硬件设备的发展和带宽的提高,用户对视频质量,尤其是分辨率的要求也随之提高。因此,如何提高压缩效率,降低带宽消耗的同时又能最大化的提高视频的质量,是视频编码技术一直以来的追求,也将持续作为未来研究的重要课题。

目前,发展火热的AR/VR视频,即增强现实/虚拟现实视频,由于VR视频内容的特殊性和网络带宽的限制,目前的视频编码标准无法满足VR视频的压缩需求。目前,业界对AR/VR视频的设备和应用呼声极高,针对AR/VR内容的视频编码标准也势必在未来有更好的发展。

参考

^高文,赵德斌,马思伟. 数字视频编码技术原理(第二版)[M]. 北京: 科学出版社, 2018.

^朱秀昌, 刘峰, 胡栋. H.265/HEVC视频编码新标准及其扩展[M]. 北京: 电子工业出版社, 2016

^蔡安妮. 多媒体通信技术基础(第4版)[M]. 北京: 电子工业出版社, 2017.

 

 

 消除马赛克从此不是梦

 

  如上图所示,照片的划痕被筛选出来进行了单独的修复。

 

对噪点和模糊进行优化。

 

 

 模型还对人脸进行了加强优化。这里是通过progressive generator 来细化面部区域,最终得到一张清晰的面部轮廓。

 

 

 修复这些图片,Real-ESRGAN 也可以修复动漫视频。这个模型其实还是基于ESRGAN模型做出的针对低分辨率的图片及视频的优化,重点侧重于实用性。上图是整个模型的基本运行原理。

 

 

 视频、音频、文字、文件的实时通讯。理论上来说这个框架可以支持到各种场合。

参考链接:

https://www.zhihu.com/question/508523690/answer/2293221093

 

 

 

 

 

 

posted @   吴建明wujianming  阅读(665)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-01-06 GPU编程和流式多处理器(七)
2021-01-06 GPU编程和流式多处理器(六)
2021-01-06 GPU编程和流式多处理器(五)
点击右上角即可分享
微信分享提示