音视频前沿:新一代 AV1 视频标准究竟是怎样一种存在?
AV1是开放媒体联盟Alliance for Open Media (AOM) 开发的第一代视频编码标准,自推出以来获得了产业界巨大关注和支持。腾讯多媒体实验室也加入进来和其他公司团队一同积极推动AV1编码器的优化和落地,为客户提供高性能和高效率的云端编码服务。本文是对腾讯多媒体实验室专家研究员赵欣老师在「云加社区沙龙online」的分享整理,希望与大家一同交流。
一、视频编码的发展历程
视频编码领域国际上有 4 个主流的标准组织:
1. 动态图像专家组(MPEG)
MPEG 组织隶属 ISO 和 IEC,1988 年由 Hiroshi Yasuda(NTT) 和 Leonardo Chiariglione 创建,会员主要包括产业界,大学和研究机构。
2. 视频编码专家组(VCEG)
VCEG 隶属国际电信联盟(ITU),总部设置在瑞士日内瓦。会员包括产业界,1984 年创建,第一次会在日本东京举办。
3. 数字音视频编解码技术标准专家组(AVS)
AVS 是我国自己的标准组织。2002 年由国家原信息产业部科学技术司批准成立,会员由 92 家大学和公司组成,成员单位集中在中国。第一次会于 2002 年在北京举办,近几年逐渐获得国际领域的关注,已有国外企业加入。
4. 开放媒体联盟(AOMedia)
AOMedia 于 2015 年成立,会员包括 44 家公司,其中董事会包括 14 家公司,相当一部分成员为美国湾区的互联网公司,由多媒体实验室牵头,腾讯 2019 年以董事会成员身份加入AOMedia,成为董事会成员中迄今为止唯一的一家中国企业。这也是腾讯在国际视频标准舞台上的里程碑之一。
标准组织推出的标准主要可以分为三部分,其中比较特殊的就是 ISO 和 IEC 旗下的 MPEG 和 ITU 旗下的 VCEG,它们之间有着千丝万缕的联系。
这两个标准组织都成立于上世纪的八十年代,最初分别推出了各自的一套标准,随着业界对于统一标准的呼声越来越高,便联合推出了 MPEG-2及H.264/AVC 等标准,这也推进了流媒体行业的发展。
AVS 目前推出了三个标准,分别是 AVS1、AVS2 和 AVS3,这三个都是我国自主知识产权的标准,也是我国在视频标准领域的一个骄傲。
第三个标准是 AOMedia,因为比较年轻,目前推出的唯一一个标准是 AV1。AV1 的前身是 VP-8 和 VP-9,这两个标准是 Google 公司主要应用在流媒体业务上的私有标准。
关于VVC 的标准制定,腾讯于 2017 年底才开始投入,经过两年多的努力,多媒体实验室多人担任 VVC 标准联合主编,VVC 参考软件联***, 多项核心实验召集人、多个专家小组主席等职位。腾讯在 VVC 标准的制定过程中,扮演了相当重要的角色。
AOMedia 则是由腾讯多媒体实验室从 2019 年开始推动,并于同年 10 月腾讯以董事会成员身份加入。
下图是国际主流视频标准专利池的分布情况。以 HEVC 为例,总共有超过 17000 件专利。专利池主要有三个,分别是 HEVCAdvance、MPEG-LA 和 VELOS。
在 HEVC 阶段,专利池的局面是相当庞大并且复杂的。还有一些公司虽然投入了,但是立场比较微妙,游走在三个专利池之外。因为向三个专利池缴纳专利费用是非常昂贵的,这带来了一个问题,就是流媒体产品出海会面临一些风险。
正是因为这种复杂的局面,导致了 AOMedia 的诞生。AOMedia 的主要目标就是开发免专利费的视频编码标准,所有加入 AOMedia 的企业都可以免费使用 AOMedia 旗下的标准。
二、新一代 AV1 视频标准
1. AV1 编码技术
首先我们来介绍一下 AV1 的编码技术。AV1 是 2018 年定稿的新一代视频压缩标准,它采用了所谓的混合编码技术框架。
AV1 的整个编码系统是由很多的模块混合在一起构成的,每个模块是从不同的角度和手段,对图像不同方面的数据冗余度进行去压缩。所以不同的模块联合在一起,相辅相成,实现比较高的性能,这就是混合编码技术框架。
混合编码技术框架所采用的的基本技术流程,就是比如说这是一个输入的图像,它会先把这个图像以块为单位划分成多个块,然后以块为单位进行项目预测,预测完之后再进行变换,变换之后再进行量化和熵编码,形成压缩的数据。过去几十年来编解码的技术框架都是按照混合编码技术框架来实现的。
(1)块划分
AV1 编码的块划分技术,就是把图像划分成多个矩形块,然后以块为单位去解码图像。在 AV1 中图像会划分成 128x128 的单元,也就是最大编码单元,简称 LCU。LCU 可以进一步的划为四等份(SPLIT)或者二等份(HORZ,VERT)。四等份的子块可以进一步递归划分,并且每个子块可以按照最多九种划分方式进一步划分为更小的单元。
需要这么多模式的原因,是因为图像的内容本身就是复杂多样的,我们为了针对复杂多样的图像进行最有效的编码,就需要对图像进行同步的划分。
通常一个物体有多个组成部分,通常需要把它划分为多个部分,每个部分采用不同的预测模式,针对性的进行预测。
(2)帧内预测
下面我们讲一下预测的环节。所谓的帧内预测,就是去除图像之间的空间冗余,所谓的空间冗余就是一个像素和它周围的像素有很强的相关性。比如白墙的颜色都是单一的颜色,每个点的像素和其他像素的趋势非常接近,这就会导致一个很强的数据冗余。帧内预测就是利用一定的技术手段来去除这种空间上的数据冗余。
主要的方式包括以下五种:
-
方向预测模式
-
递归滤波模式
-
Paeth 预测算子
-
交叉分量预测模式
-
DC 预测模式,平滑预测模式
方向预测就是假设图像有方向性的纹理,沿方向进行预测就可以把图像预测的比较好。
递归滤波模式是把图像分成细分块的单位,每个单位会和周围像素行成一个滤波器,然后进行线性加权预测,这种模式下滤波的过程需要串行进行。
Paeth 预测算子是当图像在局部呈现平面的一个假设。另外还有交叉分量预测模式,这种模式主要针对颜色图像。颜色有三分量,每个分量之间具有很强的相关性。
此外还有 DC 预测模式和平滑预测模式。这两种模式主要局势针对平滑纹理的预测。
(3)帧间预测
帧间预测是指不以图像上的时间的冗余。所谓时间冗余是指视频是由一系列的图像顺序播放完成的,所以构成了视频。那么为什么顺序播放可以构成视频?因为在空间上他们属于同一个产品、同一个内容,但是有一些运动上的差异,所以在数据上有非常强的相关性。
为了处理这种相关性,就会在 AV1 上引入仿射运动模型,模仿旋转、缩放等比较复杂的模型。类似的还有重叠块运动模补偿、混合预测模式等。
(4) 变换
扩展的变换类型包括:DCT、ADST、IDT、Flip-ADST 这几种。AV1 最多支持 16 种行列变换组合。
(5) 熵编码
熵编码包含的主要新兴技术是多符号(Multi-Symbol)上下文自适应算术编码引擎,相比二值算术编码引擎,单周期可提升熵编码吞吐量。
(6)环内滤波
环内滤波包含去块效应滤波、约束方向增强滤波和环路修复滤波。环路修复滤波包含维纳滤波和自导向投影滤波。
(7) 调色板模式
调色板模式是指针对视频图像的屏幕内容,亮度/色度取值稀疏,把图像进行索引编码图形块。
(8) 帧内块匹配
腾讯的 LOGO(Tencent) 中包含两个 n 和两个 e,图像比较复杂,如果把图像 n 编码完之后,增加一个矢量就可以预测另一个 n,效果会获得提升。
2. AV1 编码应用场景
AV1 的一个重要应用场景就是流媒体。开放媒体联盟中有很多流媒体公司,除腾讯以外还包括 Google、Youtube、Netflix、Hulu 还有爱奇艺等公司。Youtube 上目前高清视频上线使用的就是 AV1 和 VP9 两种编码格式的组合,今年已经有采用 AV1 编码的 8K 视频上线。Netflix 自 2020 年 2 月起也支持 Android 上的 AV1 流媒体播放。
腾讯多媒体实验室积极研发AV1编解码的商业应用技术产品。去年腾讯视频云合作多媒体实验室推出AV1直播与点播服务,腾讯视频云成为国内首家直播 + 点播同时支持 AV1 视频处理业务的公有云厂商。此外多媒体实验室联合腾讯其他编解码团队一起推动AV1编解码器在不同业务中的商业化落地。实验室正在与腾讯视频进行合作推广AV1在产品业务中的应用。
在云转码方面,AWS Elemental MediaConvert 在 2020 年 3 月宣布支持 AV1 编码格式。
三、AV1 标准与云端编码
在云端编码方面,AV1 有如下几个优势:
-
AV1的开源社区提供丰富的编码器配置应对不同的业务需求,例如实时档/非实时
-
支持时域可伸缩性(Temporal Scalability)
-
支持帧级超分辨率编码(SpatialScalability)
-
免专利版权费,支持产品出海
在多媒体实验方面,腾讯多媒体实验室和腾讯云、腾讯视频展开合作。腾讯多媒体实验室和腾讯云正积极推进视频 AV1 标准的商业应用。由多媒体实验室推动,腾讯以董事会成员加入即将成立的 SVT Foundation,助力开源社区 AV1 软件编码。
下面我们简单介绍一下下一代视频编码标准。
首先是 Versatile Video Coding 标准,是由 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29/WG 11(MPEG) 联合工作组 JVET 推出,2018 年 4 月份于美国圣迭戈(San Diego)会议正式启动,2020 年 7 月标准文档定稿。
相比较上一代 HEVC 标准,达到 35% 的码率节省(相同 PSNR 质量前提下),参考软件编码时间 10 倍,解码时间 2 倍。
腾讯多媒体实验室在 VVC 历时两年多的标准化历程中,获得近百项技术提案采纳,填补了腾讯 在国际视频标准化领域的空白。腾讯多媒体实验室多人在 VVC 标准化过程中担任重要职位,包括标准联合主编,参考软件联***,多个核心实验负责人,多个专家小组主席。
除了 VVC,还有 AOMedia Video 2 标准。
AOMedia 于 2019 年开始筹备下一代标准 AV2,下一代AV2标准的参考软件平台预计近期将推出。腾讯多媒体实验室和 Google 联合组织技术讨论,成立编码技术孵化组(Incubator Group) ,目前腾讯多媒体实验室初步已推出三项编码技术,相关工作发表在 ICIP 2020。
四、Q&A
Q:为什么会有这么多的编码标准?
A:这个和视频编码发展的历程有关。最开始制定视频编码标准有两个标准组织,分别是 MPEG 和 VCEG。它们分别开发自己的标准,这个对业界会产生一些困惑,所以后来两个标准组织联手集中资源和力量来开发一套共同的标准。
这套标准非常成功,在业界产生了非常巨大的影响力,蛋糕也越做越大,关注的公司越来越多,专利池的规模也是迅速增长。所谓分久必合、合久必分,后来为了应对这个复杂局面,促进技术的更新迭代,其它标准组织也应运而生,包括 AVS 和 AOMedia,主要是针对高昂的专利版权费产生的。
Q:AV1 会引导下一代视频编码的潮流么?
A:个人认为下一代视频编码会是一个百家争鸣的状态。我们知道国际视频编码标准已经发展了几十年,有非常完善的标准制定流程,参与者也非常众多,技术实力非常雄厚,所以他们对标准的打磨功力也是积累深厚的。
AOM 是一个相对年轻的标准组织,它的技术力量投入目前来说相对集中一些。目前来说,对于下一代的AV2标准的技术研发,腾讯和 Google 的投入相比其它AOM成员而言更大一些。虽然AOM比较年轻,但是通过腾讯多媒体实验室的力量投入,多家公司联合起来在技术上不断打磨,希望能够下一代AV2标准的技术研发上作出更大突破。
我觉得AOM最大的优势是免专利版权费。如果想用复杂度更高的可以考虑国际组织标准,各取所需。我也希望未来各个标准组织可以进行一定的融合,求同存异,集中力量造福整个产业。
Q:免专利版权费是永久的么?
A:开放媒体联盟创立之初,目标就是专利版权费,但这其实是不容易的,会遇到一些挑战。我们了解到其他非AOM会员公司也宣称持有这样的标准的必要专利。
在开放媒体联盟旗下的公司对业界的影响力是巨大的,免专利版权费是我们的一个宗旨,一个根本。
Q:AV1 相比其他有哪些优势?
A:主要是性能上的优势。AV1 和 HEVC、VP9 属于不同代的标准,据我了解 AV1 与上一代标准相比有 20% 多的提升,这在带宽上会有很大的一个节省。另外,对于新兴的视频业务,比如 8K 视频,AV1 的性能优势将更为突出。
Q:专利池的问题会长期存在么?
A:这是一个困惑产业界很久的问题,并且不容易解决,所以才会有开放媒体联盟的诞生。目前国际标准组织有所谓的组织来解决专利池的问题。目前我还没有看到完善的解决方案,但大家已经意识到这个问题的严重性,积极的推动解决方案。希望今后在专利池的问题解决同事,产业界可以有效地利用新技术。
Q:AV1 软件效率太低,后续能有多大优化空间?是否只能期待硬件编码改善这个问题?
A:软件编码效率我理解的是速度这种功耗上的效率,其实它的编码性能还是相当可观的。编码性能的优化空间应该是没有止境的,在前两年,编码器的优化迭代会比较快,但这是一个持续的事情。腾讯多媒体实验在这块也有很大的投入,希望能够推动AV1软件编码器的发展和广泛部署。另外,近期开放媒体联盟内部也是持续的有好消息,有非常显著的性能提高。
Q:会有更多的硬件厂商支持么?
A:我理解是会有的,而且是强力的支持。据我了解,在硬件解码方面联发科、三星、LG 都已经推出了相应的硬件解码。在编码当中,是有更大难度挑战的,在硬件编码器上,我们预期在今年年底或者未来的2-4年内会有更多硬件增长的支持。
Q:腾讯多媒体实验室是怎样一个存在?
A:腾讯多媒体实验室,专注于多媒体技术及相关领域的前沿技术探索、研发、应用和落地。研究领域及产品研发方向包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容处理、分析、理解和质量评估,以及沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案。实验室持续为多项业务输出核心技术和工程实现,涵盖办公、教育、文化旅游、电竞、泛娱乐等多个领域,服务千万级DAU,并通过腾讯云输出通用解决方案及产品。实验室同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统,5G和AI等。
腾讯多媒体实验室拥有500余件多媒体及相关领域全球专利(含专利申请),其中近200项专利被多媒体数据压缩、系统和网络传输协议等国际标准采纳。多媒体实验室代表公司获得多项世界组织席位,担任包括国际8K协会董事,开放媒体联盟(AOM)董事,DASH论坛董事长等职务。
Q:目前都是靠软解AV1 么?
A:目前硬件解码器已经有推出,包括联发科的天玑 1000,还有三星和 LG 推出的 8K 电视都是内嵌了 AV1 的硬件解码器。
Q:AV1 除了直播、点播等,还有哪些应用场景?比如医疗影像可以应用吗?
A:医疗影像因为有其特定的需求,比如需要图像的失真非常低,还有实时的操作等,如果图像出现瑕疵会对医疗诊断产生干扰,这是必须避免的。
在此之外,视频应用的需求在开放媒体联盟组织成员构成上也有一定程度的体现,目前还没有看到有医疗影像公司加入这个组织。从技术本身来说,AV1运用在医疗影像是完全没有问题的,AV1 是支持非常高质量的图像和视频编码。除过医疗影像、直播、点播等,凡是涉及到视频通信的应用场景,比如文化旅游,教育等领域,以及VR全景视频,8K视频等新兴应用场景AV1都有其用武之地,我们也希望AV1能够广泛应用在视频通信的各个应用场景,助力整个多媒体行业的发展。
这也是腾讯加入开放媒体联盟的初衷,如果希望标准组织可以考虑到公司业务的具体需求,就可以加入这个标准,反馈一些业务上的需求,这样标准的制定就可以更好地符合特定业务的需求。
作者简介
赵欣,腾讯多媒体实验室专家研究员。负责新一代视频压缩算法的研发工作及标准制定工作。自2017年加入腾讯以来,重点参与过新一代国际视频压缩标准H.266/VVC的制定工作,负责研发多项腾讯的专利技术并推动将其采纳进入H.266/VVC标准,填补腾讯在国际视频标准领域的空白。目前重点参与了腾讯AV1编码器的开源协同项目和开源社区SVT编码器的优化工作,并负责开放媒体联盟(AOM)旗下的标准制定,包括下一代AV2标准的技术预研和标准筹备工作。
「云加社区」公众号,回复“PPT”获取老师演讲PPT~