2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

概述

帧间预测是混合视频编码框架的关键组成部分,旨在利用视频序列中的时间冗余,提高编码性能。在相互预测过程中,通常使用运动估计和运动补偿从参考图像中得到一个预测块。为了提高预测的编码性能,该文提出了一种基于神经网络的预测增强(NNIP)。NNIP由残差估计网络、组合网络和深度细化网络三种网络组成。

1. Framework of NNIP

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HHL1IveU-1649063325997)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404161816480.png)]

NNIP的输入为当前块和预测块的空间相邻L形,以及预测块,分别用\(L_C\)\(L_P\)\(P\)表示,如图2所示。预测块是在传统的内部预测中使用运动补偿来生成的。NNIP的输出是一个精炼的残差。

2. Residue Estimation Network

残差估计网络的目的是捕获当前块与其预测块之间的变化。由于当前块尚未被重建(解码端),因此无法直接推导出当前块与其预测块之间的变化。因此,提出了残差估计网络,利用空间邻域L-形状来估计残差。

本文利用一个全连接网络(相邻不规则像素区域,卷积也无法使用)实现了残差估计网络。如图3所示,残差估计网络的输入值分别为\(L_C\)\(L_P\)\(L_C\)\(L_P\)分别由当前块及其预测块的左、左上、上方的相邻像素组成。残差估计网络的输出是估计的残差。残差估计网络由四个全连通层组成。除了最后一层外,每一个全连接的层之后都有一个非线性的激活层。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0Mle7Az-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404162440624.png)]

对于大小为N×N和宽度大小为M的L区域,第一层的维度为\(K=4MN+2M^2\)\(L_C\)\(L_P\)被重塑为\(K\)维向量作为输入。第二层和第三层的维数为\(2K\)。最后一层是\(N^2\)维的。输出被resize为一个N×N块。

用R表示残差估计网络。R的输入和输出用\(X={L_C,L_P}\)\(R(X)\)表示。\(R\)可以描述如下:

\[R_1(X)=f(W_1^{(R)})\cdot X+B_1^{(R)} \\ R_i(X)=f(W_i^{(R)}\cdot R_{i-1}(X)+B_i^{(R)}), 1<i<4 \\ R(X)=W_4^{(R)}\cdot R_3(X)+B_4^{(R)} \tag 1 \]

其中,\(W_i^{(R)}\)\(B_i^{(R)}\)是第\(i\)层的权重和偏差参数。\(f()\)是一个非线性映射函数。

3. Combination Network

本文设计了一个组合网络,首先提取估计的残差和预测的块的特征图,然后将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导深度细化网络中的残差细化。图4描述了组合网络的结构。输入是估计的残差和预测的块。输出是连接的特征映射。组合网络由卷积神经网络实现,由一个卷积层和一个连接层组成。卷积层之后是一个非线性激活层(即PReLU),其特征映射的数量和滤波器的大小被设置为64和3×3。

4. Deep Refinement Network

图5描述了深度细化网络的结构。输入是由组合网络导出的特征图。输出是一个精炼的残差块。深度细化网络由卷积神经网络实现,由一个输入卷积层、两个卷积块和一个输出卷积层组成。每个卷积块由三个卷积层组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fBtbneuq-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404164057952.png)]

需要注意的是,\(D_2,D_5\)分别是图5中两个卷积块的第一个卷积层,他们将两个不同核大小的子卷积层连接在一起。它可以用\(D2=concat(D_2^{1×1}, D_2^{3\times 3})\)\(D_5=concat(D_5^{1×1},D_5^{3×3})\)来表示。

深度细化网络的输出是一个细化的残差块,需要将其添加到预测块中,得到一个更准确的预测块如下:

\[P^{'}=D(Y)+P \tag 3 \]

5. Loss function

混合编解码框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y29U8THF-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165508023.png)]

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ErymOcpH-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165823906.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Kufy7WMk-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404170731696.png)]

总结

  1. 提出了一种基于神经网络的视频编码间预测增强方法,该网络由残差估计网络、组合网络和深度细化网络组成
  2. 设计了一个残差估计网络,利用当前块与其预测块之间的空间相邻像素来估计当前块之间的残差
  3. 提出了一种组合网络来提取估计的残差和预测的块的特征图,并将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导残差的细化。
  4. 提出了一种深度细化网络,将连接的特征映射作为输入,得到一个细化的残差,并将其添加到预测块中,得到一个更精确的预测块

但是有着较高的复杂度。

Reference

Reference:Neural Network-Based Enhancement to Inter Prediction for Video Coding

posted @ 2022-04-04 17:12  为红颜  阅读(109)  评论(0编辑  收藏  举报