Learning Content-Weighted Deep Image Compression

Abstruct 基于学习的像压缩 通常涉及rate-distortion的联合优化,并应对图像内容的空间变化和学习编码间的上下文依赖。大多数深度上下文模型计算成本高,无法有效的对并行符号解码。该文章提出了内容加权的编码器-解码器模型,量化器中采用信道多值量化技术对解码器特征进行离散化,并引入重要性映射自我来生成用于空间变换代码剪枝的重要性掩码。为了压缩编码,文章提出上三角掩蔽卷积网络(triuMCN),用于大上下文模型。

内容加权图形压缩网络(CWIC)包括三个部分:

  • 编码器子网络 (包括共享部分和特定编码部分)
  • 重要性映射子网络
  • 解码器子网络

image

为了生成离散编码,编码器和重要性映射子网络的输出进行了量化操作。

编码器子网和解码器子网

  • 编码器子网E(x)由两部分组成:共享部分\(E_s\)和特点编码部分\(E_p\)组成
  • 解码子网为编码子网的镜像
    image

重要性子网

  • 一般来说,图像传递的信息内容在空间上是有差异的。从图 3 中可以看出,有房子的区域比较突出,内容密集,而有天空的区域比较简单,信息含量少。在较低的比特率下,编码器特征图的通道数通常不应过多,以满足比特率限制。
  • 因此,这可能会导致在保留突出结构和精细细节方面表现不佳,我们引入了重要性图子网来生成重要性图,以指导空间变化编码剪枝。在重要性图的指导下,为区域房屋分配更多比特、为区域天空分配更少比特是合理的。为此,我们采用了一种空间变化代码剪枝方法,即重要性图值越高,存储的量化表示通道越多
  • 如图2所示,他将中间特征图\(E_s(x)\)作为输入,包括两个残差块和sigmoid的卷积层。重要性图p和编码器特征图e具有相同的大小为\(h \times w\),值为(0,1).

量化

  • 对于e,使用通道多值量化Q,参数\(\theta_k\)={\(s_{k,0}\)\(s_{k,1}\),...,\(s_{k,T-1}\)} \(s_{k,t}\)表示第k个信道,第t个量化区间的大小.其中T是量化等级。第k个信道,第t个量化中心表示为
    $ q_{k,t}=$ \(\textstyle\sum_{t'=0}^{t} {s_{k,t'}}\)

第k个信道的元素\(e_{kij}\)的量化等级....
整体来说,图像X输入后,得到\(E_s(x)\) -> e和p,特征图e被映射为Q(e),重要性图被映射为二元变量M(p)(重要则为1,不重要则为0),最终编码的结果为z=Q(e)* M(p). z作为解码子网络的输入,最终可将图形重构。

模型学习的量化宽松

如何解决量化带来的0梯度问题?提出两种宽松方法

  • 为了放宽特征图的量化,引入基于直通估计的代理函数。
  • 为了放宽重要性图的量化,采用两阶段放宽方法。
道多值量化的放松与学习
重要性图的放松与学习
posted @ 2023-10-23 18:51  浪矢-CL  阅读(14)  评论(0编辑  收藏  举报