ELIC: Efficient Learned Image Compression with Unevenly Grouped Space-Channel Contextual Adaptive Coding

摘要
Parallel multi-dimension context modeling （并行多维上下文模型）
ELIC: efficient learned image compression with scalable residual nonlinearity （可拓展残差非线性的高效学习图像压缩模型）
- Stacking residual blocks for nonlinearity（非线性的堆积残差快）
- Architecture of ELIC（ELIC结构）
Quickly decoding thumbnail-preview（快速解码的缩略图预览）

摘要

$\quad$ 受能量压缩表现的启发，提出了不均匀通道情况自适应编码(但其实通道上下文模型是由Minnen2020提出).结合不均匀分组模型和现有上下文模型，获得一种空间通道上下文自适应模型(其实就是把通道上下文模型和空间上下文模型塞一块)，来提高编码性能，而不影响其运行时间。
$\quad$这种模型支持预览解码和渐进解码。
文中所说的后向自适应其实就是自回归上下文模型
本文的贡献：

将通道上下文模型与空间上下文模型结合，提出一种多维熵估计模型——Space-Channel ConTeXt (SCCTX)
基于SCCTX模型，进一步提出ELIC模型，该model采用堆叠残差快（stacked residual blocks）代替 GDN layers 作为非线性变换。
提出一种高效的方法从压缩图像中生成预览图（preview images）

Parallel multi-dimension context modeling （并行多维上下文模型）

Information compaction property（信息压缩特征）

$\quad$ 能量压缩是变换编码中非常重要的特征。例如，JPEG基于离散余弦变换(DCT)。图像低频部分描述原始图像大部分的结构和语义信息(structural and semantic),高频的则可以使用更大的量化步骤来实现更多的压缩。这种压缩可以用于 analysis transform。
熵分布和能量分布有关，他表示图像的压缩属性。当采用通道条件方法时，这种属性引起组级的顺序。
$\quad$ 早期编码组中的特殊通道拥有更多的熵，因此分配更多的bits.早期的通道会更频繁的被后续通道提及，主要信息被隐藏的集中在开始的通道上，以帮助消除（ eliminate）更多的通道冗余。

Unevenly grouped channel-wise context model （不均匀分组的通道级上下文模型）

$\quad$ 后编码的通道储存着更少的信息，因此我们很少用他们来预测后续的分组。那么我们可以通过把后编码的通道合并为更大的块，减少跨组参考来加速。

$\quad$ 另一方面，随着信道的减少，较早编码的信道组仍然可以很好地有助于减少以下信道的熵。因此，一个更复杂的信道分组方案可以通过重新平衡不同组的信道数来进一步改进该熵估计模块。
$\quad$ 这种不均匀分组方案：开始时用更少的通道进行更细粒度的分块，接着为后续的块分配更多的通道。例如，对于有M个通道的symbols$ \hat{y} $,我们将沿着通道维度将其分为5个块$ \hat{y}$ ,$\hat{y^{(2)}$,...,$\hat{y^{(5)}$,分别包含的通道数为16,16,32，64，M-128。如图5所示。只需要5次并行计算即可进行解码。

SCCTX: space-channel context model(空间通道上下文模型)

$\quad$ 空间上下文模型（Spatial context model ）和通道条件模型（channel-conditional model）在维度上是正交的，这里假设其冗余也是正交的。这里结合起来用于更好的反向自适应编码。
$\quad$ 如图6所示，在第k个不均匀分组块中，我们使用空间上下文模型$g_{sp}^{(k)}$ 来识别空间冗余，使用$g_{ch}$网络来建模通道上下文模型$\phi_{ch}^{(k)}$,空间分支和通道分支在位置(k,i)的输出为$\phi_{sp,i}^{(k)}$和$\phi_{ch}^{(k)}$，将与超先验表示$\psi$连接，并输入一个位置聚合网络来为后续的编码$\hat{y}_i^{(k)}$预测熵参数,$\Theta_i^{(k)}=\left(\boldsymbol{\mu}_i^{(k)}, \boldsymbol{\sigma}_i^{(k)}\right)$
然后$\hat{y}_i^{(k)}$将作为上下文计算$\phi_{sp,i+1}^{(k)}$和$\phi_{ch}^{(k+1)}$，直到$\hat{y}$全部编码完成。

ELIC: efficient learned image compression with scalable residual nonlinearity （可拓展残差非线性的高效学习图像压缩模型）

Stacking residual blocks for nonlinearity（非线性的堆积残差快）

$\quad$ 之前最流行的标准化技术是 generalized divisive normalization(GDN)，它为模型引入点非线性，在每个通道轴聚积信息，并在每个位置放缩特征向量。与线性标准化技术不同，GDN更类似于点注意力机制。该文章研究了其他的非线性模型来代替GDN。

Architecture of ELIC（ELIC结构）

$\quad$ 使用SCCTX模型来估计一个平均尺度高斯熵模型的熵参数$\Theta=(\boldsymbol{\mu}, \boldsymbol{\sigma})$ 这种反向自适应编码允许采用更轻量化的 transform networks.

Quickly decoding thumbnail-preview（快速解码的缩略图预览）

$\quad$ 解码过程的主要瓶颈是synthesis inference，这需要运行一个较大的网络来生成全分辨率图像。这里是使用一个额外的微小网络。当使用SCCTX时，大部分语义信息被压缩在前几个解码通道中，因此只使用前四个块生成预览图。
$\quad$ 缩略图合成网络结构如图8所示，主模型训练完成后，用主合成器初始化预览图合成。

posted @ 2023-10-31 19:14 浪矢-CL 阅读(271) 评论(0) 编辑收藏举报

刷新页面返回顶部

浪矢\n