QARV: Quantization-Aware ResNet VAE for Lossy Image Compression

简介
创新之处
模型结构
实验结果

什么是Quantization-Aware量化感知？

简介

该文章基于VAE提出一种多层次的图像压缩方法
专门设计了用于快速解码(CPU)的QARV网络结构，并为可变速率压缩提出自适应归一化操作。

创新之处

提出了一个算法模型，实现了更快的解码速度和更好的R-D性能。
将计算从解码器转移到编码器，加快解码速度
为实现可变速率图像压缩，提出自适应归一化层AdaLN
总的来说，提出一种新的神经网络模型(QARV)。他的设计更简单，没有上下文模型；更灵活，速率可变，具有层次结构。与现有模型相比，具有快速地CPU解码。

模型结构

熵编码是如何进行的

使用N个潜变量的层次结构，记为 $$Z_{1} ,Z_2 ,Z_3 ...Z_N$$
在编码时，给定X，使用一系列的后验$q_1 ,q_2 ,q_3 ...q_N$ 来推理 $Z_i$
对于每个潜在变量，使用一个（条件）均匀后验来建模在测试过程中将遇到的均匀量化误差。
除了后验，模型还对每个潜在变量$ Z_i $生成先验 $p_i$
最后得到N个比特流

VAE目标是找到一组参数，使得Px（px,z的边际概率）更接近数据真实分布pdata，
传统VAE的损失函数

本文的损失函数为

训练过程中，自上而下根据X和Zi,得到$\mu_{i}$，先验则是使用与均匀分布做卷积的条件高斯模型

然后生成均匀的后验概率分布

获得qi后，对zi进行采样（训练时加均匀噪声），接着继续向下传播
同时计算先验概率

另外，作者提出，该模型可以广泛推广到现有的图像压缩方法中，包括z型自回归，通道自回归，以及棋盘模型...

如何实现可变速率压缩的还没看懂
将$\lambda$视为模型的输入?
QARV 网络模型

实验结果

使用COCO数据集训练，Kodak、Tecnick TESTIMAGES、CLIC 2022 test set三个数据集做测试。
指标计算每个图像的PSNR和bpp，取平均值
另外，使用 BD-rate metric来衡量rate的平均变化。
主要实验2million，消融实验500k.
三个数据集上的PSNR结果如图，

posted @ 2023-12-27 17:00 浪矢-CL 阅读(478) 评论(0) 收藏举报

刷新页面返回顶部

浪矢\n

QARV: Quantization-Aware ResNet VAE for Lossy Image Compression

简介

创新之处

模型结构

实验结果

公告