1.立体图像压缩 2019oral/ Deep Stereo Image Compression

Liu J, Wang S, Urtasun R. DSIC: Deep Stereo Image Compression[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 3136-3145.

作者主要是讲利用深度学习的方法，对双摄像头拍摄的立体深度图像进行信息共享、实现压缩效率的提高，即Deep Stereo Image Compression

DSIC工作已完整复现
基于pytorch框架
完成模型的训练、测试、包括熵编码（采用独立的Range coder实现）工程实现
其中熵编码工程实现基于混合高斯模型GMM(与论文一致),采用区间编码器实现，对于网络的训练过程此步可跳过，因为是无损编解码的过程。
详询vx： ywz978020607 注明来意

1.整体思路
1. 利用图像1经过网络和编码器后生成的code，对图像2的编码和解码过程进行参数“借鉴复用”，从而减少图像2所需的比特，称为Parametric skip function，下称参数跳传。
2. 对于这个参数“复用”的过程，作者利用熵编码提出了一种方法，有效最大化利用两幅图像的相似性。

1.1.编码/解码和量化过程
借鉴了一篇单张图像的压缩模型，编码器、解码器和量化器借鉴此篇论文Johannes Balle, David Minnen, Saurabh Singh, Sung Jin Hwang, and Nick Johnston. Variational image compression with a scale hyperprior. In ICLR, 2018.
编码器采用四次下采样的卷积层和GDN层，每个解码器是四个上采样(均为2x)和Inverse-GDN层实现。二者之间还有量化器将不同图片量化编码为不同码字。

GDN引用论文

  ` GDN是在图像压缩中用来代替BN层的一种方法，因为在图像编解码过程中要尽量减少噪声的引入，再使用BN层不合适，用GDN代替。 `

1.2 参数跳传（Parametric skip function）
参数跳传是实现本算法的核心，其依赖图像内容相似性以及图1编码后的码字的指导作用。
参数跳传部分是一个神经网络，使用前一层的图像1、2的数据和图像1的码字作为指导，由于认为立体拍摄的两张图像有大量重复相似内容，因此只要知道两幅特征图的差异估计，就可以将其中图像1的特征图进行warp弯曲映射到图像2对应的特征图中，来实现图像1和图像2的像素点级别的映射关系。之后便可通过学习训练得到这种映射关系，将图像1的特征准确直接地传递到图像2中。

1.3 条件熵模型
实现两幅图像复用的关键就是利用熵模型来实现。两幅图像的码字有强相关性。因此，作者提出了一个联合熵模型，利用神经网络估计码字的分布。
目标即为已知图像1，获取图像2的条件熵，并尽量降低两图像信息的联合熵。

作为深度学习的网络，通过损失函数反向传播调整参数，因此条件熵模型的作用也就在于，通过条件熵，让第二幅图的编码-解码的双通道尽可能地复用依赖图像1的支路，而让单独通过y2的支路尽可能小，留下“干货”，实现最大信息的复用。

注: 后续工作需要，暂不更新相关内容，此篇代码已复现，即将开源，有需要可联系。

posted @ 2020-04-30 15:26 Vincent_Yang 阅读(686) 评论(0) 收藏举报

刷新页面返回顶部

物联网-软硬件开发/CV

物联网-软硬件全栈开发(Python) // CV Research

1.立体图像压缩 2019oral/ Deep Stereo Image Compression

Liu J, Wang S, Urtasun R. DSIC: Deep Stereo Image Compression[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 3136-3145.

公告