图像去噪重要文献整理(二)BM3D / LSSC
图像去噪重要文献整理(二)BM3D / LSSC
仍然是基于自相似性,BM3D是传统方法里的state of the art,下面介绍BM3D。
Image Denoising by Sparse 3-D Transform-Domain Collaborative Filtering (2007,IEEE TIP)
Kostadin Dabov et. al.
BM3D四个字的意思分别表示block,match,和3D,也就是一摞2D的patch。
BM3D的主要步骤有grouping和collaborative filtering。首先先看grouping,和其他的方法用k-means聚类的算法不同,这里用grouping by matching,k-means的话,每个patch都是disjointed,所以每个fragment只能属于一个group,这里用match,实际上是这样操作:The fragments whose distance (i.e., dissimilarity) from the reference one is smaller than a given threshold are considered mutually similar and are subsequently grouped.
上面表示的就是grouping的过程。
然后是协同过滤,这里的协同过滤不是推荐里的协同过滤,而是字面意义上的,就是每个group中的fragment相互协同,进行过滤。以往的算法,包括基于non-local means的通常是找到相似的patch以后直接平均或者根据相似程度加权平均,但是作者说,在natural images中这种情况,即一个image中有很多一模一样的patch,其实不太常见,大概只能是具有similar的patch,不可能完全一样,如果平均了的话,就会有bias。所以这里采用collaborative filtering的方法,最后的结果每fragment都不一样。
实现方法就是 Collaborative Filtering by Shrinkage in Transform Domain,先对group应用d+1维的线性变换,然后shrink变换域的系数,然后invert。这些group 以下面的两种:即intrafragment correlation和interfragment correlation来表征。
总体流程图如下:
需要注意的有下面这些问题,比如协同滤波如何实现?首先我们对每个fragment进行一个2-D变换,比如DCT小波之类,然后对第三个维度进行一个1-d变换, The Walsh–Hadamard transform。阿达玛变换(此处需要学习一个)。另外,当做完一遍后,还要重新进行一个final estimate,形式上基本一样,应该是为了弥补前面由于噪声分组有误差的情况,然后在进行协同滤波,这里的不是用hard threshold,而是用维纳滤波来放缩系数。最后得到最终结果。
后面给出了一个快速实现方法。此处从略。
另外,推广到彩色图像的方法是,先转换到YCbCr空间(此处需要学习一个),然后利用Y也就是luminance channel的SNR相对比较高的特性,用Y进行分组,并且假设 The grouping constraint on the chrominances is based on the assumption that if the luminances of two blocks are mutually similar, then their chrominances are also mutually similar. 这一部分需要注意:
Non-local Sparse Models for Image Restoration(2009,ICCV)
Julien Mairal et al
看名字就能发现,这个算法是把non-local也就是自相似和sparse也就是稀疏编码相结合,用来做图像去噪的。这篇文章同事关注denoising和demosaicking。 To the best of our knowledge, this is the first time that the corresponding models of image self-similarities are explicitly used in a common setting with learned dictionaries。BM3D实际上也可以看成是用正交的字典来和自相似结合,但是这个字典是正交且固定的,这是和本文的不同。BM3D的稀疏性就是协同滤波的结果。
related work里,作者介绍了NL-means,LSC,即Learned Sparse Coding,Block matching 3D。这里只看一下LSC。
LSC也就是学习稀疏编码是假设了如下先验知识:assume that the clean signal can be approximated by a sparse linear combination of elements from a basis set called dictionary. 这样的话我们就可以用一个overcomplete,过完备的dictionary来编码信号,由于dictionary过完备,所以系数就会稀疏sparse。因此实际上就是解决以下优化问题:
说D是overcomplete,实际上就是说D的列数大于行数。仔细看上面这个公式,实际上只是优化了系数的稀疏性,也就是说假定字典是已经有的。实际上对于自然图像来说,一般这个字典就是各种小波。于是人们(Elad, Aharon)提出了学习一个字典的想法,这样的想法实际上是解这个问题:
However, we have also observed that dictionaries learned with the 1 norm are usually better for denoising, even when the final reconstruction is done with the 0 pseudo norm.
Simultaneous Sparse Coding 是这样:它不仅每列单独来看都是sparse的,而且整个矩阵的非零行也是少的,因此叫做joint sparsity。同样可以写成正则的形式,就是下面这个 grouped-sparsity regularizer
最后转化成了这样一个问题:
用于demosaicking的话,算法流程如下:
我的理解是,通过对A矩阵的上述约束,使得不仅在列上进行稀疏化,还在行上稀疏化。列上稀疏化就是sparse coding,即对每个patch 的系数要求稀疏。而行上的joint sparsity实际上是使得列与列之间相似的更多一些,也就是强调了self-similarity。所以本文是一个non-local sparse model。
放个结果,作者认为他的算法可以恢复出sigma=15的house图片的砖头的细节和sigma=50的情况下man的头发细节。
这个算法在这里叫LSSC,应该是Learned Simultaneous Sparse Coding。。。
2018年03月18日14:01:21
人类是唯一会脸红的动物,也是唯一该脸红的动物。 —— 作家,马克吐温