The Perception-Distortion Tradeoff【阅读笔记】

　　证明了distortion和perceptual quality之间是矛盾的，并且存在一条tradeoff曲线。所有图像复原类任务的表现只能逼近这个曲线。

　　distortion：指的是重建图像 $\widehat{x}$ 与原图像 $x$ 之间的不相似度

　　perceptual quality：仅指 $\widehat{x}$ 的图像质量，与原图像无关。或者说是指 $\widehat{x}$ 与真实图像的相似程度，实际上是与重建图像的分布和真实图像的分布的距离有关。

　　目前比较常用的衡量方法：在衡量distortion中使用的是full-reference方法，比如MSE， SSIM， MS-SSIM， IFC， VIF， VSNR， FSIM等；在percepual quality方面有human opinion score， no-reference方法（DIIVINE， BRISQUE， BLIINDS-II， NIQE）， GAN-based。

　　作者证明了perception和distortion之间存在下面这样的一条曲线，并且左下角的区域是任何算法都无法达到的。一些一味注重优化distortion的算法可能既不有效又损害视觉质量（在曲线的右上方区域），说明了GAN方法的有效性（去逼近这个bound）。对于不同的领域应该有不同的侧重点，比如对于医学领域可能会更注重distortion accuracy，即与原图像的接近程度。这个图像也指导给出了一个新的衡量算法的方法，将算法的表现绘制到该坐标轴上（同时考虑perceptual quality和distortion）

问题定义：

　　文章首先证明了最小化平均distortion并不一定会导致a low perceptual quality index。作者首先以MSE和MAP为例，说明了使用这两种方式进行复原的图像分布不一定等于原分布。虽然MAP在某些条件下 $p_\widehat{x}=p_x$ 成立，但我们需要的是一个stable distribution peserving distortion measure，即对每一个 $p_{x, y}$ 都成立。作者证明了这样的衡量标准是不存在的，并在附录中给出了相关证明。

　　由于这样的stably distribution preserving的衡量方法并不存在，因此low distortion不一定会导致好的perception quality。那么我们可以找到在某一个distortion level下的最佳perceptual quality吗？

　　这样的任务可以被定义为： $P(D)=min_{p_{\widehat{x}|y}}d(p_x, p_\widehat{x}), s.t. E[\triangle(x, \widehat{x})]\leq D$ 。作者以选择了distortion为MSE， $d(\cdot, \cdot)$ 为KL divergence为例子，进行了实验，绘制除了下面这样的曲线。在这个曲线中， $D$ 增大， $P(D)$ 减小。曲线为convex并且对于更大的噪声现象更严重。

　　作者指出虽然这个任务很难进行分析，但上面例子的现象普遍存在，并在附录中给出了一定的证明。并且不是所有的distortion measure都有相同的tradeoff function。对于一些捕捉了图像间语义关系的衡量方法，这个现象是less severe的。

　　定理：如果 $d(p, q)$ 对于他的第二个参数是convex的(对任意的 $p, q_1, q_2, \lambda\in[0, 1]$ 有 $d(p, \lambda q_1+(1-\lambda)q_2)\leq\lambda d(p, q_1)+(1-\lambda)d(p, q_2)$ )，那么 $P(D)$ 是monotonically non-increasing且convex的。这条定理中的假设 $d(p, q)$ 是convex的条件并不是非常严苛，即使没有这个条件 $P(D)$ 也是monotonically non-increasing的。

　　那么如何可以使一个算法逼近这个界限呢？

　　我们定义图像复原任务中可以达到的最小的distortion为 $D_{min}=min_{p_{\widehat{X}|Y}}E[\triangle(X, \widehat{X})]$ ，此时的estimator一般都是非distribution preserving的。于是作者考虑当estimator有最佳的视觉质量时可以达到的最小的distortion，将其定义为 $D_{max}=min_{p_{\widehat{X}|Y}}E[\triangle(X, \widehat{X})] s.t. p_{\widehat{X}}=p_X$ 作者证明，存在下面一条定理：

　　对于MSE $\triangle(X, \widehat{X})=||\widehat{X}-X||^2$ , $D_{max}\leq2D_{min}$ 。也就是说对于MSE来说，最多只需要牺牲3dB的PSNR来达到最佳的视觉效果。

　　实际上使用GAN方法就是一个systematic way来设计estimator逼近这个界限。如果将GAN中生成器的loss改为 $l_{gen}=l_{distortion}+\lambda l_{adv}$ .由于 $l_{adv}$ 是与 $d(p_x, p_{\widehat{x}})$ 成比例的，所以实际上 $l_{gen}\approx E[\triangle(x, \widehat{x})]+\lambda d(p_x, p_{\widehat{x}})$ .将 $\lambda$ 视为拉格朗日算子，那么最小化 $l_{gen}$ 就相当于最小化了 $D$ ，调整 $\lambda$ 也调整了 $D$ ，从而是在perception-distortion曲线上产生estimator。

　　基于以上的发现，作者提出评价一个图像复原算法的新的标准，也就是考虑算法在perception-distortion曲线中的位置。当算法A比算法B有更好的视觉质量且更少的distortion时，称算法A dominate B。当一组算法中没有算法dominate算法A时，称A为这组算法中可接受的算法。

　　作者在实验中选择了no-reference的方法NIQE来衡量图像的视觉质量，考虑了五种FR metrics来评价distortion（RMSE， SSIM， MS-SSIM， IFC， VIF），再加上一个 $VGG_{2,2}$ 将一些目前SR领域常用的算法绘制到perception-distortion plane上。结果如下：

　　得到了以下一些结论：

左下角都是不可达的
在接近左下角不可达的区域，NR和FR metrics都是anti-correlated的，这表明了perception和distortion之间存在一个tradeoff。这个tradeoff即使在一些能捕捉视觉质量的评价标准中也存在。
通过计算FR和NR与human opinion score的相关性。FR在远离不可达区域时与视觉质量有较好的相关性， NR方法则总是有较好的相关性。SRGAN在perceptual quality方面是最好的。

　　作者认为，在图像复原类算法中都应该同时用一对FR和NR方法，既保证perceptual quality又保证distortion。

posted @ 2020-09-02 14:16 wyboooo 阅读(1565) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

The Perception-Distortion Tradeoff【阅读笔记】

公告