The Perception-Distortion Tradeoff【阅读笔记】
证明了distortion和perceptual quality之间是矛盾的,并且存在一条tradeoff曲线。所有图像复原类任务的表现只能逼近这个曲线。
distortion:指的是重建图像ˆx与原图像x之间的不相似度
perceptual quality:仅指ˆx的图像质量,与原图像无关。或者说是指ˆx与真实图像的相似程度,实际上是与重建图像的分布和真实图像的分布的距离有关。
目前比较常用的衡量方法:在衡量distortion中使用的是full-reference方法,比如MSE, SSIM, MS-SSIM, IFC, VIF, VSNR, FSIM等;在percepual quality方面有human opinion score, no-reference方法(DIIVINE, BRISQUE, BLIINDS-II, NIQE), GAN-based。
作者证明了perception和distortion之间存在下面这样的一条曲线,并且左下角的区域是任何算法都无法达到的。一些一味注重优化distortion的算法可能既不有效又损害视觉质量(在曲线的右上方区域),说明了GAN方法的有效性(去逼近这个bound)。对于不同的领域应该有不同的侧重点,比如对于医学领域可能会更注重distortion accuracy,即与原图像的接近程度。这个图像也指导给出了一个新的衡量算法的方法,将算法的表现绘制到该坐标轴上(同时考虑perceptual quality和distortion)
问题定义:
文章首先证明了最小化平均distortion并不一定会导致a low perceptual quality index。作者首先以MSE和MAP为例,说明了使用这两种方式进行复原的图像分布不一定等于原分布。虽然MAP在某些条件下pˆx=px成立,但我们需要的是一个stable distribution peserving distortion measure, 即对每一个px,y都成立。作者证明了这样的衡量标准是不存在的, 并在附录中给出了相关证明。
由于这样的stably distribution preserving的衡量方法并不存在,因此low distortion不一定会导致好的perception quality。那么我们可以找到在某一个distortion level下的最佳perceptual quality吗?
这样的任务可以被定义为:P(D)=minpˆx|yd(px,pˆx),s.t.E[△(x,ˆx)]≤D。作者以选择了distortion为MSE, d(⋅,⋅)为KL divergence为例子,进行了实验,绘制除了下面这样的曲线。在这个曲线中,D增大, P(D)减小。曲线为convex并且对于更大的噪声现象更严重。
作者指出虽然这个任务很难进行分析,但上面例子的现象普遍存在,并在附录中给出了一定的证明。并且不是所有的distortion measure都有相同的tradeoff function。对于一些捕捉了图像间语义关系的衡量方法,这个现象是less severe的。
定理:如果d(p,q)对于他的第二个参数是convex的(对任意的p,q1,q2,λ∈[0,1]有d(p,λq1+(1−λ)q2)≤λd(p,q1)+(1−λ)d(p,q2)), 那么P(D)是monotonically non-increasing且convex的。这条定理中的假设d(p,q)是convex的条件并不是非常严苛,即使没有这个条件P(D)也是monotonically non-increasing的。
那么如何可以使一个算法逼近这个界限呢?
我们定义图像复原任务中可以达到的最小的distortion为Dmin=minpˆX|YE[△(X,ˆX)],此时的estimator一般都是非distribution preserving的。于是作者考虑当estimator有最佳的视觉质量时可以达到的最小的distortion,将其定义为Dmax=minpˆX|YE[△(X,ˆX)]s.t.pˆX=pX作者证明,存在下面一条定理:
对于MSE△(X,ˆX)=||ˆX−X||2, Dmax≤2Dmin。也就是说对于MSE来说,最多只需要牺牲3dB的PSNR来达到最佳的视觉效果。
实际上使用GAN方法就是一个systematic way来设计estimator逼近这个界限。如果将GAN中生成器的loss改为lgen=ldistortion+λladv.由于ladv是与d(px,pˆx)成比例的, 所以实际上lgen≈E[△(x,ˆx)]+λd(px,pˆx).将λ视为拉格朗日算子,那么最小化lgen就相当于最小化了D,调整λ也调整了D,从而是在perception-distortion曲线上产生estimator。
基于以上的发现,作者提出评价一个图像复原算法的新的标准,也就是考虑算法在perception-distortion曲线中的位置。当算法A比算法B有更好的视觉质量且更少的distortion时,称算法A dominate B。当一组算法中没有算法dominate算法A时,称A为这组算法中可接受的算法。
作者在实验中选择了no-reference的方法NIQE来衡量图像的视觉质量,考虑了五种FR metrics来评价distortion(RMSE, SSIM, MS-SSIM, IFC, VIF),再加上一个VGG2,2将一些目前SR领域常用的算法绘制到perception-distortion plane上。结果如下:
得到了以下一些结论:
- 左下角都是不可达的
- 在接近左下角不可达的区域,NR和FR metrics都是anti-correlated的,这表明了perception和distortion之间存在一个tradeoff。这个tradeoff即使在一些能捕捉视觉质量的评价标准中也存在。
- 通过计算FR和NR与human opinion score的相关性。FR在远离不可达区域时与视觉质量有较好的相关性, NR方法则总是有较好的相关性。SRGAN在perceptual quality方面是最好的。
作者认为,在图像复原类算法中都应该同时用一对FR和NR方法,既保证perceptual quality又保证distortion。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步