[AI] 论文笔记 - CVPR2018: Generative Image Inpainting with Contextual Attention

注：博主是大四学生，翻译水平可能比不上研究人员的水平，博主会尽自己的力量为大家翻译这篇论文。翻译结果仅供参考，提供思路，翻译不足的地方博主会标注出来，请大家参照原文，请大家多多关照。

转载请务必注明出处，谢谢。

0. 译者序

　　题目翻译：基于内容感知生成模型的图像修复

　　介绍：这篇文章也被称作deepfill v1，作者的后续工作 "Free-Form Image Inpainting with Gated Convolution" 也被称为deepfill v2。两者最主要的区别是，v2支持任意形状的mask（标记图像待修复区域的罩子），且支持标记黑线来指定修复的大致形状。

引言 Abstract

　　近期的基于深度学习的图像修复方法展现了很大的潜力，这些方法都能生成看似合理的图像结构及纹理，但在修复区域的边界，经常会生成扭曲的结构和模糊的图像，这是因为卷积神经网络无法从图像较远的区域提取信息导致的。不过，传统的纹理和斑块（patch）的修复能取得比较好的效果（因为他们只需要从周围区域借鉴图像）。

　　作者基于上述这些现象，提出了一种新的基于深度生成模型的方法，不仅可以生成新的图像结构，还能够很好地利用周围的图像特征作为参考，从而做出更好的预测。

　　该模型是一个前馈全卷积神经网络，可以处理包含多个缺失区域的图像，且在修复图像的时候，输入的图像大小没有限制。作者在人脸图像、自然图像、纹理图像等测试集上，都产生了比现在已有的方法更好的效果。

1. 介绍 Introduction

　　图像修复（填补缺失像素值）在计算机视觉领域是一项很重要的研究工作。其核心挑战就是能够综合现实情况（realistic）和图像的语义（semantic），来修补缺失的图像。

　　早期的图像修复原理，都类似于纹理的合成，通过匹配（match）和复制（copy）背景的斑块来填补缺失的图像。这些方法在背景修复（background inpainting）任务上都有着比较好的结果，但他们无法修复一些比较复杂的，不可重复的图像结构（类似于人脸、物体）。更多地，这些方法不能捕捉到图像的高维特征（high-level semantics）。

　　近期基于深度卷积网络和GAN（生成对抗网络）的图像修复方法，其原理都是通过自编码器，结合对抗网络训练的方式，来让生成的图像和存在的图像保持一致性。

　　可惜的是，这些基于CNN的方法，通常都会在边界生成扭曲的结构和模糊的纹理。作者发现是因为卷积神经网络无法很好地提取远距离的图像内容（distant contextual information）和不规则区域的图像内容（hole regions）。

　　举例来说，一个像素点的内容被64个像素点以外的内容影响，那么他至少要使用6层3x3的卷积核才能够有这么大的感受野（receptive filed）。而且由于这个感受野的形状是非常标准且对称的矩形（regular and symmetric grid），所以在不规则的一些图像内容上，无法很好地给对应特征分配正确的权值。

　　近期的一项研究基于生成斑块和匹配斑块的相似性优化问题（optimize problem），能够提高效果，但由于是基于优化问题，需要非常多次的梯度下降迭代，以及处理一张512x512的图像需要很长的时间。

　　作者提出了一个带有内容感知层（contextual attention layer）的前馈生成网络，这个网络的训练分为两个阶段。第一阶段是一个简单的卷积网络，通过不断修复缺失区域来产生损失值reconstruction loss，修复出的是一个比较模糊的结果。第二阶段是内容感知层的训练，其核心思想是：使用已知图像斑块的特征作为卷积核来加工生成出来的斑块，来精细化这个模糊的修复结果。它是这样来设计和实现的：用卷积的方法，来从已知的图像内容中匹配相似的斑块，通过在全通道上做softmax来找出最像待修补区域的斑块，然后使用这个区域的信息做反卷积（deconvolution）从而来重建该修补区域。

（译者注：这里的思想应该是，假设我有一个待修补区域x，我要通过卷积的方法，从整个图像出匹配出几个像x的区域a, b, c, d，然后从a, b, c, d中使用softmax的方法挑选出最像x的那个区域，然后通过反卷积的方式，来生成x区域的图像。）

　　这个内容感知模块，还有着空间传播层（spatial propagation layer）来提高感知的空间一致性。

　　为了让网络能“想象”（hallucinate）出新的图像内容，有着另一条卷积通路（convolutional pathway），这条通路和内容感知卷积通路是平行的。这两个通路最终聚合并送入一个解码器来产生最后的输出。第二阶段的网络通过两个损失值来训练（重建损失值 reconstruction losses 和两个WGAN-GP损失（Wasserstein GAN losses），其中一个WGAN来观察全局图像，另一个WGAN来观察局部生成出的图像。

网络架构如下图：

图1

作者的主要贡献总结如下：

作者提出了一种全新的内容感知层（contextual attention layer）来从距离遥远的区域提取近似待修复区域的特征。
介绍了几种技术（图像修复网络增强、全局和局部的WGANs、空间衰减的重建损失（spatially discounted reconstruction loss, 会在下文中讲到）来提高训练的稳定性和速度，上述这些方法都基于最近的图像修复生成网络。最终，作者能够在一周内训练出该网络而不是两个月。（据译者在github issue里看到，作者使用的是一个GTX1080Ti进行训练）

作者的前馈生成网络在众多具有挑战的数据集（例如CelebA、CelebA-HQ、DTD textures、ImageNet、Places2）实现了高质量的图像修复结果

2. 相关研究 Related Work

2.1 图像修复 Image Inpainting

　　现有的图像修复技术分为两个流派，一个是传统算法，其基于扩散（diffusion）或斑块（patch-based），只能提取出低维特征（low-level features）。另一个是基于学习的算法，比如训练深度卷积神经网络来预测像素值。

　　传统的扩散或斑块算法，通常使用变分算法（variational algorithms）或斑块相似性来将图像信息从背景区域传播到缺失区域内，这些算法在静态纹理（stationary textures）比较适用，但在处理一些非静态纹理（non-stationary textures）比如自然景观就不行了。

　　Simakov等人提出的基于双向斑块相似性的方法（bidirectional patch similarity-based scheme）可以更好地模拟非静态纹理，但计算量十分巨大，无法投入使用。

　　最近，深度学习和基于GAN的方法在图像修复领域很有前途，初始的研究是将卷积网络用于图像去噪、小区域的图像修复。内容编码器（Context Encoder）首先被用于训练大面积图像修复的深度神经网络。它使用GAN的损失值加上2-范数（MSE）作为重建损失值（reconstruction loss）来作为目标函数。

　　更进一步的研究，比如Iizuka等人提出了利用全局和局部的判别器（Discriminator）来作为GAN的对抗损失，全局判别器用于判定整幅图像的语义一致性，局部判别器专注于小块生成区域的语义，以此来保证修复出的图像的高度一致性。

　　此外，Iizuka等人还使用了扩展卷积（dialated convolutions）的方式来替代内容编码器的全连接层，这两种方法的目标都是为了提高输出神经元（output neurons）的感受野的大小。

　　与此同时，还有多项研究专注于人脸的图像生成修复。例如Yeh等人通过在缺失区域的周围寻找一种编码，来尝试解码来获得完整的图像。Li等人引入了额外的人脸完整度作为损失值来训练网络。然而这些方法通常都需要图像的后续处理，来修复缺失区域边界上的色彩一致性（color coherency）。

2.2 感知模型 Attention Modeling

（译者注：感知模型在参考资料里有）

　　关于深度卷积网络中的空间感知问题有着很多的研究。在这里，作者回顾了几个具有代表性的内容感知模型。

　　首先是Jaderberg等人提出的STN（spatial transformer network），用来进行目标分类任务。由于整个网络专注于全局迁移问题（global transformation），所以在斑块大小的问题上不合适，不能用于图像修复。

　　第二个是Zhou等人的表征扩散（appearance flow），就是从输入的图像中查找哪些像素点应该被移动到待修复区域，这种方法适合在多个同样的物体之间进行图像修复。但从背景区域还原前景效果不是很好（译者注：可能是因为找不到哪些像素点可以flow到前景）。

　　第三个是Dai等人提出的空间感知卷积核的学习和激活。

　　这些方法都不能很好地从背景中提取有效的特征。

3. 改进图像修复的生成网络 Improved Generative Inpainting Network

（译者注：为了不让读者读懵了，译者在这里说明一下接下来的论文结构。作者在第三部分改进了Iizuka等人提出的图像修复网络，在第四部分将内容感知层加入这个修复网络，从而构建出完整的图像修复网络）

　　作者通过复现近期的图像修复模型（其实就是上文中提到的用全局和局部Discriminator的Iizuka的方案），以及做出多种提升方法来构建生成模型。Iizuka的模型在人脸图像、建筑图像、自然图像都能有较好的结果。

1）粗细网络 Coarse-to-fine network architecture

网络结构如下图（其实就是上文中网络结构的简化版）：

图2

　　整个网络的输入和输出和Iizuka的网络设定是一样的，也就是说，生成网络的输入是一张带有白色mask的图像，以及一个用于表示mask区域的二进制串，输出是一张完整的图像。作者配对（pair）了输入的图像和对应的二进制mask，这样就可以处理任意大小、任意位置、任意形状的mask了。

　　网络的输入是带有随机矩形缺失区域的256x256图像，训练后的模型可以接受包含多个孔洞的任意大小的图像。

　　在图像修复任务中，感受野的大小决定了修复的质量，Iizuka等人通过使用扩张卷积（dilated convolution）来增大感受野，为了进一步增大感受野，作者提出了粗细网络的概念。

（译者注：这里扩张卷积的意思就是，将卷积核填充扩大，见参考资料，以此来提高感受野的大小，在下文中会反复提到。）

　　粗网络（Coarse network）仅仅使用使用重构损失进行训练，而细网络（Refinement network）使用重构损失+两个GAN损失进行训练。

　　直观上，细网络比带有缺失区域的图像看到的场景更完整（译者注：因为粗网络已经修复了一部分），因此编码器比粗网络能更好地学习特征表示。这种二阶段（two-stage）的网络架构类似于残差学习（residual learning）或是深度监督机制（deep supervision）。

　　为了提高网络的训练效率以及减少参数的数量，作者使用了窄而深（thin and deep）的网络，在layer的实现方面，作者对所有layer的边界使用了镜像填充（mirror padding），移除了批归一化（batch normalization），原因是作者发现批归一化会降低修复的图像色彩的一致性。此外，作者使用了ELUs来替代ReLU，通过对输出卷积核的值的裁剪（clip the output filter values）来替代激活函数tanh或是sigmoid。另外，作者发现将全局和局部的特征表示分开，而不是合并到一起（Iizuka的网络合并到一起了），能够更好地对GAN进行训练。

2）全局和局部的WGAN Global and local Wasserstein GANs

　　不同于先前的使用DCGAN进行图像修复，作者提出了WGAN-GP的修改版本。通过在第二阶段结合全局和局部的WGAN-GP损失来增强全局和局部的一致性（这一点是受Iizuka网络的启发）。WGAN-GP损失是目前已有的用于图像生成的GAN中表现最好的损失值（使用1-范数重建损失，表现的会更好）。

（译者注：以下是公式证明推导来说明WGAN损失的有效性，译者的数学水平不够，请大家见谅，详细推导请参照原文）

　　更精确的说，WGAN使用了Earth-Mover距离来比较生成图像和真实图像的分布。它的目标函数应用了Kantorovich-Rubinstein duality……

3）空间衰减重构损失 Spatially discounted reconstruction loss

　　对于图像修复问题，一个缺失区域可能会有多种可行的修复结果。一个可行的修复结果可能会和原始图像差距很大，如果使用原始图像作为唯一的参照标准（ground truth），计算重构损失（reconstruction loss）时就会误导卷积网络的训练过程。

　　直观上来说，在缺失区域的边界上修复的结果的歧义性（ambiguity），要远小于中心区域（译者注：这里的意思是边界区域的取值范围要比中心区域小）。这与强化学习中的问题类似。当长期奖励（long-term rewards）有着很大的取值范围时，人们在采样轨迹（sampled trajectories）上使用随着时间衰减的奖励（译者注：随着时间的流逝，网络得到的奖励会越来越小）。

　　受这一点的启发，作者提出了空间衰减重构损失。

　（译者注：随着像素点越靠近中心位置，权重越来越小，以此来减小中心区域的权值，使计算损失值时，不会因为中心结果和原始图像差距过大，从而误导训练过程）

　　具体的做法是使用一个带有权值的mask M，在M上，每一点的权值由γ^l来计算，其中γ被设定为0.99，l是该点到最近的已知像素点的距离（1-范数，即城市街区距离）。

近似的权重衰减方法在其他人的研究中也被提到了（例如Pathak等人的研究），在修复大面积缺失区域的时候，这种带衰减的损失值在提高修复质量上将更有效。

　　通过上述提升的方法，作者的生成修复网络有着比Iizuka的网络更快的收敛速度，结果也更精确。此外也不需要图像的后续处理了。

4. 使用内容感知进行图像修复 Image Inpainting with Contextual Attention

　　卷积神经网络通过一层层的卷积核，很难从远处区域提取图像特征，为了克服这一限制。作者考虑了感知机制（attention mechanism）以及提出了内容感知层（contextual attention layer）。在这一部分，作者首先讨论内容感知层的细节，然后说明如何将它融入生成修复网络中。

4.1 内容感知 Contextual Attention

　　内容感知层学习的内容是，从已知图像的何处借鉴特征信息，以此来生成缺失的斑块。

（译者注：这一部分译者在第一部分Introduction里就有简单的说明，如果没有概念的读者可以倒回去看一看）

　　由于这个layer是可微的（differentiable），所以可以在深度模型和全卷积网络中进行训练，允许在任意分辨率的图像上进行测试。

图3

1）匹配及选取 Match and attend

　　作者想解决的问题是：在背景区域中匹配缺失区域的特征。

　　作者首先在背景区域提取3x3的斑块，并作为卷积核。为了匹配前景（即待修复区域）斑块，使用标准化内积（余弦相似度）来测量，然后用softmax来为每个背景斑块计算权值，最后选取出一个最好的斑块，并反卷积出前景区域。对于反卷积过程中的重叠区域（overlapped pixels）取平均值。

　　对于这个匹配出的背景斑块可视化：

图4

2）感知传播 Attention propagation

（译者注：这一部分译者不是很明白其原理，各位读者可参照原文）

　　为了进一步保持图像的一致性，作者使用了感知传播。思想是对前景区域做偏移，可能对应和背景区域做相同的偏移，实现方式是使用单位矩阵作为卷积核，从而做到对图像的偏移。作者先做了左右传播，然后再做上下传播。从而得到新的感知分数（attention score）

　　该方法有效的提高了修复的结果，以及在训练过程中提供了更丰富的梯度。

3）显存效率 Memory efficiency

　　假设在128x128的图像中有个64x64的缺失区域作为输入，那么从背景区域提取出的卷积核个数是12288个（3x3大小）。这可能会超过GPU的显存限制。

　　为了克服这一问题，作者介绍两种方法：1）在提取背景斑块时添加步长参数来减少提取的卷积核个数；2）在卷积前降低前景区域（缺失区域）的分辨率，然后在感知传播后提高感知图（attention map）的大小。

4.2 合并修复网络 Unified Inpainting Network

　　为了将感知模块集成到修复模型中，作者提出了两个平行的编码器（见图4）.

　　下面的那个编码器通过扩张卷积（dilated convolution）来“想象”缺失区域的内容。

　　上面的那个编码器则专注于提取感兴趣的背景区域。

　　两个编码器的输出被聚合输入到一个解码器中，反卷积生成出最后的图像。

　　在图4中，作者使用了颜色来指出最感兴趣的背景区域的相关位置。比如说，白色区域（彩色图的中心）意味着该区域的像素依赖于自己、左下角的粉色、右上角的绿色。对于不同的图像，偏移值也会跟着缩放，以此来更好地标记出感兴趣的区域（interested background patch）。

（译者注：这里用颜色图（color map）来可视化感知图（attention map）的概念译者不是很明白，读者可以参考原文）

　　对于训练过程，可以用以下算法来表示：

当G还没有收敛时：

　　以下步骤循环5次：

　　　　从训练集中提取图像x

　　　　生成随机的mask m

　　　　使用x和m生成带有缺失区域的图像z

　　　　将z和m输入生成网络G中，获取修复后的缺失区域图像~x

　　　　通过空间衰减重构损失的maskM，对~x做一个权值处理，然后覆盖原图像的这个区域，得到图像^x（这一步译者不确定）

　　　　使用x、~x、^x计算全局、局部损失值（这一步译者不确定）

　　循环结束

　　从训练集中提取图像x

　　生成随机的mask m

　　计算空间衰减重构损失、全局和局部的WGAN-GP损失，来更新生成网络G的权值。

结束循环。

5. 实验 Experiments

（译者注：这里实验可以直接参照参考资料中的余家辉官方的demo，译者后续会给出翻译）

6. 总结 Conclusion

　　作者提出了粗细网络图像生成修复的框架（coarse-to-fine generative image inpainting framework），并介绍了带有内容感知的模型。作者展示了内容感知模型在提高图像修复结果上，有着很大的意义（通过对背景特征的匹配、提取这一过程的学习）。在今后的研究中，作者基于GAN的不断发展，计划将该方法扩展到更高分辨率的图像修复应用中。图像修复框架和内容感知模块也可以用于带有条件的图像生成、图像编辑、计算摄影任务中（例如图像渲染、超高分辨率图像、指导编辑（guided editing），以及其他种种应用。

其他

D. 网络架构 Network Architectures

　　这里是论文第三部分的附录，提供了网络的更多细节。

　　以下的表示方法：K（卷积核大小，kernel size）、D（卷积核扩张量，dilation）、S（卷积步长，stride size）、C（通道数，channel number）。

posted @ 2018-11-22 18:25 冰芒阅读(15501) 评论(3) 收藏举报

刷新页面返回顶部

冰芒的博客

计算机视觉研究生主页：iblue.tech GitHub: https://github.com/bingmang

[AI] 论文笔记 - CVPR2018: Generative Image Inpainting with Contextual Attention

0. 译者序

引言 Abstract

1. 介绍 Introduction