论文阅读笔记Adversarial Learning with Mask Reconstruction for Text-GuidedImage Inpainting

ALMR对抗式学习框架

 

一、contribution

(1)我们提出了一个基于mask reconstruction(ALMR)的对抗式学习框架,用于文本引导的图像修复,该框架充分利用图像中的对象语义和文本描述。

(2)我们设计了一个双重注意力模块(DAM),将单词级和句子级的文本特征注入图像恢复网络,使模型专注于文本描述中对象的特征词。

(3)我们设计了一个掩码重建模块(MRM),用于惩罚在不污染背景的情况下恢复与文本描述相对应的损坏图像中感兴趣的对象。

(4)我们扩展了CUB-200-2011,Oxford-102和CelebA HQ使用掩码标签,并在扩展数据集上进行定量和定性实验,表明ALMR的有效性。

二、method

双重注意模块(DAM)将文本语义注入生成器的两个阶段,掩码重建模块(MRM)从两个阶段生成的背景真相和图像中提取对象,以进行重建惩罚。

 

 

 

 

 

 

三、evaluation metric

 在客观指标方面,FID和KID更倾向于关注与人类感知相对应的自然性。与此相反,PNSR和SSIM测量生成图像和真实图像之间的像素级差异,在文本引导图像修复的上下文中不考虑文本描述的影响。对于定性评估,我们采用Amazon Mechanical Turk(AMT)

 

posted @ 2021-11-05 09:39  Tomorrow1126  阅读(271)  评论(0编辑  收藏  举报