论文阅读笔记Adversarial Learning with Mask Reconstruction for Text-GuidedImage Inpainting
ALMR对抗式学习框架
一、contribution
(1)我们提出了一个基于mask reconstruction(ALMR)的对抗式学习框架,用于文本引导的图像修复,该框架充分利用图像中的对象语义和文本描述。
(2)我们设计了一个双重注意力模块(DAM),将单词级和句子级的文本特征注入图像恢复网络,使模型专注于文本描述中对象的特征词。
(3)我们设计了一个掩码重建模块(MRM),用于惩罚在不污染背景的情况下恢复与文本描述相对应的损坏图像中感兴趣的对象。
(4)我们扩展了CUB-200-2011,Oxford-102和CelebA HQ使用掩码标签,并在扩展数据集上进行定量和定性实验,表明ALMR的有效性。
二、method
双重注意模块(DAM)将文本语义注入生成器的两个阶段,掩码重建模块(MRM)从两个阶段生成的背景真相和图像中提取对象,以进行重建惩罚。
三、evaluation metric
在客观指标方面,FID和KID更倾向于关注与人类感知相对应的自然性。与此相反,PNSR和SSIM测量生成图像和真实图像之间的像素级差异,在文本引导图像修复的上下文中不考虑文本描述的影响。对于定性评估,我们采用Amazon Mechanical Turk(AMT)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快?
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
2020-11-05 配置opengl glut库遇到的问题
2020-11-05 MFC设备坐标系
2019-11-05 二叉树学习