Editing Text in the Wild

录用情况:ACM Multimedia 2019

原文链接:https://arxiv.org/pdf/1908.03047.pdf

源码链接:

导读与概述#

该论文主要针对自然场景图片文字编辑问题,提出了一种风格保持网络,可以做到在保留场景文字风格的情况下替换文字内容,替换后的文字与背景无缝融合,在视觉上达到了十分逼真的效果。

自然场景图片文字编辑问题是一个较新的研究方向,其目的是在保持原始图像的真实感的同时,将源图像中的一个词替换或修改为另一个词,该技术在生活中应用较为广泛,例如广告图片编辑,文字纠错,AR翻译等场景,都需要在保持图片整体视觉效果情况下对图片中的文字进行替换。

对自然场景中的文字进行编辑是一个具有挑战性的课题,一是因为自然场景中文字变化极大,字体、颜色、大小、透明度等有很大差异;二是因为自然场景中背景复杂、纹理细节较多、局部不均匀等因素,导致现有风格迁移方法很难做到既完成文字风格的迁移,又做到文字与背景的完美融合。

本文提出了一种用于自然场景文本编辑任务的端到端可训练风格保持网络(SRNet),它由三个模块组成:文本转换模块(Text conversion module)、背景涂装模块(Background inpainting module)、融合模块(Fusion module)。它可以在保持场景文本图像原有风格的同时,替换其中的文字内容,并与原图片达到一致的可视化效果。

实现这一功能主要分为三个步骤:

(1)文本转换模块:提取前景文字风格特征,并将其转换到输入文本上,同时保持原始文本样式;

(2)背景涂装模块:擦除原始图片中的文字并用合适的纹理修复,得到背景图像;

(3)融合模块:将前两个模块的信息结合起来,生成经过编辑的文本图像。

Introduction#

场景文本编辑面临的挑战:文本样式转换和背景纹理保留

  1. 文本风格由语言、字体、颜色、方向、笔画大小、空间透视等多种因素构成,很难准确地捕捉源图像中完整的文本风格,并将其传递给目标文本;

  2. 编辑后的背景也很难保持一致性,尤其是在一些复杂的场景中出现文本时,如菜单、街道商店招牌等;

  3. 如果目标文本比原始文本短,则应删除字符的超出区域,并用适当的纹理填充。

SRNet的核心思想是将复杂的任务分解为几个简单的、模块化的、联合训练的子网络:文本转换模块、背景涂装模块和融合模块。

本文的主要贡献是提出了用于编辑场景文本图像的风格保持网络(style retention network, SRNet)。SRNet在以下几个方面比现有的方法具有明显的优势:

  1. 这项工作是第一个通过端到端可训练网络解决文字或文本级场景文本编辑的问题;

  2. 将SRNet分解为几个简单的、模块化的、可学习的模块,包括文本转换模块、背景绘制模块和最终融合模块,这使得SRNet能够生成比大多数图像到图像转换GAN模型更真实的结果;

  3. 在笔画骨架的指导下,该网络能够尽可能地保留语义信息;

  4. 该方法在语言内文本图像编辑、AR翻译(跨语言)、信息隐藏等场景文本编辑任务中表现出了较好的性能(例如文字级的文本删除)等。

GAN#

  • DCGAN 首先采用卷积神经网络(CNN)作为生成器和鉴别器的结构,提高了GAN的训练稳定性;

  • 条件GAN在给定条件的约束下生成所需图像,在像素级对齐图像生成任务中取得了显著的效果;

  • Pix2Pix实现了从图像到图像的映射任务,能够学习输入域和输出域之间的映射关系

  • Cycle-GAN完成了未配对风格图像下的跨域转换任务,同时取得了良好的性能;

现有的GAN很难直接应用于文本编辑任务中,因为文本内容会发生变化,而文本的形状需要发生很大的变化,而且在编辑场景文本图像时还需要很好地保留复杂的背景纹理信息。

文本样式转移#

一些方法侧重于字符级风格转换:

  • Lyu等人提出了一种自动编码器引导的GAN,从标准中合成具有指定风格的书法图像中国字体图像;

  • Sun et al.使用VAE结构实现了一个程式化的汉字生成器;

  • 在笔画水平上学习汉字之间的风格转移能力;

一些方法侧重于文本效果传输:

  • Yang等提出了一种基于 patch 的纹理合成算法,该算法可以将子图案映射到文本骨架的相应位置,生成图像块。值得注意的是,该方法基于统计信息分析,对字形差异比较敏感,计算量大;

  • TET-GAN使用 GAN 设计了一个轻量级框架,可以同时支持各种文本效果的风格化和去风格化。同时 MC-GAN 使用两个子网络分别解决英文字母字形迁移和效果迁移,完成了少镜头字体样式迁移任务;

与这些现有的方法不同,本文提出的框架试图解决任意文本样式和特效的迁移问题,在一个词或文本行级别,而不是在字符级别。在实践中,词级注释比字级注释更容易获得,编辑单词比编辑字符更有效。此外,词级编辑喜欢词级布局的一致性。在处理不同长度的单词时,我们的词级编辑器可以自适应地调整前景字符的位置,而字符级方法则忽略。

文本删除和编辑#

背景纹理需要与场景文本编辑前的纹理一致。还有一些文字擦除的相关作品,尝试在完成图像在相应位置上的补绘的同时,将场景的文字描边像素擦除。

我们的方法综合了文本样式转换和文本删除方法的优点。我们提出了一种风格保留网络,它不仅能有效地传递文本风格(词或文本行级处理机制),还能保留或填充完整的背景区域,使场景文本编辑结果更加真实。

Methodology#

文本转换模块#

……

背景涂装模块#

……

融合模块#

……

判别器#

SR-Net使用了两个与 PatchGAN 结构相同的鉴别器,由5个卷积层组成,将尺寸缩小到原图的 1/16。背景涂装模块的鉴别器 DB 将源图像 IsObTb 作为输入来比较,确认擦除结果 Ob 和目标获取的背景图像 Tb 是否相似。而融合模块的鉴别器 DF 将目标图像 ItOfTf 作为输入,来确认最终输出 Of 与目标图像 Tf 的一致性。

训练与推理#

在训练阶段,对整个网络进行端到端训练,模型的整体损失为:

LG=argminGmaxDB,DF(LT+LB+LF)

posted @   HeyRay_Yang  阅读(173)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示
主题色彩