Deep Learning-based Forgery Attack on Document Images

录用情况：IEEE Transactions on Image Processing 2021

原文链接：https://arxiv.org/abs/2102.00653

导读与概述

人们利用一些图像编辑工具或基于深度学习的技术，可对文档内容进行篡改。目前还没有关于基于深度学习的文本内容生成方案对文档图像安全的评估工作，但深度学习技术在文本图像编辑方面的发展已经对文档图像的安全构成了新威胁。

文章通过一套网络设计策略来解决现有文本编辑算法对复杂字符和复杂背景的限制：

首先，通过拆分源图像中的文字和背景信息，避免了监督数据中不必要的混乱；
第二，为了捕捉一些复杂成分的结构，提供文字骨架作为辅助信息，并在损失函数中明确考虑纹理的连续性；
第三，通过一些考虑到印刷-扫描通道失真的后处理操作，减轻了由文本编辑操作引起的伪造痕迹。

方法简述

文章提出的方法包括伪造和翻拍两个步骤：

在伪造过程中，由成像设备获取的文档图像作为ForgeNet的输入。它被分为三个区域，即文本区域、图像区域和背景区域（不包括在前两类中的区域）。
1. 背景区域由反半色调模块（IHNet）处理，用以去除打印图像中的半色调点。
2. 图像区域中的原始照片被目标照片所取代，所得图像被输入到打印和扫描预补偿模块（PCNet）和IHNet。值得注意的是，PCNet引入颜色失真，并在编辑过的区域引入半色调图案，这样就可以补偿编辑过的区域和背景区域之间的差异。
3. 文本区域随后被输入到文本编辑模块（TENet）、PCNet和IHNet。经伪造网络处理后，这三个区域被拼接在一起，形成一个完整的文档图像。
伪造的文档图像由相机或扫描仪进行翻拍，完成伪造和翻拍攻击。

TENet

文本编辑网络（TENet）的框架如上图所示，它由三个子网组成。背景填充子网预测原始文本区域的背景内容并进行填充；文本转换子网将源图像 \(I_s\) 的文本内容替换为输入的目标文本图像，同时保留原始风格；融合子网将前两个子网的输出合并，得到带有目标文本和原始背景的图像。

PCNet

由于编辑过的文字区域没有打印和扫描的失真，但背景区域却经过了打印和扫描过程。如果直接拼接编辑过的文本和背景区域，二者边缘的伪影会很明显。所以，在合并不同区域之前，可以通过具有自动编码器结构的 PCNet（网络结构如上图所示）来模拟打印-扫描过程中的强度变化和噪声，预先补偿文字区域的打印和扫描失真。

IHNet

在打印和扫描后或由 PCNet 处理后，文档图像可以被视为半色调点的集群。如果图像在没有进行还原的情况下被重新打印和扫描，第一次和第二次打印过程中产生的半色调图案会相互干扰并引入混叠失真。为了提高伪造和翻拍攻击的成功率，在翻拍之前可以通过 IHNet（网络结构如上图所示）去除伪造文档图像中的半色调图案。

总结

论文提出了一个基于深度学习的文档图像编辑网络，与目前的自然场景文本编辑网络相比，此网络可以编辑具有复杂字符和复杂背景的文档图像。

为了达到良好的编辑性能，作者通过一套网络设计策略，如避免源图像的不同部分出现不必要的混淆、构建纹理连续性损失和提供辅助骨架信息，解决了现有文本编辑算法在复杂字符和复杂背景的图像上进行文本编辑的局限性。

除此之外，编辑后的图像还进行了颜色预补偿和反半色调的后处理，在一定程度上减轻了文本编辑操作所引入的失真。

实验结果表明，通过这些后处理，文档图像中不同区域之间的一致性得以保持。

该论文还展示了在实际场景下的文档伪造性能，即攻击者在目标域中只用一个样本生成身份文档。

最后，采用翻拍操作来覆盖文本编辑和后期处理操作的痕迹。该论文所提出的攻击方法已经成功攻击了一些先进的文档认证系统，基于深度学习的文本编辑技术的发展给文档图像的应用带来了巨大的安全风险。

posted @ 2022-03-08 15:15 HeyRay_Yang 阅读(178) 评论(0) 收藏举报

刷新页面返回顶部

加载中...

HeyRay's Blog

为有牺牲多壮志，敢教日月换新天