DeepFake Detetion、数字图像处理操作取证研究方向综述

DeepFake Detetion综述

综述一:DeepFake生成与防御研究入门

转自公众号【隐者联盟】DeepFake生成与防御研究入门

DeepFake(深度伪造)是英文“Deep Learning”和“Fake”的混成词,专指基于人工智能的人体图像合成技术,这是维基百科对Deepfake的基本定义。广义而言,深度伪造包括基于深度学习的图像、文本、音视频等各种媒体的生成和编辑技术。从2017年Reddit社区“DeepFake”作品引起轰动,到近期“蚂蚁呀嘿”的盛行,DeepFake已经在全网掀起了一次次应用热潮。深度学习的发展使人脸伪造技术趋于大众化,由DeepFake技术滥用导致的问题也严重威胁着社会信誉、司法公正乃至国家安全,因此相应的防御技术也得到了快速发展。

伪造技术概述

1. 基于图像域特征编码的方法

现阶段,全智能化的人脸深度伪造技术发展并不完备,其中主流的伪造技术主要从人脸图像域的角度出发,通过对人脸图像进行特征编码、重构的操作方式实现篡改,篡改类型可以概括为面部替换属性编辑两大类。

  • 其中面部替换旨在用原始人脸面部替换目标人脸的面部区域,涉及目标图像身份属性的变化。

  • 而属性编辑主要针对目标人脸身份信息外的各类属性进行编辑篡改,如使用表情迁移、唇形篡改等。

面部替换的经典算法是“Deepfakes”[1],主体结构基于自动编码器实现。对于原始人脸A和目标人脸B,训练权值共享的编码器用于编码人脸特征,解码端A和B各自训练独立解码器用于重构人脸。在测试阶段,用训好的编码器对目标B进行编码,再用训好的A解码器来解码B的特征,以实现A与B之间的人脸替换。为了达到更好的替换效果和更佳的可操控性,对抗损失和人脸解耦重构等技术也被用于深伪算法进行约束与监督,并产生了很多变体方法,如FSGAN[2]、FaceShifter[3]等,使得生成的伪造人脸质量大幅提高。

属性编辑算法的基本原理与面部替换类似,但该类算法以人脸属性为对象进行篡改,不涉及到目标人物身份信息的改变,通常用来进行人脸的表情迁移、唇形篡改等应用。代表算法包括早期的表情迁移方法Face2Face[4]、特定人唇形篡改方法ObamaNet[5]和近期应用火热的表情迁移方法First Order Motion[6]以及唇形篡改方法Wave2Lip[7]等。下表列举了部分高影响力的人脸深度伪造工具与商业软件以及它们的特点。

工县/软件名称 类型 特点
FaceSwap-GAN 面部替换开源工具有技术要求 需大量人脸素材
DeepFakes 面部替换开源工具有技术要求 需大量人脸素材
FakeAPP 面部替换商业软件 无技术门槛,需大量人脸
DeepFaceLab 面部替换开源工具多平台开源项目 技术与硬件门槛高,需大量人脸
ObamaNet 属性编辑开源工具有技术要求 需大量指定人脸素材
First Order Motion 属性编辑开源工具有技术要求 需大量人脸素材
Wave2Lip 属性编辑开源工具有技术要求 需大量人脸素材
ZAO 面部替换商业软件无技术门槛 仅需1张人脸,但可换场景固定
Avatarify 属性编辑商业软件无技术门槛 仅需1张人脸,实现表情迁移,场景固定
去演APP 面部替换商业软件无技术门槛 仅需1张人脸,替换指定场景中的人物

2. 基于隐变量编辑的方法

在人脸伪造相关技术中,有一类方法基于对抗生成网络(GAN)来实现。与基于图像域特征编码的方法不同,基于GAN实现的方法依赖于已训练好的GAN网络,探索人脸图像各属性在隐空间中对应的隐变量,找到待篡改的语义方向,再利用预训练好的GAN生成器来生成编辑后的人脸。这类方法需要在图像隐空间进行操作,对于已知分布的生成人脸图像可以实现高自由度的编辑和高真实感的伪造,但对于真实人脸图像,首先需要将其映射到隐空间,此时非常依赖GAN翻转(GAN Inversion)技术的效果。这类方法可探索性强,且思路多样化,近期在学术界得到了快速发展,代表算法有InterFaceGAN [10]、idinvert [11]。

防御技术概述

被动式检测方法

现阶段的Deepfake防御主要指针对深伪媒体的被动式检测,即在无辅助信息的条件下对伪造人脸视频进行检测与鉴别,这个任务本质上是一个二分类任务,判断给定的人脸媒体文件是真还是假。二分类任务在多媒体取证、计算机视觉等领域都已有深入研究,但深度伪造的检测具有其特殊性,既不同于一般取证场景下像素级的修改检测,也不同于计算机视觉中语义级的理解分类,而是与二者都有关联但又有实质差别的一种技术。现阶段的Deepfake的被动式检测方法也大多从这两个领域中借鉴思路,根据检测方法的特点,可以概括为三类。

  1. 有伪造样本学习方法

这类方法的核心特点是利用真假成对数据作为训练驱动,模型学习的过程需要有伪造人脸样本的参与。通过人工设计或神经网络挖掘的形式提取到真假人脸的可区分特征,从而进行分类。

根据提取特征方式的不同,这类方法可分为基于人工特征的方法和基于深度学习方法两种。

  • 基于人工特征的检测方法多见于早期阶段,针对伪造技术不完善导致的篡改痕迹进行特征提取,如利用传统图像取证中的隐写分析特征[12],或捕捉眨眼异常、头面姿势不一致、异瞳和牙齿细节异常[13]等。

  • 基于深度学习的方法则更多建立在深度神经网络强大的图像理解能力之上,从媒体的空域、时域、频域等角度挖掘可鉴别的细节特征。一些经典的网络结构如XceptionNetEfficientNet等在deepfake检测任务中发挥了良好的效果。在此基础上,Two-branch[14]采用了双向LSTM来寻找伪造视频的时序伪像,F3-Net[15]通过精心设计的局部频域统计模块从频域的角度放大了伪造带来的可检测痕迹,MPSM[16]为特征图设计了块相似度计算模块以捕捉空域和频域特征上的篡改痕迹,均取得了良好的效果。Multi-Attention[17]首次将deepfake检测定义为细粒度分类任务,采用了多个注意力图来响应人脸图像的不同区域和不同注意力点,以定位局部且细微的篡改伪像。SPSL[18]则通过分析伪造算法中普遍存在的上采样过程,从相位谱中捕捉频域伪造痕迹,实现了更为通用的检测。

  1. 无伪造样本学习方法

    与“有伪造样本学习”的方法相对应,“无伪造样本学习”方法的模型训练过程不需要使用伪造人脸的负样本,而是抓住了人脸这一特殊信息载体的某些特性,或抓住了深度伪造过程中某一固有的流程漏洞实现检测与鉴别。典型的方法是Face X-ray[19],其抓住了伪造方法大多需要进行融合操作这一固有流程,进行针对融合操作痕迹的检测,模型训练只需要使用真脸数据和部分人工制作的非人脸融合图像,不需成对的真假脸。类似的还有PCL[20],通过预测融合mask的方式,判断给定人脸是否有融合痕迹或边界的不一致性。这类方法由于不依赖于真假成对数据,因此对不同的伪造算法具有较强的迁移检测能力

  2. 基于多任务迁移的方法
    这是最近新兴起的一类方法,其核心分类器依旧是依赖于成对真假数据进行训练,与前述方法最大的不同在于,该类方法会利用其它任务中的预训练模型或预筛选特征,在deepfake的真假数据对上进行微调。代表方法为Lip-forensics[21],利用了唇读模型这一与人脸相关的分类模型,迁移到deepfake检测的任务中来,特征提取过程与唇读任务一致,但最终的目标是利用精准的唇读,区分真假唇的差别,从而实现真伪鉴别。

主动式防御

主流的伪造防御技术大多通过事后取证的方式进行,属于被动式检测方法,但此时往往伪造多媒体的危害已经形成。因此,近期一些主动式防御的工作被提出。如Huang等人[28]提出的基于对抗攻击和数据毒化的人脸主动干扰方法,在不影响人脸多媒体数据视觉质量的前提下,干扰伪造者的模型训练过程,使其难以利用被保护的数据进行伪造。此外,主动式防御也可结合信息隐藏中的鲁棒水印以及模型水印等技术,锁定伪造数据的泄露途径,实现主动取证,如ArtificialGANFingerprints [29]、Decentralized Attribution of Generative Models[30]。

常用数据集

Deepfake数据集主要用来训练以及评估检测模型的性能。Deepfake发展至今,出现过很多数据集。目前最常用的数据集主要有四个,各数据集的基本情况如表2所示。其中衡量算法的库内检测性能通常用FaceForensics++[22],而衡量算法跨库性能时则多使用Celeb-DF[23]测试。随着领域内技术的进步和研究视角的转变,不同类型的数据集还将继续产生和发展,如近期中国科学技术大学和微软亚研院联合组建的包含人物身份参考的特定人伪造鉴别数据集“Vox-Deepfake”[26]和Zi等人提出的真实场景下的数据集“WildDeepfake”[27]。如下表是Deepfake主要数据集基本情况。

数据集名称 数据规模 数据来源 特点
FaceForensics++ 1000 real,
4000 fake
Youtube 早期包含4种伪造方法(现新增FaceShifter),包含3种分辨率,整体质量偏低,有明显伪像
Celeb-DF 590 real,
5639 fake
Youtube 基于Deepfakes方法进行优化,视频视觉质量较高,但伪造方法与数据类型单一。
DeeperForensics-1.0 1000 real,
11000 fake
Youtube+Actors 增加了数据规模和大量亚洲人种数据,合成方法更好,但真实人脸源自FF++,易造成数据泄露问题
DFDC 23645 real,
104500 fake
Actors 全真实场景模拟,全真实演员拍摄,迄今为止规模最大的deepfake数据集,8种伪造方法,19种干扰手段,难度极大。但部分数据有异常。
Dataset name Download Generate method Deepfake videos Actors Intro
Deepfake-TIMIT low download Deepfake 320 32
Deepfake-TIMIT high download Deepfake 320 32
Faceforensics - Deepfake 1000 977
Faceforensics++ download Deepfake 1000 977
Deepfake detection download Deepfake over3000 28
Celeb-deepfakeforensics v1 download Deepfake 795 13
Celeb-deepfakeforensics v2 download Deepfake 590 59
DFDC download Deepfake - -
WildDeepfake download Internet 707 - introduction

参考文献

[1] DeepFakes. Deepfakes github. http://github.com/deepfakes/faceswap, 2017. Accessed 2020-08-18. 2, 3, 5, 6

[2] Nirkin, Y., Keller, Y., & Hassner, T. (2019). Fsgan: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 7184-7193).

[3] Li, L., Bao, J., Yang, H., Chen, D., & Wen, F. (2019). Faceshifter: Towards high fidelity and occlusion aware face swapping. arXiv preprint arXiv:1912.13457.

[4] Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., & Nießner, M. (2016). Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2387-2395).

[5] Suwajanakorn, S., Seitz, S. M., & Kemelmacher-Shlizerman, I. (2017). Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (ToG), 36(4), 1-13.

[6] Siarohin, A., Lathuilière, S., Tulyakov, S., Ricci, E., & Sebe, N. (2020). First order motion model for image animation. arXiv preprint arXiv:2003.00196.

[7] Prajwal, K. R., Mukhopadhyay, R., Namboodiri, V. P., & Jawahar, C. V. (2020, October). A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 484-492).

[8] Zao app. Retrieved from https://zao-app.com/, 2019-12-01

[9] Petrov, I., Gao, D., Chervoniy, N., Liu, K., Marangonda, S., Umé, C., ... & Zhang, W. (2020). Deepfacelab: A simple, flexible and extensible face swapping framework. arXiv preprint arXiv:2005.05535.

[10] Shen, Y., Gu, J., Tang, X., & Zhou, B. (2020). Interpreting the latent space of gans for semantic face editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9243-9252).

[11] Zhu, J., Shen, Y., Zhao, D., & Zhou, B. (2020, August). In-domain gan inversion for real image editing. In European Conference on Computer Vision (pp. 592-608). Springer, Cham.

[12] Zhou, P., Han, X., Morariu, V. I., & Davis, L. S. (2017, July). Two-stream neural networks for tampered face detection. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (pp. 1831-1839). IEEE.

[13] Matern, F., Riess, C., & Stamminger, M. (2019, January). Exploiting visual artifacts to expose deepfakes and face manipulations. In 2019 IEEE Winter Applications of Computer Vision Workshops (WACVW) (pp. 83-92). IEEE.

[14] Masi, I., Killekar, A., Mascarenhas, R. M., Gurudatt, S. P., & AbdAlmageed, W. (2020, August). Two-branch recurrent network for isolating deepfakes in videos. In European Conference on Computer Vision (pp. 667-684). Springer, Cham.

[15] Qian, Y., Yin, G., Sheng, L., Chen, Z., & Shao, J. (2020, August). Thinking in frequency: Face forgery detection by mining frequency-aware clues. In European Conference on Computer Vision (pp. 86-103). Springer, Cham.

[16] Chen, S., Yao, T., Chen, Y., Ding, S., Li, J., & Ji, R. (2021). Local Relation Learning for Face Forgery Detection. AAAI 2021.

[17] Zhao, H., Zhou, W., Chen, D., Wei, T., Zhang, W., & Yu, N. (2021). Multi-attentional Deepfake Detection. arXiv preprint arXiv:2103.02406.

[18] Liu, H., Li, X., Zhou, W., Chen, Y., He, Y., Xue, H., ... & Yu, N. (2021). Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain. arXiv preprint arXiv:2103.01856.

[19] Li, L., Bao, J., Zhang, T., Yang, H., Chen, D., Wen, F., & Guo, B. (2020). Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 5001-5010).

[20] Zhao, T., Xu, X., Xu, M., Ding, H., Xiong, Y., & Xia, W. (2020). Learning to Recognize Patch-Wise Consistency for Deepfake Detection. arXiv preprint arXiv:2012.09311.

[21] Haliassos, A., Vougioukas, K., Petridis, S., & Pantic, M. (2020). Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection. arXiv preprint arXiv:2012.07657.

[22] Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., & Nießner, M. (2019). Faceforensics++: Learning to detect manipulated facial images. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1-11).

[23] Li, Y., Yang, X., Sun, P., Qi, H., & Lyu, S. (2020). Celeb-df: A large-scale challenging dataset for deepfake forensics. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3207-3216).

[24] Jiang, L., Li, R., Wu, W., Qian, C., & Loy, C. C. (2020). Deeperforensics-1.0: A large-scale dataset for real-world face forgery detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2889-2898).

[25] Dolhansky, B., Bitton, J., Pflaum, B., Lu, J., Howes, R., Wang, M., & Ferrer, C. C. (2020). The deepfake detection challenge dataset. arXiv preprint arXiv:2006.07397.

[26] Dong, X., Bao, J., Chen, D., Zhang, W., Yu, N., Chen, D., ... & Guo, B. (2020). Identity-Driven DeepFake Detection. arXiv preprint arXiv:2012.03930.

[27] Zi, B., Chang, M., Chen, J., Ma, X., & Jiang, Y. G. (2020, October). WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 2382-2390).

[28] Huang.Q., Zhang. J., Zhou, W., Zhang, W., & Yu, N., Initiative Defense against Facial Manipulation, AAAI 2021.

[29] Yu, N., Skripniuk, V., Abdelnabi, S., & Fritz, M. (2020). Artificial GAN Fingerprints: Rooting Deepfake Attribution in Training Data. arXiv e-prints, arXiv-2007.

[30] Kim, C., Ren, Y., & Yang, Y. (2020). Decentralized Attribution of Generative Models. arXiv preprint arXiv:2010.13974.

现阶段的Deepfake检测主要有两大研究难点。

一是如何捕捉高质量伪造数据中较难发掘的伪像,提升检测准确率与可解释性,

二是如何设计真实场景下的鲁棒检测方法。

Image manipulation Detetion综述

综述一:数字图像篡改操作取证

转自公众号【隐者联盟】【极简综述18】数字图像篡改操作取证

Copy-move操作取证技术

图像复制粘贴篡改(copy-move)是数字图像篡改中比较常用的一种手段。它把单个图像中的部分区域复制并粘贴到同一图像中不交叠的其它区域,从而增加或覆盖掉某些物体。为了使篡改后的图像能够以假乱真,在复制过程中,复制区域可能会经历旋转、缩放等几何变换,并且合成图像可能经历加噪、模糊、压缩等后期处理,这进一步加大了篡改检测的难度。现有的图像复制篡改检测方法可以粗略的分为基于图像块的方法基于关键点的方法基于深度学习的方法

1. 基于图像块的方法

Fridrich等人[1]首次定义了复制粘贴篡改,并提出了基于块匹配的检测方法,将图像分割成固定大小且相互重叠的子块,并使用DCT量化系数作为图像块的特征描述。该算法对图像块的所有DCT系数都进行统计计算,所以算法的复杂度很高。

后来,多位学者分别提出了DWT变换、FWT变换等用于描述图像块的特征。Bashar等人[2]提出了两个鲁棒的特征,分别基于DWT变换和KPCA,并将这些特征向量构成一个矩阵。Cozzolino等人[3]提出了CHT作为图像的特征。该方法将图像中的每一个像素点都进行处理,提取到每一个像素点的特征。为了减少计算量,使用了快速的近似最近邻搜索算法对密集区域处进行高效的计算。

除了频率域的特征提取,基于空间域的特征提取也有很多经典的算法,其中将矩阵特征作为图像的特征进行处理就是经常使用的方法。Mahdian和Saic[4]较早提出了一种基于模糊矩阵的方法,并使用了主成分分析减少特征的维数,最后利用k-d树对多维的数据块进行相似性分析,从而对篡改区域进行定位。Ryu等人[5]则将Zernike矩阵作为图像块的特征,并在图像块匹配时使用了局部敏感哈希算法加速匹配过程,最终根据匹配块寻找篡改区域。

除了使用矩阵特征以外,也有研究者利用图像本身的一些纹理亮度信息作为图像的特征。Davarzani等人[6]采用多分辨率局部二值模式(MLBP)作为图像块的特征信息。为了获得精确的匹配信息,还使用了RANSAC算法去除掉错误的匹配。

基于图像块的检测算法虽然能达到一定的效果,但是随着图像复制粘贴篡改的多样化,以及实际图像复制篡改过程中经历更多几何变换如旋转、缩放等,基于图像块的检测方法的鲁棒性会降低。此外,基于图像块的方法需要大量的计算,难以在实际中进行应用。为了提高检测效率,增强对抗几何变换的鲁棒性,基于关键点匹配的检测方法成了新的研究热点。

2. 基于关键点的方法🍉

基于关键点的检测方法计算效率高且有较强的鲁棒性,适用于实际情况下的多类型图像复制粘贴篡改检测,因此研究者也致力于用基于关键点的检测方法来解决各种图像复制粘贴篡改检测的问题。

该类方法首先从整幅图像中提取关键点,然后对其进行特征描述提取和匹配过程,最后通过得到关键点匹配进行后续处理从而定位复制粘贴篡改区域。

Huang等人[7]采用SIFT作为图像关键点检测与特征描述的方法,并使用Best Bin First算法来寻找相似的特征向量,进而确定匹配关键点的位置。此后很多学者也提出了基于SIFT特征的检测方法,Pan和Lyu[8]使用了RANSAC算法来计算复制粘贴区域之间的仿射变换关系。Amerini等人[9]基于2NN准则提出了新的匹配方法G2NN以应对多重复制粘贴的情形。除了SIFT以外,研究者还提出了其它一系列的优秀算法。Xu等人[10]使用SURF作为提取图像关键点特征的方法。相比SIFT,SURF运算比较简单,计算效率更高。此外,Yang等人[11]采用了SIFT和KAZE的融合作为提取关键点特征的方法。

针对复杂的复制粘贴篡改检测以及定位的精确度的问题,有研究者提出了更为系统的检测框架。Ardizzone等人[12]利用提取的SIFT特征点来构建Delaunay 划分,然后利用每个三角形块的颜色信息和角度信息作为三角形区域的特征向量进行匹配。Li等人[13]首先使用 SLIC算法对图像进行分割成一系列的超像素块,根据分割块内关键点匹配对的数量处理匹配块,提升了处理的效率。Zandi等人[14]通过自适应迭代的方法,根据每个迭代周期的结果迭代地调整关键点的分布还有匹配过程以及仿射变换矩阵计算。Li等人[15]通过降低关键点提取时的阈值,使得小区域、平滑区域可以提取足量的关键点,并且提出了一种新的层次匹配策略来解决大量关键点匹配问题。和基于块匹配的检测方法相比,基于关键点匹配的方法避免了全局搜索,大大提高了检测效率,且对几何变换具有更好的鲁棒性。

3.基于深度学习的方法🍉

随着深度学习尤其是卷积神经网络的发展,研究者开始尝试使用深度学习的方法进行图像复制粘贴篡改的检测。Wu等人[16]设计了端到端的BusterNet,采取双分支结构,对图像操作和图像相似性进行检测,具有一定的效果,可以同时识别源区域和目标区域。Chen等人[17]提出一种串行分支网络模型,包含相似性检测网络CMSDNet和源与目标鉴别网络STRDNet。STRDNet研究CMSDNet获得的相似块的分类问题,相对于BusterNet的分支更加简单且准确率更高。

Barni等人[18]提出了多分支网络DisTool对图像复制篡改进行检测并识别源区域和目标区域,分别为两个Siamese组成的4-Twins Net分支和一个Siamese分支。该网络在真实的测试场景中也表现良好。Zhong等人[19]提出了基于Dense-InceptionNet的检测方案,充分使用了多尺度的信息和稠密特征链接,设计了金字塔特征提取器,特征相关匹配和层次后处理模块该算法对几何变换操作和JPEG压缩都有一定的鲁棒性

Inpainting操作取证技术

图像修复(inpainting)技术是数字图像篡改中比较常用的一种手段,它的核心思想是根据图像受损区域周围的已知像素信息通过插值相邻像素对未知区域进行修复[20]。目前,传统的图像inpainting算法可以分成两类:基于块的方法和基于扩散的方法。

  • 基于块的方法主要是通过搜索图像已知区域的图像块,寻找合适的候选块对受损区域进行填补以达到修复的目的;

  • 基于扩散的方法通常是通过求解偏微分方程或者依据扩散系统将图像信息从边界传播扩散到未知区域进行修复。

  • 这里没有提到利用GAN实现的Inpainting算法,或许是个研究的点

当恶意篡改者使用图像inpainting技术进行篡改并将这类图像应用于司法、科学等领域时,将会造成不可预料的严重影响。现有的针对图像inpainting的检测方法大致可以分为两类:基于传统手工特征的方法和基于深度学习的方法。

1.基于传统手工特征的方法

最初,Wu等人[21]在2008年提出了一种基于零连通特征和模糊隶属度的检测方法。首先对图像中的块进行零连通标记,筛选可疑区域,然后通过计算模糊隶属度识别可疑区域内的修复块,并通过割集实现最终的修复篡改区域的定位。

2013年,Bacchuwar等人[22]提出了一种可以同时检测图像修复和图像复制-粘贴两种篡改的方法。该方法利用图像的亮度分量,对可疑区域中的块进行中值匹配,引入“跳跃块”,从而有序检测篡改区域。它相较于文献[21]加速了修复区域的定位,但仍需要人工选择区域。

为减少最佳匹配块的搜索时间,Chang等人[23]通过检测关键值进行相似度检测,提出了一种基于权值变换的搜索算法,包括可疑区域检测和篡改区域识别两个阶段。Liang等人[24]首先采用中心像素映射搜索可疑块对,在装载因子和搜索范围方面加速了对可疑块的搜索,使用最大零连通性区域标记和片段拼接检测技术实现篡改区域的定位。

申林川等人[25]对已有的图像修复检测方法进行改进,利用一种hash映射函数将图片三维的颜色信息转换成一维的hash值映射至哈希表,再结合相似向量滤波和基于质心的篡改区域定位技术,实现篡改区域最终的准确定位。

另外,JPEG是目前网络中使用最广泛的图像格式。Zhao等人[26]针对JPEG图像展开研究,通过计算和分割不同质量因子下的修复图像和再保存JPEG图像的绝对差值之和检测出被篡改的区域,不需要任何手动操作。

Liu等人[27]也聚焦于JPEG图像,提出了一种大规模特征挖掘的经验方法,包含边缘密度和联合密度特征,采用集成学习,有效地检测了包括图像修复在内的复合攻击下的图像篡改,特别是在重压缩质量低于原始JPEG图像质量的情况下,显著提高了检测精度。

Li等人[28]针对基于扩散的修复方法进行区域检测,发现修复区域和未修复区域图像沿垂直于梯度方向的拉普拉斯变换是不同的。基于此,根据通道内和通道间的局部变化方差构造了一个特征集。最后,设计了两个有效的后处理操作来进一步细化定位结果。但该方法鲁棒性较差,特别是对经过JPEG压缩后处理的图像取证性能显著下降。

刘婷婷等人[29]提出了一种梯度域导向滤波增强的图像扩散修复检测算法。该算法对输入图像的各个颜色通道分别进行梯度域导向滤波增强,从多角度捕捉图像修复带来的影响,以实现图像扩散修复区域的定位。

基于传统手工特征的图像inpainting检测算法在一些方面存在一定的局限性,比如需要手动选择区域、只针对特定的图像inpainting技术、鲁棒性较差等。近年来为提高检测效率,增强算法对抗几何变换的鲁棒性,基于深度学习的图像inpainting检测算法也在不断发展。

2.基于深度学习的方法🍉

随着深度学习的发展,研究人员开始尝试使用深度学习方法实现图像修复检测。

2018年,Zhu等人[30]提出了一种基于深度神经网络的图像inpainting篡改检测技术,通过神经网络自动提取篡改痕迹,实现图像像素级的预测并对修复区域进行定位。该框架在编码器-解码器的全卷积网络结构基础上还引入了特征金字塔网络对特征图进行信息补充,填充图像的语义信息,且具有一定的泛化性。进一步地,Zhu等人[31]提出了新的网络框架,并构建了类标签矩阵,设计了加权交叉熵解决图像像素不平衡的问题。该方法考虑了JPEG压缩和缩放等后处理操作,具有一定的鲁棒性。

Wang等人[32]在2019年提出了一种基于Faster R-CNN网络的图像inpainting篡改检测方法,并自制了在两种深度学习图像修复算法下的数据集,实现了修复区域的边界框定位。但该方法只能得到标记有置信度分数的边界框,无法得到修复篡改区域的真实区域,定位精度有待进一步提高。

Lu等人[33]提出了一种基于LSTM-CNN的图像目标去除方法,利用CNN搜索异常相似块,提高了搜索的速度和准确性,利用LSTM网络消除虚警补丁对检测结果的影响,降低虚警率。

Li等人[34]探究发现在像素域中修复图像块和未修复图像块的转移概率值相似,而在残差域中表现出明显的差异,修复图像块包含较少的高频分量。因此,作者设计了HP-FCN网络,利用高通滤波模块对输入图像进行预处理,将其残差图输送到基于CNN的特征提取模块中,再通过上采样模块采样到输入图像大小,最终得到像素预测的定位图。该算法对深度学习下的修复数据集进行定位检测,且进一步考虑了随机修复和现实情况下的真实数据集,在准确率上都取得了较好的效果,具有一定的鲁棒性。

为了提高已有算法对不可见图像修复方法的检测性能,Wu等人[35]提出了一种新型的端到端图像修复检测网络IID-Net,其中NAS算法用于设计适当的网络架构,并结合新提出的注意模块来进一步优化潜在特征。该算法在特定深度修复方法上训练的取证模型对其他修复方法具有良好的通用性检测能力。作者还基于10种不同的修复方法构建了一个包含10K张图片的不同修复测试数据集,每种修复方法提供1000张图片,作为一个公共可访问的数据集,用于修复检测方法的标准化比较。

Splicing操作取证技术

图像拼接(splicing)伪造不同于复制-粘贴伪造,它是将一个或多个源图像的区域复制粘贴到目标图像上得到篡改图像。图像拼接伪造检测与定位可以看作是一个全局二值分类问题,通过比较不同图像区域之间的特征来检测定位篡改区域。现有的图像拼接伪造检测方法大致可以归纳为四类:基于模糊类型不一致性的方法基于噪声水平不一致性的方法基于光照不一致性的方法基于深度学习的方法

1. 基于模糊类型不一致性的方法

2011年,Kakar等人[36]提出了一种利用运动模糊差异性检测图像拼接的新方法。通过对图像梯度的运动模糊水平的估计,检测拼接区域和原始区域之间的不一致性。作者还开发了一种新的方法,可以较好地对包含运动模糊的图像进行不一致性区域分割。

为了适应不同范围的模糊程度,Bahrami等人[37] 提出了一种基于图像模糊度和深度信息不一致性的图像拼接检测框架。首先估计图像块的模糊核,再利用分步模糊技术测量局部模糊核的相对模糊度。基于此,对不同模糊程度的图像块进行分类。

Rao等人[38]考虑手持摄像机中运动模糊现象这一特定场景,提出了一种以模糊为线索的被动图像拼接检测方法。离焦模糊也是图像拼接检测中的一种常用特征,然而纹理、光场、噪声等都会在一定范围内影响自然边缘的离焦模糊信息,导致边缘离焦模糊估计不一致。

Song等人[39]分析了图像拼接边缘和自然边缘的离焦模糊特征的差异性,提出了一种新的基于离焦模糊差的自然图像拼接检测方法。当伪造者使用一些后处理操作来掩盖拼接痕迹时,图像拼接问题是一个具有挑战性的问题。

为进一步解决这个问题,Bahrami等人[40]在2015年提出了一种基于局部模糊类型不一致性的模糊图像拼接定位框架。作者首先对图像进行分块,根据局部模糊核提取局部模糊类型检测特征用于离焦模糊和运动模糊的划分,从而生成模糊类型不变区域。最后,采用精细拼接定位方法提高区域边界的精度。

2. 基于噪声水平不一致性的方法

大多数图像在采集或后续处理过程中都会引入一定的噪声,而自然图像和具有不同来源的拼接图像中的噪声会存在不同程度的差异性。研究人员根据噪声的不一致性提出了相应的图像拼接检测算法。

Mahdian等人[41]将待测图像分割成不同噪声水平的分区,利用基于中值的方法计算每个图像块的噪声标准差,通过一个阈值确定图像拼接篡改区域。

Lyu等人[42]利用了自然图像在带通域内峰度的特殊规律以及噪声特征与峰度之间的关系。将噪声统计量的估计表述为一个具有封闭解的优化问题,并进一步推广到一种有效的局部噪声统计量估计方法。通过揭示局部噪声水平的不一致性来检测拼接区域。

研究人员发现可以通过主成分分析(PCA)来估计图像的噪声水平。其中,2015年,Zhan等人[43]在主成分分析的基础上,根据不同的局部噪声方差,对待测图进行均匀噪声的区域分割,实现篡改区域的定位。Zeng等人[44]发现当拼接区域与原始区域噪声差较小时,一些基于噪声的图像拼接定位算法性能不佳。作者采用基于主成分分析的算法对图像进行分块噪声水平估计,通过k-means聚类从原始区域分割出篡改区域。Yao等人[45]通过探讨噪声水平函数(NLF)与相机相应函数(CRF)之间的关系,拟合了CRF约束下的NLF曲线,建立了一个贝叶斯最大后验(MAP)框架来优化NLF估计,并开发了一种基于不同来源图像块噪声水平不一致性的图像拼接检测方法。Liu等人[46]针对多目标拼接伪造场景,利用噪声水平函数(NLF)估计图像噪声与像素强度之间的关系,从而检测可疑篡改区域。2018年,Nan等人[47]提出一种新的噪声水平函数的图像拼接检测方法。作者首先将图像分成不重叠的块,将每个块的噪声方差拟合到锐利度下,通过计算图像块到拟合曲线的最小距离区分篡改区域

3. 基于光照不一致性的方法

一般来说,使用不同设备拍摄的图像会存在光照不一致性。基于此特性,Liu等人[48]在2011年提出了一种基于阴影亮度不一致性的图像拼接篡改检测框架。该框架首先提取图像中的阴影边界和半阴影区域,估计阴影的遮罩值来衡量其颜色特征。但当合成阴影和实际目标阴影一致时,该算法失效。Ke等人[49]对此提出改进,提出了基于阴影一致性的篡改图像检测方法。通过提取阴影区域和非阴影区域的纹理特征,利用相关函数来度量两种纹理特征的相似性。通过比较相似度,实现图像拼接篡改的检测。

4. 基于深度学习的方法🍉

  • Xiao等人[50]提出了一种由粗到精的两阶段检测网络(C2RNet)和稀释自适应聚类两部分组成的拼接伪造检测方法,从不同尺度的图像块中学习图像属性的差异。

  • Bappy等人[51]提出了一种利用空间域的编码器-解码器结构网络和频域的长短期记忆(LSTM)网络的双域检测方法。该网络利用更大的接受域和频域相关性,通过结合编码器和LSTM网络来分析篡改区域和非篡改区域之间的区别特征。最后使用解码器实现像素级预测图像篡改定位。

  • 进一步地,Wu等人[52]将伪造定位问题定义为局部异常检测问题,设计了Z-score特征来捕获局部异常,并提出了一种新的检测网络结构(Mantra-net)来评估局部异常

  • Bi等人[53]采用图像分割的思想,设计了一种用于图像拼接伪造检测的环形残差U-Net (RRU-Net),利用残差传播和残差反馈使得未篡改区域和篡改区域之间的图像属性差异更加明显。

  • Zhou等人[54]针对目前常见的几类局部篡改操作,结合传统特征提出了一个双流Faster R-CNN网络。不仅实现了篡改操作类型识别,更进一步地能够定位到篡改区域,在图像拼接伪造检测方面也具有比较好的性能。

目前,图像拼接伪造检测和定位问题出现了一种新的定义:给定一幅探针图像Q和一幅潜在的供体图像P。检测供体图像的区域是否已拼接到探针图像中,如果已拼接到探针图像,则提供两个掩码,指示拼接到探针中的供体图像区域和从供体图像中拼接的图像区域。这一新问题将图像拼接检测约束为一对图像,相关研究人员将其称为约束图像拼接检测问题。针对这一问题,Wu等人[55]提出了一种开拓性的CISDL方法,设计了一种新的深度卷积神经网络结构—深度匹配与验证网络(DMVN)。Ye等人[56]在继承DMVN深度密集匹配层的基础上,提出了特征金字塔深度匹配与定位方法网络(FPLN)。Liu等人[57]提出了一种面向CISDL新的对抗性学习框架的深度匹配网络(DMAC),用于生成两个高质量候选掩模,基于检测网络纠正候选掩模之间的不一致,并基于判别网络生成与真实篡改区域接近的掩模,检测网络与判别网络以对抗学习方式协同监督DMAC训练。

小结与思考

目前,除了上述图像篡改操作的取证,removal、seam carving等篡改操作的取证研究也吸引了国内外学者的广泛关注,并取得了一些阶段性成果。尤其是近年来,以卷积神经网络为代表的深度学习技术在图像篡改操作取证领域取得了突出的性能,但仍存在一些问题有待进一步研究。

(1)篡改者在使用copy-move,inpainting或者splicing操作对图像语义进行恶意篡改后,通常会使用一些后处理操作或者反取证技术掩盖操作的篡改痕迹,如何设计对不同后处理操作和反取证技术鲁棒的篡改操作取证模型是值得进一步探索的方向。

(2)针对inpainting操作检测问题,大多数取证方法都基于修复区域与未修复区域的块匹配原理,检测效率较低。如何在保证定位准确率的前提下,加快区域匹配速率是一个待解决的问题。

参考文献

[1]J. Fridrich, D. Soukal, and J. Lukas. Detection of copy-move forgery in digital images. Proceedings of Digital Forensic Research Workshop (DFRWS), Cleveland, OH, USA, 2003.

[2]M. Bashar, K. Noda, N. Ohnishi, and K. Mori. Exploring duplicated regions in natural images. IEEE Transactions on Image Processing, DOI: 10.1109/TIP.2010.2046599, 2010.

[3]D. Cozzolino, G. Poggi, and L. Verdoliva. Efficient dense¬field copy–move forgery detection. IEEE Transactions on Information Forensics and Security, vol. 10, no. 11, pp. 2284-2297, 2015.

[4]B. Mahdian, and S. Saic. Detection of copy–move forgery using a method based on blur moment in-variants,.Forensic Science International, vol. 171, no. 2, pp. 180-189, 2017.

[5]S. -J. Ryu, M. Kirchner, M. -J. Lee, and H. K. Lee. Rotation invariant localization of duplicated image regions based on zernike moments. IEEE Transactions on Information Forensics and Security, vol. 8, no. 8, pp. 1355-1370, 2013.

[6]R. Davarzani, K. Yaghmaie, S. Mozaffari, and M.Tapak. Copy¬-move forgery detection using multiresolution local binary patterns. Forensic Science International, vol. 231, no. 1, pp. 61-72, 2013.

[7]H. Huang, W. Guo, and Y. Zhang. Detection of copy-move forgery in digital images using sift algorithm. IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application (PACIIA), Wuhan, China, pp. 272–276, 2008.

[8]X. Pan, and S. Lyu. Region duplication detection using image feature matching. IEEE Transactions on Information Forensics and Security, vol. 5, no. 4, pp. 857-867, 2010.

[9]I. Amerini, L. Ballan, R. Caldelli, A.D. Bimbo, and G. Serra. A sift-based forensic method for copy-move attack detection and transformation recovery. IEEE Transactions on Information Forensics and Security, vol. 6, no. 3, pp. 1099-1110, 2011.

[10]B. Xu, J. Wang, G. Liu, H. Li, and Y. Dai. Image copy-move forgery detection based on surf. International Conference on Multimedia Information Networking and Security (MINES), Nanjing, China, pp. 889-892, 2010.

[11]F. Yang, J. Li, W. Lu, and J. Weng. Copy¬-move forgery detection based on hybrid features. Engineering Applications of Artificial Intelligence, vol. 59, pp. 73-83, 2017.

[12]E. Ardizzone, A. Bruno, and G. Mazzola. Copy move forgery detection by matching triangles of keypoints. IEEE Transactions on Information Forensics and Security, vol. 10, no. 10, pp. 2084-2094, 2015.

[13]J. Li, X. Li, B. Yang, and X. Sun. Segmentation¬ based image copy¬-move forgery detection scheme. IEEE Transactions on Information Forensics and Security, vol. 10, no. 3, pp. 507-518, 2015.

[14]M. Zandi, A. M.-Aznaveh and A. Talebpour. Iterative copy-¬move forgery detection based on a new interest point detector. IEEE Transactions on Information Forensics and Security, vol. 11, no. 11, pp. 2499-2512, 2016.

[15]Y. Li, and J. Zhou. Fast and effective image copy¬-move forgery detection via hierarchical feature point matching. IEEE Transactions on Information Forensics and Security, vol. 14, no. 5, pp. 1307-1322, 2019.

[16]Y. Wu, W. A.-Almageed, and P. Natarajan. BusterNet: Detecting copy-move image forgery with source/target localization. Proceedings of the European Conference on Computer Vision (ECCV), Munich, Germany, pp.170-186, 2018.

[17]B. Chen, W. Tan, G. Coatrieux, Y. Zheng, and Y. Q. Shi. A serial image copy-move forgery localization scheme with source/target distinguishment. IEEE Transactions on Multimedia, DOI: 10.1109/TMM.2020.3026868, 2020.

[18]M. Barni, Q. -T. Phan, and B. Tondi. Copy move source-target disambiguation through multi-branch CNNs. IEEE Transactions on Information Forensics and Security, vol. 16, pp. 1825-1840, 2021.

[19]J. Zhong, and C. Pun. An end-to-end Dense-InceptionNet for image copy-move forgery detection. IEEE Transactions on Information Forensics and Security, vol. 15, pp. 2134-2146, 2020.

[20]A. Criminisi, P. Perez, and K. Toyama. Region filling and object removal by exemplar-based image inpainting. IEEE Transactions on Image Processing, vol. 13, no. 9, pp. 1200-1212, 2004.

[21]Q. Wu, S. Sun, W. Zhu, G. Li, and D. Tu. Detection of digital doctoring in exemplar-based inpainted images. International Conference on Machine Learning and Cybernetics (ICMLC), Kunming, China, pp. 1222–1226, 2008.

[22]K. S. Bacchuwar, Aakashdeep, and K. R. Ramakrishnan. A jump patch-block match algorithm for multiple forgery detection. International Mutli-Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s), Kottayam, India, pp. 723-728, 2013.

[23]I. Chang, J. Yu, and C. Chang. A forgery detection algorithm for exemplar-based inpainting images using multi-region relation. Image and vision computing, vol. 31, no. 1, pp. 57-71, 2013.

[24]Z. Liang, G. Yang, X. Ding, and L. Li. An efficient forgery detection algorithm for object removal by exemplar-based image inpainting. Journal of Visual Communication and Image Representation, vol. 30, pp. 75-85, 2015.

[25]L. Shen, G. Yang, L. Li, X. Sun. Robust detection for object removal by exemplar-based image inpainting with post-processing. International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (FSKD), Guilin, China, pp. 2730-2736, 2017.

[26]Y. Zhao, M. Liao, F. Y. Shih, and Y. Q. Shic. Tampered region detection of inpainting JPEG images. Optik, vol. 124, no. 16, pp. 2487-2492, 2013.

[27]Q. Liu, A. H. Sung, B. Zhou, and M. Qiao. Exposing inpainting forgery in JPEG images under recompression attacks. IEEE International Conference on Machine Learning and Applications (ICMLA), Anaheim, CA, USA, pp. 164-169, 2016.

[28]H. Li, W. Luo, and J. Huang. Localization of diffusion-based inpainting in digital images. IEEE transactions on information forensics and security, vol. 12, no. 12, pp. 3050-3064, 2017.

[29]刘婷婷, 张玉金, 吴飞等. 基于梯度域导向滤波增强的图像扩散修复取证[J]. 激光与光电子学进展, 2020, vol. 57, no. 8, pp. 35-42.

[30]朱新山, 钱永军, 孙彪等. 基于深度神经网络的图像修复取证算法[J]. 光学学报, 2018, vol. 38, no. 11, pp. 97-105.

[31]X. Zhu, Y. Qian, X. Zhao, B. Sun, and Y. Sun. A deep learning approach to patch-based image inpainting forensics. Signal Processing: Image Communication, vol. 67, pp. 90–99, 2018.

[32]X. Wang, H. Wang, and S. Niu. An image forensic method for AI inpainting using faster R-CNN. International Conference on Artificial Intelligence and Security (ICAIS), New York, USA, pp. 476-487, 2019.

[33]M. Lu, and S. Niu. A detection approach using LSTM-CNN for object removal caused by exemplar-based image inpainting. Electronics, vol. 9, pp. 858, 2020.

[34]H. Li, and J. Huang. Localization of deep inpainting using high-pass fully convolutional network. IEEE International Conference on Computer Vision (ICCV), Seoul, South Korea, pp. 8301-8310, 2019.

[35]H. Wu, and J. Zhou. IID-Net: image inpainting detection network via neural architecture search and attention. IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2021.3075039, 2021.

[36]P. Kakar, N. Sudha, and W. Ser. Exposing digital image forgeries by detecting discrepancies in motion blur. IEEE Transactions on Multimedia, vol. 13, no. 3, pp. 443-452, 2011.

[37]K. Bahrami, A. C. Kot, and J. Fan. Splicing detection in out-of-focus blurred images. IEEE International Workshop on Information Forensics and Security (WIFS), Guangzhou, China, pp. 144-149, 2013.

[38]M. P. Rao, A. N. Rajagopalan, and G. Seetharaman. Harnessing motion blur to unveil splicing. IEEE Transactions on Information Forensics and Security, vol. 9, no. 4, pp. 583-595, 2014.

[39]C. Song, and X. Lin. Natural image splicing detection based on defocus blur at edges. IEEE/CIC International Conference on Communications in China (ICCC), Shanghai, China, pp. 225-230, 2014.

[40]K. Bahrami, A. C. Kot, L. Li, and H. Li. Blurred image splicing localization by exposing blur type inconsistency. IEEE Transactions on Information Forensics and Security, vol. 10, no. 5, pp. 999-1009, 2015.

[41]B. Mahdian, and S. Saic. Using noise inconsistencies for blind image forensics. Image and Vision Computing, vol. 27, no. 10, pp. 1497-1503, 2009.

[42]S. Lyu, X. Pan, and X. Zhang. Exposing region splicing forgeries with blind local noise estimation. International Journal of Computer Vision, vol. 110, no. 2, pp. 202–221, 2014.

[43]L. Zhan, and Y. Zhu. Passive forensics for image splicing based on PCA noise estimation. International Conference for Internet Technology and Secured Transactions (ICITST), London, UK, pp. 78-83, 2015.

[44]H. Zeng, Y. Zhan, X. Kang, and X. Lin. Image splicing localization using PCA-based noise level estimation. Multimedia Tools and Applications, vol. 76, no. 4, pp. 4783–4799, 2017.

[45]H. Yao, S. Wang, X. Zhang, C. Qin, and J. Wang. Detecting image splicing based on noise level inconsistency. Multimedia Tools and Applications, vol. 76, no. 10, pp. 12457–12479, 2017.

[46]B. Liu, and C. Pun. Multi-object splicing forgery detection using noise level difference. IEEE Conference on Dependable and Secure Computing (DSC), Taipei, Taiwan, pp. 533-534, 2017.

[47]Z. Nan, and L. Zhao. Blind image splicing detection via noise level function. Signal Processing: Image Communication, vol. 69, pp. 181-192, 2018.

[48]Q. Liu, X. Cao, C. Deng, and X. Guo. Identifying image composites through shadow matte consistency. IEEE Transactions on Information Forensics and Security, vol. 6, no. 3, pp. 1111-1122, 2011.

[49]Y. Ke, F. Qin, W. Min, and G. Zhang. Exposing image forgery by detecting consistency of shadow. The scientific world journal, vol. 2014, no. 3, pp. 1-9, 2014.

[50]B. Xiao, Y. Wei, X. Bi, W. Li, and J. Ma. Image splicing forgery detection combining coarse to refined convolutional neural network and adaptive clustering. Information Sciences, vol. 511, pp. 172–191, 2020.

[51]J. H. Bappy, C. Simons, L. Nataraj, B. S. Manjunath, and A. K. Roy-Chowdhury. Hybrid LSTM and encoder-decoder architecture for detection of image forgeries. IEEE Transactions on Image Processing, vol. 28, no. 7, pp. 3286-3300, 2019.

[52]Y. Wu, W. AbdAlmageed, and P. Natarajan. ManTra-Net: manipulation tracing network for detection and localization of image forgeries with anomalous features. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 9535-9544, 2019.

[53]X. Bi, Y. Wei, B. Xiao, and W. Li. RRU-Net: the ringed residual U-Net for image splicing forgery detection. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Long Beach, CA, USA, pp. 30-39, 2019.

[54]P. Zhou, X. Han, V. I. Morariu, and L. S. Davis. Learning rich features for image manipulation detection. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake, USA pp. 1053-1061, 2018.

[55]Y. Wu, W. Abd-Almageed, and P. Natarajan. Deep matching and validation network: An end-to-end solution to constrained image splicing localization and detection. ACM international conference on Multimedia (MM), Mountain View, CA, USA, pp. 1480–1502, 2017.

[56]K. Ye, J. Dong, W. Wang, B. Peng, and T. Tan. Feature pyramid deep matching and localization network for image forensics. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Honolulu, Hawaii, USA, pp. 1796–1802, 2018.

[57]Y. Liu, X. Zhu, X. Zhao, and Y. Cao. Adversarial learning for constrained image splicing detection and localization based on atrous convolution. IEEE Transactions on Information Forensics and Security, vol. 14, no. 10, pp. 2551-2566, 2019.

综述二:数字图像处理操作取证

转自公众号【隐者联盟】【极简综述17】数字图像处理操作取证

JPEG重压缩取证技术

篡改图像必然会经过重压缩这一步骤,因此数字图像重压缩检测能够为数字图像取证提供强有力的辅助依据。目前,使用最广泛的图像压缩标准是JPEG,若原始的图像是JPEG格式,篡改后的图像为达到不易于检测的效果,同样会保存为JPEG格式,则图像会进行两次JPEG压缩。现如今JPEG重压缩取证包含两个主要研究课题,一是JPEG重压缩检测,二是对JPEG重压缩区域进行定位

1. JPEG重压缩检测

JPEG压缩属于有损压缩,每次压缩都会丢失一部分信息,由于JPEG重压缩对图像数据进行了两次量化操作,引入了一些单次JPEG压缩所没有的特征,因此通过一定的统计检测可以发现图像是否经历过JPEG重压缩。

现今的重压缩检测算法大多遵循一个检测模式,第一步是从图像中找到能最大化单次压缩和双重压缩类间差异的特征;第二步则是在得到特征后,基于数据驱动训练分类器,用于识别和分类双重压缩和单次压缩

  • 比如,Shang等人[1]以DCT系数矩阵水平、垂直、对角、反对角方向差分的高阶马尔科夫转移概率作为特征,用SVM和EC分类器分类实现JPEG重压缩图像检测。
  • Zeng等人[2]提出了一种改进的密集连接的卷积网络(DenseNet)来完成双压缩图像中主JPEG压缩的检测任务。他们在网络的前端加入了一个特殊的滤波层,该层通常包含选定的滤波和,可以帮助后续网络更容易地识别图像。🍉
  • Wang等人[3]提出了一种基于四元数离散余弦变换(QDCT)域的改进马尔可夫压缩检测算法。首先,对给定JPEG图像的颜色信息提取图像构造四元数;然后,构造图像块QDCT系数矩阵,包括振幅和三个角;接着,在相应的细化过程中,由转移概率矩阵生成细化的马尔可夫特征;最后,使用支持向量机(SVM)方法进行NA-DJPEG压缩检测。然而这些统计模型大多关注变换域系数本身,忽略了JPEG压缩给变换域系数引入的相关性,使得当后压缩质量因子远小于前压缩质量因子时,难以判定双重压缩的存在性。

此外,为了更进一步获取重压缩痕迹,首次压缩时的量化步长估计是非常关键的问题。

  • Galvan等人[4]首先使用直方图滤波除去二次量化以外操作引入的直方图噪声,然后使用一个新的估计方程来估计第一次量化使用的量化步长。该方法在实际应用中可以更准确估计量化步长。然而当后压缩质量因子较小时,大量图像数据会被破坏乃至丢弃,使得这类方法检测效果不佳。
  • 此外,Thai等人[5]将量化效应和DCT系数统计相结合,对先前压缩并存储为无损的图像进行量化步长的估计。

JPEG重压缩定位

一些研究将JPEG重压缩检测和篡改区域定位相结合。

  • Yang等人[6]先提取相同频率的量化DCT系数,建立新的数据矩阵,然后考虑方向对DCT域相邻位置相关性的影响,执行12种不同方向的高通滤波模板,计算每个滤波数据的平移概率矩阵。然后利用PCA和SVM分别对特征维数进行降维和分类器训练,以此确定图像是否被篡改。
  • Wang等人[7]利用Laplacian分布来描述在拼接区域和原图像的DCT系数分布,通过估计DCT块的后验概率来确定被篡改区域。
  • Amerini等人[8]使用卷积神经网络(CNN)实现了JPEG重压缩的篡改定位。🍉
  • Zhou等人[9]使用一种双通道的快速R-CNN网络,并对其进行端到端的训练,对图像进行篡改检测。双通道之一是RGB流,其目的是从RGB图像输入中提取特征,以发现篡改特征,如强烈的对比度差、非自然的篡改边界等。另一种是利用隐写分析丰富模型滤波层提取的噪声特征,发现真实区域和篡改区域之间的噪声不一致。然后,通过双线性池化层融合来自两种流的特征,进一步合并这两种模式的检测结果。🍉

除JPEG压缩外,已经有一些学者研究更为一般的情况,估计图像可能经受过的各种变换和压缩。

  • Tagliasacchi等人[10]给出了一个一般估计使用的图像变换技术和量化步长的方法
  • Bianchi等人[11]给出了一个判定信号是否经历过格量化的最优检测子,进而将该检测方法应用于实际的场景,并判断图像是否经历过双重JPEG压缩。但该方法要求两次压缩使用的块划分必须相同

增强操作取证技术

在现实生活中,经常会遇到数码设备由于光线、环境以及设备自身性能的问题而得到不清晰的图像,导致无法辨识原始图像中的关键目标,需要对图像进行增强处理。图像增强指通过某些图像处理操作,如对比度增强、中值滤波、锐化、模糊等,对原始图像附加一些信息或变换数据,有目的地突出图像中某些“有用”信息或者抑制掩盖图像中某些“无用”信息,扩大图像中不同物体特征之间的差别,以改善图像的视觉效果,丰富信息量。然而,图像增强操作可以淡化隐藏其他篡改操作的痕迹,达到降低篡改检测性能的目的。目前,图像增强操作取证研究已经吸引了国内外学者的广泛关注,并取得了一些阶段性成果。

1. 对比度增强取证

对比度增强是一种被广泛使用的图像增强处理技术,是对图像中每个像素点的值进行非线性映射,通过累积函数对灰度值进行调整,改变图像中像素强度的整体分布,最终达到对比度的增强效果。

  • Stamm等人[12]利用像素值映射在图像直方图上的统计特征,通过观察对比度增强操作向图像直方图的高频成分添加的能量信息,检测对比度增强操作
  • Cao等人[13]提出了零波谷特征,即当图像经过对比度增强操作处理后,图像直方图能呈现出明显的波峰波谷,并且生成的波谷都是值为0的零波谷。利用零波谷特征,基于阈值化二类分类检测对比度增强操作。
  • Zhang等人[14]提出一种深度多路径网络,基于灰度直方图,通过共享多个卷积层捕获图像底层特征,并利用由多条路径组成的特定操作层学习不同对比度增强操作的特征,最后通过聚合层对原始图像和对比度增强操作处理的图像进行分类。
  • 王金伟等人[15]提出一种基于线性模型的图像对比度增强检测算法,提取图像噪声残差,采取分块策略计算每块残差的线性模型,并计算相应的功率谱密度,以整幅图像的均值功率谱密度作为分类特征,利用支持向量机进行分类。

2. 模糊取证

为了消除图像篡改在拼接边缘产生的视觉或统计上的畸变,通常会在图像篡改后使用模糊操作消除简单拼接留下的伪造痕迹。模糊操作的基本原理是对图像的局部邻近像素值进行邻域灰度平均。

  • 周琳娜等人[16]提出一种基于图像形态学滤波边缘特征的模糊操作取证方法,用同态滤波和形态学滤波增强模糊操作的图像边缘,利用离焦模糊和人工模糊的边缘特性,检测伪造图像的模糊操作痕迹
  • Su等人[17]提出一种三维模糊识别方法,将图像划分为非模糊区、离焦模糊区和运动模糊区,利用梯度信息预测不同类型的模糊区域,并采用超像素分割技术对模糊区域进行细化识别。
  • Xu等人[18]提出几种新的局部模糊度量方法,使用不同类型的图像信息,包括颜色、梯度和光谱信息,基于支持向量机,构造最优模糊检测分类器。

3. 中值滤波取证

中值滤波操作是一种高度非线性操作,由于其良好的平滑滤波性质,通常被用于反取证技术中[19-20],使得中值滤波取证越来越受到关注。

  • Kirchner等人[21]利用图像差分转移概率矩阵构造特征,检测图像是否经过中值滤波操作处理。
  • Kang等人[22]利用中值滤波残差特征,将特征相邻元素之间的关系建模为自回归模型,利用自回归系数检测中值滤波。
  • 彭安杰等人[23]提出一种基于中值滤波残差及其差分的鲁棒中值滤波取证技术,根据方向性和对称性将多方向差分特征分组,分别建立自回归模型,并提取其模型参数和直方图特征,组合成中值滤波检测特征。

4. 锐化取证

锐化滤波常用于增强图像的局部对比度,使边缘和文理等细节变得更加清晰锐利。同样,作为常用的图像润饰操作,锐化经常被用于削弱掩盖图像篡改时遗留的痕迹。

  • Cao等人[24]提出了一种有效的过冲效应测度方法,进而提取有效的指纹特征,通过阈值化分类来鉴别图像是否经历过USM锐化操作。
  • Ding等人[25]提出一种基于局部二值模式LBP的锐化检测方法,采用Canny算子进行边缘检测,将LBP应用于图像检测到的边缘像素并提取特征,基于支持向量机进行锐化分类。
  • F. Ding等人[26]利用图像USM锐化引起的纹理变化,提出一种边缘垂直二值编码的USM锐化检测方法。

几何操作取证技术

当一幅图像被篡改时,例如拷贝一副图像的某一区域覆盖到被篡改图像中,篡改者通常需要采取缩放、旋转等几何变换来掩盖篡改痕迹。而这一过程需要对图像重新采样和重构,因此图像重采样检测是数字图像取证中十分重要的研究课题。重采样取证主要包含两个主要的研究目标,第一是判断图像是否经过重采样的重采样检测,第二是估计重采样操作过程中施加于图像上的相关参数,如重采样因子、旋转角度等。

1. 缩放取证

缩放操作是最常见的几何操作,常见于篡改图像后,调整篡改区域的大小以适配图像内容。然而在实际情况中,受限于网络传输速度与机器存储容量,篡改图像在缩放前后很可能会经历JPEG压缩。

因此,涉及缩放操作的重采样取证有两大类研究方向,第一是针对无JPEG压缩的单一重采样取证场景;第二是和JPEG压缩操作相结合的复合取证场景,根据JPEG压缩出现的顺序,该场景可细分为三种复合取证场景,即Pre-JPEG重采样(JPEG格式缩放后保存为无损格式)、Post-JPEG重采样(无损格式缩放后保存为JPEG格式)和Double-JPEG重采样(JPEG格式缩放后保存为JPEG格式)三种情况。

针对无JPEG压缩的单一重采样取证场景,重采样图像中每一个像素都由原始像素与插值函数卷积而成,且像素之间隐藏着重采样痕迹。由于插值的影响,这种重采样痕迹反映在空域上体现为像素之间存在相关性[27],且相邻插值像素的间隔存在一种周期性;反映在频域上体现为存在频谱峰值,且峰值位置与放缩因子有关[28]。鉴于重采样操作的这些特点,近年来专家学者们提出了许多重采样检测算法,虽然这些算法的思路各异,但是大体都遵循一个流程。首先,从待检测图像中通过某种方式提取出残差信号,这种残差信号放大了重采样痕迹,剔除噪音与视觉信息,显性的揭露出重采样操作遗留下的周期性。根据所采用的数学模型不同,这种残差信号可以通过计算图像的二阶差分获得[29],也可以通过快速滤波计算出插值像素得到相应的概率图[30]。在得到蕴含周期性的残差信号后,第二步就是根据这种信号判别重采样操作的存在,最常用的手段是频谱方法,通过对残差信号进行傅里叶变换,由于周期函数傅里叶变换的特殊性,重采样图像的频谱图上会出现与放缩因子有关的频谱峰值[28],这些峰值可以作为重采样操作存在的证据,更进一步,根据峰值与放缩因子的关系估计出相应的放缩因子。除此之外,可以将第一步得到的残差信号视为手工设计的特征,作为输入训练一个强有力的分类器,通过数据驱动学习一个重采样判别模型[31]。更进一步,可以借鉴深度学习在图像检测领域的发展,提出用于重采样检测和因子估计的深度网络[32-35]。

然而上述方法无法直接运用于与JPEG压缩操作相结合的复合取证场景,这是因为JPEG压缩通过分块将图像保存并复原,使得JPEG图像像素之间先天就带有周期性,当与放缩操作结合时,会混淆放缩操作带来的周期性,最终形成复合的周期,使得现有的重采样图像检测算法失效。

  • 针对Pre-JPEG重采样的情况,Liu等人[36]基于自相关函数构建了重采样图像的数学模型,他们通过该模型推导出了重采样系数、插值函数和重采样谱峰位置的关系,他们提出了基于图像差分极值点距离直方图的方法,通过挖掘图像差分的规律来取证重采样操作和进行因子估计。而后,他们还提出了针对Post-JPEG重采样图像的取证方案[37],他们基于循环平稳信号分析发现Post-JPEG重采样图像上会出现一系列的对称谐波峰,并提出一种基于相位抵消的图像重采样检测和因子估计方法。
  • 除此之外,Lu等人[38]还提出了基于反缩放策略的双域联合估计算法,从频谱域和DCT域综合估计重采样因子,他们首先通过搜索匹配从Double-JPEG图像频谱中提取数个可能的候选因子,然后根据DCT域系数的独立同分布模型,使用反缩放策略得到最优估计。

2. 旋转取证

旋转操作也是常见的几何操作之一,同样涉及到图像像素重采样,在空域和频域上的操作痕迹与缩放操作有许多共通之处。

  • Wei等人将旋转操作视为一种特殊的缩放操作[39],将旋转角度与特定的缩放因子结合在一起,通过频谱峰值与缩放因子的关系推导出图像经历的旋转角度,不仅如此,他们发现不同的频谱提取操作顺序可以更加明显的突出重采样峰值特征,有利于进一步区分旋转操作和缩放操作,并在此基础上提出了只包含旋转和缩放的二次几何变换操作链恢复算法。
  • 此后,Chen等人[40]提出对图像连续几何变换的取证方法,他们基于平方信号分析图像重采样特征,将Gallagher的理论推广到连续二次几何变换领域,揭示了二次几何变换的频谱特征,并提出了更细粒度的只包含旋转和缩放的二次几何变换操作链恢复算法。随后,他们根据二维自相关函数,提出了针对旋转缩放等仿射变换的参数估计方案[41]。

操作链取证技术

实际的图像处理过程可能包含多个操作,它们按照一定的顺序共同构成图像操作链。当图像经历多种操作处理时,不同操作遗留在图像中的痕迹可能相互叠加和覆盖,从而导致某个操作的遗留痕迹被掩盖或者破坏。同时,痕迹间的相互影响与操作的执行顺序有关,当操作顺序发生变化时,最终的遗留痕迹也会有所不同。因此,由于多个操作之间的相互影响,针对单个篡改操作的取证方法难以满足图像操作链取证的实际需求。为了完整地揭示数字图像可能经历的处理过程,需要明确图像操作链包含的操作类型,多个操作的拓扑顺序,以及处理操作的关键参数。目前,图像操作链取证研究可以粗略的分为基于传统手工特征的方法和基于深度学习的方法。

1. 基于传统手工特征的方法

  • 西班牙维戈大学P. Comesaña于2012年最先提出操作链取证[42]。他从理论上分析了利用已有的单操作篡改取证算法检测图像操作链的可能性,并以量化和加性高斯白噪声组成的操作链为例进行了实验验证。随后, 他还进一步实验分析了包含更多操作的操作链拓扑结构[43]。

  • Stamm [44]等人针对对比度增强与缩放组成的二元操作链取证,提出采用直方图缺值特征和图像预测误差评价,分别进行对比度增强和图像缩放的检测,并引入了条件指纹的概念,用以单独识别对比度增强先于缩放操作的操作顺序。

  • Li [45]等人针对内容感知缩放和对比度增强组成的二元操作链取证,提出了通过计算马尔科夫一步转移概率矩阵以及提取DCT域的高维特征进行检测的方法。

  • Chu [46]等人从信息论的角度分析了操作顺序检测的可能性以及最优检测阈值的选取问题。

  • Gao等人[47]将操作可检测性问题转换为复杂假设检验问题,提出一种基于信息理论框架的图像操作链中特定操作的检测方案。

  • Chen等人[48]提出了一种基于决策融合的图像操作链中操作类型识别方法,挖掘不同图像特征,获取不同的取证证据。基于可信度计算策略,重新分配各证据权重,并通过决策融合识别操作链中包含的操作类型。

  • Liao等人[49]从操作相关性程度分析入手,开展操作链的参数估计研究。通过探究操作顺序和参数变化对生成图像及已有参数估计特征所带来的影响,将操作链中各操作间相关性分为耦合与非耦合,并设计了不同的参数估计策略。

2. 基于深度学习的方法🍉

  • Boroumand等人[50]针对特定二元操作链,通过在卷积神经网络结构中添加全局平均池化层, 实现对任意尺寸篡改图像的操作种类鉴别。
  • Stamm等人[51]基于设计的CNN约束分类器, 通过联合提取与操作序列相关的条件指纹特征, 实现了对特定二元操作序列的种类识别和顺序鉴定。
  • Chen等人[52]设计了一个自动化的神经网络,通过强化学习生成高性能的神经网络,用于多目标取证和处理历史检测。同时,利用基于模块的搜索空间,通过密集连接,提升网络设计效率。
  • Liao等人[53]提出了基于双流卷积神经网络的图像操作链取证框架,并设计了多个针对特定操作组合的预处理。该网络包括空域卷积流和变换特征提取流,利用空域卷积流提取可视篡改特征,而变换特征提取流则通过结合针对性设计的预处理从图像的变换域提取残差特征。

小结与思考

图像处理操作取证是多媒体安全领域中的热点问题,除了上述处理操作的取证,小波去噪、直方图均衡化、仿射变换等图像处理操作的取证也都受到了政治、经济、社会文化等多个领域的广泛关注。尽管图像处理取证技术已经在特定篡改操作的取证等方面取得了阶段性进展,但在研究的深度和广度上仍未成熟,还有一些亟待解决的问题,主要表现在:

  1. 在已知图像处理操作的情况下,可以通过模拟操作来训练模型,但对未知操作,如何设计对不同强度、不同操作组合均有效的取证模型是值得进一步探索的方向。

  2. 当图像经历多种处理操作编辑润饰时,不同操作的痕迹相互掩盖混淆,图像处理操作取证变得困难。大多数图像处理操作取证方法是对单个特定操作或者特定二元操作链检测有效,缺乏适用于各种图像处理操作链取证的通用理论基础。

参考文献

[1]S. Shang, Y. Zhao, and R. Ni. Double JPEG detection using high order statistic features. IEEE International Conference on Digital Signal Processing (DSP), Beijing, China, pp. 550-554, 2016.

[2]X. Zeng, G. Feng, and X. Zhang. Detection of double JPEG compression using modified DenseNet model. Multimedia Tools and Applications, vol. 78, no. 7, pp. 8183-8196, 2019.

[3]J. Wang, W. Huang, X. Luo, Y.-Q. Shi, and S. Kr. Jha. Non-aligned double JPEG compression detection based on refined Markov features in QDCT domain. Journal of Real-time Image Processing, vol. 17, no. 1, pp.7-16, 2019.

[4]F. Galvan, G. Puglisi, A. R. Bruna, and S. Battiato. First quantization matrix estimation from double compressed JPEG images. IEEE Transactions on Information Forensics and Security, vol. 9, no. 8, pp. 1299-1310, 2014.

[5]T. Hai Thai, R. Cogranne, F. Retraint, and T. Doan. JPEG quantization step estimation and its applications to digital image forensics. IEEE Transactions on Information Forensics and Security, vol. 12, no. 1, pp. 123-133, 2017.

[6]P. Yang, R. Ni, and Y. Zhao. Double JPEG compression detection by exploring the correlations in DCT domain. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Honolulu, HI, USA, pp. 728-732, 2018.

[7]W. Wang, J. Dong, and T. Tan. Exploring DCT coefficient quantization effects for local tampering detection. IEEE Transactions on Information Forensics and Security, vol. 9, no. 10, pp. 1653-1666, 2014.

[8]I. Amerini, T. Uricchio, L. Ballan, and R. Caldelli. Localization of JPEG double compression through multi-domain convolutional neural networks. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, USA, pp. 1865-1871, 2017.

[9]P. Zhou, X. Han, V. I. Morariu, and L. S. Davis. Learning Rich Features for Image Manipulation Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, USA, pp. 1053-1061, 2018.

[10]M. Tagliasacchi, M. V.-Scarzanella, P. L. Dragotti, and S. Tubaro. Transform coder identification. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, BC, Canada pp. 5785-5789, 2013.

[11]T. Bianchi, A. Piva, and F. Pérez-González. Near optimal detection of quantized signals and application to JPEG forensics. IEEE International Workshop on Information Forensics and Security (WIFS), Guangzhou, China, pp. 168-173, 2013.

[12]M. C. Stamm, and K. J. Ray Liu. Forensic detection of image manipulation using statistical intrinsic fingerprints. IEEE Transactions on Information Forensics and Security, vol. 5, no. 3, pp. 492-506, 2010.

[13]G. Cao, Y. Zhao, R. Ni, and X. Li. Contrast enhancement-based forensics in digital images. IEEE Transactions on Information Forensics and Security, vol. 9, no. 3, pp. 515-525, 2014.

[14]C. Zhang, D. Du, L. Ke, H. Qi, and S. Lyu. Global contrast enhancement detection via deep multi-path network. International Conference on Pattern Recognition (ICPR), Beijing, China, pp. 2815-2820, 2018.

[15]王金伟, 吴国静. 基于线性模型的图像对比度增强取证[J]. 网络空间安全, 2019, vol. 10, no. 8, pp. 47-54.

[16]周琳娜, 王东明, 郭云彪, 杨义先. 基于数字图像边缘特性的形态学滤波取证技术[J]. 电子学报, 2008, vol. 36, no. 6, pp. 1047-1051.

[17]B. Su, S. Lu, and C. L. Tan. Blurred image region detection and classification. ACM International Conference on Multimedia (ACM MM), New York, NY, USA, pp. 1397-1400, 2011.

[18]W. Xu, J. Mulligan, D. Xu, and X. Chen. Detecting and classifying blurred image regions. IEEE International Conference on Multimedia and Expo (ICME), San Jose, CA, USA, 2013.

[19]M. Kirchner, and R. Bohme. Hiding traces of resampling in digital images. IEEE Transactions on Information Forensics and Security, vol. 3, no. 4, pp. 582-592, 2008.

[20]M. C. Stamm, and K. J. Ray Liu. Anti-forensic of digital image compression. IEEE Transactions on Information Forensics and Security, vol. 6, no. 3, pp. 1050-1065, 2011.

[21]M. Kirchner, and J. Fridrich. On detection of median filtering in digital images. The SPIE-Media Forensics and Security, San Jose, USA, pp. 754110-1-75411012, 2010.

[22]X. Kang, M. C. Stamm, A. Peng, and K. J. Ray Liu. Robust median filtering forensics using an autoregressive model. IEEE Transactions on Information Forensics and Security, vol. 8, no. 9, pp. 1456-1468, 2013.

[23]彭安杰, 康显桂. 基于滤波残差多方向差分的中值滤波取证技术[J]. 计算机学报, 2016. vol. 39, no. 3, pp. 503-515.

[24]G. Cao, Y. Zhao, R. Ni, and A. C. Kot. Unsharp masking sharpening detection via overshoot artifacts analysis. IEEE Signal Processing Letters, vol. 18, no. 10, pp. 603-606, 2011.

[25]F. Ding, G. Zhu, and Y. Q. Shi. A novel method for detecting image sharpening based on local binary pattern. International Conference on Digital Forensics and Watermarking (IWDW), Berlin, Germany, pp. 180-191, 2013.

[26]F. Ding, G. Zhu, J. Yang, J. Xie, and Y. Q. Shi. Edge perpendicular binary coding for USM sharpening detection. IEEE Signal Processing Letters, vol. 22, no. 3, pp. 327-331, 2015.

[27]A. C. Popescu, and H. Farid. Exposing digital forgeries by detecting traces of resampling. IEEE Transactions on Signal Processing, vol. 53, no. 2, pp. 758-767, 2005.

[28]A. C. Gallagher. Detection of linear and cubic interpolation in JPEG compressed images. Canadian Conference on Computer and Robot Vision (CRV), Victoria, BC, Canada, pp. 65-72, 2005.

[29]B. Mahdian, and S. Saic. Blind authentication using periodic properties of interpolation. IEEE Transactions on Information Forensics and Security, vol. 3, no. 3, pp. 529-538, 2008.

[30]M. Kirchner. Fast and reliable resampling detection by spectral analysis of fixed linear predictor residue. ACM Workshop on Multimedia and Security (MM & Sec), Oxford, UK, pp. 11-20, 2008.

[31]X. Feng, I. J. Cox, and D. Gwenaël. Normalized energy density-based forensic detection of resampled images. IEEE Transactions on Multimedia, vol. 14, no. 3, pp. 536-545, 2012.

[32]B. Bayar, and M. C. Stamm. On the robustness of constrained convolutional neural networks to JPEG post-compression for image resampling detection. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, pp. 2152-2156, 2017.

[33]B. Bayar, and M. C. Stamm. Constrained convolutional neural networks: A new approach towards general purpose image manipulation detection. IEEE Transactions on Information Forensics and Security, vol. 13, no. 11, pp. 2691–2706, 2018.

[34]C. Liu, and M. Kirchner. CNN-based rescaling factor estimation. ACM Workshop, pp. 119–124, 2019.

[35]S. Luo, J. Luo, W. Lu, Y. Fang, J. Zeng, S. Shi, and Y. Zhang. Resampling factor estimation via dual-stream convolutional neural network. Computers, Materials & Continua, vol. 66, no. 1, pp. 647–657, 2021.

[36]X. Liu, W. Lu, Q. Zhang, J. Huang, and Y. Shi. Downscaling factor estimation on pre-JPEG compressed images. IEEE Transactions on Circuits and Systems for Video Technology, vol. 30, no. 3, pp. 618-631, 2019.

[37]Q. Zhang, W. Lu, T. Huang, S. Luo, Z. Xu, and Y. Mao. On the robustness of JPEG post-compression to resampling factor estimation. Signal Processing, vol. 168, pp. 107371, 2020.

[38]W. Lu, Q. Zhang, S. Luo, Y. Zhou, J. Huang, and Y. Q. Shi. Robust estimation of upscaling factor on double JPEG compressed images. IEEE Transactions on Cybernetics, pp. 1-13, 2021.

[39]W. Wei, S. Wang, X. Zhang, and Z. Tang. Estimation of image rotation angle using interpolation-related spectral signatures with application to blind detection of image forgery. IEEE Transaction on Information Forensics and Security, vol. 5, no. 3, pp. 507-517, 2010.

[40]C. Chen, J. Ni, Z. Shen, and Y.Q. Shi. Blind forensics of successive geometric transformations in digital images using spectral method: theory and applications. IEEE Transactions on Image Processing, vol. 26, no. 6, pp. 2811-2824, 2017.

[41]J. Ou, and J. Ni. Blind estimation of affine transformation using 2D cyclostationarity of resampled images. Mippr: Multispectral Image Acquisition, Processing, & Analysis International Society for Optics and Photonics, 2015.

[42]P. Comesaña. Detection information theoretic measures for quantifying the distinguishability between multimedia operator chains. IEEE International Workshop on Information Forensics and Security (WIFS), Tenerife, Spain, pp. 211-216, 2012.

[43]P. Comesaña, and F. P. González. Multimedia operator chain topology and ordering estimation based on detection and information theoretic tools. International Conference on Digital Forensics and Watermarking (IWDW), Berlin, Germany, pp. 213-227, 2013.

[44]M. C. Stamm, X. Chu, and K. J. Ray Liu. Forensically determining the order of signal processing operations. IEEE International Workshop on Information Forensics and Security (WIFS), Guangzhou, China, pp. 162-167, 2013.

[45]J. Li, Y. Zhao, and R. Ni. Detection of seam carving and contrast enhancement operation chain. International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MMSP), Adelaide, SA, Australia, pp. 235-238, 2015.

[46]X. Chu, Y. Chen, and K. J. Ray Liu. Detectability of the order of operations: An information theoretic approach. IEEE Transactions on Information Forensics and Security, vol. 11, no. 4, pp. 823-836, 2016.

[47]S. Gao, X. Liao, and X. Liu. Real-time detecting one specific tampering operation in multiple operator chains. Journal of Real-Time Image Processing, vol. 16, pp. 741-750, 2019.

[48]J. Chen, X. Liao, and Z. Qing. Identifying tampering operations in image operator chains based on decision fusion. Signal Processing: Image Communication, vol. 95, pp. 116287-1-116287-10, 2021.

[49]X. Liao, and Z. Huang. A framework for parameters estimation of image operator chain. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, pp. 2787-2791, 2020.

[50]M. Boroumand, and J. Fridrich. Deep learning for detecting processing history of images. Electronic Imaging, pp. 213-1-213-9, 2018.

[51]B. Bayar, and M. C. Stamm. Towards order of processing operations detection in JPEG-compressed images with convolutional neural networks. Electronic Imaging, pp. 211-1-211-9, 2018.

[52]Y. Chen, Z. Wang, Z. J. Wang, and X. Kang. Automated design of neural network architectures with reinforcement learning for detection of global manipulations. IEEE Journal of Selected Topics in Signal Processing, vol. 14, no. 5, pp. 997-1011, 2020.

[53]X. Liao, K. Li, X. Zhu, and K. J. Ray Liu. Robust detection of image operator chain with two-stream convolutional neural network. IEEE Journal of Selected Topics in Signal Processing, vol. 14, no. 5, pp. 955-968, 2020.

Video manipulation Detetion综述

转自公众号【隐者联盟】【极简综述19】数字视频再编辑篡改及被动取证检测技术综述

从公开发表论文数量来看,目前绝大多数的篡改被动检测算法都是专用篡改检测算法,且效果十分显著,但需要已知篡改方法和类型的先验知识.通用篡改检测算法针对多种或未知篡改检测准确率良好但也具有一定局限性,实用性和泛化能力有待提高,且对篡改类型的辨识能力不足,只能判断是否经历了篡改操作;针对多类型+多次篡改的溯源篡改操作链识别能力有限,这也是未来可能的研究方向之一。

通用篡改检测算法的最大优势就是快速筛选可疑视频和辨识经历一次及以上篡改的数字视频,然后再用专用算法探测或穷举识别其可能的篡改操作类型或者溯源篡改操作链。总而言之,两者技术是互补关系。

数字视频再编辑篡改技术

数字视频编辑篡改技术的一般定义:为了视频画面提质、传输、存储,或改变内容内在关系的后编辑操作的技术集合。这一后编辑操作可能是常规的需求,也可能是恶意的目的。目前,本文中将常见的数字视频编辑篡改技术分为四大类

  1. 数字视频文件再编辑的篡改方法:本文是指针对数字视频的码流、或者编码参数、容器等的编辑,达到对原始视频文件的再编辑目的,一般不改变视频内容。例如,码率重采样、视频格式转码、容器转换、各种滤波器操作等后处理操作

  2. 数字视频内容再编辑的篡改方法:本文是指针对数字视频的部分解码或完全解码后内容进行内容级编辑操作,达到对原始视频内容的再编辑目的。例如,视频帧间插入/删除攻击、帧内复制粘贴攻击操作等;

  3. 数字视频内容生成的篡改方法:本文是指针对数字视频内容的部分生成替换或全部生成虚拟目标全局替换,进行视频内容级编辑操作,达到对原始视频内容的再编辑目的。例如,使用StyleGAN网络生成虚拟人物或目标的视频内容等操作;

  4. 数字视频的重拍摄篡改方法:本文是指针对数字视频内容的重新数字采集再编辑操作,达到对原始视频内容的再编辑目的。例如,利用数字设备对屏幕画面进行重新拍摄和再编辑操作

1. 视频文件再编辑篡改

视频文件再编辑篡改是指在不改变视频内容的前提下对视频文件的编辑操作,比如转码操作、分辨率提升/降低、平滑操作、锐化操作、去噪操作、信息隐藏操作等。

例如,数据隐藏技术可以在不影响视觉效果的前提下,向视频内嵌入信息,实现对视频文件的编辑。例如,北京交通大学的李赵红[4]等人研究了P帧种各尺寸PU划分类型在隐写前后的数目变化,构建了25维和3维特征用来检测HEVC视频的块划分模式隐写算法。帧率变化是通过提升或下降视频的帧率方法来达到编辑视频文件的目的。Khoubani[5]等人基于模糊平滑的快速四元数小波运动补偿进行帧率上转换。这篇论文使用图像序列的相位来考虑QWT运动估计,实现了更准确的运动估计、更少的后处理流程和更低的复杂度。码率变换是另外一种视频文件编辑的方法,Kevin[6]等人提出一种通过求解优化问题来选择比特率的方法即Bola算法。Yin等人[7]提出了MPC算法。Kim[8]等人结合残差学习方式提出了IFCNN网络,用以取代视频编码中的环路滤波算法,即把未经环路滤波的重建图像直接输入网络进行增强处理。

2. 数字视频内容编辑篡改方法

视频内容篡改是指部分解码或全解码后,针对音频、图象、视频中特定对象的操作过程,其结果是改变内容的原始属性,导致内容的不可信。从视频帧目标被攻击角度来看,数字视频内容编辑篡改分为帧间编辑篡改和帧内编辑篡改

视频的帧间编辑篡改方式主要有:帧删除篡改,即删除原始视频的至少一帧或连续多帧的操作;帧插入篡改,即非同源视频的帧片段插入到原视频帧序列中的操作;帧复制粘贴篡改,即同源视频的帧片段在相同视频中不同时间轴上复制插入到原视频中的操作。

  • 针对这类视频内容的帧间编辑篡改问题,2012年孙锬锋等人[9]提出了视频帧间篡改中主要篡改类型的定义,即包括视频帧复制粘贴、帧插入、帧删除等,其中对于帧的复制粘贴,可以划分为同源和异源两类,同源的帧复制表示复制的对象来自于当前视频片段,而异源帧复制粘贴是将其他视频的片段复制到当前视频片段中。
  • 2014年王婉等人[10]根据场景的差异性将视频内容编辑篡改划分为静止背景下的内容编辑篡改以及包含运动背景的篡改场景,并提出了一种可以同时检测帧删除,帧插入及帧复制的算法。
  • 同年柏正尧等人[11]针对帧间篡改对帧间相关性进行研究,并将非负张量分解(Nonnegative tensor factorization, NTF)算法应用到了视频帧间篡改检测中。
  • 冯春晖等人[13]通过分析残差强度在不同宏块间分布是否具有波动性来检测视频是否被帧删除,并定位删除点的位置。该作者在[13]的基础上进一步分析了具有丰富运动信息下的视频帧间篡改场景,考虑到运动视频容易导致帧间数据特征的变化,作者从帧间差异的角度,提出了一种删帧检测算法[14],对复杂篡改环境下的序列中不同干扰帧进行分析,并利用运动残差特征区分不同干扰帧和删帧位置处的帧,进而提出一种去帧内编码处理算法,使算法能够应对运动信息带来的影响。
  • 不同于视频内容帧间篡改,视频内容帧内篡改并非以帧为单位进行篡改,而是以目标为单位进行编辑篡改操作,2021年Yang Quanxin等人[12] 指出视频帧内篡改主要有空域复制粘贴,帧内目标移除等,作者发现帧内篡改将引起视频在时空域上的高频信息的波动。

3. 数字视频内容生成篡改方法🍉

视频内容生成方法是指在GAN网络及其衍生网络根据对抗原理,即生成器和判别器构成网络,从一幅噪声图像不断逼近真实图象的方法,其生成局部或全部图象和视频并不是真实的物理拍摄获得,从而达到以假乱真的目的。

  • 例如,Elor[15]等人的方案可以生成含有人物的视频,并且可以通过扭曲来轻微改变人物的头部姿势。因为这种方法是基于单个目标图像的,它从源视频中的嘴唇内部复制到目标视频,因此仅能部分保留目标视频中的人物身份。
  • Kim[16]等人的做法相对于以前的方法而言,可以生成更为逼真的视频。
  • Zhouhang[17]等人使用音频来生成视频。他们将一个无声的视频分解为两部分,一部分是人物身份信息,另一部分是语音信息,这里的语音信息是指通过人物嘴部动作传递出来的广义语音信息,而非听到的声音。
  • Fried[18]等人基于文本来编辑视频。给定任意文本,该方法就能改变一段视频中人物所说的话,同时保持无缝的试听流。要对一段视频中人物讲话内容进行改变,只需要编辑一下想要表达的文本内容,这种方法十分地简单易行。
  • Suwajanakorn[19]等人对人脸中的口型进行替换,生成最终的伪造视频。

4. 数字视频重拍摄的篡改方法

数字视频重拍摄的篡改方法是指物理上用物理设备对数字视频内容播放进行重拍摄而造成内容时空含义混乱,达到篡改内容的目的,也就是“二次拍摄篡改编辑”。

现有的重拍摄的编辑篡改方法主要根据拍摄设备、拍摄场景以及拍摄对象的差异进行分类[20]。Lee[20]等人提出目前重拍摄视频大部分产生于视频投放到液晶屏幕(LCD)上时被重拍摄,因此该作者重点研究LCD显示的视频重拍摄编辑篡改,提出一种梳状纹理的特征识别其重拍摄操作。P. Bestagini[21]等人提出了同步性不一致的重拍摄编辑篡改,作者利用这种不一致性产生的块重影现象对重拍摄视频进行检测。另外,Xavier [22]等人根据电影被投影时引起屏幕空间上的亮度重分配效应、垂直投影在屏幕上的图像的稳定性效应、高频闪烁的显示屏与摄像机快门之间的相互作用这三种效应设计不同的重拍摄编辑篡改场景。Mahdian[23]等人分析了不同品牌LCD显示屏的重拍摄视频在频谱波纹上的差别。除了针对LCD屏幕的重拍摄,重拍摄编辑篡改还包括以手持摄像机拍摄的视频。此类视频中的运动分为帧内运动和手持引起的全局运动,其中全局运动为手持重拍摄独有的效应。Marco [24]等人提出了具有的全局运动特征的手持拍摄视频编辑篡改。另外,图像重拍摄编辑篡改方面的几个经典场景同样也可以在视频重拍摄上适用。比如Thongkamwitoon[25]针对图像的类别差异构建重拍摄图像集合,通过挖掘彩色图像和黑白图像在色度上的差异引起的重拍摄图像在像素上的失真特性对图像进行重拍摄检验。Anjum等人[26]通过挖掘图像中高层次边缘细节特征,进而根据在原始图像和重拍摄图像中不同组别的边缘像素数量具有一定差异这一特性,构建具有不同边缘特性的重拍摄场景并进行分类。

数字视频被动取证检测技术

上述数字视频编辑技术表明了:

  1. 数字视频无论是编码复杂性,还是数据量的规模庞大,都给篡改编辑带来了更多的可利用空间和隐藏空间;

  2. 篡改攻击的角度多样性,导致了针对篡改类型的通用识别算法实现具有较大难度。

针对上述篡改编辑类型,对目前已经取得的被动检测成果进行介绍和分析。我们把数字视频篡改被动取证技术分为三类

  1. 时空域特征检测技术。即无论是音频、图象、视频完全解码后,就会是一种结构化或半结构化的媒体原始文件,在原始文件上,可以构建各种物理、几何、光学等的传统数学特征模型,而这些数学模型通常是某种目标特征属性的固定模式、或者连续变化的某种特征数据表征。篡改编辑的过程中会破坏这种上述固定内在模式,引起连续性质的某些突变、或者出现某些特殊非典型痕迹残留分布等情况,而这些情况就可以通过针对时空特征建模方法来加以检测和识别。代表性算法有光流特征、运动场特征、亮度变化率特征、块效应强度特征等。

  2. 编码域特征检测技术。即在数字媒体不完全解码的情况下,码流域、编码域的编码参数、编码域的预测模式、编码域分块模式等环境下,同样具有潜在的首次编码后的系数分布规律和特殊内在统计模式。而这种潜在的分布规律和模式,需要构建高维特征模型,如高阶概率统计模型、多模态融合特征模型等才能洞悉其规律。而且这种高维特征模型对人眼和人耳不可感知的细微编辑痕迹更为敏感。而且编码技术本身也会对数字媒体产生失真效果,因此,对完全解码后媒体数据可能带来意想不到的影响。但是在编码域对篡改痕迹直接展开分析的同时,已经充分考虑了编码失真的影响,在检测过程中可以更加精细化感知各种篡改编辑残留的痕迹。代表性算法有PU数量统计特征、预测残差分布特征、宏块类型变化特征、DCT系数分布特征

  3. 深度特征检测技术。即无论数字媒体是什么容器格式或者什么编码,首先需要生成大量的篡改样本,把篡改样本进行初步的预处理之后,直接送到深度网络模型中加以学习叠代,直到获得预期稳定的输出,此时深度网络特征模型已经完成了参数训练,此后只需要给定输入就可给出分类结果。当然目前为止,这样简单粗暴的方法效果并不明显。学者们纷纷提出了多样化的深度网络模型、预处理方法、增加Attention机制、修剪网络无意义的层、增加强化学习的机制等等。通过深度网络自主学习的能力,学习到人类目前无法感知的特征,增强对篡改数据规律知识的学习,最终能否优于人类设计特征的效果。但是目前为止,大部分的深度网络模型对全局学习的效果不佳。代表性算法有卷积神经网络、双通道残差网络、遗传卷积网络、混合深度学习网络

1. 时空域特征检测技术

在数字视频的拍摄过程中,相邻帧或像素之间往往存在一定的关联,而对于视频的篡改往往会破坏这种关联性,因此视频篡改操作往往会在时空与留下痕迹。在现有工作中,时空域的检测算法能够直接对篡改痕迹像素或帧之间的异常特性进行建模,但算法复杂度往往较高。

  • 文献[27]中,巢娟等人提出了一种基于光流一致性的帧间篡改检测方法,针对帧插入和帧删除的细微差别,提出了两种不同的检测方案。实验表明,该方案在识别帧插入和帧删除模型方面取得了较好的效果。
  • 在文献[28]中,吴俞醒等人提出了一种基于速度场一致性的视频帧间伪造(连续帧删除和连续帧复制)检测算法。在文献[3]中,许强等人结合GOP结构非对齐的HEVC重编码引起的质量下降特性,通过分析HEVC编码标准中帧间编码对重建像素值的影响,提出基于帧间质量下降机制分析的检测算法,该算法对GOP结构非对齐的重编码检测问题能取得0.98以上的AUC值。
  • 而对于视频转码检测,在[29]中,许强构建了去块滤波模式决策特征以及SAO补偿特征来进行重编码的检测,算法分别在公开数据集上进行了验证,算法能取得97.21%的平均准确率。
  • 在文献[30]、[31]中,何沛松等人将待测视频解码为一连串连续的视频帧后,根据块效应强度变化规律的不同能够对视频双编码视频进行检测。
  • 在文献[32]中,杨高波等人提出了一种基于边缘强度的被动取证方法来检测候选视频中可能的视频帧速率上转换(FRUC)操作。平均检测准确率达94.5%。
  • 在文献[33]中,边山等人在在大量实验的基础上,发现目前大多数视频编辑软件中采用的帧速率上转换算法不可避免地会在生成的视频帧序列的帧间相似性中引入一些周期性的伪影。

综上所述,时空域特征检测技术可以较全面的解决帧间和帧内篡改编辑的被动检测问题,但仍存在一下问题

  1. 视频包含快速运动的信息,或者包含场景切换,算法的性能将下降。这个问题是目前被动检测算法中普遍存在的鲁棒性问题,有待改善。

  2. 在重编码比特率较低时检测性能会出现明显下降。这是因为视频重编码时比特率(画面质量)较低,会造成严重的信息失真,与篡改编辑痕迹耦合在一起,造成检测困难。这一问题应该系统研究比特率变化与篡改编辑痕迹变化之间的关系。

  3. 时空特征检测技术基本上都是针对专用篡改编辑而设计的,因此通用性和泛化能力都十分有限。有的算法对复合篡改编辑的方式显得无能为力。这也是未来要解决的重要问题之一。

2. 编码域特征检测技术

视频重编码操作是在首次编码的基础上再一次执行编码操作,基于编码域特征统计分析的视频重编码痕迹检测算法实际上就是根据重编码操作对视频编码后的参数扰动关系构建检测依据,依赖手工设计的特征来进行检测的算法。

  • 在文献[34]中,DAVID等人提出了基于The Variation of Prediction Footprint(VPF)的二次编码篡改检测算法。
  • 文献[35]中,该团队在MPEG-2标准上提出了一种基于广义VPF(G-VPF)的双编码检测算法,在首次编码使用QP(QP1)大于重编码使用QP(QP2)的情况下达到了98%以上的准确率。
  • 在文献[38]中,赵耀等人通过对预测模式特征(PMF)的分析,提出了一种用于假高清视频场景的重编码检测方案,该方法首先从四个方向的帧内预测模式中提取一个四维特征。其次,从三个预测模式中提取了6维特征。最后,将这两种特征集结合到PMF中,检测出伪造高清视频,并进一步估计其原始QPs和比特率。
  • 在文献[39]中,蒋兴浩等人提出了一种基于帧内预测模式的新方法。文献分析了帧内编码的质量退化机理,并充分考虑了帧内编码的误差来源,建立了等效误差模型,随后提出了基于帧内预测模式统计特征的双HEVC编码检测特征模型。最后,用720p和1080p的HEVC视频代替低分辨率(CIF或QCIF)视频进行了实验。实验结果表明,与现有方法相比,该方法具有更好的效率。此外,该方法对不同的编码配置具有较强的鲁棒性。

综上所述,该类检测算法能有效的检测普通场景下的重编码操作,但存在一些不足

  1. 算法过度依赖解码器对参数的提取,并且容易受到反取证手段的攻击。

  2. 当视频包含强运动成分信息或场景切换时,算法性能将下降。

  3. 智能编码技术的兴起,给重编码检测带来了新的危机。

3.深度特征检测技术🍉

近年来,卷积神经网络(CNN)已经在多媒体取证领域取得成功应用。CNN 能够从训练样本中自动有效地学习层次化的特征表达。受此启发,一系列算法利用卷积神经网络来解决视频重编码痕迹检测问题。

  • 在文献[40]中,何沛松等人首先建立视频帧集合,以 3 帧为单位进行分块,若 3 帧中第二帧为重定位I帧,则该片段定义为正样本,否则为负样本。通过这种预处理操作,构建一个卷积神经网络,利用平均池化,作者能很好地检测出重定位I帧。
  • 类似的在[41]中许强等人通过构建 Genetic CNN,来进行AVC视频中重定位 I 帧的检测。不同于一般的卷积神经网络,Genetic CNN 能够结合遗传算法,实现自动设计网络架构的目的,通过算法对比,该算法的有效性得到验证。
  • 在[42]中,何沛松等人通过构建一个混合深度神经网络来揭露伪高清的HEVC重编码视频。通过提取基于块的残差信号,并构建一个双支路的网络进行检测,不同分支的输出向量将拼接后再联合优化得到逐块的检测结果。最后采用多数投票(local-to-global)策略得到最终的检测结果。
  • 除此之外,何沛松等人在[2]中提出了一种混合神经网络,通过从编码域中的编码信息中学习鲁棒时空表示,来揭示具有双重编码的HEVC视频中异常帧。
  • 在[43]中,Gan等人提出了一种基于VGG-11卷积神经网络的视频帧内伪造取证算法,该算法能自动检测视频伪造帧。该算法首先将视频解编码为一系列帧,计算出每帧的运动剩余映射,提取隐写特征。然后,以四个不同的隐写特征样本集作为训练集,并将测试集作为训练和测试模型。通过对比实验,选择了最佳性能特征。最后,通过伪造视频对伪造的帧进行了成功的标记。

综上所述,深度神经网络的运用在一定程度上解决了传统算法的缺陷,虽然这些算法都能够取得较高的准确率,但其仍然存在一系列局限性

  1. 大多数基于深度神经网络的算法对样本数量要求较高,并且需要耗费大量的时间训练网络模型。

  2. 这些算法都是以重定位I帧或者块为单位作为输入,如何设计高效的网络实现视频级别的重编码痕迹检测是今后研究的重要方向。

  3. 深度神经网络在提升了人工检测效率和准确率,但其深度网络的可解释性和学习到特征的可解释性仍然是不透明的,很多时候“过学习”的现象或者“欠学习”的问题普遍存在。这一问题有待进一步改善。

总结与展望

  1. 篡改编辑(攻击)残留痕迹与数字媒体编码技术的依赖关系尚存在空白领域有待探索。数字媒体各类编码标准的不同特性内在机制和信息失真模型理论、特征模型建模的方法论、算法检测框架的性能等问题,还需要不断完善,逐步建立起完整的被动检测理论体系;

  2. 人工智能理论、深度网络学习方法与对抗篡改攻击技术互为对抗和相互融合是未来的发展趋势。目前新型的VVC编码已经采用了众多的神经网络模块替代传统编码框架中画面提质模块、滤波模块、运动预测模块等,未来的人工智能技术与编码深度结合之下,如何检测篡改攻击痕迹是更加复杂和困难的挑战;

  3. 该领域的专用算法尽管已经取得了丰硕的成果,但还存在着诸多边界条件的限制,离实际应用存在较大差距;新型篡改攻击方法不断涌现;新的深度学习模型削弱了篡改痕迹等问题;新的编码算法使得篡改痕迹被隐藏;概率性取证检测转化为确定性检测的方法等一系列问题。

  4. 目前尽管已经出现了若干的公开视频篡改数据库,但是覆盖篡改类型还比较有限,数据库建设的标准也不统一,数据库的原始样本也存在容器、编码标准混乱的情况,对支撑整个领域研究还是远远不够的;

  5. 在该领域的客观评价指标大多数仅限于传统的检测准确率、算法效率、定位准确率等指标,但这些指标无法满足对篡改检测算法性能进行全方位的评价,对未来算法应用落地是一个不容回避的问题,亟待更多的学者参与其中。

参考文献:

[1] Mi Z, Jiang X, Sun T, GAN-Generated Image Detection with Self-Attention Mechanism against GAN Generator Defect[J]. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(5): 969-981.

[2] Peisong He;Haoliang Li;Hongxia Wang;Shiqi Wang;Xinghao Jiang;Ruimei Zhang, Frame-wise Detection of Double HEVC Compression by Learning Deep Spatio-temporal Representations in Compression Domain[J]. IEEE Transactions on Multimedia, 2020, DOI: 10.1109/ TMM.2020.3021234.

[3] Xu Q, Jiang X, Sun T, Detection of HEVC double compression with non-aligned GOP structures via inter-frame quality degradation analysis, Neurocomputing,2021, 452: 99-113.

[4] Zhong hao Li, Meng, Laijin; Xu, Shutong; Li, Zhaohong; Shi, Yunqing; Liang, Yuanchang, A HEVC Video Steganalysis Algorithm Based on PU Partition Modes[J]. Computers, Materials & Continua, 2019, 59(2):563-574.

[5] Khoubani Sahar and Moradi Mohammad Hassan. A fast quaternion wavelet-based motion compensated frame rate up-conversion with fuzzy smoothing: application to echocardiography temporal enhancement[J]. Multimedia Tools and Applications, 2020, 80(6):8999-9025.

[6] Kevin Spiteri and Rahul Urgaonkar and Ramesh K. Sitaraman. BOLA: Near-Optimal Bitrate Adaptation for Online Videos[J]. IEEE/ACM Transactions on Networking, 2020, PP(99):1-14.

[7] Yin, Xiaoqi, Jindal, Abhishek, Sekar, Vyas,Sinopoli, Bruno, A Control-Theoretic Approach for Dynamic Adaptive Video Streaming over HTTP[J]. Computer communication review, 2015, 45(4):325-338.

[8] Park W S, Kim M., CNN-based in-loop filtering for coding efficiency improvement[C]// 2016 IEEE 12th Image, Video, and Multidimensional Signal Processing Workshop (IVMSP). IEEE, 2016, DOI: 10.1109 /IVMSPW.2016.7528223.

[9] Sun T, Jiang X, Chao J, A Novel Video Inter-frame Forgery Model Detection Scheme Based on Optical Flow Consistency[J]. International Workshop on Digital Watermarking, 2012. [10] Wang W, Jiang X, Wang S, et al. Identifying Video Forgery Process Using Optical Flow[M]//Digital-Forensics and Watermarking. Springer Berlin Heidelberg, 2014: 244-257.

[11] Yin L, Bai Z, Yang R. Video forgery detection based on nonnegative tensor factorization[C]//Information Science and Technology (ICIST), 2014 4th IEEE International Conference on. IEEE, 2014: 148-151.

[12] Quanxin Yang, Dongjin Yu, Zhuxi Zhang, Ye Yao, Linqiang Chen, Spatiotemporal Trident Networks: Detection and Localization of Object Removal Tampering in Video Passive Forensics[J]. IEEE Transactions on Circuits and Systems for Video Technology. 2020/12, DOI: 10.1109/TCSVT.2020.3046240.

[13] Feng C, Xu Z, Zhang W, et al. Automatic location of frame deletion point for digital video forensics[C]//Proceedings of the 2nd ACM workshop on Information hiding and multimedia security. ACM, 2014: 171-179.

[14] Feng C, Xu Z, Jia S, Zhang W, Xu Y, Motion-adaptive frame deletion detection for digital video forensics[J], IEEE Transactions on Circuits and Systems for Video Technology, 2016, 27(12):2543–2554.

[15] Averbuch-Elor, Hadar, Cohen-Or, Daniel, Kopf, Johannes. Bringing portraits to life[J]. ACM Transactions on Graphics, 2017, 36(6) :1-13.

[16] Kim Hyeongwoo, Theobalt Christian, Carrido Pablo. Deep video portraits[J]. ACM Transactions on Graphics, 2018, 37(4):1-14.

[17] Zhou H, Liu Y, Liu Z, et al. Talking Face Generation by Adversarially Disentangled Audio-Visual Representation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:9299-9306.

[18] Fried, O., Tewari, A., Zollh, Zollhöfer M et al. Text-Based Editing of Talking-Head Video[J]. ACM Trans. Graph. 38(4), 2019: 1-14.

[19] Supasorn Suwajanakorn, Steven M. Seitz. Synthesizing Obama: learning lip sync from audio[M]. ACM, 2017.

[20]Lee J W, Lee M J, Lee H Y, et al. Screenshot identification by analysis of directional inequality of interlaced video[J]. Eurasip Journal on Image & Video Processing, 2012, (1):1-15.

[21] Bestagini P, Visentini-Scarzanella M, Tagliasacchi M, et al. Video recapture detection based on ghosting artifact analysis[C]//Image Processing (ICIP), 2013 20th IEEE International Conference on. IEEE, 2013: 4457-4461.

[22] Rolland-Neviere, X., Chupeau, B., Doerr, G., et al. (2012) Forensic Characterization of Camcorded Movies: Digital Cinema vs. Celluloid Film Prints[C]//Proceedings of SPIE—The International Society for Optical Engineering, Burlin-game, 9 February 2012, 83030R-83030R-11.

[23] Mahdian B, Novozamsky A, Saic S. Identification of aliasing-based patterns in re-captured LCD screens[C]//Image Processing (ICIP), 2015 IEEE International Conference on. IEEE, 2015: 616-620.

[24] Visentini-Scarzanella M, Dragotti P L. Video jitter analysis for automatic bootleg detection[C]//Multimedia Signal Processing (MMSP), 2012 IEEE 14th International Workshop on. IEEE, 2012: 101-106.

[25] Thongkamwitoon T, Muammar H, Dragotti P L. An image recapture detection algorithm based on learning dictionaries of edge profiles[J]. Information Forensics and Security, IEEE Transactions on, 2015, 10(5): 953-968.

[26] Anjum, A., Islam, S. Recapture detection technique based on edge-types by analysing high-frequency components in digital images acquired through LCD screens[J]. Multimed Tools Appl, 2020,79: 6965–6985.

[27] Chao J, Jiang X, Sun T. A novel video inter-frame forgery model detection scheme based on optical flow consistency[C]//International Workshop on Digital Watermarking. Springer, Berlin, Heidelberg, 2012: 267-281.

[28] Wu Y, Jiang X, Sun T, et al. Exposing video inter-frame forgery based on velocity field consistency[C]//2014 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2014: 2674-2678.

[29] Qiang XU, Xinghao Jiang, Tanfeng Sun*, Alex C. Kot, Detection of transcoded HEVC videos based on in-loop filtering and PU partitioning analyses[J], Signal Processing: Image Communication, 2021, 92:116109.

[30] He P, Sun T, Jiang X, et al. Double compression detection in MPEG-4 videos based on block artifact measurement with variation of prediction footprint[C]// International Conference on Intelligent Computing. Springer. 2015: 787–793.

[31] He P, Jiang X, Sun T, et al. Detection of double compression in MPEG-4 videos based on block artifact measurement[J]. Neurocomputing, 2017, 228: 84–96.

[32] Yao Y, Yang G, Sun X, et al. Detecting video frame-rate up-conversion based on periodic properties of edge-intensity[J]. Journal of Information Security and Applications, 2016, 26: 39–50.

[33] Bian S, Luo W, Huang J. Detecting video frame-rate up-conversion based on periodic properties of inter-frame similarity[J]. Multimedia tools and applications, 2014, 72(1): 437–451.

[34] Vazquezpadin D, Fontani M, Bianchi T, et al. Detection of video double encoding with GOP size estimation[C]// IEEE International Workshop on Information Forensics and Security (WIFS), 2012:151-156.

[35] Vazquez-Padin D, Fontani M, Shullani D, et al. Video Integrity Verification and GOP Size Estimation Via Generalized Variation of Prediction Footprint[J]. IEEE transactions on information forensics and security, 2020, (15):1815-1830.

[36] Li, Q., Wang, R. and Xu, D., Detection of double compression in HEVC videos based on TU size and quantized DCT coefficients[J]. IET Inf. Secur., 2019, (13): 1-6.

[37] Yao H., Ni R., Zhao Y., Double compression detection for H.264 videos with adaptive GOP structure. Multimedia Tools and Applications, 2020, (79):5789-5806.

[38] Yu Y , Yao H , Ni R , et al. Detection of fake high definition for HEVC videos based on prediction mode feature[J]. Signal processing, 2020, 166(Jan.):107269.1-107269.11.

[39] X.H, Jiang, Q. Xu, T.F. Sun, Bin Li, Peisong He, Detection of HEVC double compression with the same coding parameters based on analysis of intra coding quality degradation process[J]. IEEE Transactions on Information Forensics and Security, 2019, (15): 250-263.

[40] He P, Jiang X, Sun T, et al. Frame-wise detection of relocated I-frames in double compressed H.264 videos based on convolutional neural network[J]. Journal of Visual Communication and Image Representation, 2017, (48): 149-158.

[41 Xu Q, Jiang X, Sun T, et al. Relocated I-Frames Detection in H. 264 Double Compressed Videos Based on Genetic-CNN[C]. in: 2018 Asia-Pacifc Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). 2018: 710-716.

[42] He P, Li H, Li B, et al. Exposing Fake Bitrate Videos Using Hybrid Deep-learning Network from Recompression Error[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, (99):1-13.

[43] Gan Y, Yang J, Lai W. Video object forgery detection algorithm based on VGG-11 convolutional neural network[C]//2019 International Conference on Intelligent Computing, Automation and Systems (ICICAS). IEEE, 2019: 575-580.

鲁棒水印算法综述

综述一:鲁棒图像水印算法综述

转自公众号【隐者联盟】鲁棒图像水印算法综述

传统数字文件的传输过程只是在电子信道中进行,通过网络或硬存储设备对电子文件进行流转和分发,所以,传统的数字水印技术往往只需考虑电子传输信道的鲁棒性,如:JPEG压缩,滤波,噪声等。但随着新媒体技术和设备的发展,信息传输的方式发生了巨大的变化,随着打印机,扫描仪,手机,屏幕等高端数字产品的便携化和普及化,文件传输过程不仅会在数字信道中发生,还会在跨媒介信道如打印扫描,打印拍照,屏幕拍照的信道中发生。通常跨媒介信道包含复杂的处理过程

传统的针对数字信道的水印算法不能很好的适用于跨媒介信道中,因为这样的记录方式能在保证载体内容质量的前提下很大程度的抹除附加水印信号,对水印的提取提出了新的挑战。目前工业界对数字水印提出的新需求就集中体现在数字水印需要具有“跨媒介鲁棒性”。近几年来,通过跨媒介传输泄露公司私密信息的案例屡见不鲜,同时这种泄密方式也不易被察觉和追溯,所以突破“跨媒介鲁棒性”难题,设计新一代数字水印技术,对于促进新媒体技术的产业应用和商业推广具有重要意义。

抵抗电子信道失真的鲁棒图像水印算法

传统的针对电子信道失真的鲁棒图像水印算法已经被广泛研究,为了应对电子信道中的图像处理失真,大多方法是通过寻找空域或频域的不变量,在这些不变量的基础上进行水印算法设计来完成水印的嵌入和提取过程的。因为这些电子信道的失真过程大多能通过已知的图像处理来模拟,所以只要针对性的寻找对这些图像处理过程稳定的系数,就能保证算法的鲁棒性。

  • 如对于JPEG压缩失真,Kang等人[1]提出将扩频水印嵌入到小波域低频分量中,实现了对JPEG压缩的出色的鲁棒性。

  • 文献[2]的方案将水印嵌入在轮廓波中,导致修改量集中在图像内容轮廓上,同样对JPEG压缩具有很强的鲁棒性。

这两种方式都是发现了小波低频分量和轮廓分量对于JPEG过程有很强的鲁棒性,所以在这些区域的操作能很好的保证水印算法对JPEG压缩的鲁棒性。同样的,一般算法还具有对滤波操作和高斯噪声的鲁棒性。而上述几种失真不会改变水印的位置信息,不产生同步失真。

但有一类失真影响到水印的定位过程,那就是几何失真。几何失真如平移,旋转,放缩,裁剪等,一般抵抗几何失真的方法也是寻找几何不变量,在频域分析的基础上找到足够稳定的频域系数,实现对几何失真的鲁棒性

  • Zhang等人[3]构建了一组仿射变换不变量,并在这组变量上实现嵌入和提取,从而实现了对多种几何失真的鲁棒性。
  • Pereira等人[4]提出在傅里叶域中嵌入模板,提取水印时会比较提取的模板和原有模板,得到恢复几何失真的参数。
  • 除了常见的全局几何失真之外,局部的几何失真更加难以恢复,会对水印造成更大的损害。[5]提出了一种基于图像内容统计信息的水印方案,从而不必恢复局部几何失真也能检测到水印信息。
  • [6]先设计了一种特征,然后根据该特征划分图像像素类。该水印方案结合了特征不变量和统计信息,从而实现了对局部几何失真的鲁棒性。

目前,针对不同的图像处理或几何变换失真,几乎都能找到相应的解决方案,但随着智能设备的发展,仅仅抵抗电子信道失真已经远远不能满足现有版权保护的需求。现阶段,更为需要的,是针对跨媒介信道失真的鲁棒水印算法。

抵抗跨媒介信道失真的鲁棒图像水印算法

目前,最为常见的三种跨媒介传输信道是打印扫描信道打印拍照信道屏幕拍照信道。而目前已经有部分工作在考虑针对这三种信道的鲁棒水印算法。

1. 打印扫描信道

对于打印扫描信道而言,平移,旋转,缩放这些几何失真是打印扫描过程中最典型的三种失真,换言之,能抵抗几何失真的数字水印算法能对打印扫描过程有一定的鲁棒性。目前常见的一类做法是在变换域中寻找稳定的系数嵌入水印来实现打印扫描鲁棒性。

  • Lin 等人[7] 和 Zheng 等人[8] 提出将水印嵌入在傅里叶梅林域,然后使用逆对数极坐标映射(inverse log-polar mapping, ILPM)方法来抵抗旋转,放缩和平移(Rotation,Scaling,Translation,RST)失真。

  • 而 Kang 等人[9] 指出 ILPM 可能会产生差值失真从而缩小了嵌入域,所以他们建议使用均匀对数极坐标映射(uniform log-polar mapping,ULPM)。

这类方法典型的特点是能通过图像的频域变换,找到在RST失真前后稳定的系数,根据系数的相关性或相对关系来实现水印的嵌入过程,水印的嵌入既可以使用传统的扩频水印的思想,也可以使用量化索引调制的思想,但重要的是找到合适的频域系数进行分析。

2. 打印拍照信道

对于打印拍照过程,其可以看做是打印扫描过程的增强过程。除了打印造成的失真,该过程中还经历了镜头失真,光照失真和其它失真。相比于打印扫描过程而言失真更为严重,也更难以用数字化的失真来模拟。目前为止,打印拍照鲁棒水印可以被大致分为两类。一类是从打印扫描鲁棒水印发展而来的基于变换的方法。

  • 如Delgado 等人[10] 在Kang等人算法的基础上增加了一个边框定位算法,从而能利用边框进行图像的校准与定位,从而很好的解决了由拍摄过程带来的镜头失真问题。
  • 而另一类方法则是基于模板叠加的方法,而这类方法是由 Nakamura等人[11]率先提出的,他们提出使用不同角度的正交模板来表达不同的水印比特“ 0/1 ”,然后通过线性分块叠加的方式进行水印的嵌入过程。在提取端,针对这些模板的特点,设计相应的滤波器进行水印的提取。
  • 与此相同,Pramila 等人[12-15]通过划分区间的方式扩充水印模板的信息表达容量,从而使得一个模板能表达多比特消息,同时,他们还优化了水印提取的算法,通过预处理和霍夫检测的方案从失真图像中提取出相应的模板方向,从而实现消息的同步与提取。
  • Kim 等人[16] 提出使用伪随机序列产生的模板来表达水印,多个水印模板实现正交的性质,同时,一个模板只表达1比特信息,而在提取端,他们使用互相关函数来实现消息的准确提取。从已有的打印拍照鲁棒算法可以看出,实现鲁棒性有两个重要的步骤,第一步就是进行水印的同步,先定位到原始水印的起止位置,然后再实现水印的嵌入与提取。同时,使用空域模板叠加的算法也不失为一种有效的抵抗打印拍照过程的方案,只要能找到足够鲁棒的表达水印的模板特征,使用模板叠加的算法就能有效的保证打印拍照的鲁棒性。

3. 打印拍照信道

对于屏幕拍照过程,这一过程随着屏读时代的到来日渐常见,而使用这种方式进行文件泄密也是现阶段而言最难解决的问题。相比于打印拍照而言,屏摄过程的光照和采样失真更为严重

  • Fang等人[17]总结了屏摄过程中最为特殊的三种失真:镜头失真,光照失真和摩尔纹失真。并结合已有的模板水印的方案,提出了一种基于强度SIFT定位和DCT系数相对关系的屏摄鲁棒数字水印算法,该算法有效的实现了屏摄场景下水印的嵌入与提取。
  • 同时,针对于文档载体,Fang等人[18]也提出了一种基于翻转自相关的水印方案,通过设计特殊形式的底纹,能有效的在表达水印信号的同时满足水印区域的同步操作。Cheng等人[19]提出制造摩尔纹实现屏幕内容溯源,以达到保护版权的作用。所提出的方案根据当前设备ID在屏幕内容的平滑区域修改,将消息嵌入摩尔纹。提取端根据摩尔纹的特性定位到嵌入区域,解码出溯源信息。
  • Guglemann 等人[20]提出了一种屏幕水印方案,通过在屏幕前层叠加一层亮度不同的模板来实现消息的实施嵌入和提取,模板的亮度编码了不同的消息。
  • 而为了提升模板水印算法的能力,Fang等人[21]提出将深度神经网络引入到提取端,从而设计出了一种深度模板水印算法,通过构造合理的模板表达信号,并利用深度学习进行针对性的训练,算法有效的保证了屏摄鲁棒性。
  • 同时,Fang等人[22]也借鉴了屏幕相机通信领域的想法,提出了一种基于分色相和注意力网络的屏摄鲁棒水印算法,利用人眼对高频信息不敏感的性质,有效的在保证鲁棒性的前提下,提升了屏摄水印的透明性。尽管目前已经有较多算法关注了屏摄场景,但并不能很好的满足所有屏摄条件下的鲁棒性。所以屏摄鲁棒性仍然是现阶段数字水印算法最需关注的性能之一。

在上述的数字水印算法中,嵌入端的算法大多为人工设计的方案,通过人为设计的规则进行水印的嵌入,在提取端,使用传统特征或深度学习特征进行消息的提取。而目前随着深度学习的发展,使用深度学习特征代替人工设计特征已成为目前深度学习水印算法的主流。使用深度神经网络嵌入端能很好的发挥深度学习的特征拟合能力,实现高质高效的嵌入,从而很好的在嵌入端和提取端进行联动,保证鲁棒性与视觉质量。接下来我们介绍基于深度神经网络的数字水印算法。

4. 基于END模型的深度鲁棒图像水印算法🍉

现有的基于深度神经网络的鲁棒图像水印框架大多都以编码器-噪声层-解码器(Encoder-Noiser-Decoder,END)为主干结构,如图所示:

其中,编码器部分负责将水印序列以不易被察觉的方式嵌入到原始载体中,噪声层则负责往嵌入水印后的图像里添加噪声,以生成相应的对抗训练集,解码器负责将水印信号从失真的图像中提取出来。整个框架要求所有部分都可导,从而能进行端到端的训练。而在编码阶段,根据是否需要自适应于原始图像载体,算法又可以分为自适应编码[23,25-30]和非自适应编码[24]两种。

可以看出,无论是否需要原始载体的参与,编码器都能通过神经网络有效的实现信息的表达与嵌入,这能很好的保证算法的透明性。但难点在于,如果需要整个网络的鲁棒性得到提升,算法需要在噪声层可导,否则就不能对整个框架进行联合训练,从而达到很好的鲁棒性。对于传统的电子信道的可导失真如高斯噪声等,直接在噪声层中添加噪声,不会产生不可导的影响,这使得编码器与解码器能进行有效的联合训练,达到较好的鲁棒性,而对于不可导噪声如JPEG压缩,跨媒介信道传输,由于噪声层不可导,使得编码器与解码器之间的梯度回传断开,使得端到端的训练无法完成。那么对于这种不可导的失真,目前有三种常用的做法

  1. 使用可导的失真对不可导失真进行模拟。

    • 对于JPEG压缩,Zhu等人[23]提出模拟JPEG压缩,利用JPEG-Mask舍弃高频系数,保留一定数量的低频系数,并且通过JPEG-Drop对系数采用渐进式滤除。

    • Luo等人[29]以及Ahmadi等人[32]通过设计一系列可微分的函数来模拟JPEG压缩的每一步。

    • 对于打印拍照的失真,Tancik等人[27]提出了一种模拟打印拍照的方法,使用透视变化,色彩变化,JPEG压缩等系列操作近似了打印拍照带来的失真,从而使得原本不可导的打印拍照过程能通过近似的方式纳入端到端训练过程。

但是这样的方法有一个较大的缺陷,就是算法对不可导失真的鲁棒性很大程度的依赖于模拟过程的准确性。

  1. 使用真实数据训练的网络替代噪声层

    这种方法的思想是,当噪声不可导时,我们能使用网络来模拟这一不可导的过程,而后,将这一模拟网络当作噪声层加入到端到端的训练过程。

    • Wengrowski等人[35]设计了一个网络用于模拟屏摄失真,同时,他们生成了大量的“屏幕-手机”拍摄的数据用于训练模拟网络。最终将模拟网络加入到噪声层中进行训练,达到良好的屏摄鲁棒性。但这样的方法有两个缺点,第一,生成数据集工程量较大,耗费大量的人力和财力。第二,使用这种方式生成的网络普适性较差,可能会出现过拟合的现象,仅对训练集中的样本有较好的能力。
  2. 分离噪声层。

    这一方法的思想是由于解码器的任务只是从失真图像中提取出水印信息,所以解码器的训练无需噪声层的参与,仅需失真样本即可

    • 所以Liu等人[33]提出将编码器,解码器和噪声层分离,形成一个两阶段的方案。第一阶段先初始化一个无噪声的端到端的网络,之后,在第二阶段,使用第一阶段的编码器生成数据并进行失真攻击,利用失真后的图像对解码器进行针对性的增强训练,这样解码器就能有效的对失真后的特征进行拟合,从而也绕过了不可导的问题。
    • 2020年,Zhang等人[34]将JPEG压缩视为一种特殊的噪声,在反向传播时并不经过JPEG压缩部分。从而分离了噪声层中不可导的部分,实现了训练过程。但这样的方式并未从根源上解决失真的问题,所以他们的鲁棒性并没有非常优越。

除了对不可导失真的应对策略,现阶段,在失真分配上也有一些的方法被提出,

  • [23,32]在训练时每批训练一种单一类型的失真,交替训练。
  • [24]提出了一种新的分类策略,他们将每批数据再分组,每组包含一种失真类型,每批包含所有失真类型。这种新策略使得网络收敛的更快。
  • 在解决未知失真问题上,[29]利用对抗的思想解决该问题。
  • 此外,[26]提出了一个不变空间的新方法,他们在训练时不引入任何失真,而是通过一个全连接层,将编码器生成的3通道信息映射到N通道上,解码器基于N通道信息(不变空间)解码。从实验结果显示,他们的算法对于某些攻击达到了较好的效果。
  • 近年来也有学者在水印嵌入时引入注意力机制。[31]设计了一个反向梯度注意力模版,用于提高水印框架的鲁棒性。他们将模版作为一种权重与载体图像相乘,然后在调制后的图像上提取特征,根据解码端提取的水印和原始水印的损失动态的调整模版。
  • [28]等人基于注意力机制提高含水印图像的视觉质量,他们利用一个注意力网络生成一个注意力模版,基于该模版将水印嵌入到人类视觉不敏感的位置。

总结与展望

随着数字技术的发展和数字产品的普及,版权和隐私保护的需求日益旺盛。这也使得数字水印技术的需求日益增长,要求也日益严格。尽管数字水印技术已经被广泛研究,但作为一种多媒体领域的伴生技术,多媒体技术的发展也对数字水印技术的性能提出了新的要求。无论是基于传统特征的数字水印技术,还是基于深度学习特征的数字水印技术,都存在着一些方向有待我们进一步挖掘与研究。

  1. 对跨媒介传输过程的鲁棒性

    跨媒介传输尤其是屏摄过程仍然是目前数字水印算法最需关注的问题。如何有效的保证多种条件下(如拍摄部分屏幕,大角度拍摄,失焦拍摄等)的鲁棒性能,仍然是水印需要解决的问题。

  2. 针对不同图像的透明性

    透明性的优劣一定程度上决定了水印收到恶意攻击的可能性,也决定了水印算法的适用面。而目前为止,为了保证鲁棒性,往往需要牺牲一定的透明性,即通过提升嵌入强度或增加嵌入区域的方式来实现。所以设计一个能保证高鲁棒性且高透明性的算法仍然是水印最重要的一环,尤其对于基于深度学习的水印算法。此外,针对不同场景如电商场景,图标图像场景,高透明性的需求也是算法能否实用的重要指标。

  3. 数字水印的容量

    水印容量是水印算法能在多大范围内使用的重要指标。大容量的数字水印算法能更大程度的保护更多产品的版权,同时,也能更精准的实现泄密的溯源问题。而目前针对跨媒介信道的数字水印技术往往水印容量较低,这与鲁棒性的要求息息相关,如何能在保证鲁棒性的前提下提升水印容量,也是数字水印算法需要关注的重点要求。

参考文献

[1] Xiangui Kang, Jiwu Huang, Yun Q Shi and Yan Lin, "A DWT-DFT composite watermarking scheme robust to both affine transform and JPEG compression," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, no. 8, pp. 776-786, Aug. 2003, doi: 10.1109/TCSVT.2003.815957.

[2] H. Sadreazami and M. Amini, "A Robust Image Watermarking Scheme Using Local Statistical Distribution in the Contourlet Domain," in IEEE Transactions on Circuits and Systems II: Express Briefs, vol. 66, no. 1, pp. 151-155, Jan. 2019, doi: 10.1109/TCSII.2018.2846547.

[3] H. Zhang et al., "Affine Legendre Moment Invariants for Image Watermarking Robust to Geometric Distortions," in IEEE Transactions on Image Processing, vol. 20, no. 8, pp. 2189-2199, Aug. 2011, doi: 10.1109/TIP.2011.2118216.

[4] S. Pereira and T. Pun, "Robust template matching for affine resistant image watermarks," in IEEE Transactions on Image Processing, vol. 9, no. 6, pp. 1123-1129, June 2000, doi: 10.1109/83.846253.

[5] S. Xiang, H. J. Kim and J. Huang, "Invariant Image Watermarking Based on Statistical Features in the Low-Frequency Domain," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 18, no. 6, pp. 777-790, June 2008, doi: 10.1109/TCSVT.2008.918843.

[6] H. Tian, Y. Zhao, R. Ni, L. Qin and X. Li, "LDFT-Based Watermarking Resilient to Local Desynchronization Attacks," in IEEE Transactions on Cybernetics, vol. 43, no. 6, pp. 2190-2201, Dec. 2013, doi: 10.1109/TCYB.2013.2245415.

[7] C. Y. Lin, M. Wu, J. A. Bloom, I. J. Cox, M. L. Miller and Y. M. Lui, "Rotation, scale, and translation resilient watermarking for images," in IEEE Transactions on Image Processing, vol. 10, no. 5, pp. 767-782, May 2001, doi: 10.1109/83.918569.

[8] D. Zheng, J. Zhao and A. El Saddik, "RST-invariant digital image watermarking based on log-polar mapping and phase correlation," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, no. 8, pp. 753-765, Aug. 2003, doi: 10.1109/TCSVT.2003.815959.

[9] X. Kang, J. Huang and W. Zeng, "Efficient General Print-Scanning Resilient Data Hiding Based on Uniform Log-Polar Mapping," in IEEE Transactions on Information Forensics and Security, vol. 5, no. 1, pp. 1-12, March 2010, doi: 10.1109/TIFS.2009.2039604.

[10] Delgado-Guillen, L., J. J. García-Hernández and C. Torres-Huitzil. “Digital watermarking of color images utilizing mobile platforms.” In 2013 IEEE 56th International Midwest Symposium on Circuits and Systems (MWSCAS) (2013): 1363-1366.

[11] Atsushi Katayama, Takao Nakamura, Masashi Yamamuro, and Noboru Sonehara. 2004. New high-speed frame detection method: Side Trace Algorithm (STA) for i-appli on cellular phones to detect watermarks. In Proceedings of the 3rd international conference on Mobile and ubiquitous multimedia (MUM '04). Association for Computing Machinery, New York, NY, USA, 109–116. DOI:https://doi.org/10.1145/1052380.1052396

[12] Anu Pramila, Anja Keskinarkaus, and Tapio Seppänen. 2009. Reading Watermarks from Printed Binary Images with a Camera Phone. In Proceedings of the 8th International Workshop on Digital Watermarking (IWDW '09). Springer-Verlag, Berlin, Heidelberg, 227–240. DOI:https://doi.org/10.1007/978-3-642-03688-0_21

[13] Anu Pramila, Anja Keskinarkaus, and Tapio Seppänen. Toward an interactive poster using digital watermarking and a mobile phone camera.In Signal, Image and Video Processing, 2012, 6(2): 211­222.

[14] Pramila, A., Keskinarkaus, A., Takala, V. et al. Extracting watermarks from printouts captured with wide angles using computational photography. Multimed Tools Appl 76, 16063–16084 (2017). https://doi.org/10.1007/s11042-016-3895-z

[15] Anu Pramila, Anja Keskinarkaus, Tapio Seppänen, Increasing the capturing angle in print-cam robust watermarking. In Journal of Systems and Software, Volume 135, 2018, Pages 205-215, ISSN 0164-1212, https://doi.org/10.1016/j.jss.2017.10.029.

[16] Kim W., Lee S.H., Seo Y. (2006) Image Fingerprinting Scheme for Print-and-Capture Model. In: Zhuang Y., Yang SQ., Rui Y., He Q. (eds) Advances in Multimedia Information Processing - PCM 2006. PCM 2006. Lecture Notes in Computer Science, vol 4261. Springer, Berlin, Heidelberg. https://doi.org/10.1007/11922162_13

[17] H. Fang, W. Zhang, H. Zhou, H. Cui and N. Yu, "Screen-Shooting Resilient Watermarking," in IEEE Transactions on Information Forensics and Security, vol. 14, no. 6, pp. 1403-1418, June 2019, doi: 10.1109/TIFS.2018.2878541.

[18] H. Fang et al., "A Camera Shooting Resilient Watermarking Scheme for Underpainting Documents," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 30, no. 11, pp. 4075-4089, Nov. 2020, doi: 10.1109/TCSVT.2019.2953720.

[19] Yushi Cheng et al., “mID: Tracing Screen Photos via Moire Patterns.” In 30th USENIX Security Symposium (USENIX Security 21), 2021

[20] Gugelmann D, Sommer D, Lenders V, et al. Screen watermarking for data theft investigation and attribution. 2018 10th International Conference on Cyber Conflict (CyCon). IEEE, 2018: 391­408.

[21] H. Fang et al., "Deep Template-Based Watermarking," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 31, no. 4, pp. 1436-1451, April 2021, doi: 10.1109/TCSVT.2020.3009349.

[22] H. Fang et al., "TERA: Screen-to-Camera Image Code with Transparency, Efficiency, Robustness and Adaptability," in IEEE Transactions on Multimedia, doi: 10.1109/TMM.2021.3061801.

[23] Zhu, Jiren, et al. "Hidden: Hiding data with deep networks." Proceedings of the European conference on computer vision (ECCV). 2018.

[24] Zhang C, Benz P, Karjauv A, et al. Udh: Universal deep hiding for steganography, watermarking, and light field messaging[J]. Advances in Neural Information Processing Systems, 2020, 33: 10223-10234.

[25] Baluja S. Hiding images in plain sight: Deep steganography[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 2066-2076.

[26] Zhong X, Huang P C, Mastorakis S, et al. An Automated and Robust Image Watermarking Scheme Based on Deep Neural Networks[J]. IEEE Transactions on Multimedia, 2020.

[27] Tancik M, Mildenhall B, Ng R. Stegastamp: Invisible hyperlinks in physical photographs[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2117-2126.

[28] Yu C. Attention based data hiding with generative adversarial networks[C] //Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(01): 1120-1128.

[29] Luo X, Zhan R, Chang H, et al. Distortion agnostic deep watermarking[C] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13548-13557.

[30] Jia J, Gao Z, Chen K, et al. RIHOOP: Robust Invisible Hyperlinks in Offline and Online Photographs[J]. IEEE Transactions on Cybernetics, 2020.

[31] Zhang H, Wang H, Li Y, et al. Robust Watermarking Using Inverse Gradient Attention[J]. arXiv preprint arXiv:2011.10850, 2020.

[32] Ahmadi M, Norouzi A, Karimi N, et al. ReDMark: Framework for residual diffusion watermarking based on deep networks[J]. Expert Systems with Applications, 2020, 146: 113-157.

[33] Liu Y, Guo M, Zhang J, et al. A novel two-stage separable deep learning framework for practical blind watermarking[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1509-1517.

[34] Zhang C, Karjauv A, Benz P, et al. Towards Robust Data Hiding Against (JPEG) Compression: A Pseudo-Differentiable Deep Learning Approach[J]. arXiv preprint arXiv:2101.00973, 2020.

[35] Wengrowski E, Dana K. Light field messaging with deep photographic steganography[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1515-1524.

[36] Haribabu Kandi, Deepak Mishra, and Subrahmanyam RK Sai Gorthi. Exploring the learning capabilities of convolutional neural networks for robust image watermarking. Computers & Security, 2017.

[37] Mun S M, Nam S H, Jang H U, et al. A robust blind watermarking using convolutional neural network[J]. arXiv preprint arXiv:1704.03248, 2017.

综述二: 神经网络模型水印

转自公众号【隐者联盟】神经网络模型水印

构建训练有素的神经网络模型需要付出巨大的代价,这使得如何保护神经网络模型的知识产权不受侵害变得尤为重要。显然,通过向神经网络模型嵌入水印可以用来保护神经网络模型的知识产权,简称神经网络模型水印。

评价指标

借鉴多媒体水印技术的评价指标,神经网络模型水印还需要考虑:水印嵌入量、水印保真度、水印唯一性(不能从未添加水印的任意神经网络模型中重构出水印)、计算复杂度(嵌入/提取水印的运算量)、安全性(攻击者重建水印的难度)、鲁棒性(抵抗水印攻击的能力)和普适性等。

现有方法

1. 水印嵌入的角度

从水印嵌入的角度看,可以将主流方法大致归为三类:构造特殊的输入样本(输入层)、调整神经网络的结构或参数(中间层)、标记神经网络的输出结果(输出层)。

  • 第一类方法利用神经网络在特殊样本集上的预期输出承载水印。

    例如,文献[2]对输入添加特定的模式,并通过更改标签,使神经网络学习到特定的模式,建立起特定的模式与更改后的标签之间的对应关系,水印检测时,依据目标神经网络在添加有特定模式的样本集上的输出结果来确定产权,相关工作还包括标签扩容[3]、对抗样本[4]等。

  • 第二类方法最为直观,是指通过修改神经网络的结构或参数来承载水印。

    例如,文献[1]通过添加关联水印的正则化项使神经网络在训练的过程中将水印自动嵌入在模型的参数当中,在此基础上,文献[5]提出利用额外的神经网络改进水印嵌入和提取的性能。相关工作还包括抖动调制[6]、植入指纹[7]、补偿机制[8]和添加特殊层[9]等。

  • 第三类方法通过调制神经网络的输出结果,达到承载水印的目的。例如,文献[10-12]都是对神经网络的输出图像添加水印,能够在输出图像中检测水印以鉴定产权。

2. 水印提取的角度

可以将主流方法大致归为三类:白盒、黑盒和无盒。

  • 白盒水印是指提取者能够访问目标网络的内部结构和参数,并能与之交互(输入/输出查询);
  • 黑盒水印是指提取者不能掌握目标网络的全部细节,但能与之交互;
  • 无盒水印是指提取者既不能完全掌握目标网络的细节,也不能与之交互,但能够通过其他手段收集到由目标网络制造的数据。

许多修改网络参数的方法可归类为白盒水印,基于后门或对抗样本的方法多属于黑盒水印,通过对神经网络的输出添加水印则可以实现无盒认证,如文献[12]。

3. 水印攻击的角度

攻击者有三种选择:“攻击嵌入”、“攻击提取”和“提升自身实力,与之共存”。

  • 第一种攻击的目的是去除已嵌入的水印,典型的攻击手段包括模型重训练、模型微调、模型压缩和剪枝等。
  • 第二种攻击的目的是让水印难以重构,例如,通过对输入样本或输出结果进行干扰(如篡改输入样本、伪造输出结果等),可以使水印检测失败。
  • 第三种攻击的目的是植入或伪造对攻击者有利的新水印,造成产权鉴定出现歧义。

由于水印嵌入者和水印提取者之间存在联盟关系,前两种攻击缺少明确的划分界线。当神经网络模型为多个成员所共享,还需要避免联盟成员进行合谋。此外,对于攻击者而言,他的攻击行为原则上不能以严重损害神经网络在原始任务上的性能为代价。

拓展讨论

从研究对象的角度看,神经网络是具有学习和推理功能的图信号。所以,神经网络模型水印本质上是对“功能”和“图信号”添加水印。在此基础上,可以衍生出“功能水印”和“图水印”两个概念。
利用数字水印保护神经网络模型让受保护的神经网络从具有一个功能(原始任务)变成具有两个功能(原始任务、承载水印)或更多。

  • 因此,“功能水印”的内涵至少包含这一点:通过向神经网络植入新功能,将新功能作为“水印”,可用于保护产权。例如,文献[13]提出了“隐藏信息隐藏”新框架,同时保障了隐蔽通信中的“行为安全”和“内容安全”。由于向神经网络植入了新功能,故该成果也可用于保护神经网络模型的知识产权。
  • 就图水印而言,它是在不严重损害图信号价值的条件下,嵌入水印,水印多为图结构,也可以是数值序列,图水印已经在软件水印、社交网络水印方面取得了成功的应用(如文献[14, 15]),如何将图水印应用于神经网络模型,值得探索。

参考文献

[1] Yusuke Uchida, Yuki Nagai, Shigeyuki Sakazawa,Shin'ichi Satoh. Embedding watermarks into deep neural networks. Proc. ACM on International Conference onMultimedia Retrieval, pp. 269-277, 2017.

[2] Jialong Zhang, Zhongshu Gu, Jiyong Jang, Hui Wu,Marc Ph. Stoecklin, Heqing Huang, Ian Molloy. Protecting intellectual propertyof deep neural networks with watermarking. Proc.Asia Conference on Computer and Communications Security, pp. 159-172, 2018.

[3] Qi Zhang, Leo Yu Zhang, Jun Zhang, Longxiang Gao,Yong Xiang. Protecting IP of deep neural networks with watermarking: a newlabel helps. Proc. Pacific-AsiaConference on Knowledge Discovery and Data Mining, pp. 462-474, 2020.

[4] Erwan Le Merrer, Patrick Pérez, Gilles Trédan. Adversarialfrontier stitching for remote neural network watermarking. Neural Computing and Applications, vol. 32, no. 13, pp. 9233-9244,2020.

[5] Jiangfeng Wang, Hanzhou Wu, Xinpeng Zhang, YuweiYao. Watermarking in deep neural networks via error back-propagation. Proc. IS&T Electronic Imaging, MediaWatermarking, Security and Forensics, pp. 22-1-22-9(9), 2020.

[6] Yue Li, Benedetta Tondi, Mauro Barni.Spread-transform dither modulation watermarking of deep neural network. arXiv Preprint arXiv:2012.14171, 2020.

[7] Huili Chen, Bita Darvish Rohani, Cheng Fu, JishengZhao, Farinaz Koushanfar. DeepMarks: A secure fingerprinting framework fordigital rights management of deep learning models. Proc. International Conference on Multimedia Retrieval, pp. 105-113,2019.

[8] Le Feng, Xinpeng Zhang. Watermarking neural networkwith compensation mechanism. Proc.International Conference on Knowledge Science, Engineering and Management,pp. 363-375, 2020.

[9] Lixin Fan, Kam Woh Ng, Chee Seng Chan. Rethinkingdeep neural network ownership verification: embedding passports to defeatambiguity attacks. arXiv PreprintarXiv:1909.07830, 2019.

[10] Jie Zhang, Dongdong Chen, Jing Liao, Han Fang,Weiming Zhang, Wenbo Zhou, Hao Cui, Nenghai Yu. Model watermarking for image processingnetworks. Proc. AAAI, 2020.

[11] Jie Zhang, Dongdong Chen, Jing Liao, Weiming Zhang,Huamin Feng, Gang Hua, Nenghai Yu. Deep model intellectual property protectionvia deep watermarking. IEEE Trans. Patt.Analysis Mach. Intell., 2021.

[12] Hanzhou Wu, Gen Liu, Yuwei Yao, Xinpeng Zhang. Watermarkingneural networks with watermarked images. IEEETrans. Circuits Syst. Video Technol., 2020.

[13] Hanzhou Wu, Gen Liu, Xinpeng Zhang. Hiding datahiding. arXiv preprint arXiv:2102.06826,2021.

[14] Xiaohan Zhao, Qingyun Liu, Haitao Zheng, Ben Y.Zhao. Towards graph watermarks. Proc. ACMConference on Online Social Networks, pp. 101-112, 2015.

[15] David Eppstein, Michael T. Goodrich, Jenny Lam, NilMamano, Michael Mitzenmacher, Manuel Torres. Models and algorithms for graph watermarking.arXiv Preprint arXiv:1605.09425,2016.

posted @ 2021-09-21 17:00  梁君牧  阅读(3858)  评论(0编辑  收藏  举报