本文是一篇计算机论文,本论文的研究模型的泛化能力仍有很大的提升空间,下一步工作将在损失函数上引入知识蒸馏损失,以两个超参数的形式进一步优化损失函数,使得模型对低质量图像和神经纹理伪造图像的检测性能进一步提升,利用知识蒸馏优化模型的泛化能力,使得模型的跨数据检测性能有一个质的提升。
1绪论
1.1研究背景和意义
随着信息技术越来越广泛地应用于社会各个领域,国民经济和社会发展对信息安全保障的需求持续增强,日渐突出的信息安全问题给国家的政治、经济、文化和国防安全带来新的挑战。因此,网络信息安全问题不仅成为国家关注的焦点,而且成为一个新的研究领域和研究热点。
多媒体信息安全是网络信息安全中的一个重要方面,近年来深度学习被广泛应用于计算机视觉、自然语言处理等领域,引领了新一轮的人工智能潮流。但是,深度学习也被用于侵害个人隐私数据,例如在全球范围内广泛传播的深度伪造技术,它能够生成以假乱真的虚假图像和音视频内容。
深度伪造(DeepFake)这个词语是“深度学习(Deep Learning)”和“造假(Fake)”两个词的有机联合,主要指由机器学习中的深度神经网络而制作的产品,特指由对抗网络GAN生成可以以假乱真的造假图像、视频和音频[1]。利用DeepFake技术可以推动娱乐、文化学习与教育事业的持续发展,如创作虚构的角色、历史人物可进行视频烘托、声音模仿,或者虚拟换装购物,形成一种全新的交流方式,既可以在教育领域高效提升教学水平,也可以提升生活品质与娱乐性。伴随着深度伪造带来的利益,弊端也随之降临。不法分子将深度伪造技术用于对公众信息获取的误导、电子犯罪证据造假、扰乱社会秩序,甚至会威胁目前广泛使用的人脸识别系统等,该技术已成为当前最先进的新型网络攻击形式。
1.2国内外研究现状
深度伪造“DeepFake”领域分为深度伪造的生成性研究与深度伪造的检测性研究,又由于伪造内容有音频、视频、图像之分,因此本文分别在视觉、听觉两方面进行相应分析与研究。DeepFake研究分类图见图1.2所示。
深度伪造内容的生成大多使用深度学习技术开发得到,深度学习技术可精确的表示复杂、多维和大批数据,具有直接提炼图像特征的能力,使得模式识别等领域迅速崛起。深度伪造生成技术分为视觉生成技术与听觉生成技术,可生成人眼无法分辨的伪造图像、视频、音频,其中最典型的是AI换脸技术。目前在DeepFake中常用的深度学习技术有生成对抗网络GAN,如图1.3所示,是一种利用生成模型和判别模型互相抗衡的方法来学习数据集分布的生成式网络[14];卷积神经网络CNN,如图1.4所示,是伪造生物视知觉机制创造的一类包含卷积层且拥有深度框架的前馈神经网络[15];循环神经网络RNN,见图1.5,是一类将序列数据作为模型的输入,在序列的前进方向做递归操作,且所有接点按链式连结的递归神经网络[16]以及自编码器VAE,见图1.6,是基于自编码器和高斯混合模型制作的一种深度生成模型,其直接利用随机梯度下降的方法进行训练网络[17]。
对于深度伪造检测,现有的检测技术大都依靠于深度学习神经网络,同生成性伪造技术相呼应,深度伪造检测技术根据人体五感分为视觉检测技术与听觉检测技术,而视觉检测技术又可分为图像检测和视频检测。
2深度伪造研究基础
2.1典型的深度伪造技术
深度伪造通常被分为四类,分别是面部重现“Reenactment”、面部替换“Replacement”、面部编辑“Editing”和面部综合伪造“Synthesis”。面部重现是指用B的行为动作驱使A的表情、动作等,经常用于表情伪造、配音、历史人物重现等。面部替换是指用B的脸部区域替换掉A的脸部区域,并保持A的背景区域不变,即“换脸”。面部编辑是指编辑人的脸部区域,可以是添加、删除以及修改内容,例如为某个人脸带上墨镜。面部综合是指在没有任何目标的前提下创造人物角色,如虚拟主播等。典型案例如图2.1所示,第一行是制作的假图,第二行为真图,其中第一组是面部综合伪造,第二组是面部编辑,第三组是面部替换,第四组是面部重现。
2.2小波变换基本原理
本文设计的基于交叉域融合的深度伪造检测模型利用小波变换实现频域边缘几何特征的提取,具体使用细节在3.2节介绍。本节将介绍小波变换的基础理论。
小波变换(Wavalet Transform)[85]是Alfréd Haar在1990年提出的,是一种与其他变换不同的时频分析方法,小波变换战胜了傅里叶变换(Fourier Transform)缺少时频信息的问题,具备多分辨率特性,在时域与频域下可以很好的对信号的微小信息进行表示。同时,小波变换可以较好的将能量集中,使压缩效率增高。
Meso-Net4[37]网络和2.3.2节的Meso-Inception4[37]网络是由Afchar等人创建的,设计的模型拥有较低的卷积层数,更多的关注图像的介观特点。
Meso-Net4是一个仅仅拥有4层卷积层的神经网络,与往常的深度神经网络相比,它参数量低,仅仅只有27977个训练参数,大大加快了训练速度,节省训练时间,可以在CPU硬件上训练,不受大型GPU算力的影响。Meso-Net4网络在每一个卷积模块加入了ReLu激励函数,进而提高网络的泛化能力,同时加入批次归一化保证输出结果的归一化,且防止网络发生梯度消失的情况。另外,卷积模块使用最大池池化,对图像特征降低维度,丢掉多余的信息,达到简化网络的效果。
3 基于交叉域融合的深度伪造检测研究 .......................... 27
3.1 引言 ....................... 27
3.2 基于交叉域融合的深度伪造检测模型 ....................... 27
4 基于全局局部的共享双孪生网络的深度伪造检测研究 .................. 42
4.1 引言 .................................. 42
4.2 基于全局局部的共享双孪生网络模型检测模型 ........................ 42
5 总结与展望....................... 57
5.1 论文总结 .............................. 57
5.2 未来工作展望 ......................... 57
4基于全局局部的共享双孪生网络的深度伪造检测研究
4.1引言
由2.1节介绍可知,典型的深度伪造技术分为四种,分别是“DeepFake”,“FaceSwap”,“Face2Face”,“Neural Textures”。其中,DeepFake和FaceSwap是对整张人脸进行伪造的方式,而Face2Face和Neural Textures是针对人脸表情进行伪造的方式。现有的深度伪造检测技术,大多是对质量较好数据集进行训练测试,但在实际场景中,深度伪造内容在传播途径中会经历压缩、润色、高斯模糊等处理增强操作。因此,检测模型在实际场景检测是脆弱而非鲁棒的。本文在研究交叉域融合深度伪造检测模型时发现伪造方式在压缩率40的低质量图像上的检测效率低,另外难以检测“Neural Textures”等对表情纹理的伪造内容。基于此问题,本章从第三章研究基础上解决图像低质量和神经纹理伪造难检测的问题,依据DeepFake图像生成方式存在的全局局部边界伪影为线索,设计共享全局局部差异模型,既保留图像的整张人脸的全局信息来检测换脸伪造内容,也确保伪造局部的微小局部信息来检测伪造表情内容,为DeepFake伪造检测提供更全面的检测方法,同时提高检测模型的泛化能力。
5总结与展望
5.1论文总结
网络信息安全一直是科学研究人员研究的热点问题,深度伪造是其中一个重要研究领域。它的出现对国家安全、社会安定和个人隐私存在潜在的危险,因此,研究深度伪造检测是当前的急需解决的热点问题之一。本论文研究分析了深度伪造检测生成原理,针对目前伪造检测模型的人脸伪造鲁棒特征的提取,有损图像的检测,以及模型的泛化性问题,本文提出一种面向双孪生网络与交叉域融合的深度伪造检测研究。具体工作如下:
(1)针对人脸伪造特征的提取,本文分析伪造图像的生成过程,发现伪造者为达到伪造脸与真脸近乎一致,在生成过程中会加入模糊函数对脸部区域进行操作。这将导致伪造人脸区域与背景区域存在边缘差异性和边界两侧分辨率模糊不一致性的问题。本文从此问题出发提出一种全新的深度伪造检测方法,主要引入图像的频域特征,以此捕获伪造痕迹,获得更全面的人脸特征,进而检测真伪图。此外,本文进一步提出更好的融合策略,在引入图像频域特征的同时,融入图像空域的特征。一方面提取网络深层的空间域高级语义特征,另一方面提取图像的频域特征,保证图像的低级纹理几何特征,通过设计两个特征向量的融合,得到全面的交叉域图像特征。为了分析该检测方法的有效性,本文评估了该模型在深度伪造数据集上的性能,并与其他伪造方法做了对比实验,实验表明,本文的检测模型显示出了有效性和优越性。
(2)针对高压缩率低质量图像的神经纹理伪造内容的难检测问题,设计基于全局局部的共享双孪生网络检测模型,既保留了图像的整张人脸的全局特征,又保留了局部伪造的细微特征。为了获取全局局部特征,本文通过预处理手段,分割图像,分别得到人脸、嘴巴、眼睛的局部人脸部位块以及处于图像边界的背景块。同时构建共享全局局部差异的双孪生网络,衡量人脸块与边界背景块的差异,人脸块与眼睛区域的差异,以及人脸区域与嘴唇部位的差异,避免丢失图像的细微特征。受到数据增广的启发,设计损失函数,分别计算三种对比特征的分类结果,最终利用新型的训练策略得到最后的分类结果。并通过实验验证此模型在一定程度上改善了低质量图像和纹理伪造方式难检测的问题。
参考文献(略)