本文是一篇工程硕士论文,本文的主要工作如下:(1)针对RGB摄像头的人脸活体检测任务,我们提出了空域-频域混合特征学习框架,学习多个分辨率上的空间特征和频域特征。并且设计了可学习的小波分解模块,利用数据学习到先验知识,有效地分离出不同频带特征,增强不同频带上的伪造线索,进一步增强网络对人脸伪造判别性特征的学习能力。
1.绪论
1.1课题背景
近年来,深度学习极大地改善了计算机视觉任务的最前沿性能,带来了巨大的发展前景。人脸识别也因此取得了重大突破,涌现了包括 DeepFace[1],DeepIDs[2],VGG Face[3],FaceNet[4],SphereFace[5]和 ArcF ace[6]等人脸识别算法。相比与虹膜、指纹等其他生物特征识别系统,人脸识别系统凭借其便利性、良好的性能和更高的安全性,成为市场上目前应用最广泛的生物识别系统之一。
随着人脸识别技术的不断发展与完善,人脸识别系统作为重要的一项生物特征识别技术,已经广泛普及于日常生活的角角落落。其技术的应用场景主要包括移动支付、安检、门禁以及与身份核验相关的场景。
但是,人脸识别系统存在潜在的风险,不法人员会利用各种方式进行假脸攻击冒充目标身份来完成不法行为,目前常见的方式有打印人脸图像攻击(即打印攻击)、利用电子设备重播静态或动态人脸图像(即重播攻击)、利用3D 头模或者硅胶面具(即3D 攻击)。因此,为了保障人脸识别系统的安全性,人脸活体检测是至关重要的部分。如图1.1所示,活体检测的目的是判断人脸识别系统中检测到的人脸是真实人脸还是伪造人脸攻击,是保障人脸识别安全性的重要模块。
1.2. 人脸活体检测国内外研究现状
在这一节中,如图 1.2 所示,我们首先介绍主要的人脸伪造攻击方式,然后我们着重说明RGB单目摄像头下各类人脸活体检测方法。最后,我们介绍在特殊摄像头下的多模态人脸活体检测方法。
1.2.1. 人脸伪造攻击的类别
人脸攻击主要可以分为三大形式:物理介质攻击、对抗样本攻击、人像合成攻击。
首先,随着互联网和社交媒体的出现,越来越多的人分享他们的人脸照片或视频,冒名顶替者可以利用相关人脸图像欺骗人脸识别系统,让该系统误以为是某个特定的目标人脸。这种攻击称为物理介质攻击。
第二,利用机器学习模型尤其是深度学习模型的安全漏洞,基于对抗攻击方法生成对抗样本,使得深度学习模型输出错误结果,可以逃逸识别或者被误识为另一个目标人脸。这种攻击称为对抗样本攻击。
第三,基于生成对抗网络[8]和变分自编码器[9][10],通过真实人脸生成完全或部分修改后的虚拟人脸图像。这种攻击称为人像合成攻击。 本文重点研究检测物理介质攻击的算法,通常把检测该类形式的人脸攻击算法称为人脸活体检测。物理介质攻击可以分为打印攻击、重播攻击、3D 攻击三种攻击类别。
打印攻击(也称为照片攻击)和视频重播攻击是最常见的攻击,这是由于互联网上人脸图像的流量不断增加以及低成本高分辨率的数字设备的普及,冒名顶替者可以简单地收集和重复使用真实用户的面部样本。通过向人脸识别系统呈现真实用户人脸的图片/视频片段来进行攻击。最常见的是印刷照片攻击(如图1.3(a)所示),包括在纸上打印照片(例如 A3 / A4纸,铜纸或专业相纸)。
2. 基于 RGB 摄像头的人脸活体检测算法
2.1. 问题概述
人脸活体检测对于防止人脸识别系统遭受安全攻击至关重要。使用特定硬件的摄像设备,比如3D 结构光传感器(摄像机)、飞行时间(TOF)摄像机,近红外(NIR)摄像机,热传感器等,毫无疑问可以在一定程度上提高人脸活体检测性能。3D 传感器可以通过检测深度图来区分3D 人脸和2D 平面的伪造人脸;NIR 传感器可以轻松识别视频重放攻击(因为电子显示屏在近红外光照明下会呈均匀的暗色);热传感器可以通过检测脸部的温度分布特征识别出真实人脸。但是,目前在大众中最为广泛使用的还是 RGB 摄像头,而且以上举例的特殊摄像头通常也要耗费更高昂的成本。
目前人脸活体检测方法都致力于提取通用的判别性特征提高算法的泛化能力。(1)但是,由于伪造人脸的类型多样性、不可预测性导致伪造人脸样本之间存在较大的分布差异,这对模型寻找有效的决策边界带来了巨大挑战。(2)部分伪造模式在空间域上差异不显著,网络难以学习到判别性表征。
我们通过引入频域特征与空间特征互为补充,充分挖掘细微的伪造信息。考虑到传统固定模式的频率分解不足以充分捕捉到伪造信息,我们设计了可学习的小波分解模块可以自适应地从不同频带上挖掘伪造信息。然后,我们针对伪造人脸分布差异大这一特点,设计了单向约束中心损失,目标是使得真实人脸在特征空间紧凑化同时鼓励伪造人脸特征表示与真实人脸特征中心拉开距离。
2.2. 算法设计与实现
如图2.1所示,本算法整体受 HRNet[70]启发,设计了空域-频域混合特征学习框架,包括自适应小波分解模块和软阈值过滤模块。我们首先介绍高分辨率深度神经网络(HRNet)的预备知识。然后再说明由可学习小波分解模块和软阈值过滤模块构成的自适应频域分解模块。其中,图2.1中的基础模块来自 ResNet[93] 网络中提出的基础残差模块。
总体来说,该算法通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络,反复交换不同分辨率的特征,实现多尺度特征提取。同时,低分辨率特征图是由可学习的小波分解模块对高分辨率分支进行降采样得到的。我们通过自适应频域分解模块学习到在相同分辨率下不同频带的特征,这样我们的整体网络框架就可以学习到多分辨率多频带的人脸伪造特征,有利于网络挖掘散布在各个尺度、各个频带的人脸伪造痕迹。
对于区域层次和像素层次的视觉识别任务来说,低分辨率表征在分辨率上的损失使得其对空间精度敏感的任务难以获得准确的预测结果。为此,相关工作通过引入上采样、空洞卷积等操作来提升表征分辨率,常见的编码器网络(例如U-Net[72]、SegNet[73]、DeconvNet[74]、Hourglass[75])在生成高分辨率的特征图时,通常采用的方式是先降低分辨率,然后再提升分辨率的思路。
3. 自适应多模态融合轻量人脸活体检测算法............................... 31
3.1. 问题概述 .............................................. 31
3.2. 本文方法概述 ................................. 31
4. 针对 RGB 摄像头的人脸活体检测应用 ................................... 43
4.1. 应用模块概述 ................................ 43
4.2. 人脸预处理模块 ................................... 44
5. 针对深度摄像头的人脸活体检测应用.............................. 54
5.1.1. 深度摄像头 ............................... 54
5.1.2. RGB-Depth 人脸活体数据集 .................................. 54
5. 针对深度摄像头的人脸活体检测应用
结合第三章的自适应多模态融合轻量人脸活体检测算法,以及在实际场景中人脸识别系统所要求的高精度人脸活体检测,我们做了相应的改进。本节内容将详细阐述我们在构建基于深度摄像头的人脸活体检测应用中所做的工作。
如图 5.1所示,该图显示的是 RGB 人脸活体检测和多模态人脸活体检测流程图。上一章节我们已经详细介绍了 RGB 人脸活体检测应用,本章将详细说明针对深度摄像头的多模态人脸活体检测应用我们所做的工作。
6. 总结与展望
6.1. 本文工作总结
受益于人脸识别的便利性和优异的准确性,人脸识别系统在门禁、移动支付、公共交通、安检等领域越来越广泛的应用。但是,目前人脸识别系统对伪造攻击(包括打印攻击、重播攻击、3D面具攻击)的防范仍然十分薄弱。因此,学术界和工业界都认识到人脸活体检测在保障人脸识别系统安全性上扮演了至关重要的角色,进行了大量相关研究。
本文对真实场景下的人脸活体检测任务进行了全面深入地研究,针对RGB摄像头和深度摄像头获取信息的特点分别设计了相应的算法,并且设计实现了相应的工程项目,同时用充足的实验验证了所设计的人脸活体检测算法的有效性。
本文的主要工作如下:
(1)针对RGB摄像头的人脸活体检测任务,我们提出了空域-频域混合特征学习框架,学习多个分辨率上的空间特征和频域特征。并且设计了可学习的小波分解模块,利用数据学习到先验知识,有效地分离出不同频带特征,增强不同频带上的伪造线索,进一步增强网络对人脸伪造判别性特征的学习能力。此外,我们针对伪造人脸类型多样、类内特征差异大的特点,我们设计了单向约束中心损失,可以使得真实人脸类内特征保持紧凑化,同时让网络学习到更丰富的伪造特征模式,降低模型的优化难度。最后,我们在人脸活体检测领域的四个基准数据集上进行了数据集内测试和跨数据集测试,通过与近年来主流方法的对比,验证本文方法的有效性。
(2)针对深度摄像头的人脸活体检测任务,我们提出了自适应多模态融合方法,通过注意力模块重分配权重,针对不同特点的人脸伪造攻击方式选取合适的图像模态表征。此外,我们首次尝试把中心差分卷积思想引入深度可分离卷积中,在常见的轻量化网络MobileNetv2, ShuffleNetv2 上进行消融实验,验证了在不增加模型参数量的情况下,可以使模型活体检测准确性能增加。
参考文献(略)