本文是一篇计算机论文,本学位论文通过结合人类视觉系统(Human Visual System,HVS),深入理解噪声对视觉特性的影响,提出了噪声图像安全评价算法。根据噪声是否易于察觉,可分为可察觉噪声图像安全评价和不易察觉噪声图像安全评价。
1绪论
1.1研究背景及意义
近些年来,图像、文本和音频等多媒体技术在教育、军事、商业和日常生活等领域得到快速发展,在人们的生活中无处不在。图像作为重要的传输介质,在用户之间的传输更为频繁。然而在频繁传输的过程中,图像容易受到不法分子的注意,其安全性受到某种程度的威胁,如攻击者可以通过盗用或伪造图像谋取不正当利益。为保护图像等数据的安全性,国家制定专门的法律,高校和企业等成立相关部门,这进一步表明图像等数据安全的重要性。在理论研究方面,研究人员关于图像安全性的研究不断深入,提出了一系列保护图像安全的手段。
通过对图像进行加噪处理是保护图像安全的有效手段之一。图像拥有者通过对图像进行加密处理,生成的类噪声图像在一定程度上保证图像传输的安全性[1]。然而在对抗环境下,类噪声图像更容易吸引攻击者的注意,可能受到其恶意攻击。除此之外,研究人员还可以通过对图像加噪处理训练深度模型,提升深度模型的安全性。但是在对抗环境下,攻击者有意的将细微的扰动添加到输入样本,生成的类噪声图像可能造成分类或识别模型输出错误的结果[2-4]。因此,对抗环境下图像安全度量显得非常重要,并且得到研究人员的广泛关注。
图像质量评价(Image Quality Assessment,IQA)作为评价图像质量的有效方法,被广泛应用于各个领域。比如:研究领域,图像压缩[5]、图像增强[6]和修复[7]等方面都需要IQA作为一个衡量标准;商业领域,研究人员通过对比相机拍摄的照片优化相机的性能等。因此,IQA在多个领域都不可小觑。但是经研究发现,现有的IQA算法在评价噪声图像安全性时表现出不期望的性能,并分析认为现有的IQA算法主要针对高或中等视觉质量图像,而噪声图像包含从低到高不同等级的视觉质量图像,不易学习其特征。因此不能直接将现有IQA算法应用于度量噪声图像的安全性,需要开发专门用于评价噪声图像安全性的IQA算法[8]。
1.2国内外研究现状
随着生活质量的提高和多媒体技术的发展,人们对获取的图像质量和安全性有着更高的要求。为更好地提升设备性能以及保护图像,研究人员加强IQA算法的研究。
从上世纪60年代开始,IQA的研究已经开始,但是缺乏统一的标准。随着IQA重要性凸显,国际电信联盟组织制定多项质量评价标准。具体来说,IQA根据是否有人的参与,分为主观评价和客观评价,主观评价是人对图像的质量或安全性进行评价,客观评价则是利用IQA评价图像质量或安全性。对于客观评价,研究人员根据是否有参考图像,又将IQA分为全参考IQA、半参考IQA和无参考IQA[10]。其中全参考IQA在评价图像的过程需要原始图像全程参与,半参考IQA需要部分原始图像的信息,而无参考IQA则不需要任何原始图像的信息。除此之外,随着深度学习的不断发展,结合深度学习的IQA也得到发展。本文主要针对全参考IQA进行研究。根据全参考IQA的最初研究目的,本文将其分成全参考图像质量评价和全参考图像视觉安全评价。进一步,根据是否需要手工特征将全参考IQA分为基于传统的全参考IQA和基于深度学习的全参考IQA。
2相关理论简介
2.1人类视觉系统
HVS主要由眼睛和视觉中枢神经系统组成[45],为进一步了解HVS,研究人员从生物学、心理学、神经学等学术方面进行研究并提出许多关于HVS的视觉特性[46-48],为IQA研究奠定基础。结合本文的研究内容,接下来从HVS的视觉注意力机制和层次感介绍HVS。
2.1.1人类视觉系统的视觉注意力机制
当我们观察外部世界时,总能快速找到物体的重要区域并进行分析,对其他区域则是选择性分析。如图2.1所示,当观看到这幅图像时,人的注意力主要集中在熊猫,忽视其他物体。这种现象主要是由于心理原因导致的,属于HVS的心理调节机制,该机制使得人在观察图像时注重感兴趣区域,与HVS的生理特点相关[49]。具体而言,人的注意力是有限的,在观察图像时,人眼在不停运动,而运动过程中,受到视觉神经中枢的影响[50]。这种现象,研究人员将其称为视觉注意力机制。该机制主要分为二种模式:一是客观内容驱动的自底而上模式;二是主观意识的自顶而下模式[51]。
自底而上模式不需要没有任何目标和相关先验知识引导,主要与图像的显著性有关。研究人员发现,图像中具有差异性的物体更容易引起人们的关注。图2.1中具有差异性的物体属于熊猫,它对人吸引力是最大。因此当物体具有个性鲜明的特征时,如物体的方向、纹理、颜色、结构等,该物体将得到更多的关注。
2.2失真图像安全评价数据集
对于失真图像安全评价的研究来说,在搭建评价算法之前需要构建一个有效的数据集,该数据集包含参考图像、失真图像和相应的真实得分,即主观得分。一个有效的数据集可以相对公平地判别不同评价算法的性能。对于数据集的构建,视频质量专家组(Video Quality Experts Group,VQEG)规定统一的实验环境[9]。具体而言,首先选择一批观察员,观察员经过简单培训之后对图像进行打分,其次统计分析观察员主观评价的结果。对于评价结果常常采用平均或差异平均[14]处理。在观察员对图像打分的过程中应当遵循评分标准。而图像的安全性则需要观察员根据图像的视觉泄漏量和图像失真对观察的妨碍情况进行判别。表2.1是数据集的评分标准。
2.2.1可察觉噪声光场图像数据集
随着科技的进步,光场图像得到了发展和应用。相比于传统图像,光场图像记录更多的信息,应用前景更加广泛。随着光场相机的普及,许多光场图像数据集被建立。Stanford Light Field Archive数据集是第一个搭建的光场图像数据集,该数据集是由光场显微镜、光场Gantry及相机阵列三个设备组成的光场相机通过捕获自然场景中的光场图像组成[62]。Synthetic Light Field Archive是由12个合成场景组成的合成光场图像数据集。EPEL光场图像数据集由118幅从真实场景捕捉的光场图像组成。除此之外,研究人员还建立用于物体识别、显著性测试和识别生物特征的光场图像数据库[63]。
3结合CNN和滤波器的可察觉噪声图像视觉安全评价...................16
3.1研究背景....................................16
3.2数据集..............................17
4基于多尺度特征提取网络的不易察觉噪声图像安全评价.........................26
4.1研究背景.......................................26
4.2对抗样本数据集...................................27
5总结和展望..........................................38
5.1工作总结.................................38
5.2未来工作展望..................................38
4基于多尺度特征提取网络的不易察觉噪声图像安全评价
4.1研究背景
随着深度神经网络的发展,CNN得到广泛的发展并成功应用于现实生活。因此,为提高CNN的鲁棒性,寻找深度学习局限性的工作也在不断发展。Szegedy等人[75]第一次表明,添加到测试图像的细微的扰动会导致CNN分类错误,而被添加细微扰动的图像则被称为对抗样本,并根据其不易察觉噪声称为不易察觉噪声图像。如图4.1所示,描述一个细微扰动愚弄分类器的例子。具体来说,熊猫图像在VGG16网络上分类后的置信度为99%,但是将扰动r添加到熊猫图像中,并放入网络之后被识别为置信度93%的牧羊犬。因此,如何从对抗样本的角度提升CNN的鲁棒性是值得研究的。
对抗样本的研究有助于反映和验证CNN的鲁棒性。尽管CNN表现出先进的性能,但其鲁棒性不高。而且在对抗环境下,攻击者向输入样本添加细微的扰动生成不易察觉的噪声图像攻击分类或识别模型,导致模型输出错的结果。因此,在对抗环境下对抗样本的安全性度量显得非常重要。目前,研究人员利用Lp-norm来判断原始图像和对抗样本之间的相似性,且Lp-norm经常被用作对抗模型的约束条件[76-77]。但是研究发现Lp-norm在判断对抗样本的安全性时忽略HVS,未能捕捉到对抗样本的感知特性,不适合用于评价对抗样本的安全性[78]。因此,有必要构建专门用于评价对抗样本相似性的指标,以反映对抗样本的最小失真并判断图像的安全性。
5总结和展望
5.1工作总结
为度量噪声图像的安全性,本学位论文描述了图像安全评价相关的知识,并对现有的评价算法进行了分析。在对抗环境下结合图像固有属性和HVS感知特性,对图像的安全问题进行深入研究,并提出两个安全评价模型,即可察觉噪声光场图像安全评价模型和不易察觉噪声对抗样本安全评价模型。本文的主要工作总结为二个方面。
(1)构建一个可察觉噪声光场图像数据集,该数据集由13个场景组成,每个场景使用包含6个等级的4种加密算法,最终生成90168幅可察觉噪声图像。结合该数据集,提出一种有效的评价可察觉噪声光场图像安全性的算法。该算法充分利用光场图像固有的空间域和角域特征以及CNN在特征提取方面的突出能力,获取光场图像的空间域和角域的质量变化。
(2)构建一个不易察觉噪声对抗样本数据集,该数据集利用包含5个等级的6种对抗攻击算法生成1050幅不易察觉噪声图像。在该数据集的基础上,提出一种有效的评价不易察觉噪声图像安全性的算法。该算法利用连续的卷积层提取对抗样本的特征,扩大图像的感受野。为模拟HVS的层次感,搭建多尺度特征提取网络获取不同层次的特性。
参考文献(略)