本文是一篇计算机论文,本文针对目前神经网络对于分布外未知类别样本会产生错误的高置信度这一重要的问题,深入的分析了现有方法的局限性,在基于检测OOD样本的方法中,虽然能够检测出一部分OOD样本,但DNN分类器对于OOD样本过度置信度问题仍然没有得到根本解决。
第1章 绪论
1.1 课题背景与研究意义
人工智能(Artificial Intelligence,简称AI),第一次提到人工智能是在英国数学家阿兰-图灵的计算理论中,他为奠定现代计算理论的基础以及如何建立和发展能够智能处理数据的机器做出了突出贡献。1956年,美国计算机科学家约翰-麦卡锡首次使用了人工智能一词,至此以后,人们就开始期待着探索这门科学。人工智能是很多学科领域的结合,例如计算机科学、生理学和哲学等,是一个非常宽泛的话题,人工智能在各领域的共同要点是创造一种能够像人类一样思考的机器。一直以来研究员们面临的最具挑战性的问题之一是如何建立模仿人脑行为的系统。众所周知,人脑由数十亿的神经元组成,可以说是最复杂的系统,这个系统可以通过实践来实现更高层次的学习,如人类的个性、理解、寻找解决方案、推断意义,并从过去的经验中学习。
人工神经网络(Artificial Neural Network,简称ANN),是现代人工智能发展以来的重要代表产物,现在已经成为了人工智能和机器学习中重要的工具之一。ANN是对人脑神经元(如图 1-1所示)进行简单的抽象模仿,从而的建立一种简单模型(如图 1-2所示),其目的是通过不断模仿人类学习的方式,以达成完成预设任务的目标。再具体而言,从数学理论的角度去看,神经网络自身一般都是对某种算法或函数的逼近,也可能是对某种逻辑策略的表示。
1.2 研究现状与挑战
1.2.1 OOD样本对模型的威胁
Anh Nguyen等人最早发现了一个非常有趣的现象[10]展示了DNN和人类视觉的另一种不同方式:首先产生一些人类完全无法识别的图像将其输入到DNN,但是最先进的DNN却以非常高的置信度认为人类视觉无法识别的物体是可识别的已知物体(例如,模型会以高置信度的标注电视噪声是一辆摩托车)。具体来说,该研究工作首先对一个DNN进行训练,使其在对应正常测试集上表现良好,然后对于原始数据集的样本使用进化算法[60](Evolutinary Algorithm,简称EA)使其产生人眼完全无法识别的图像,而DNN几乎肯定地认为这些图像是已知类别的物体。该研究揭示了人类视觉和当前DNN之间的重要差异,也是首次提出了远离训练集的未知类别的样本对于神经网络的威胁。 之后Niko等人的研究工作[12]进一步全方位的去阐述了目前计算机视觉领域所面临的局限性和挑战,并对现实世界中的样本划分为以下4个类别:
(1) 已知的已知类:即具有明显标记的正向训练样本的类具有相应的侧面信息,如语义/属性信息等。
(2) 已知未知类:即有标签的负样本,不一定要归入有意义的类,如背景类、宇宙类等。
(3) 未知已知类:即在训练中没有出现的类,但在训练过程中可以获得它们的侧面信息(如语义/属性信息)。
(4) 未知的未知类:即在训练不存在的类,而且在训练中也没有它们的背景信息(例如,语义/属性信息等)。
第2章 背景知识介绍
2.1 感知机与人工神经网络
感知机(Perceptron)是由Frank Rosenblatt等人[29]提出,也称之为“人工神经元”。感知机是作为深度神经网络的起源,是一种线性分类器,也是最简单的人工神经网络,只有一个神经元。
感知器是对生物神经元的简单模拟,与生物神经元相比有着相对应的模块,如权重突触(权重)、阈值(偏置)及细胞(激活函数)等,输出的结果为布尔类型的正或负。
激活函数对于神经网络非线性的训练学习很重要,使得神经网络可以任意学习逼近任何复杂的非线性函数。具体在神经网络中的操作为得到输入X和对应的权重W的乘积之和得到该层的输出并将其通过激活函数后的结果作为下一层的输入。
激活函数要具备以下几点性质:a) 连续可导的非线性函数,因为可导函数数可以利用数值优化的方式求得最优解b) 激活函数及其导函数尽可能的简单,这样有利于提高网络优化效率c) 激活函数的导函数的值域要在大小合适的区间内,否则会影响训练的效率及稳定性。
2.2 深度学习与卷积神经网络
深度神经网络(Deep Neural Networks,简称DNN)其本质就是隐藏层数较多的多层感知机,更多的隐藏层可以使得模型进行更高的抽象层次,提高了学习表达能力。
上述由多层感知机组成的神经网络称为全连接神经网络,它网络结构简单直观,能够比较简单的应对线性回归,根据已有的数据特性,能够很好的进行分类。但是单纯的全连接神经网络也有着不可避免的缺陷,在隐藏层中,每一层的的输出节点和下一层的输入节点都有连接,这样导致的结果就是网络隐藏层连接参数巨大,计算量和所需存储空间几何倍增,只增加全连接层对于以图像作为输入的数据会丢失很多空间特征,很难自动发现输入数据更抽象的特征,只粗暴的把原始的输入作为数据的特征,根据原始数据进行分类等学习,效果不佳。其次参数过多会导致训练过程效率低,网络很容易过拟合。深度卷积神经网络(Convolutional Neural Network,简称CNN)[30]的出现,很大程度上缓解了这些缺陷。
CNN的设计灵感来源于人类的视觉提取特征过程:从原始视觉信号摄入瞳孔到大脑最终识别具体的物体,整个过程对于物体特征的提取遵循先抽象再逐层具体。在最开始识别的特征基本上是各种物体抽象的边缘形状,越往后越能提取出此类物体更为具体的一些特征,最后高级特征组合成相应可识别的具体物体。因此在神经网络重可以依据人类视觉的特点一种神经网络,较低网络层用于提取初级抽象的图像特征,较高的网络层可以提取到更加具体的高级图像特征。总结下就是通过将一些底层特征组成更高级的特征,通过多个层级的提取特征并组合,由最后的层输出分类结果。
第3章 CODEs的生成算法 ......................................... 19
3.1 有效OOD样本的定义 ............................................ 19
3.2 CODEs的生成过程 ............................................ 20
3.3 算法设计 ......................................... 21
第4章 抑制模型对OOD样本置信度算法 .................... 31
4.1 理论分析 ...................................... 31
4.2 算法设计 .................................................. 32
4.3 实验设置 .......................................... 34
第5章 CODEs的扩展研究 ................................... 43
5.1 提升OOD样本检测的研究 .......................................... 43
5.2 提升分类任务准确率的研究 ...................................... 48
5.3 本章小结 ...................................... 51
第5章 CODEs的扩展研究
5.1 提升OOD样本检测的研究
5.1.1 理论分析和算法设计
(1) 主流OOD样本检测方法及局限性
如前文1.2.3节所述,目前主流的OOD检测方法通常先以正常的方法训练一个分类器,使其在分布内测试集上有良好的准确率,之后利用预训练的分类器网络提取到的特征设计一个二分类器,从而使OOD样本检测的问题转化为了一个二分类问题,在样本输入到网络之前先经过检测器过滤,把OOD样本拒绝掉。一个比较经典的算法是Hendrycks等人[14]提出的使用神经网络最后一层的softmax分数取一个合适的阈值来判断样本是否是OOD样本,因为文中通过研究发现虽然OOD也能使神经网络产生高置信度,但是相比于分布内的正常样本其置信度分布还是略低。所以可以通过统计它们softmax分数分布的不同,进而进行识别。其它基于Outlier Exposure[13]、Energy Score[22]等的检测方法整体思路类似,都以原始分类网络提取的特征为参考,进行不同的处理优化达到能够区分OOD样本和分布内样本的目的。
目前OOD样本检测方法一个很大的局限性是对于分布离训练集比较的OOD样本检测效果不错,但是对于离训练集分布比较近的OOD样本效果较差。因为离正常训练集分布近的OOD样本经过Baseline网络提取出来的特征与正常样本提取的特征差异很小,从而很难进行检测。
第6章 总结和展望
6.1 总结
本文针对目前神经网络对于分布外未知类别样本会产生错误的高置信度这一重要的问题,深入的分析了现有方法的局限性,在基于检测OOD样本的方法中,虽然能够检测出一部分OOD样本,但DNN分类器对于OOD样本过度置信度问题仍然没有得到根本解决。另一方面,在使用额外辅助数据集来抑制模型对于OOD样本置信度的方法中,数据集的最佳选择是一个悬而未决的问题,数据的不平衡性和计算的复杂性也面临着很多问题,同时也会不同程度的影响原始分类任务的性能。本文提出了一种有效的OOD样本CODEs,可以通过抑制对它们的预测来缓解OOD样本固有的过度自信问题,且不影响原始分类任务的性能。
具体的研究成果如下:
(1) 本文研究工作发现分布距离是缓解模型对OOD样本过度自信问题的关键因素,且通过大量实验排除了许多其他因素。
(2) 提出了一种基于切片和拼接操作以及Chamfer GAN的简单而有效方法来生成CODEs,而无需访问任何额外数据。
(3) 验证了CODEs在不损害分类准确性的情况下,缓解神经网络对于OOD 样本过度自信问题的优势。
(4) 证明了CODEs在提升OOD检测性能和图像分类准确率方面的有效性。
参考文献(略)