第一章 绪论
1.1研究背景与意义
1.1.1 研究背景
日常生活中,我们获取外界信息主要是利用听觉、视觉、触觉等感觉,科学研究表明我们获取的信息中有 60%以上的信息是通过我们的视觉来获得的,由此可以看出视觉信息在我们获取信息的过程中占据重要地位。人们通过视觉来获取信息看似是一个简单的过程,实际上却非常的复杂。近年来,计算机飞速发展,由此引起计算机的相关领域比如人工智能等技术悄然升起。从 1956 年“人工智能”被提出来研究人员对其的研究热情就不停增长,随后“机器学习”在计算机技术领域也逐步活跃起来,通过不断的研究人们希望计算机可以独立地完成更多的任务。例如,在计算机视觉领域,研究人员想要实现的是利用计算机技术可以模拟人类通过视觉系统获取并处理图像、视频等信息的过程。在计算机视觉技术提出初期,计算机自动地对图像中的目标进行识别被认为是不可能完成的任务,但是随着计算机视觉技术的不断发展,涌现出许多能够把这个任务解决的视觉分类方法,并且识别的精度也越来越合理。目前,在计算机领域中,对粗粒度分类识别的技术已经日渐完善,研究人员由粗粒度识别衍生出了细粒度识别,如狗的品种分类[1],蝴蝶的品种分类[2],花的品种分类[3],鸟的品种分类[4]等等,这一课题一经提出便成为了一个十分活跃的研究课题。
1.1研究背景与意义
1.1.1 研究背景
日常生活中,我们获取外界信息主要是利用听觉、视觉、触觉等感觉,科学研究表明我们获取的信息中有 60%以上的信息是通过我们的视觉来获得的,由此可以看出视觉信息在我们获取信息的过程中占据重要地位。人们通过视觉来获取信息看似是一个简单的过程,实际上却非常的复杂。近年来,计算机飞速发展,由此引起计算机的相关领域比如人工智能等技术悄然升起。从 1956 年“人工智能”被提出来研究人员对其的研究热情就不停增长,随后“机器学习”在计算机技术领域也逐步活跃起来,通过不断的研究人们希望计算机可以独立地完成更多的任务。例如,在计算机视觉领域,研究人员想要实现的是利用计算机技术可以模拟人类通过视觉系统获取并处理图像、视频等信息的过程。在计算机视觉技术提出初期,计算机自动地对图像中的目标进行识别被认为是不可能完成的任务,但是随着计算机视觉技术的不断发展,涌现出许多能够把这个任务解决的视觉分类方法,并且识别的精度也越来越合理。目前,在计算机领域中,对粗粒度分类识别的技术已经日渐完善,研究人员由粗粒度识别衍生出了细粒度识别,如狗的品种分类[1],蝴蝶的品种分类[2],花的品种分类[3],鸟的品种分类[4]等等,这一课题一经提出便成为了一个十分活跃的研究课题。
区别于对图像中的对象进行识别的粗粒度的图像分类任务,以鸟类图像精细识别[5]为代表的细粒度图像分类识别的精度更加细致,待分类目标的类间差异更加细微,通常通过对比微小的局部差异才能区分出不同的类别。这一分类问题是对同一类别的不同子类进行分类,
如不同种类的鸟、花、狗、汽车等,故而又被称作子类别分类[6]。与人脸识别[8]分类任务相比,鸟类图像精细分类所使用的数据集中图像的类内差异更加巨大, 存在姿态、光照、遮挡、背景干扰等诸多不确定因素。因此,以鸟类图像识别为代表的细粒度图像分类是一项极具挑战的研究任务。
............................
............................
1.2 研究的难点分析
鸟类图像的精细分类识别问题较之普通分类问题的区别与难点主要有一下几方面:
(1)不同类别的鸟类间高度的相似性,在一些部位可能拥有相同的特征信息。
........................
2.1鸟类图像目标分类的研究现状
鸟类图像精细分类问题已经经过了一段时间的发展,在最初发布鸟类细粒度数据库时,
Wah 等人识别的方法主要是对图像的整体特征进行描述,而图像的整体特征不能很好地描述对识别有重要影响的部件信息,因此识别的准确率并不理想,该方法识别准确率仅为百分之十左右。他们的方法是确定一张未经裁剪的原始的图像,利用先前训练得到的模型来确定部件区域的位置,之后再提取 SIFT(Scale-invariant feature transform)向量化特征以及 RGB[9]颜色直方图特征,利用词袋模型[10-11]将提取的两种特征进行特征编码,最后选用 SVM(Support Vector Machine)[12]分类器进行最终分类。如果在测试阶段将局部区域位置以及标注框等信息加入,采用与上述同样的方法,得到的识别准确率结果就可以提高为百分之十七左右。这两项基准的测试结果的对比说明,区域位置信息在传统方法中对提高识别结果的准确率具有一定作用。之后,研究人员发现,使用其他特征进行表征并采取一定的优化算法来提高部件定位的精确度,识别准确率就可以得到明显提高。例如 Berg 等人[13]提出的 POOF 特征,这一特征是一种基于局部区域的特征编码方式。从这些传统的识别方法可以得出,选择更好的特征提取方式以及部件定位方式对提高识别精确度有较显著效果。因此,在前期研究阶段,研究者们着眼于人工进行鸟类部件信息的标注,这成为了研究前期传统方法的一个主要共性和缺点:人工标注不仅耗时,而且即使专家进行部件的标注也未必能保证部件信息的完全准确。
近几年,计算机硬件设施不断发展,深度学习尤其是卷积神经网络在图像识别领域得到广泛应用,越来越多子类精细识别的方法开始使用卷积神经网络[14]提取特征,进而进行分类识别。通常,基于深度卷积特征的鸟类图像精细分类方法主要可以分为如下两种:其一是弱监督的分类方法,所谓弱监督的分类方法是在训练分类模型的过程中仅需提供训练图像的类别信息而不需要提供其他信息,该类方法的着眼点是不使用除了类别标签之外的其他人工标注信息,从而实现端对端的识别。从前文对传统算法的分析可以看出,在解决鸟类图像的精细分类问题时,局部区域信息的使用对识别准确率的提高有着至关重要的作用,因此,要提高弱监督情况下的鸟类图像精细分类首先要解决的是如何精确定位鸟类的部件信息。
.............................
2.2部件检测的介绍
鸟类图像的差异性主要体现在各个部件的尺寸、颜色和纹理特征上,以鸟类数据集 CUB-200-2011 为例,该数据集的鸟类图像中仅仅是站立的鸟类图像头部的朝向就有三种,其他各种姿态更是千差万别。这就与稀疏识别所应用的人脸数据库标准位置不同。为了克服鸟类姿态及各个部件所在位置不确定性带来的影响,首先需要获取鸟类图像的部件信息[18]。获取部件信息主要涉及图像的语义以及像素级的分割。通常意义上图像分割意味语义分割,早期由于受计算机计算能力的限制,图像分割只能处理一些灰度图,后来计算机技术迅速发展,才能处理彩色图。早期的图像分割通常先提取图片的低级特征,然后进行分割。换句话说,这种关于低级特征的分割所得到的分割图并不知道分割出来的是什么,这与我们期望达到的明确鸟类部件信息定位的目标相矛盾。随着计算机计算处理数据的能力不断提高,图像分割[19]的技术逐渐开始着眼于图像的语义分割,这里所说的语义是低级语义,主要指分割出来的物体类别。随着语义分割的发展,获取鸟类图像部件信息也逐渐得到发展,语义级的分割开始应用到鸟类部件的检测中。根据鸟类部件信息的过程中所使用的图像分割方式的不同,本研究将鸟类图像部件信息的获取方式分为模板匹配的方法,非参数的方法,基于神经网络或者全卷积网络[20-21]的方法以及直接利用数据集中给定的标注信息等方法,关于各个方法的具体介绍将在下文第三章鸟类部件信息的获取部分进行介绍。各种方法通过图像的分割得到具有判别性的部件信息,再逐个部件的提取表征部件信息的特征并进行融合获得鸟类图像部件信息的完整表达。
..............................
近几年,计算机硬件设施不断发展,深度学习尤其是卷积神经网络在图像识别领域得到广泛应用,越来越多子类精细识别的方法开始使用卷积神经网络[14]提取特征,进而进行分类识别。通常,基于深度卷积特征的鸟类图像精细分类方法主要可以分为如下两种:其一是弱监督的分类方法,所谓弱监督的分类方法是在训练分类模型的过程中仅需提供训练图像的类别信息而不需要提供其他信息,该类方法的着眼点是不使用除了类别标签之外的其他人工标注信息,从而实现端对端的识别。从前文对传统算法的分析可以看出,在解决鸟类图像的精细分类问题时,局部区域信息的使用对识别准确率的提高有着至关重要的作用,因此,要提高弱监督情况下的鸟类图像精细分类首先要解决的是如何精确定位鸟类的部件信息。
.............................
2.2部件检测的介绍
鸟类图像的差异性主要体现在各个部件的尺寸、颜色和纹理特征上,以鸟类数据集 CUB-200-2011 为例,该数据集的鸟类图像中仅仅是站立的鸟类图像头部的朝向就有三种,其他各种姿态更是千差万别。这就与稀疏识别所应用的人脸数据库标准位置不同。为了克服鸟类姿态及各个部件所在位置不确定性带来的影响,首先需要获取鸟类图像的部件信息[18]。获取部件信息主要涉及图像的语义以及像素级的分割。通常意义上图像分割意味语义分割,早期由于受计算机计算能力的限制,图像分割只能处理一些灰度图,后来计算机技术迅速发展,才能处理彩色图。早期的图像分割通常先提取图片的低级特征,然后进行分割。换句话说,这种关于低级特征的分割所得到的分割图并不知道分割出来的是什么,这与我们期望达到的明确鸟类部件信息定位的目标相矛盾。随着计算机计算处理数据的能力不断提高,图像分割[19]的技术逐渐开始着眼于图像的语义分割,这里所说的语义是低级语义,主要指分割出来的物体类别。随着语义分割的发展,获取鸟类图像部件信息也逐渐得到发展,语义级的分割开始应用到鸟类部件的检测中。根据鸟类部件信息的过程中所使用的图像分割方式的不同,本研究将鸟类图像部件信息的获取方式分为模板匹配的方法,非参数的方法,基于神经网络或者全卷积网络[20-21]的方法以及直接利用数据集中给定的标注信息等方法,关于各个方法的具体介绍将在下文第三章鸟类部件信息的获取部分进行介绍。各种方法通过图像的分割得到具有判别性的部件信息,再逐个部件的提取表征部件信息的特征并进行融合获得鸟类图像部件信息的完整表达。
..............................
第三章 鸟类图像的部件信息的获取.....................24
3.1 引言..................24
3.2 现有部件检测方法的介绍..................24
第四章 适用于鸟类部件的特征提取与融合方法....................34
4.1引言....................34
4.2 部件级特征融合方法.....................34
第五章 部件级多特征的鸟类稀疏识别方法.................45
5.1引言...............45
5.2鸟类图像稀疏求解算法.................45
第五章 部件级多特征的鸟类稀疏识别方法
5.1鸟类图像稀疏求解算法
关于求解稀疏表示系数 x 的问题,就是要寻求一个方法去寻找一个最稀疏的稀疏表示向量,主要有贪婪算法 、凸松弛算法以及逐次逼近算法,本研究中主要使用的是前两类算法,每一类的代表算法将作如下说明:
(1)贪婪算法
求解稀疏约束问题的一种非常重要的方法就是贪婪理论(Greedy Algorithm)。在迭代搜索的每一步过程中,贪婪算法通过修改系数向量 x 的一个或者多个项来不断更新 x 的当前估计值,从而使得稀疏分解逐步逼近原始信号,最后根据事先设定的停止迭代的条件停止迭代。Mallat 等首次提出了一种叫做匹配追踪算法(Matching Pursuit, MP)[50-51]的贪婪算法,并将它用于解决0l 范数优化问题。MP 在计算上虽然能保证分解的残差单调降低,但是可能存在有限迭代次数下不收敛的情况。为了解决上述问题提出了改进的方法,就这样正交匹配追踪(Orthogonal Matching Pursuit, OMP)[52]算法应运而生。OMP 算法与 MP 算法的不同点的为,OMP 每一步得到的残差都与向量中被选择的列向量正交,因此在收敛速度上要比 MP 快。随后提出了分段正交匹配追踪(St OMP)[53]算法,这种方法使每步迭代更新多个列向量,因此加快了算法的速度,更加适合大规模问题的求解。
........................
求解稀疏约束问题的一种非常重要的方法就是贪婪理论(Greedy Algorithm)。在迭代搜索的每一步过程中,贪婪算法通过修改系数向量 x 的一个或者多个项来不断更新 x 的当前估计值,从而使得稀疏分解逐步逼近原始信号,最后根据事先设定的停止迭代的条件停止迭代。Mallat 等首次提出了一种叫做匹配追踪算法(Matching Pursuit, MP)[50-51]的贪婪算法,并将它用于解决0l 范数优化问题。MP 在计算上虽然能保证分解的残差单调降低,但是可能存在有限迭代次数下不收敛的情况。为了解决上述问题提出了改进的方法,就这样正交匹配追踪(Orthogonal Matching Pursuit, OMP)[52]算法应运而生。OMP 算法与 MP 算法的不同点的为,OMP 每一步得到的残差都与向量中被选择的列向量正交,因此在收敛速度上要比 MP 快。随后提出了分段正交匹配追踪(St OMP)[53]算法,这种方法使每步迭代更新多个列向量,因此加快了算法的速度,更加适合大规模问题的求解。
........................
第六章 总结与展望
6.1回顾与总结
鸟类图像精细识别分类作为图像处理与识别领域的一个研究分支具有重要的研究意义,高性能、高识别准确率的识别方法对濒危珍稀鸟类的有效保护具有生态意义。由于鸟类图像存在着类间相似性大、类内差异姿态、拍摄角度、拍摄背景等差异性大的特点,本文提出了一种基于部件级多特征融合的稀疏识别方法,我们先利用选择性搜索的方法获取鸟类的头、身体以及鸟类目标框信息;然后通过提取多种特征并选择了特征级融合的方法将部件信息进行表征;最后,用稀疏表示算法进行分类。经过多组对比实验验证了本文方法的可行性和有效性。
6.1回顾与总结
鸟类图像精细识别分类作为图像处理与识别领域的一个研究分支具有重要的研究意义,高性能、高识别准确率的识别方法对濒危珍稀鸟类的有效保护具有生态意义。由于鸟类图像存在着类间相似性大、类内差异姿态、拍摄角度、拍摄背景等差异性大的特点,本文提出了一种基于部件级多特征融合的稀疏识别方法,我们先利用选择性搜索的方法获取鸟类的头、身体以及鸟类目标框信息;然后通过提取多种特征并选择了特征级融合的方法将部件信息进行表征;最后,用稀疏表示算法进行分类。经过多组对比实验验证了本文方法的可行性和有效性。
本文的研究工作围绕鸟类图像的精细视觉目标分类展,主要工作包括:
(1)阅读与图像理解有关的基础理论知识,并对其进行研究理解,并在此基础上熟悉图像识别的基本流程及方法,为改善本研究的鸟类识别效果作前期准备。
(2)着重阅读与鸟类识别的国内外文献,熟悉鸟类识别的主流方法,得出鸟类识别的关键步骤为鸟类部件的检测,并针对现有部件检测技术的不足,提出本研究的部件检测方法。
(3)广泛查阅关于特征提取与融合的相关方法,熟悉了现有特征的提取与融合方法,并最终确定适合于鸟类部件信息的特征提取与融合方法。
(4)通过阅读稀疏表示相关文献,研究理解稀疏表示的基础理论,并在理解的基础之上,通过尝试将稀疏表示分类器用于鸟类识别,并通过实验验证稀疏表示分类方法用于鸟类识别的效果。
参考文献(略)
(1)阅读与图像理解有关的基础理论知识,并对其进行研究理解,并在此基础上熟悉图像识别的基本流程及方法,为改善本研究的鸟类识别效果作前期准备。
(2)着重阅读与鸟类识别的国内外文献,熟悉鸟类识别的主流方法,得出鸟类识别的关键步骤为鸟类部件的检测,并针对现有部件检测技术的不足,提出本研究的部件检测方法。
(3)广泛查阅关于特征提取与融合的相关方法,熟悉了现有特征的提取与融合方法,并最终确定适合于鸟类部件信息的特征提取与融合方法。
(4)通过阅读稀疏表示相关文献,研究理解稀疏表示的基础理论,并在理解的基础之上,通过尝试将稀疏表示分类器用于鸟类识别,并通过实验验证稀疏表示分类方法用于鸟类识别的效果。
参考文献(略)