本文是一篇计算机论文,笔者认为行人检测的研究核心在于在从图像或视频中识别出行人的位置和大小。从早期以HOG梯度直方图为代表的手工特征研究到R-CNN与YOLO算法为代表的深度学习研究说明了行人检测技术在数据样本与算力充足时代背景下的研究方法的转变。
第1章绪论
1.1研究背景与研究意义
在人工智能赋能诸多行业的时代背景下,行人检测技术正成为研究与应用的热点。它不仅是智能交通管控、自动驾驶和智能安防等领域的关键技术,也是推动“人工智能”时代发展的重要力量之一。
在理论研究方面,行人检测充当部分计算机视觉任务的先决条件,通过对行人检测算法模型结构的优化、特征提取方式的改进,可以为算法的可扩展性、鲁棒性、准确性等方面做出贡献。对领域理论水平的提升也有很大帮助,间接促进推动相关研究领域的发展。从研究方式来看,行人检测的研究手段主要有如下两种方式:
第一种方式是通过手工标识行人特征的检测算法,计算速度快,对硬件要求较低,适合于计算资源受限的环境。在某些情况下该方法可以提供直观的解释性,但是在复杂场景下的泛化能力有限,通用性不强。
第二种方式是基于深度学习的研究方法,因为深度学习的特征表达力和泛化能力依托于训练的数据样本量,以不同场景下的行人检测数据集为深度学习的模型训练样本。通过不同的模型检测器来增强实际场景下检测行人的模型性能,所以在数据集样本量充足的前提下能够得到比传统方法更好的检测效果。
1.2国内外研究现状
行人检测(Pedestrian Detection)是计算机视觉研究领域中的经典问题,本小节根据研究方式划分为基于传统方式的行人检测研究现状与基于深度学习的行人检测研究现状来阐述行人检测领域的历史发展趋势。其中,在基于深度学的行人检测研究现状小节中,详细说明二阶段行人检测算法与单阶段行人检测算法的发展趋势并在之后小节中,通过两种对比得出单阶段行人检测的优势。
1.2.1基于传统方式的行人检测研究现状
整体来看,行人检测任务的发展是随着目标检测的主流算法发展而演变的。对于传统手工检测而言,该方式需要借助构造的行人样本特征来实现行人检测分类器,对检测图片中的灰度、边缘、纹理、颜色、梯度直方图进行处理并利用处理后的信息来构造行人特征[1]。
传统手工检测方法主要有如下发展阶段:2001年开始的早期研究采用提取待检测目标的Haar特征和积分图的方法进行检测,通过遍历图形像素的方式求出图像中所有区域的像素和以此增加图像特征值计算的效率[2]。之后对Haar-like小波特征改进,提出梯度方向直方图(Histogram of oriented gradient,HOG)与支持向量机方法相结合的行人检测算法,梯度方向直方图是利用边缘的朝向和强度的边缘特征,通过固定大小的图像计算梯度后,再进行图像的网格划分并计算每处的梯度朝向和强度来形成网格内的所有像素梯度方向的分布直方图,最终形成图像的完整直方图特征。
第2章相关背景知识与技术介绍
2.1深度学习与卷积神经网络
随着计算机技术的不断进步,深度学习被广泛应用于各个领域,如图像分类[31]、目标检测[32][33]、语义分割[34]、实例分割[35]等。目标检测作为深度学习中基础的研究方向已经取得了惊人的成果,而行人检测作为目标检测的下游任务,大量的深度学习方法也可以推广到行人检测领域中。本小节主要介绍深度学习以及卷积神经网络的相关背景知识,并阐述卷积神经网络的结构组成以及用于模型训练过程中所涉及到的优化项。
2.1.1深度学习与卷积神经网络
深度学习通过构建多层的网络模型来学习输入数据的复杂表示。这种技术模仿了哺乳动物脑神经元的连接方式,使得模型能够在处理图像、语音、文本等复杂数据时,自动学习原始输入数据从简单到复杂的特征表达。每一层神经网络都会从前一层获取输入,提取出输入中隐藏的更加抽象和高级的特征。常见的结构主要包括卷积层、池化层、全连接层等,不同层之间组合形成非常深的网络结构并承担着各自的专有功能。深度学习的核心优势在于不需要人工设计特征,无需针对不同问题去深入了解相应领域知识,只需要收集与问题相关的数据集,借助神经元结构通过前向传播与后向传播的方式来学习样本数据中的层次化特征表示,即可获得检测结果。
2.2注意力机制技术
注意力机制(Attention Mechanism)在深度学习领域的广泛应用是在2017年自然语言处理领域56[45][46]所提出的。虽然注意力机制的提出在计算机视觉领域要早于自然语言处理领域,但是针对计算机视觉领域近年来的发展还是依托NLP的发展思想。在经典的神经网络中,神经元的输入值主要来自于前层的神经元的线性输出,神经元可能会接收到不同类型的向量,由于接收的向量之间的特征关系并不清晰,实际训练过程中可能无法充分利用输入之间的关系导致训练结果效果不好。注意力机制的核心思想是每个神经元的输出不仅取决于前一层神经元的输出,还可以根据输入数据的不同部分进行加权,即对不同部分赋予不同的权重。通过关注输入序列中的关键信息来提高模型的精度和效率。
之后是能够隐式地预测重要的部分的SENet[40][41],能够自适应地学习到每个通道的重要性,通过引入Excitation操作和Squeeze操作来建模通道之间的关系。Squeeze操作使用全局平均池化将输出特征图压缩成一个特征向量。Excitation操作则是基于全连接层和非线性激活函数,生成一个采集通道特征的权重向量。该向量应用于原始特征图上的每个通道中,以此来对不同地通道特征进行加权。根据任务的需要加权调整特征图中的通道贡献。从而提高模型性能。
第3章基于注意力机制融合主干网的行人检测.....................................21
3.1问题分析与解决策略....................................21
3.2改进注意力机制模块.....................................22
第4章密集遮挡场景下基于注意力机制与多尺度融合的行人检测..........................37
4.1问题分析与解决策略...................................37
4.1.1密集遮挡场景下行人检测的问题分析.............................37
4.1.2密集遮挡场景下行人检测的改进策略....................37
第5章总结与展望..............................................51
5.1全文总结..............................................51
5.2工作展望..............................................52
第4章密集遮挡场景下基于注意力机制与多尺度融合的行人检测
4.1问题分析与解决策略
4.1.1密集遮挡场景下行人检测的问题分析
在密集行人检测场景中,主要分为两类:
(1)行人目标与场景物体间的遮挡目标间的相互遮挡,如行人与街道上的车辆与树木等的遮挡如图4-1(a)所示。
(2)密集场所下,行人与行人之间重叠出现的相互遮挡,如图4-1(b)所示。
上述两种遮挡情况均在使用通用行人检测算法进行检测时,均会因为该场景下会对行人的整体特征的丢失而导致检测器检测性能下降,难以精确地检测被遮挡的行人目标,这种场景下需要设计独立的模块针对性地提升模型在训练过程中对遮挡行人的表征能力来提高检测模型的检测精度[59][60]。
第5章总结与展望
5.1全文总结
行人检测的研究核心在于在从图像或视频中识别出行人的位置和大小。从早期以HOG梯度直方图为代表的手工特征研究到R-CNN与YOLO算法为代表的深度学习研究说明了行人检测技术在数据样本与算力充足时代背景下的研究方法的转变。但是实际应用之中并不存在适配任何场景的银弹,仍存在遮挡、恶劣环境导致行人特征丢失的挑战性问题,本文从行人检测领域存在的问题进行分析,主要研究如下内容:
首先,阐述了行人检测的研究意义与发展历史变化,分析以YOLO为代表的单阶段目标检测算法,根据不同阶段的YOLO框架的结构,最终选择落地效果较好YOLOv5网络作为研究与改进的基础网络框架。
其次,针对卷积神经网络对图像全局特征提取受限的问题,本文提出在单阶段目标检测模型的基础上融合注意力机制以此提高检测器性能的算法。用注意力模块能够提取卷积过程中更深更广的行人特征,进而提高检测器主干网模块输出特征的有效性,实现提升模型的检测性能的目的。
再次,针对行人检测领域面临的密集遮挡场景问题,采用修改主干网结构来优化检测框架,同时增加注意力模块来提升模型对遮挡问题的敏感度,本文改进后的算法相对于YOLOv5网络的性能结构均有性能提高,相比YOLOv5-s算法在WiderPerson和CrowdPerson数据集中分别提升了约3.3%和6.0%的AP。根据实验结果前后对比验证了对YOLO算法模型改进方向的正确性。
最后,通过不同场景下的实验结果不难发现,通用的目标检测算法在不同场景下的检测性能仍存在改进的空间,需要根据不同的场景进行网络结构的改进能获得更好的检测效果。本研究同样存在不足之处,后续会在未来的研究工作中进行改进。如第四章中,在密集遮挡场景下使用WiderPerson和CrowdPerson数据集作为实验,后续研究会添加其他类似场景的行人检测领域数据集进行综合性能多重分析对比。
参考文献(略)