本文是一篇计算机论文,本文提出了以UNet作为主干网络的BNUNet,通过跳跃连接技术融合图像的深层语义信息和浅层细节信息,提高网络对于各种尺寸细胞的识别能力。
第1章绪论
1.1研究背景及意义
医疗图像分析在医疗领域有着举足轻重的作用。随着国内外医疗技术的进步,医疗图像分析已广泛应用于病菌研究、病理研究等领域。研究表明,全世界医疗图像的数据量能够达到世界信息总量的1/5以上[1],这足以看出医疗图像的重要性。细胞图像分割作为显微细胞分析的重要组成部分,对医学领域具有重大意义。如图1-1是细胞图像分割的一个样例。
细胞图像分割是一种将细胞图像前景与背景分离的技术,这种技术需要对图像的每一个像素进行分类,使用传统的人工标注方法虽然能够获得高质量的分割结果,但是十分耗费人力物力和时间。从表1-1可以看出,用AI算法辅助进行自动化细胞图像分割具有非常重要的意义。
当前,显微细胞图像的自动化分析手段通常分为传统方式和基于深度学习的方式两类。
传统方式一般基于数学、物理手段,如基于阈值的分割方法、基于图论的分割方法等。这种方法通常由研究者从数据集中收集一些数据的浅层特征,包括纹理信息、灰度信息、角度信息、对比度信息和形状信息等等,并针对特定数据集进行单独设计。但上述浅层特征容易受地点,时间,设备等因素的影响,因此基于传统方法的模型通常在某些特定的数据集上表现良好,但泛用性较差。
1.2国内外研究现状
1.2.1基于深度学习的图像语义分割工作研究现状
AlexNet[2]在ImageNet竞赛中获得巨大成功后,专家们发现基于深度学习算法的模型能够解决传统模型泛用性较弱的问题。受此启发,各个领域的学者们开始尝试将深度学习算法应用到自己的领域中。在这期间,出现了大量优秀的深度学习算法,包括VGG16[3]、GoogleNet[4]等。他们通过卷积层处理输入数据,提取出高维特征,最后通过全连接层获取网络的输出结果。这些模型在图像分类领域取得了不错的表现并为计算机视觉领域的后续发展提供了扎实的基础。
随着深度学习算法在图像分类领域的逐步完善,人们开始将注意力放到图像分割领域。图像分割任务是计算机视觉领域的难点之一,其主要工作是对输入图像进行像素级分类,最终输出标注好的分割结果。因此,图像分割任务与图像分类任务不同,模型需要对每个像素都进行预测,同时将输出结果的分辨率恢复到与输入图像一致。对此,Long等人[5]于2015年提出了完全卷积网络(FullyConvolutional Networks,FCN),其将VGG16最后的全连接层改为一个1*1卷积层,并且通过上采样操作使网络的输出结果具有与输入数据相同的分辨率,实现了端到端的图像分割工作,最终在PASCAL VOC数据集上取得了当时最好的表现。同一年,Ronneberger等人提出了对医学图像分割领域影响最大的UNet模型,该模型是一个编码器-解码器结构,使用跳跃连接技术实现对高维特征与低维特征的拼接融合[6]。接着,PSPNet使用多个尺寸的卷积核并行工作,最后将这些卷积核输出的结果进行合并[7],以此来提高模型的分割精度。
第2章深度学习背景知识
2.1卷积神经网络的相关知识
卷积神经网络(Convolutional Neural Networks,CNN)是深度学习中最具开创性的网络结构之一。1943年,皮兹[34]提出的McCulloch-Pitts模型是CNN的起源,其原理是模仿人脑神经元的构造方式进行工作。LeCun基于这个理念提出了第一个广为人知的卷积神经网络模型——LeNet-5[35],然而由于当时计算机硬件的原因,计算能力无法满足卷积神经网络发展的需要,使得CNN没有取得更大的突破。直到2012年这种情况才出现了转机,在ImageNet竞赛中AlexNet[2]以压倒性的优势取得了冠军,其使用的网络结构和LeNet-5几乎一模一样,如图2-1所示,包括卷积层、池化层和全连接层等。本节主要内容就是介绍关于神经网络的一些重要概念。
2.1.1输入层
顾名思义,输入层是整个网络的输入,在图像分割任务中一般是一张图片,而图片一般又分为空间维度和通道(Channel)维度,比如一张彩色的RGB图像的空间维度就是他的尺寸,而通道维度就是3。
2.1.2卷积层
卷积层的作用是从图像中提取特征。卷积核根据步长在图像上不断移动,不断提取归纳所获得的特征,每一次提取的特征仅仅对应于卷积核覆盖的区域,因此卷积是一种局部操作。
2.1.3池化层
池化操作与卷积操作类似,都是将窗口在图像上进行滑动,并且在滑动的过程中进行一些计算。与卷积层不同的是,它被用于对提取到的特征进行浓缩,也就是进一步地提取特征。因此,如果不做其他处理,池化后的图像分辨率会下降。当前常用的池化操作一般分为两种:平均池化和最大池化。
2.2卷积神经网络的训练过程
2.2.1损失函数
损失函数是对模型预测结果与真实数据之间差距的度量,深度学习模型通过不断降低损失函数的值完成参数的迭代优化,最后得到局部或全局最优参数。图2-6展示了预测值、真实值和损失函数之间的关系。假设F()表示模型,L()表示损失函数,x表示输入,y表示真实值,那么损失函数可以被表示为下面这个公式:
第3章基于非局部模块的细胞显微图像分割模型.............23
3.1网络的整体结构..........................23
3.2主干网络............................24
第4章实验与分析.......................................34
4.1数据集介绍.......................................34
4.1.1平板玻璃上的HeLa细胞数据集................34
4.1.2在聚苯乙烯基质上的胰腺干细胞数据集.........35
第5章总结....................46
第4章实验与分析
4.1数据集介绍
为了评价模型的效果,本文将提出的模型在ISBI细胞图像分割挑战赛中的三个数据集上进行验证[44][45]。这些数据集分别是平板玻璃上的HeL a细胞数据集(DIC-C2DH-HeLa)、在聚苯乙烯基质上的胰腺干细胞数据集(PhC-C2DL-PSC),以及聚丙烯酰胺基质上的大鼠间充质干细胞数据集(Fluo-C2DL-MSC)。
4.1.1平板玻璃上的HeLa细胞数据集
该数据集总共包含168张Hela细胞图像数据。其中45%作为训练集、10%作为验证集、45%作为测试集,以此判断模型的泛用性。其中,前50%与后50%并不是在同一个时间段拍摄,所以能够判断模型的鲁棒性。在该数据集中,每张图片的分辨率为512*512像素。图4-1展示了该数据集下的一些示例。
第5章总结
细胞显微图像分割是显微图像分析的关键步骤,良好的细胞显微图像分割结果可以提高目标检测、信息分析等后续显微图像处理任务的准确度。现存的细胞图像分割网络虽然能够获得良好的分割效果,但是普遍存在以下几个问题:一是由于现存方法普遍是基于UNet的改进方法,因此这些方法大多仅使用了局部操作,无法有效获取图像的全局上下文信息,当遇到尺寸较大且形状较不规则的细胞时,网络很难识别出细胞的完整轮廓;二是由于下采样操作会不可避免地损失图像的空间信息,因此当缺乏全局上下文信息的辅助时,上采样操作很难弥补空间信息的缺失。针对上述情况,本文结合UNet和交叉注意力模块提出了一种基于编码器-解码器结构的神经网络模型,主要工作如下:
(1)提出了以UNet作为主干网络的BNUNet,通过跳跃连接技术融合图像的深层语义信息和浅层细节信息,提高网络对于各种尺寸细胞的识别能力。
(2)将上采样操作与交叉注意力模块通过残差结构相连,使网络能够在上采样过程中得到充足的全局上下文信息,从而在加强网络获取全局上下文信息能力的同时改善网络的上采样结果。
(3)提出了“边界增强交叉熵损失函数”,通过控制损失函数的权重,一方面缓解了图像的类别不平衡问题,另一方面使网络更加关注细胞边界附近的像素。
(4)将BNUNet与现有主流图像分割模型进行了横向对比,实验结果表明,在ISBI细胞图像分割挑战中的DIC-C2DH-HeLa数据集、PhC-C2DL-PSC数据集以及Fluo-C2DL-MSC数据集上,BNUNet的mIoU指标、Dice指标以及Recall指标均超过了对比模型。在上述3个数据集中,BNUNet分别取得了83.8%、92.7%和86.9%的mIoU指标,91.7%、92.8%和85.5%的Dice指标,93.9%%、95.3%和76.8%的Recall指标,90.0%、90.5%和97.1%的Precise指标。
参考文献(略)