本文是一篇计算机论文,本文综合了骨龄评估和深度学习的方法,主要完成了以下工作: (1) 本文首先简单分析了骨龄评估的研究背景与研究意义,介绍了几种国内外常用的传统骨龄评估方法。接着对国内外的研究现状做了详细介绍,其中包含基于传统图像处理方式以及深度学习方法的骨龄评估方法。确定本文的研究方向为当下主流的骨龄评估方法,并且对本文涉及的深度学习的相关知识点进行了介绍,为后续搭建深度卷积神经网络做铺垫。
1 引言
1.1 研究背景及研究意义
从医学上来看,人们可以通过生物学年龄 (biological age) 来衡量人的生长发育情况,同时也可以使用年代学年龄 (chronological age) 来进行判断。年代学年龄为人们常用的衡量方式,一般通过出生日期进行计算,而生物学年龄则可以由骨龄、牙龄和智力年龄等第二性特征因素判定[1]。自骨龄应用诞生这几十年来,在各种儿科的临床环境中,骨龄都提供了许多有用的信息。儿科与放射科医生同时也注意到骨骼成熟度评估应用越来越广泛,其在临床医学[2,3]、体育科学[4]、预防医学[5]以及国际移民计划[6]中都发挥着重大的作用。此外骨龄应用在法医学以及司法审判[7,8]中也意义重大,其可以作为确认犯罪嫌疑人刑事责任年龄的证据,能够直观地表示其生物学年龄。
骨龄是人体骨骼测定年龄的简称,是一种对骨骼成熟度的解释,通过特定的骨骼图像来确定,其中包括左手手骨或膝关节的 X 光片,然后医生根据自身的临床经验和专业技能观察图像进行判定。具体是通过分析儿童身体某一区域的骨化情况,例如骨密度的增长情况、骨干及骨髓的愈合过程和骨化中心处的存在,并与当地的骨龄标准进行比较,就可以估计骨龄[9]。尽管儿童的生长发育过程有快有慢,骨骼生长也有提前或者落后,但骨化的总过程都是遵循着一定规律的,这一规律为利用 X 光片上的不同区域骨骼钙化情况来判断骨龄提供了可靠的依据,图 1-1 为手骨骨块介绍图。
1.2 研究现状
1.2.1 传统人工骨龄评估方法
传统的骨龄评判标准方法是由骨龄专家仔细检查 X 光图片,且大多数专家学者认为最理想的骨龄评估部位是手腕骨,因为该区域有大量的短骨、画骨以及长骨,这些骨头能够集中反映身体骨骼的发育成熟情况,且手骨射线图像的获取也比较方便。然后根据骨化中心出现的时间、大小、数量以及顺序,骨骼和骨化中心的形态及他们相互关系的变化等综合判定。评分法[10],图谱法[11]、超声骨龄评测法[12]以及计算机辅助骨龄测量评分系统[13]等是目前国际上最常用的骨龄评估方法。
评分法是先对手腕区域多个骨骼独立评分,然后综合所有得分做出评判结果。该方法由 Tanner 和 Whitehouse[14,15]在 20 世纪 30 年代研究提出,称之为 TW 骨龄计分法,且该方法研究对象为白人欧洲儿童。作为国际上较为流行的评判标准,该方法经历了两次修改,第一次于 1975 年修订为 TW2 法,第二次在 2001 年修定为 TW3 法。TW3 法相较于 TW2 法主要区别是取消了 T 系列评分系统,认为其是 R、C 系列的综合,没有特殊的用处,并且重新制定了 R 系列评分标准,认为该标准与现时代人群吻合。TW 法计算骨龄需要约 7.9 分钟,是欧洲医生的优选方法。
图谱法的评判区域主要是手腕部位的骨块,男性与女性分别有一套骨龄图谱。图谱主要是根据手腕骨块的出现以及消失顺序建立的标准,医师在评判骨龄时通过将儿童的手骨 X 光片与图谱比对,最相似的即为患者的骨龄。这种方法是基于 John Poland 在 1898 年提出的骨骼生长图和 Todd 在 1937 年创建的相对完整的骨骼图谱创建的。Greulich 和 Pyle 随后制定了 G-P 图谱,并在 1959 年重新修订,到今天仍是较为流行的评判标准。该法最初是基于美国俄亥俄州克利夫兰地区的儿童,通过研究他们成年前的骨骼生长过程而获得的研究成果。该方法的没有用于加权不同骨骼的既定标准,所以评估者需决定哪块区域占主导地位。但使用该方法评估非常迅速,约为 1.4 分钟,并且该法可以轻松传授,便于新学者快速实现准确的骨龄评估,因此约 76%的放射科医师和儿科内分泌学家首选 GP 方法来确定骨龄。
2 深度卷积神经网络
2.1 机器学习与深度学习
深度学习属于机器学习的一种,是一种高级的技术手段,通过模拟人类神经的连接方式来完成实际的任务,一般包含数个连接层,各个连接层以数学的方式相互关联。该方法通常建立在大量数据的基础上,通过不断将数据非线性化,建立抽象的高级特征,以此拟合出较为准确的模型,由此也被称之为层次化学习与深度网络学习。本小节将介绍深度学习的相关知识点以及发展过程。
早期在 20 世纪 40 年代时,由心理学家与数理逻辑家一同对生物神经元进行抽象与建模,并提出了人工神经网络的概念,对神经元模型能够进行运算与建模进行了验证。随后,感知机[24]作为一种可以模拟人的感知能力的模型,于 20世纪 60 年代,助力实现了一台能够识别英文字母的计算机。感知器也就是模型的神经元,一个神经元对应着一个输出,但现实中的场景较为复杂,人们将多个感知器进行组合,便拥有了多个输出的感知器模型。然而单层的感知器模型只能够应用于数据线性可分的情况,而实际的任务中数据的处理都是线性不可分的,因此这样单层的感知器模型大大限制了其应用。由此,研究员开始构建多层的感知器模型。但随着模型层数的增加,模型的拟合难度越来越高,随着反向传播算法的诞生,训练多层感知器模型变得高效起来。此时,诞生了人工神经网络[25],其包含了一个输入层与输出层以及多个隐藏层。
人工神经网络的网络基本结构如图 2- 1 所示。输入层接收数据的传入,该层由神经元构成,它们将接收到的数据传递给其他层。输入层的元素个数应该等于数据集中的变量个数即数据集的属性个数。隐藏层介于输入层与输出层之间,其包含大量的神经元,随着网络不断训练,权值得到更新,预测能力就越强。输出层集合了预测的特征,主要区别于模型类型,若模型为分类网络则输出根据任务会有多个值,若模型为回归网络则输出根据任务会有一个值。
2.2 卷积神经网络
本文的工作是实现基于深度卷积神经网络的骨龄评估方法,卷积神经网络是模型的基础,在本文中所涉及的网络统称为卷积神经网络。因此,有必要了解卷机神经网络的相关知识,包括卷积层的特征提取方式,以及池化层进行下采样来改变特征图尺度的方式等。
卷积神经网络[30] (Convolutional Neural Network, CNN) 被广泛应用于深度学习中,其在计算机视觉领域的许多现实场景中都表现优异,同时其在自然语言处理和计算机图形学等领域也有较为成功的应用。经典的多层感知机由多个全连接层以及输入输出层组成,而卷积神经网络除了有全连接层之外,还有池化层以及卷积层。接下来是对卷积神经网络所涉及到的关键层以及其运行原理予以介绍。
2.2.1 卷积层
通常计算机视觉任务有很高的输入维度,例如,骨龄任务中标准尺寸的图片为 512 大小的三通道正方形图像,其对应于八十万维的特征。因此,全连接层构造的人工神经网络会产生规模庞大的参数量,从而会导致繁重的计算任务,并且更重要的是,大量的参数量会有更高的过拟合风险。而卷积操作是局部连接、共享参数版的全连接层,这两个特性能够大大降低模型的参数量。
在卷积层中,局部连接的思想贯穿其中,具体是指在通道维度上会保持全连接,而在空间维度上,由于图像的边缘以及角点只占据了一小部分神经元,因此只需要一部分神经元相连即可。例如,手骨图像中主体关键信息只占据图中的一部分,且都不在图像的边缘处,图像中相聚很远的两个像素点之间的相互影响几乎没有,因此局部连接的操作不仅不会降低模型的拟合能力,而且能够降低模型参数量,减少过拟合风险。共享参数是深度学习的一个不可或缺的思想,由于一组权值如果可以在图像中的某个区域内提取出有用的特征,那么它们同时也可以作用于图中其他空间位置。因此,卷积层中对于空间维度,可以实现参数共享。
3 手骨图像预处理........................................ 15
3.1 数据分析 .................................................. 15
3.2 基于 DenseUNet 的手骨分割 ................. 16
4 基于深度卷积神经网络的骨龄评估.............................. 25
4.1 骨龄评估模型 ...................................... 25
4.1.1 网络骨架 InceptionV3 .................................... 25
4.1.2 压缩与提取模块 ............................................... 28
5 自动化骨龄评估系统的设计与实现........................................... 41
5.1 系统需求分析 ................................. 41
5.1.1 系统基本功能分析 .................................................. 41
5.1.2 骨龄评估功能分析 ........................... 41
5 自动化骨龄评估系统的设计与实现
5.1 系统需求分析
由于传统的骨龄评估方法会消耗医生大量的时间,并且会受到主观因素的干扰,不同医生评判的骨龄标准也不相同。为了使医生能够更加快速、客观地获取患者的骨龄,该系统集成了整套骨龄评估模型,包括基于深度卷积神经网络的预处理模型以及自动化骨龄评估模型。系统的基本功能包括用户的登录与注册。系统的骨龄评估功能调用了整套骨龄评估的模型,通过界面输入患者的基本信息,上传手骨 X 光片图像就可以得到骨龄的预测值,并且能够输出热力图,展示网络所关注的区域。管理员可以对系统进行管理,其中包括了修改用户信息,增加或删除用户以及修改用户权限等等。本节首先对系统基本功能进行分析,然后分析骨龄评估功能,最后对系统管理员功能进行分析。
5.1.1 系统基本功能分析
系统的基本功能设计是为了能够让用户有更好的使用体验,以及确保信息的安全性。这一功能能够确认登录系统的用户信息,能够禁止用户随意操作系统的内部功能。首次使用的用户需进行注册,注册后的用户可使用系统提供的部分功能,管理员可以使用系统的全部功能。
5.1.2 骨龄评估功能分析
骨龄评估功能面向的用户群体基本为医生,医生可以将患者的基本信息以及手骨 X 光片输入到系统中,并存入数据库,根据用户的需求可以实现对 X 光片预处理并快速预测骨龄,并且输出对应的热力图,以供医生进行对比评估。该评估功能将分步进行,具体步骤如下。
(1) 患者基本信息与手骨 X 光片输入
用户首先将患者的基本信息输入进系统,其中包括患者的姓名、性别、年龄,用户可以是医生也可以是拥有手骨 X 光片的非医生群体。录入信息并确认保存后,进行手骨 X 光片的上传。若用户需要使用自动骨龄评估等后续功能,性别与手骨 X 光片为必要信息,若缺失了某一信息则无法继续使用该功能。
(2) 自动化骨龄评估
在使用该功能前需确保患者信息中有预测骨龄的必要信息,包括患者的性别以及对应的手骨 X 光片图像。该功能在使用前会根据上传的图像自动识别其格式,并且确认性别信息,若缺失其中一项信息或上传信息错误则无法进行骨龄评估。系统给出的骨龄评估值仅供参考,医生可根据该值,在此基础上进一步进行评估,大大减少了医生使用传统方式评估消耗的时间,并减少了由于主观因素导致的评估偏差,非医生群体可参考该值,判断患者的发育情况,若与年代学年龄差别较大则可到医院进行进一步评估。
6 总结与展望
6.1 总结
随着生物学年龄这个概念被越来越多的人所熟知,骨龄的应用也愈发广泛,人们对于骨龄的需求量也在不断增大。然而传统的骨龄评估方法伴随着评估周期长,容易受主观因素干扰以及普及性差等问题。因此,急需一种客观、快速、便利的骨龄评估方法以克服以上问题。同时,人工智能与医疗领域的结合愈发紧密,在不同的临床环境中都取得了显著的效果,并且目前国内外已有不少基于深度卷积神经网络的骨龄评估方法。在此基础上,为进一步提高算法的准确性并实现自动化的骨龄评估应用,本文综合了骨龄评估和深度学习的方法,主要完成了以下工作:
(1) 本文首先简单分析了骨龄评估的研究背景与研究意义,介绍了几种国内外常用的传统骨龄评估方法。接着对国内外的研究现状做了详细介绍,其中包含基于传统图像处理方式以及深度学习方法的骨龄评估方法。确定本文的研究方向为当下主流的骨龄评估方法,并且对本文涉及的深度学习的相关知识点进行了介绍,为后续搭建深度卷积神经网络做铺垫。
(2) 设计并实现了基于深度学习的手骨图像预处理方法。针对原始数据集中的噪声、背景信息等干扰因素,提出了基于 DenseUNet 的手骨分割方法,并使用优化后的 Dice 损失函数代替了传统交叉熵损失函数,得到了较为精细的分割结果。针对分割后的图像中的手骨姿态不一致的问题,提出了基于 ResNet152 的分割方法,将所有数据集中的手骨矫正为较统一的姿势。预处理后的所有图像为主背景分离,手骨姿态统一的手骨图像,为之后建模自动骨龄评估模型打下坚实的基础。在训练预处理模型时,由于没有训练标签,本文使用迭代训练的方式,大大降低了人力标注成本。
(3) 研究了深度卷积神经网络的特征提取方式和各种注意力模块的用处。将SE 模块融入主干网络的每个模块中,并结合了空间与通道注意力模块,提出改进的 InceptionV3 网络进行骨龄特征提取,接着有效地融合了性别特征。通过实验对比模型基于原始数据集与基于预处理后的数据集在精度上的提升,对比融入性别特征前后模型精度的提升以及加入多个注意力模块前后模型精度的提升,验证了论文提出方法的有效性。
参考文献(略)