代写医学论文范文:基于超声文本的甲状腺癌症智能辅助诊断方法探讨

发布时间:2023-07-10 21:32:06 论文编辑:vicky

本文是一篇医学论文,本文针对真实世界的甲状腺疾病诊疗情况,基于无疼痛、无损伤、无辐射,可用于所有疑似病例且成本较低的甲状腺超声检查,结合甲状腺诊断的复杂性与现实性,搭建了甲状腺癌症预测的整个流程与系统,该系统可以用于辅助临床医生对患者的诊断与辅助临床医生对患者进行诊疗方案的设计。

第1章 绪论

1.1研究背景与研究意义

甲状腺疾病发病率逐年增高,甲癌已成我国发病率增长速度较快的恶性肿瘤之一[1]。甲状腺是成年人最大的内分泌腺。甲状腺激素有促进机体新陈代谢的作用,对人类的身心活动有一定影响[2]。而甲状腺异常可能导致体重下降,甚至生长迟缓、智力低下。因此,甲状腺是人类重要的腺体,有效防治甲状腺疾病十分重要。在甲状腺疾病中,甲状腺结节较为常见。甲状腺结节是甲状腺内的肿块,可随吞咽动作随甲状腺上下移动[3]。在临床诊断治疗中,医生鉴别甲状腺结节良恶性十分重要。为有效发现与控制甲状腺疾病,世界卫生组织提出了相关的治疗战略,提倡定期对甲状腺进行医学检查。甲状腺的检查方式包括触诊、甲状腺功能检查、超声检查、放射性检查、细针穿刺活检、病理检查等。其中,甲状腺超声检查是判断患者病情的重要依据,通过超声检查可以发现触诊无法发现的小结节[4],且甲状腺超声检查无疼痛、无损伤、无辐射、低成本[5],可用于所有疑似病例。因此,甲状腺超声检查成为了临床检查的首选方式。

医学论文怎么写

随着医疗系统大数据与人工智能走入人们的视野,医学信息系统逐步发展,医学影像系统、电子病历管理开始普及和使用。我们逐渐认识到电子病历数据中蕴含着丰富的、有价值的信息。提取电子病历中的信息用于前瞻性地预判,有利于提高临床医生诊断的准确率,同时还能更好地防治疾病。随着人工智能技术的快速发展,计算机辅助临床医生进行诊疗逐渐体现出其优势。医疗数据有着容量大、异构性、高价值等特点。医疗数据库中,医疗信息数据主要分为非结构化、半结构化、结构化三种形式。其中非结构化的电子病历是指医生以自然语言描述患者症状,它是一种叙述性的信息数据,将此类数据以关系型的结构存储起来,可以帮助医生对患者情况进行分析与预测[6]。因此,以快速、高效的方式提取这些非结构化的医疗数据信息成为了当前的研究热点[7]。

1.2国内外研究现状

1.2.1 医学文本研究现状

影像学描述在医学文本中占比较大。关于影像学报告信息的提取,早期的医学报告结构化是基于医疗词典语料库或基于规则的。Cormack J等[9]针对心脏病危险因素文本信息的提取进行了研究,建立了心脏病危险因素的医疗语料库。但这种简单的结构化方法需要消耗大量的人力成本、时间成本,这种需要通过阅读大量的文本发现其中关键词予以匹配的方法可移植性不高。随着自然语言处理(NLP)技术的发展,国内外许多学者针对不同疾病的影像学报告建立了针对性的NLP工具,这些工具可以对指定内容进行识别与提取。Li A Y等[10]基于回顾性CTKUB报告,通过自然语言处理的方法识别输尿管结石放射学报告中的输尿管结石的阳性患者。Fevrier H B等[11]开发了一种NLP工具用于捕获肠镜检查的5个病理变量,最终通过自然语言处理的方法有效地识别并提取出了有价值的信息。一些学者关注并使用基于规则的方法进行识别和提取文本[12]。Hammami L等[13]提出了一种适用于意大利语的癌症文本的识别与提取的NLP方法,该方法基于规则,能针对性识别和提取病理报告的形态学文本内容。但仅仅基于词典预料库的方法或仅仅基于规则的方法识别和提取文本信息,都仅适用于报告描述较规则的情况,可移植性低。

随着自然语言处理技术的发展,1995年命名实体识别技术于第六届MUC会议提出,许多学者开始研究借助命名实体识别技术,研究半自动地从医疗文本中提取医学术语的方法。Chen P等[14]将1980份中文脑血管超声报告手工标注为训练数据集,该数据集包括了症状、位置、程度等7种类别的术语,通过CRF模型识别这7类术语。最终,实验结果显示识别各类术语的真阳性率值均在0.9以上。Qin L等[15]以word2vec为词向量,基于BILSTM-CRF模型,识别中文超声心动图报告中的11种判断心源性中风的诊断依据,该模型在基于人工标注的4018份超声心动数据上进行。实验结果显示,模型在诊断依据识别上达到了98%,并且在最后,作者总结了中心源性中风的诊断依据文本。

第2章 相关技术理论

2.1 DBSCAN文本聚类

文本聚类是指从许多文档中把一些内容相似的文档归为一类。同理,短文本聚类是从许多短句中把一些内容相似的短句归为一类。文本聚类是一种无监督的机器学习方法。无监督算法无需预先人工标注、没有训练过程,具有较高的自动化处理能力。聚类以文本相似度为主要依据,认为同类型的文本间相似度较高,可以将其划分为一类;不同类型的文本间相似度较低,不能将其划分为一类。DBSCAN[26]是一种经典的基于密度的聚类方法。该算法可以发现任意形状的簇、对噪声不敏感,且能自动发现簇的数量。该算法无需预先指定聚类的类别数目,适用于无法确定类别数的聚类。本研究即无法确定聚类类别数目,因此,该算法适用于本研究。

甲状腺超声文本为一长段话,其中的几个词语为我们所需的重要信息。因此,以句号与逗号将一段甲状腺超声文本分割后,对短句进行短文本聚类能有效地总结影像学医师们常用于描述甲状腺超声文本的医用术语,便于总结专业的自定义词典,构建语料库。

文本聚类依赖于文本间相似度,而文本间相似度的计算过程是将语言文字转化为数字信息。将信息转化为高维空间点,计算点与点之间的距离,聚类越近则认为越相似。DBSCAN聚类算法是先发现密度较高的点,然后把相近的高密度点逐步连成一片,生成各种簇。本研究在运用该算法时,在调参上主要关注“ε-邻域的距离阈值(eps)”、“样本点成为核心对象所需的ε-邻域样本数阈值(min_samples)”以及“各词的词性系数”这三个参数,同时也关注噪声点数情况,尽量使得每个短句都能找到与其相似的短句,以归为同一类别。

2.2 命名实体识别

命名实体识别(Named Entity Recognition)使用广泛,简称NER[29]。命名实体通常指具有特别意义的或一段话语中较为重要的词,现有的研究通常用于识别地名、专业词汇等。NER系统的主要目的就是从非结构化的文本中抽取出我们所关注的实体[30]。在现实的应用中,按照业务需求,分类别识别实体。如在电商平台中,可用于抽取产品名称、价格等信息,减少人工机械性的工作量。

由于NER问题的目标是从大量文本中抽取指定的、需求的文本片段[31]。目前,该类问题的研究方法主要有“基于规则”与“基于模型”两种方法。其中,基于规则的方法适用于半结构化或较规范的文本,而对于非结构化的文本,基于模型的方法存在一定的优势。从模型的角度,可以将NER问题看作是序列标注问题[32]。序列标注问题是指模型输入一个序列,该序列包含了文字、时间等信息,而模型输出的也为一个对应的序列。序列标注问题针对输入序列的每个单元,会输出一个特定的标签与之对应。因此,基于模型的方法需要人工的预先标注各序列对应的标签用于训练。标注方式有多种,如IO、BIO、BMEWO、BMEWO+等。本研究采用BIO的标注方式标注实体。将“M”看作为一个实体,可以是字、词、句。可以将每个最小单元,即字标注为“B-M”、“I-M”或者“O”。其中,“B-M”作为这段文本的开头的标签;“I-M”作为这段文本中间位置的标签;“O”表示不需要的文本片段,不属于任何类型。比如,“患者甲状腺”,在本文中器官词以“ORG”作为标签,则“患”与“者”对应的标签为“O”,“O”;“甲”对应的标签为“B-ORG”;“状”与“腺”对应的标签为“I-ORG”,“I-ORG”。

第3章 数据情况与研究流程.................................13

3.1 数据概况.........................................13

3.2 甲状腺超声文本特点............................................14

3.3 研究流程......................................................16 

第4章 甲状腺超声文本结构化方法研究...................................18

4.1 文本聚类......................................................18

4.1.1文本分词.................................................19

4.1.2评价指标.................................................20

第5章 基于机器学习的甲状腺癌辅助诊断研究.................31

5.1 指标选取与量化..........................31

5.2 描述性统计与相关分析......................32 

第6章 甲状腺癌症预测系统的建立

6.1 系统设计

甲状腺结节良恶性的系统的输出部分包括三个部分,分别是重要信息展示的输出、具体信息展示的输出与预测结节良恶性的展示,系统具体情况与点击顺序如图 6-1所示。

医学论文参考

第7章 结论与展望

7.1结论

本文从真实的甲状腺检查报告出发,以辅助临床医生对甲状腺结节良恶鉴别为目标,研究了从不规范的甲状腺超声文本报告中精准高效地提取结构化的有价值的数据,并通过机器学习方法学习影像学医师的专业知识和病理科的临床诊疗经验,做到辅助临床医生,提高对甲状腺癌的诊断准确率与提高甲状腺癌的治愈率。本文主要完成了以下内容:

(1)基于真实的甲状腺超声文本报告,针对不规范的医疗文本报告,提出一套将甲状腺超声文本报告结构化的方案。在该过程中,基于本文所涉及的甲状腺超声报告,根据甲状腺超声报告语义树,建立了甲状腺超声报告专业的语料库,即文本分词中的自定义词典。本文所建立的方案与流程一方面实现了研究所涉及的文本数据的结构化转换,为后续搭建甲状腺结节良恶性辅助诊断研究奠定了基础。另一方面该方案与流程可以为其他疾病的不规范的医疗诊断文本数据的信息提取与结构化处理提供一个思路,解决了当前大数据时代面对海量不规范临床医疗诊断文本数据的困难。

(2)基于本文涉及的甲状腺超声文本报告,将提取的结构化的文本信息储存于图形数据库,搭建了甲状腺超声文本描述的知识图谱,该知识图谱包含了各甲状腺特征可能出现的情况与淋巴结特征可能出现的情况,相当于的将甲状腺超声报告所用的专业词汇可视化。

(3)针对甲状腺超声报告,本文选取合适特征并对特征指标进行合理的量化与标准化,对患者的基本信息、甲状腺超声特征指标和甲状腺切除手术后的病理结果等进行了较为详细的统计与数据分析,探究了各自变量特征间相关性、单个特征与病理结果的关系,了解患者基本信息、甲状腺超声数据与病理结果特点。

参考文献(略)

提交代写需求

如果您有论文代写需求,可以通过下面的方式联系我们。

代写医学论文

热词