本文是一篇医学论文,本文通过对某市妇幼保健院的早产儿住院数据展开研究。结合统计知识,对数据进行清洗,绘制统计图表并选用合适的统计检验方法对颅内出血危险因素进行单因素分析,最后基于数据类不平衡的背景采取多种建模策略进行建模,并进行模型比较与评价,确定合适的预测模型。
第1章 绪论
1.1 研究背景
根据世界卫生组织(World Health Organization,WHO)统计数据显示,全世界每年大约有1500万早产儿诞生,早产儿死亡率接近6.7%[1]。早产儿为孕周大于等于28周且小于37周的胎儿。近年来由于社会及环境等多种因素的影响,高危早产儿的出生率逐年增加。随着儿科医学研究及临床的发展,围产医学及新生儿急救医学的技术性进步,早产儿救治成功率逐年上升[2],但与医疗水平发达的国家相比仍存在一定差距[3]。国内外研究显示,早产儿存活后其长期的生活仍面临诸多挑战,可能需要克服如发育迟缓,认知与行为缺陷等困难[4-6]。值得注意的是,早产儿的神经系统伤残如脑瘫及神经系统功能发育障碍等疾病非但没有随着早产儿生存率的提升而相应减少,反而其发生率呈现上升趋势[7]。
早产儿的脑部发育不成熟,容易导致脑部损伤。颅内出血(Intracerebral Hemorrhage,ICH)为早产儿常见的脑部损伤疾病。颅内出血根据颅内病变位置一般可分为脑室周围及脑室内出血、硬脑膜下出血、蛛网膜下腔出血及小脑内出血[8]。新生儿脑损伤的临床特征典型性不足,尤其是颅内出血的患者,其发病早期的临床特征不明显[9]。因此在诊断方法上,国内外儿科医生一致认可影像学技术对新生儿脑部损伤诊断的重要性。美国新生儿神经学会影像指南强调了影像学方法在新生儿脑损伤诊断中的必要性[10],中华医学会儿科学分会新生儿组于2007年制订了新生儿脑部损伤的影像学诊断建议[11]。新生儿颅内出血的常规的常规检查方法包括电子计算机断层扫描(Computed Tomography,CT)[12],头颅超声(Ultrasound,US)[13],核磁共振成像(Magnetic Resonance Imaging,MRI)[14]等。
1.2 研究意义
回顾性研究是医学领域常用的研究方法,一般是利用历史临床数据,对某种疾病的病历资料进行研究,加强对疾病的理解[18]。利用早产儿产前、产中、产后的临床特征对早产儿颅内出血进行回顾性研究分析,并对高危因素进行讨论,有助于临床医生及时发现病变,及早采取措施并改善预后。这一研究方向对于提升患者及家人日后生活质量有重要价值。近年来数据挖掘的快速发展,使得机器学习算法与临床数据相结合的研究成为热点课题。因此,基于早产儿颅内出血临床典型型不足的特点,利用机器学习算法对数据进行建模并挖掘出新的临床高危特征指标,得到新的临床结论将有利于临床医生加强对该疾病的理解。
第2章 模型理论简介
2.1 Logistic回归模型
Logistic属于广义线性回归方法,是传统统计中预测因变量为分类变量的经典方法,该模型在医学回顾性分析的多因素分析中具有重要的地位[40]。
LASSO全称The Least Absolute Shrinkage and Selection Operator,是常用的特征筛选方法,提出者为Tibshirani和Hastie(1996)[41]。该方法通过在最小二乘法的式子中加入一个惩罚函数,通过收缩系数,可将部分回归数置零,从而能够在大量变量中找出极具影响力的特征子集。然而,LASSO方法在面对自变量存在多重共线性问题时表现不佳,因此Hastie和Zo(u2005)[42]提出了弹性网模型。该方法是将LASSO与岭回归方法[43]组合的特征筛选方法,在面对高维且存在共线性问题的数据进行特征筛选时效果较好。
2.5 Xgboost模型
Xgboost模型是集成学习Boosting算法族的一个方法,是近年来得到广泛应用的算法之一[47]。其核心思想是根据特征不断生成决策树模型,同时添加新的树来拟合上一棵树的预测残差,从而提高模型性能,可以看作一个加法模型,对于单个样本点,其预测过程大致如下:
对于二分类问题,例如医学中的疾病预测,正类即阳性类的样本往往会比阴性类少很多,这类数据一般称为类不平衡数据。机器学习方法一般假定正类与负类的比例相同,这往往会导致对于不平衡数据建立的模型出现在多数类上获得较高的准确率,但是对于少数类却表现不佳,同时总体预测率较高的结果。重抽样方法是解决此类问题的策略之一。SMOTE 算法基于样本特征空间相似度来合成新的少类样本,扩充原样本总体以达到类别平衡[48]。核心思想基于近邻思想:在特征空间中,邻近的少类样本间具有相似性,在两者之间进行线性插值产生的新样本,可作为新的少类样本来学习。
本章简单介绍了本文所使用到的理论方法,其中包括用于分类的四个模型:Logistic回归、支持向量机、随机森林、Xgboost。同时介绍了类不平衡问题的解决方案,包括SMOTE重抽样方法以及代价敏感学习方法。随后介绍了机器学习常用的模型评价方法。本文的模型建立部分将利用到本章介绍的理论方法。
第3章 数据来源及预处理 .............................19
3.1数据来源 ..........................................19
3.2数据预处理 ......................................19
第4章 早产儿数据描述性统计分析 ..........................27
4.1早产儿基本信息描述性统计 ....................................27
4.2早产儿患病情况与死亡率描述性统计 ..................................29
第5章 早产儿颅内出血危险因素单因素分析 .....................................33
5.1早产儿颅内出血与早产儿基本信息单因素分析 .........................33
5.2早产儿颅内出血与产妇信息单因素分析 ........................................34
第6章 早产儿颅内出血预测模型建立与评价
6.1基于最大化AUC的弹性网特征筛选方法
特征筛选是机器学习建模的重要环节。在获得数据与进行基本的清洗工作后,通常先进行特征筛选再进行模型训练。特征筛选在多个特征中选出重要的特征,减少模型复杂程度的同时使模型有更好表现。此外,特征筛选得到的特征可以与业务背景知识结合,有助于加深对研究问题的理解。本研究数据集属于临床医学数据,数据维度较大且各变量间存在较强相关性。不仅同一系统各疾病间存在相关性,不同系统的各疾病间也可能存在相关性,此外,采取的治疗措施信息同样存在相关性。基于这一特性,第2章介绍的弹性网方法适合用于本文所用的数据集。
如第2章所介绍,弹性网需要确定2个超参数:惩罚系数λ与组合系数α。组合系数α取值在区间[0,1]之间,控制LASSO惩罚与岭惩罚的比例。该超参数一般事先设定,本研究将组合系数α取0.5。惩罚系数λ控制惩罚的程度,取值越大,则得到的结果越稀疏。该超参数一般采用交叉验证确定最佳取值。R语言glmnet包提供了实现弹性网的工具。cv.glment函数可实现交叉验证法确定惩罚系数λ,glment函数可实现弹性网并得出各变量对应的回归系数β。
第7章 结论
7.1论文工作总结
颅内出血是早产儿并发症中较为严重的疾病。回顾性研究有助于临床医生加深对该疾病的理解,促进疾病的及时诊断以及适时采取治疗,加强疾病预后。基于该研究背景,本文通过对某市妇幼保健院的早产儿住院数据展开研究。结合统计知识,对数据进行清洗,绘制统计图表并选用合适的统计检验方法对颅内出血危险因素进行单因素分析,最后基于数据类不平衡的背景采取多种建模策略进行建模,并进行模型比较与评价,确定合适的预测模型。最终本文的总结如下:
第一,本文研究数据为某市妇幼保健院2012年至2018年共7年的早产儿住院数据,共包含995名早产儿。对于回顾性研究而言数据量较为充足。对于本研究数据,早产儿颅内出血总体发病率为11.16%,处于较低水平,但也因此造成了数据的类别不平衡,对随后建立预测模型的准度有一定影响。
第二,本文对不同类型的变量采用了合适的统计检验方法进行单因素分析。单因素分析结果显示,影响早产儿颅内出血的显著性因素有:孕周、出生体重、A1、A5、宫内窘迫、发热、RDS、气胸、心脏疾病、动脉导管未闭、凝血功能障碍、血小板减少症、代谢性疾病、电解质紊乱、视网膜病变、输注血浆、输注红细胞、输注血小板、有创机械通气、有创机械通气时长、上机首测平均气道压及上机首测2FiO。同时,特征筛选结果也显示血小板减少症为颅内出血重要影响因素。该结果与现有回顾性分析结果有一定的差异。最主要体现在国内尚未有早产儿颅内出血回顾性研究将凝血功能障碍与血小板减少症纳入多因素分析中,这两项指标更多是在成年人颅内出血的回顾性研究中纳入研究。目前凝血功能障碍对于早产儿颅内出血的发病机理影响机制尚未明确。国外最新研究已经将血检的数据直接用于早产儿颅内出血的研究,因此建议对于早产儿及早进行血液检查,对于血检数据呈现异常的婴儿并有其他出血症状的婴儿即使进行利用彩超等手段进行诊断,以免耽误治疗时机。
参考文献(略)