本文是一篇医学论文,本文在预测疫情发展趋势的常用模型中,选择了GM(1,1)模型、UGM(1,1)模型、新陈代谢灰色预测模型、新信息灰色预测模型、SIR模型、时间序列模型以及随机森林回归模型共7个单一预测模型来对阿根廷和意大利的新冠疫情发展趋势进行预测。
第1章 绪论
1.1 研究背景
传染病是指由各种病原体引起的能够在不同的人、动物之间相互传播的一类疾病。引起传染病的病原体有很多种,最常见的一般是病毒、细菌等,对人类健康危害最大的传染病大多都是由病毒和细菌感染导致的。在上个世纪初期,传染病曾被人类认为是一类十分恐怖的疾病,被称之为瘟疫,直到现在,病毒性传染病依然是全球公共健康的最大挑战。由于传染病可以在人群中相互传播并引起流行,危害公共健康,因此一直以来传染病都是公共卫生关注的焦点。
传染病的发生是无法被预知和掌控的,所以传染病始终都是全球的主要疾病负担,由于在现实生活中不能利用生命来做实验,因此对传染病建立相应的数学模型,进行数值模拟,从而了解传染病的传播规律、发展趋势并预测出传染病的规模是十分必要的。通过对数学模型的分析,可以加深人们对传染病进一步的认识,也有利于防疫部门参考预测情况,制定适合的防控方案,随时了解疫情的变化趋势,并能及时地调整方案。
于2019年年底爆发的新冠肺炎疫情给全球带来了巨大的影响。新型冠状病毒是从未在人体中发现过的冠状病毒新毒株,该病毒可以在人与人之间传播,传染源主要是新冠病毒感染者,无症状感染者也是传染源,主要传播途径包括呼吸道飞沫传播和接触传播。疫情的特征是聚集性发病,且易在短期内感染新的群体,尤其是近来被发现的多种变异的毒株,传染性极强。当下国内疫情已得到了很好的控制,但在全球还有许多其他地区目前仍处于疫情的传播阶段,能够预测未来的新冠肺炎感染人数,提前预知疫情的发展趋势对这些地区来说十分必要。
1.2 研究意义
尝试将灰色预测与其他预测方法相结合以提高模型预测精度的研究,可以为分析和预测新冠疫情数据提供新的方向。通过建立可对后续感染病例数进行预测的模型,得到相应的预测结果,并根据一定的评判标准来评价模型的预测效果,从而筛选出更优的预测模型。通过对多种预测模型的比较,可以发现更适合对新冠疫情发展趋势进行预测的模型,可以为需要进行模型选择的人提供参考,将筛选出的最优模型用来预测新冠疫情发展趋势,模型的预测结果可以为疫情的防控部署工作提供数据参考,可作为疫情防控决策的理论依据。在分别对阿根廷8月份的新冠感染人数和意大利11月份的新冠感染人数建立传染病动力学模型时,发现两个国家的参数λ值不同,并通过对比当时两个国家的疫情防控措施,可以发现新冠疫苗的接种和户外戴口罩对于疫情防控十分重要,也印证了我国疫情防控措施的重要性。
目前预测或模拟流行病传播的数学模型中常用的模型主要是传染病动力学模型,该模型是经典的专门模拟传染病传播机制的模型。但是由于传染病动力学模型的参数不易确定,且预测只利用一组数据即一个时间节点的易感人数、感染人数和移出人数的数据,且模型有一定的假定条件,比如假定个体总数不发生变化且认为每个个体与其他个体接触的机会是均等的,而现实并非如此,实际情况无法满足该模型的假定条件,于是导致该模型只能实现大致趋势的预测,其预测精度难以达到很高的要求。因此,为了发现更适合用来进行新冠疫情发展趋势的预测模型,多尝试几种预测模型,或者尝试利用组合模型来提高预测精度非常有意义。除了灰色预测模型外,现阶段有不少学者选择利用机器学习的方法来进行预测研究,但大多数单一模型通常很难达到较高的精度要求,因为多数模型都是有自身的优势和劣势存在的,于是尝试将模型组合更大的发挥模型预测优势,降低模型的劣势、提高模型的预测精度是十分重要的。
第2章 灰色系统理论模型与评价方法
2.1 灰色系统理论的概念与原理
2.1.1 灰色系统理论基本概念
灰色系统指的是信息不完全的系统,其是根据对信息的了解程度来命名的。通常情况下,人们习惯用“黑”来表示完全未知的信息,用“白”来表示明确已知的信息,通常,完全未知的信息系统称之为黑色系统,明确已知的信息系统称之为白色系统。对于既不完全未知又不明确已知的“模糊不清”的信息系统,用介于“黑”与“白”之间的“灰”来表示,因此信息不确定、不完备的系统称作灰色系统。
灰色系统理论的基本思想是将原始数据作为原始数列,经过某种生成一个新的序列来加强数列的趋势性,再对新序列构建微分方程,该微分方程构造的预测模型即GM模型。简单来说灰色系统理论是通过生成灰色序列来弱化原始数据的随机性,建立微分方程模型来预测系统的变化。
2.1.2 灰色系统理论基本原理
(1)差异信息原理
差异信息是指灰色系统内信息间存在差异,差异即事物之间的不同,有信息则会存在不同之处,这种差异性原理正如世界上没有相同形状的两片雪花。
(2)解的非唯一性原理
由于灰色系统的信息不确定和不完备,所以在微分方程求解时,解也是不确定和非唯一的。因此在灰色系统理论的实际应用中应始终遵循解的非唯一性原理。
(3)最少信息原理
灰色系统理论的特点就是利用“小样本”作为基础进行进一步的研究,不需要全面获取系统信息,使已经掌握的最少信息发挥其最大作用,以此来研究未知信息解决实际问题。
(4)认知根据原理
信息是认知的根据,灰色系统理论是根据对已知信息所表现的规律进行系统研究从而获得认知的。所有的认知必须来源于信息,对信息进行判断和预测的前提是根据信息获得认知。
2.2灰色预测模型
灰色预测实际上就是灰色系统所做的预测,是一种对含有不确定因素的系统进行预测的方法。灰色预测是通过对系统各因素进行关联分析,并对原始数据进行生成处理来找寻系统发展变动的规律,从而生成比原始数据规律性更强的数据序列,再对数据序列建立相应的微分方程模型,从而预测事物未来的发展趋势。
灰色预测模型的主要思想就是通过对原始数据的累加生成来挖掘有用信息。原始序列的趋势模糊不易捕捉,但是通过累加生成得到的序列趋势就比较清晰了。灰色预测模型累加生成的序列是与时间一致的序列,尽管是在数据有限的情况下,灰色预测模型也能有效地捕捉结果。
新陈代谢GM(1,1)模型是在灰色预测模型的基础上进行,通过1次灰色预测得到原始序列之后第一个时间点的信息数据()()0x n+1以后,在原始序列中去除最早的第一个信息数据()()0x1,同时在序列末尾增加最新预测的信息即()()0x n+1,生成新的序列作为原始序列,重复2.2.1节的步骤,建立新陈代谢 GM(1,1) 模型。并重复以上步骤,依次递补直至完成预测目标,该过程即为新陈代谢 GM(1,1)预测模型。
新信息GM(1,1)模型亦是在灰色预测模型的基础上进行,通过1次灰色预测得到原始序列之后第一个时间点的信息数据()()0x n+1以后,不同之处在于无需对原始序列进行信息去除,直接在序列末尾增加最新的预测信息即()()0x n+1,得到比原始序列长的新的序列作为原始序列,再重复2.2.1节的步骤,建立新信息 GM(1,1) 模型。并重复以上步骤,依次增加新信息直至完成预测目标,该过程即为新信息 GM(1,1)预测模型。
第3章 基于单一模型的新冠肺炎感染人数预测............................... 12
3.1 数据来源及说明...................................... 12
3.2灰色预测模型........................................... 13
第4章 基于组合模型的新冠肺炎感染人数预测................................... 23
4.1 新陈代谢UGM(1,1)模型和新信息UGM(1,1)模型........................... 23
4.2灰色预测和传染病动力学组合模型................................. 26
第5章 模型的预测效果对比..................................... 29
5.1 单一模型预测效果........................................... 29
5.2 组合模型预测效果...................................... 31
第5章 模型的预测效果对比
5.1 单一模型预测效果
将GM(1,1)模型、UGM(1,1)模型、新陈代谢灰色预测模型、新信息灰色预测模型、SIR模型、ARIMA模型以及随机森林回归模型对2021年8月21日—2021年8月27日阿根廷新冠感染人数的预测值与实际值的拟合曲线绘制在同一张图内,如图5-1所示,由于其中GM(1,1)、UGM(1,1)的预测结果与新信息GM(1,1)的预测结果几乎没有差别,所以这三个模型的预测结果拟合曲线重合了,而这些模型中更接近实际值的是随机森林模型和新陈代谢GM(1,1)模型的预测值。
将这7种单一模型预测方法对2021年11月21日—2021年11月27日的意大利新冠感染人数的预测值拟合曲线与实际值拟合曲线绘制对比图,如图5-2所示,发现对于意大利的疫情数据GM(1,1)、UGM(1,1)的预测结果与新信息GM(1,1)的预测结果也是几乎没有差别,所以这三个模型的预测结果拟合曲线也是重合的,而这些模型中更接近实际值的是新陈代谢GM(1,1)模型和ARIMA模型的预测值。
第6章 结论与展望
6.1 研究的结论与启示
新型冠状病毒肺炎是一种传染性极强的传染病,从防控手段来看,提前预知疫情发展趋势,可以为医务人员后续的工作提供帮助,也可以为疫情防控提供决策辅助信息。本文在预测疫情发展趋势的常用模型中,选择了GM(1,1)模型、UGM(1,1)模型、新陈代谢灰色预测模型、新信息灰色预测模型、SIR模型、时间序列模型以及随机森林回归模型共7个单一预测模型来对阿根廷和意大利的新冠疫情发展趋势进行预测,并建立了新陈代谢UGM(1,1)模型、新信息UGM(1,1)模型、GM-SIR两段式模型和GM-SIR均值模型4种组合模型进行预测,通过模型预测结果与实际值的拟合曲线图和模型评价指标的计算结果,对模型预测效果作对比,以发现预测效果更好的模型。得到的结论如下:
对于单一预测模型,通过对拟合曲线图的观察,初步认为新陈代谢GM(1,1)模型的预测值拟合效果更好更稳定,而SIR模型的预测效果相对而言不是特别好,ARIMA模型的预测效果不稳定。通过评价指标的计算,GM(1,1)模型、UGM(1,1)模型、新陈代谢GM(1,1)模型、新信息GM(1,1)模型、ARIMA模型和随机森林回归模型的MAPE值均小于10%,说明这几个模型的预测效果都是“极好的”。SIR模型对于意大利的疫情数据来说预测效果也是“极好的”,而对于阿根廷的数据SIR模型的MAPE值为12.13%,预测效果属于“良好的”。然而无论是对于阿根廷的疫情数据还是对于意大利的疫情数据,GM(1,1)模型、UGM(1,1)模型、新陈代谢灰色预测模型和新信息灰色预测模型这几个预测模型的每一天预测结果的相对误差均保持在5%以下,预测效果很好且非常稳定。
参考文献(略)