新冠病毒疫情扩散程度预测方法及装置
文献发布时间:2023-06-19 09:54:18
技术领域
本发明涉及一种预测方法及装置,尤其是指一种新冠病毒疫情扩散程度预测方法及装置。
背景技术
新型冠状病毒(新冠,SARS-CoV-2)已迅速发展至全球性的新型传染性疫情。防控该疫情扩散的主要难点之一在公共卫生管理层面上,新冠自爆发时起,其传播与患者增长模式尚不能精准量化预测,为主管部门合理调配疫情防控资源至潜在的重灾区造成困难。
从技术角度上来看,造成缺少上述分析工具的主要原因包括数据的高维度性以及多类型数据的处理及联合分析。高维数据是指数据中的自变量数量远超实际观测样本数。而普通的统计学算法无法拟合高维数据。对于患病数量算法的开发,已有多种惩罚式回归方法普遍应用于生物医学中的基因组学或转录组学研究;而普通的竞争风险模型则被应用于临床肿瘤学及病毒学中以处理多重结局事件的干扰。然而,国内外算法的量化准确率还不是很完善。
近年来,深度神经网络模型快速的发展并取得了的优异的实验结果。Deep BeliefNetwork、Sparse Coding、Recursive Neural Network,Convolutional Neural Network等各种新的算法模型涌现出来并在各个领域得到了深入的应用。但是深度学习模型往往需要大量的数据进行学习和训练才能获得准确的结果,这在于疫情初期尤为关键。疫情初期是防控的最优时间点,但是这个时间段数据量不足对于预测准确度的影响很大。
发明内容
本发明所要解决的技术问题是:提供一种更加精确的新冠病毒疫情扩散程度预测方法及装置。
为了解决上述技术问题,本发明采用的技术方案为:一种新冠病毒疫情扩散程度预测方法,包括以下步骤,
S10、获取SARS历史数据;
S20、将所有获取的SARS历史数据全部除以100000;
S30、将除以100000后的SARS历史数据输入到预设的MLP模型进行模型训练,得到第一预测模型;
S40、通过迁移学习,将获取的新冠历史数据对第一预测模型进行二次训练,得到第二预测模型;
S50、根据第二预测模型,对未来一段确定时间的新冠病毒疫情扩散程度进行预测,将预测结果重新乘回100000。
进一步的,步骤S10具体包括,
S11、获取包含有SARS历史数据的坐标图像;坐标图像中,横坐标为时间,纵坐标为患者人数;
S12、从坐标图像中提取出每天对应的患者数量,得到SARS历史数据。
进一步的,步骤S11中,从百度或者谷歌网页中,抓取包含有SARS历史数据的坐标图像。
进一步的,步骤S40中,
在对第一预测模型进行二次训练时,将输入的新冠历史数据除以100000。
进一步的,步骤S30中,预设的MLP模型采用sigmoid+linear的层级结构。
本发明还提供了一种新冠病毒疫情扩散程度预测装置,包括,
数据获取模块,用于获取SARS历史数据;
数据处理模块,用于将所有获取的SARS历史数据全部除以100000;;
第一训练模块,用于将除以100000后的SARS历史数据输入到预设的MLP模型进行模型训练,得到第一预测模型;
第二训练模块,用于通过迁移学习,将获取的新冠历史数据对第一预测模型进行二次训练,得到第二预测模型;
疫情预测模块,用于根据第二预测模型,对未来一段确定时间的新冠病毒疫情扩散程度进行预测,将预测结果重新乘回100000。
进一步的,所述数据获取模块具体包括,
坐标图像获取单元,用于获取包含有SARS历史数据的坐标图像;坐标图像中,横坐标为时间,纵坐标为患者人数;
数据提取单元,用于从坐标图像中提取出每天对应的患者数量,得到SARS历史数据。
进一步的,所述坐标图像获取单元,用于从百度或者谷歌网页中,抓取包含有SARS历史数据的坐标图像。
进一步的,所述第二训练模块,具体用于,
在对第一预测模型进行二次训练时,将输入的新冠历史数据除以100000。
进一步的,所述第一训练模块中,预设的MLP模型采用sigmoid+linear的层级结构。
本发明的有益效果在于:通过采集SARS历史数据对预设的MLP模型进行模型训练,得到第一预测模型,其中,对SARS历史数据除以100000,能够提高第一预测模型的收敛性,提高第一预测模型的模型质量;然后通过迁移学习,将获取的新冠历史数据对第一预测模型进行二次训练,得到第二预测模型,使得在初期新冠历史数据较少的情况下,获得更加精确的预测模型;通过第二预测模型,能够提前预判患者增速什么时候下降,可以在宏观层面上辅助主管部门制定更优的疫情管控措施,从而在短时间内为缓解疫情爆发或复发带来的社会压力提供有效支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的机构获得其他的附图。
图1为本发明实施例的新冠病毒疫情扩散程度预测方法流程图;
图2为本发明实施例的新冠病毒疫情扩散程度预测装置框图;
图3为本发明实施例的SARS历史数据的坐标图;
图4为本发明实施例的第一预测模型的预测坐标图;
图5为本发明实施例的冠状病毒患者预测坐标图;
图6为本发明实施例的冠状病毒患者增长人数及预测总人数坐标图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1,本发明的第一实施例为:一种新冠病毒疫情扩散程度预测方法,包括以下步骤,
S10、获取SARS历史数据;
其中,步骤S10具体包括,
S11、获取包含有SARS历史数据的坐标图像;坐标图像中,横坐标为时间,纵坐标为患者人数;如图3所示,为包含有SARS历史数据的坐标图像。
S12、从坐标图像中提取出每天对应的患者数量,得到SARS历史数据。
例如:下列为提取的天数对应的患者人数;
day:2,3,5,7,8,10,12,13,14,17,20,22,24,27,30,33,35,36,39;
num:149,209,299,390,509,629,927,1315,1554,1853,2241,2510,2720,2900,3139,3378,3617,3826,4155;
day:40,42,43,44,46,47,48,51,53,55,57,59,62,64,66,71,72,75,78;
num:4364,4722,4991,5349,5707,5976,6274,6454,6812,7051,7260,7470,7709,7888,7979,8249,8368,8399,8460;
day:81,83,87,89,91,93,96;
num:8490,8491,8492,8493,8494,8554,8525。
将上述数据本地保存为CSV格式。
进一步的,步骤S11中,从百度或者谷歌网页中,抓取包含有SARS历史数据的坐标图像。
S20、将所有获取的SARS历史数据全部除以100000;
本步骤中,考虑到冠状病毒患者数量远高于SARS患者数量,而sigmoid函数有极大值,为实现对冠状病毒患者数据的准确预测,把所有数据除以100000,加快模型迭代收敛。
S30、将除以100000后的SARS历史数据输入到预设的MLP模型进行模型训练,得到第一预测模型;预设的MLP模型采用sigmoid+linear的层级结构。
本步骤中,需要建立MLP模型,结构代码如下:
from keras.models import Sequential
from keras.layers import Dense
model=Sequential()
model.add(Dense(units=30,input_dim=1,activation=‘sigmoid’))
model.add(Dense(units=10,activation=‘sigmoid’))
model.add(Dense(units=1,activation=‘relu’))
model.compile(optimizer=‘adam’,loss=‘mean_squared_error’)
model.summary()
本步骤中,训练获得第一预测模型,具体源代码如下:
model.fit(X_sars,y_sars_norm,epochs=1000)
y_sars_predict=model.predict(X_sars)
y_sars_predict=y_sars_predict*100000
fig1=plt.figure(figsize=(7,5))
plt.scatter(X_sars,y_sars,label=‘实际人数’)
plt.plot(X_sars,y_sars_predict,label=‘预测结果’)
plt.title(‘SARS患者数量VS天数’)
plt.xlabel(‘第几天’)
plt.ylabel(‘确诊患者总数’)
plt.legend()
plt.show()
如图4所示,为第一预测模型的预测坐标图。
S40、通过迁移学习,将获取的新冠历史数据对第一预测模型进行二次训练,得到第二预测模型;
本步骤中,采用迁移学习方法,对第一预测模型进行二次训练,得到第二预测模型,需要对新冠历史数据进行预处理,代码如下:
model.fit(X_new,y_new_norm,epochs=1000)。
本领域技术能够理解的,通过迁移学习方法,将获取的新冠历史数据对第一预测模型进行二次训练时,也要将新冠历史数据除以100000,以加快模型迭代收敛。
S50、根据第二预测模型,对未来一段确定时间的新冠病毒疫情扩散程度进行预测,将预测结果重新乘回100000。
本实施例中,对未来数据进行模拟和预测:
预测1-100日的患者数量,生成一个1-100的list,输入给模型,结果如图5所示。
如图6所示,2月11日回顾对比了一下最近几日(7-10日)的情况,发现实际增长人数与预测接近度较高,特别是新增人数峰值基本与预测一致(2月2日左右)。
新增人数峰值基本与原来预测一致,未来研究建议将疑似病例因素加入。模型更新后,预测的病例数95%时间与原来基本一致,依旧保持在15日左右。
本实施例中,通过采集SARS历史数据对预设的MLP模型进行模型训练,得到第一预测模型,其中,对SARS历史数据除以100000,能够提高第一预测模型的收敛性,提高第一预测模型的模型质量;然后通过迁移学习,将获取的新冠历史数据对第一预测模型进行二次训练,得到第二预测模型,使得在初期新冠历史数据较少的情况下,获得更加精确的预测模型;通过第二预测模型,能够提前预判患者增速什么时候下降,可以在宏观层面上辅助主管部门制定更优的疫情管控措施,从而在短时间内为缓解疫情爆发或复发带来的社会压力提供有效支持。
如图2所示,本发明的第二实施例为:一种新冠病毒疫情扩散程度预测装置,包括,
数据获取模块10,用于获取SARS历史数据;
数据处理模块20,用于将所有获取的SARS历史数据全部除以100000;;
第一训练模块30,用于将除以100000后的SARS历史数据输入到预设的MLP模型进行模型训练,得到第一预测模型;
第二训练模块40,用于通过迁移学习,将获取的新冠历史数据对第一预测模型进行二次训练,得到第二预测模型;
疫情预测模块50,用于根据第二预测模型,对未来一段确定时间的新冠病毒疫情扩散程度进行预测,将预测结果重新乘回100000。
进一步的,所述数据获取模块10具体包括,
坐标图像获取单元,用于获取包含有SARS历史数据的坐标图像;坐标图像中,横坐标为时间,纵坐标为患者人数;
数据提取单元,用于从坐标图像中提取出每天对应的患者数量,得到SARS历史数据。
进一步的,所述坐标图像获取单元,用于从百度或者谷歌网页中,抓取包含有SARS历史数据的坐标图像。
进一步的,所述第二训练模块40,具体用于,
在对第一预测模型进行二次训练时,将输入的新冠历史数据除以100000。
进一步的,所述第一训练模块30中,预设的MLP模型采用sigmoid+linear的层级结构。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述新冠病毒疫情扩散程度预测装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
- 新冠病毒疫情扩散程度预测方法及装置
- 基于传播动力学和多项式回归的新冠病毒传播预测方法