掌桥专利:专业的专利平台
掌桥专利
首页

一种基于交通网的EMD-LSTM疫情预测方法

文献发布时间:2023-06-19 18:29:06


一种基于交通网的EMD-LSTM疫情预测方法

技术领域

本发明属于大型呼吸系统流行病疫情预测预警技术领域,尤其涉及一种基于交通网的 EMD-LSTM疫情预测方法。

背景技术

目前传染病传播发展趋势预测的方法主要包括以下两种:一种基于数学的动态建模方法;另一种是基于数据驱动的方法:

第一种:基于数学的动态建模方法,主要以SIR模型(Susceptible InfectedRecovered Model)为基础构建传播动力学预测模型,SIR模型是是一种传播模型,是信息传播过程的抽象描述。是传染病模型中最经典的模型,该模型中将传染病流行范围内的人群分成三类:

1、易感者(susceptibles),指未得病者,但缺乏免疫能力,与感病者接触后容易受到感染,其数量记为s(t),表示t时刻未染病但有可能被该类疾病传染的人数;

2、染病者(infectives),指染上传染病的人,其可以传播给S类成员,其数量记为i(t),表示t时刻已被感染成为病人而且具有传染力的人数;

3、恢复者(recovered),指被隔离或因病愈而具有免疫力的人,其数量记为r(t),表示 t时刻已从染病者中移出的人数。设总人口为N(t),则有N(t)=s(t)+i(t)+r(t)。

SIR模型的建立基于以下三个假设:

(1)不考虑人口的出生、死亡、流动等种群动力因素,人口始终保持一个常数,即N(t) ≡K。

(2)一个病人一旦与易感者接触就必然具有一定的传染力,假设t时刻单位时间内,一个病人能传染的易感者数目与此环境内易感者总数s(t)成正比,比例系数为β,从而在t 时刻单位时间内被所有病人传染的人数为βs(t)i(t)。

(3)t时刻,单位时间内从染病者中移出的人数与病人数量成正比,比例系数为γ,单位时间内移出者的数量为γi(t)。

因此,该种基于数学的动态建模方法存在参数单一,无法考虑外界因素对传播影响的问题。

第二种:基于数据驱动的方法,该方法是从初始的数据或观测值出发,运用启发式规则,寻找和建立内部特征之间的关系,从而发现一些定理或定律,通常也指基于大规模统计数据的自然语言处理方法,数据驱动的方法主要包括多元回归、时空序列等方法,但也存在缺乏对传染病特征信息关注等问题。

此外,上述主要预测方法仅考虑到数据的相关性,不能及时有效反映防控措施的影响,随着时间推移,容易产生误差累计,出现误差增大的现象,不管是传播动力学模型还是人工智能算法,防控措施的准确评估一直是影响预测准确度的关键。

因此,研发一种能有效预测评估在有防控措施影响下的疫情态势发展变化的疫情预测方法迫在眉睫。

发明内容

本发明的目的是克服现有技术的不足,具体公开一种基于交通网的EMD-LSTM疫情预测方法,该疫情预测方法有效地集成了EMD、LSTM多种算法模型,引入交通网数据,提高预测的准确性,此外,其基于EMD方法的信号分析和解构,有效预测并评估在有防控措施影响下的疫情态势发展变化,使得对于疫情的防控更加科学有效,为疫情的精准防控提供依据。

为了达到上述技术目的,本发明是按以下技术方案实现的:

本发明所述的一种基于交通网的EMD-LSTM疫情预测方法,其具体步骤是:

S1,收集原始数据:通过各地卫健委官方网站收集疫情每日新增人数的数据作为原始数据;

S2,数据分解:用EMD方法对每日新增人数的数据进行分解,以得到多个信号分量IMF 和剩余分量Residual;

S3,对信号分量IMF进行降噪处理:用基于小波变换的去噪方法对EMD分解后的信号分量IMF进行降噪处理,处理后得到降噪后的信号分量newIMF;

S4,对信号分量newIMF进行二阶合成法:将上述步骤S3中得到的信号分量newIMF,从高频信号开始每两个相加合成,逐个得到新的二阶合成信号分量Decomp;

S5,用基于最小二乘法多项式拟合的方法对EMD分解后的剩余分量Residual进行降噪处理,取R平方值大于99%的拟合结果得到降噪后的剩余分量newResidual;

S6,引入交通网的人流量数据(高铁,航空,客运等流量),通过交通网数据来确定当地的防控措施强度,从而确定下一步中预测未来疫情的时间窗口T;

S7,用LSTM方法分别对上述步骤S4和S5中得到的分量Decomp和newResidula进行预测,训练时间窗口T的参数取自于上述S6中,批次大小设置为10,学习率设置为0.01,进行100轮训练。

S8,将S7中所有分量的预测结果相加,合成后即可得到最终的预测结果。

作为上述技术的进一步改进,所述步骤S2所述的数据分解包括以下过程:

S21:找出原始讯号S(t)中的所有局部极大值以及局部极小值,接着利用三次样条(cubic spline),分别将局部极大值串连成上包络线与局部极小值串连成下包络线;

S22:求出上下包络线的平均值,得到均值包络线m

S23:将原始信号s(t)与均值包络线m

h

S24:检查h

其中:h

重复筛选k次:h

其中:h

直到h

c

S25:将原始讯号s(t)减去c

r

S26:将r

S27:当第n个剩余量r

原始资料分解成n个IMF和一个趋势函数,便可将IMF做希尔伯特转换来进行瞬时频率的分析。

作为上述技术的更进一步改进,上述步骤S3,所述的小波变换的去噪方法的小波变换公式:

其中:

小波以连续和离散来划分,有以下三种:

第一种,输入为连续函数,输出为连续函数,称之为连续小波变换(ContinuousWavelet Transform)

第二种,输入为连续函数,输出为离散值,称之为离散系数连续小波变换(Continuous Wavelet Transform with Discrete Coefficients)

第三种,输入为离散值,输出为离散值,称之为离散小波变换(Discrete WaveletTransform)

作为上述技术的更进一步改进,所述步骤S4中基于最小二乘法多项式拟合方法是:

利用最小二乘法可求得未知的数据,并使得求得的数据与实际数据之间误差的平方和为最小,最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=φ(x):

公式说明:y=a

偏导数:

作为上述技术的更进一步改进,所述步骤S7中LSTM方法中,所述LSTM长短期记忆网络 (LSTM,Long Short-Term Memory)为时间循环神经网络,LSTM能够通过用记忆单元替换RNN 的隐藏层来学习长期依赖关系,所述LSTM由输入门、输出门、遗忘门和更新门组成,其中:遗忘门决定从先前的记忆单元接收到的信息中忘记什么,输入门决定接受什么信息进入神经元,输出门产生新的长期记忆,更新门更新单元,其中:

(1)所述输入门的数学表达式:I

(2)所述遗忘门的数学表达式F

(3)所述输出门的数学表达式O

(4)所述更新门的数学表达式:

所述更新门负责更新单元的状态;

前一个时间步的隐藏层的更新也由输出门负责:

(5)所述隐藏层的数学表达式是:H

作为上述技术的更进一步改进,所述步骤S7的训练方法为最小化训练误差的梯度下降法(Gradient descent):应用时序性倒传递算法,可用来依据错误修改每次的权重,当设置了LSTM区块时,误差也随着倒回计算,从output影响回input阶段的每一个gate,直到这个数值被过滤掉,因此正常的倒传递类神经是一个有效训练LSTM区块记住长时间数值的方法。

与现有技术相比,本发明的有益效果是:

(1)本发明所述的基于交通网的EMD-LSTM疫情预测方法,将疫情的每日新增人数的数据作为作为输入数据,通过用EMD方法对输入数据进行分解,经EMD分解后得到多个信号分量IMF和剩余分量Residual,在经过去噪处理后,我们结合交通网的参数将每一个信号分量 IMF和剩余分量Residual用LSTM方法对其进行预测,再将各个信号的预测数据相加后即可得到疫情预测结果,集成EMD、LSTM多种算法模型,引入交通网数据,提高预测的准确性;

(2)本发明所述的基于交通网的EMD-LSTM疫情预测方法,基于END方法的信号分析和解构,有效预测并评估在有防控措施影响下的疫情态势发展变化,使得对于疫情的控制和预防更加科学有效。

附图说明

下面结合附图和具体实施例对本发明做详细的说明:

图1是本发明所述的基于交通网的EMD-LSTM疫情预测方法的流程图;

图2是本发明中LSTM算法原理图。

具体实施方式

如图1所示,本发明所述的一种基于交通网的EMD-LSTM疫情预测方法,其具体步骤是:

S1,收集原始数据:通过各地卫健委官方网站收集疫情每日新增人数的数据作为原始数据;

S2,数据分解:用EMD方法对每日新增人数的数据进行分解,以得到多个信号分量IMF 和剩余分量R

S3,对信号分量IMF进行降噪处理:用基于小波变换的去噪方法对EMD分解后的信号分量IMF进行降噪处理,处理后得到降噪后的信号分量newIMF;

S4,对信号分量newIMF进行二阶合成法:将上述步骤S3中得到的信号分量newIMF,从高频信号开始每两个相加合成,逐个得到新的二阶合成信号分量Decomp;

S5,用基于最小二乘法多项式拟合的方法对EMD分解后的剩余分量Residual进行降噪处理,取R平方值大于99%的拟合结果得到降噪后的剩余分量newResidual;

S6,引入交通网的人流量数据(高铁,航空,客运等流量),通过交通网数据来确定当地的防控措施强度,从而确定下一步中预测未来疫情的时间窗口T;

S7,用LSTM方法分别对上述步骤S4和S5中得到的分量Decomp和newResidula进行预测,训练时间窗口T的参数取自于上述S6中,批次大小设置为10,学习率设置为0.01,进行100轮训练;

S8,将S7中所有分量的预测结果相加,合成后即可得到最终的预测结果。

以下具体说明关于EMD方法,经验模态分解(Empirical Mode Decomposition,简称EMD) 方法被认为是自2000年来,以傅立叶变换为基础的线性和稳态频谱分析的一个重大突破,该方法是依据数据自身的时间尺度特征来进行信号分解,无须预先设定任何基函数,这一点与建立在先验性的谐波基函数和小波基函数上的傅里叶分解与小波分解方法具有本质性的差别,正是由于这样的特点,EMD方法在理论上可以应用于任何类型的信号的分解,因而在处理非平稳及非线性数据上具有非常明显的优势,适合于分析非线性、非平稳信号序列,具有很高的信噪比。

方法能使复杂信号分解为有限个本征模函数(Intrinsic Mode Function,简称IMF),所分解出来的各IMF分量包含了原信号的不同时间尺度的局部特征信号,经验模态分解法能使非平稳数据进行平稳化处理,再进行希尔伯特变换获得时频谱图,得到有物理意义的频率。与短时傅立叶变换、小波分解等方法相比,这种方法是直观的、直接的、后验的和自适应的,因为基函数是由数据本身所分解得到。由于分解是基于信号序列时间尺度的局部特性,因此具有自适应性。

其基本原理,对数据信号进行EMD分解就是为了获得本征模函数,因此,在介绍EMD分析方法的具体过程之前可先介绍EMD分解过程中所涉及的基本概念的定义:本征模函数,这是掌握EMD方法的基础。在物理上,如果瞬时频率有意义,那么函数必须是对称的,局部均值为零,并且具有相同的过零点和极值点数目。在此基础上,有人提出了本征模函数(Intrinsic Mode Function,简称IMF)的概念,本征模函数任意一点的瞬时频率都是有意义的。任何信号都是由若干本征模函数组成,在任何时候,一个信号都可以包含若干个本征模函数,如果本征模函数之间相互重叠,便形成复合信号,EMD分解的目的就是为了获取本征模函数,再对各个本征模函数进行希尔伯特变换,得到希尔伯特谱。

一个本征模函数必须满足以下两个条件:

第一、函数在整个时间范围内,局部极值点和过零点的数目必须相等或最多相差一个;

第二、在任意时刻点,局部最大值的包络(上包络线)和局部最小值的包络(下包络线) 平均必须为零。

上述第一个条件是很明显的,它与传统的平稳高斯信号的窄带要求类似;而对于第二个条件,是一个新的概念,其将经典的全局性要求修改为局部性要求,使瞬时频率不再受不对称波形所形成的不必要的波动所影响。实际上,这个条件应为“数据的局部均值是零”,但是对于非平稳数据来说,计算局部均值涉及到“局部时间尺度”的概念,而这是很难定义的。因此,在第二个条件中使用了局部极大值包络和局部极小值包络的平均为零来代替,使信号的波形局部对称。研究表明,在一般情况下,使用这种代替,瞬时频率还是符合所研究系统的物理意义,本征模函数表征了数据的内在的振动模式,由本征模函数的定义可知,由过零点所定义的本征模函数的每一个振动周期,只有一个振动模式,没有其他复杂的奇波;一个本征模函数没有约束为是一个窄带信号,并且可以是频率和幅值的调制,还可以是非稳态的;单由频率或单由幅值调制的信号也可成为本征模函数。

分解过程:由于大多数所有要分析的数据都不是本征模函数(IMF),在任意时间点上,数据可能包含多个波动模式,这就是简单的希尔伯特变换不能完全表征一般数据的频率特性的原因。于是需要对原数据进行EMD分解来获得本征模函数。

EMD分解方法是基于以下假设条件:

第一、数据至少有两个极值,一个最大值和一个最小值;

第二、数据的局部时域特性是由极值点间的时间尺度唯一确定;

第三、如果数据没有极值点但有拐点,则可以通过对数据微分一次或多次求得极值,然后再通过积分来获得分解结果。这种方法的本质是通过数据的特征时间尺度来获得本征波动模式,然后分解数据,这种分解过程可以形象地称之为“筛选”过程。

因此,上述步骤S2所述的数据分解包括以下过程:

S21:找出原始讯号s(t)中的所有局部极大值以及局部极小值,接着利用三次样条(cubic spline),分别将局部极大值串连成上包络线与局部极小值串连成下包络线;

S22:求出上下包络线的平均值,得到均值包络线m

S23:将原始信号s(t)与均值包络线m

h

S24:检查h

重复筛选k次:h

直到h

c

S25:将原始讯号s(t)减去c

r

S26:将r

S27:当第n个剩余量r

其中:s(t):原始信号,c

原始资料分解成n个IMF和一个趋势函数,便可将IMF做希尔伯特转换来进行瞬时频率的分析。

作为上述技术的更进一步改进,上述步骤S3,所述的小波变换的去噪方法的小波变换公式:

其中:

小波以连续和离散来划分,有以下三种:

第一种,输入为连续函数,输出为连续函数,称之为连续小波变换(ContinuousWavelet Transform)

第二种,输入为连续函数,输出为离散值,称之为离散系数连续小波变换(Continuous Wavelet Transform with Discrete Coefficients)

第三种,输入为离散值,输出为离散值,称之为离散小波变换(Discrete WaveletTransform)

上述步骤S4中基于最小二乘法多项式拟合方法是:

利用最小二乘法可求得未知的数据,并使得求得的数据与实际数据之间误差的平方和为最小,最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=φ(x):

公式说明:y=a

偏导数:

上述步骤S7中,长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式,在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层,LSTM能够通过用记忆单元替换RNN的隐藏层来学习长期依赖关系,可以很好地克服梯度消失和梯度爆炸问题。

如图2所示,本发明中,所述LSTM的架构主要由输入门、输出门、遗忘门和更新门组成,遗忘门决定从先前的记忆单元接收到的信息中忘记什么,输入门决定接受什么信息进入神经元,输出门产生新的长期记忆,更新门更新单元。这四个单元以特定的方式工作和交互,因此其可以接受给定时间戳的长期记忆短期记忆和输入序列,并在一个特定的时间创建一个新的长期记忆、短期记忆和输出序列。

以下是各数学表达式:

(1)所述输入门的数学表达式:I

(2)所述遗忘门的数学表达式F

(3)所述输出门的数学表达式O

(4)所述更新门的数学表达式:

其中:tanh:tanh激活函数,X:给定序列,W:权重系数矩阵,H:隐藏层序列,C:更新门序列,F:更新门序列,I:更新门序列,t:下标,表示时刻,o:下标,指一个LSTM 单元的输出门,b:偏置向量;

所述更新门负责更新单元的状态;

前一个时间步的隐藏层的更新也由输出门负责:

(5)所述隐藏层的数学表达式是:H

所述步骤S7的训练方法为最小化训练误差的梯度下降法(Gradient descent):应用时序性倒传递算法,可用来依据错误修改每次的权重,当设置了LSTM区块时,误差也随着倒回计算,从输出(output)影响回输入(input)阶段的每一个门,直到这个数值被过滤掉,因此正常的倒传递类神经是一个有效训练LSTM区块记住长时间数值的方法。

本发明所述的基于交通网的EMD-LSTM疫情预测方法,其集成EMD、LSTM多种算法模型,引入交通网数据,提高疫情预测的准确性,此外,其基于END方法的信号分析和解构,有效预测精准的评估在有防控措施影响下的疫情态势发展变化,使得对于疫情的防控更加科学有效,为疫情的精准防控提供依据。

本发明并不局限于上述实施方式,凡是对本发明的各种改动或变型不脱离本发明的精神和范围,倘若这些改动和变型属于本发明的权利要求和等同技术范围之内,则本发明也意味着包含这些改动和变型。

相关技术
  • 一种基于随机森林的EMD-LSTM对PM2.5浓度预测的方法
  • 一种基于EMD-LSTM的短期风电功率预测方法
技术分类

06120115582667