掌桥专利:专业的专利平台
掌桥专利
首页

基于神经网络算法的数据预测方法和装置

文献发布时间:2024-04-18 19:58:26


基于神经网络算法的数据预测方法和装置

技术领域

本申请涉及数据预测技术领域,尤其涉及一种基于神经网络算法的数据预测方法和装置。

背景技术

传染病通常具有较大的破坏力,对公共健康构成严重威胁,并对人们日常生活产生深远的影响。传染病的传播过程遵循相应的客观规律,对疫情趋势可进行科学的预测,这将有助于决策者制定合理的防控政策。现有的预测方法未注意到疫情数据集的整体价值以及数据的时间特征,从而导致预测精度较低。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的第一个目的在于提出一种基于神经网络算法的数据预测方法,解决了现有预测方法未注意到疫情数据集的整体价值以及数据的时间特征从而导致预测精度较低的技术问题,通过结合深度学习和神经网络模型提取数据的时间特征,从而提高了预测精度,促进了准确的数据管理,从而能够精确预测城市疫情期间的每日新增阳性病例,为公共卫生决策提供信息,减少疫情对社区的影响。

本申请的第二个目的在于提出一种基于神经网络算法的数据预测装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的,本申请第一方面实施例提出了一种基于神经网络算法的数据预测方法,包括:获取第一预设时间段内的第一区域的日新增阳性历史数据,并通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据;通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理;构建BiLSTM模型,并利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型;获取第二预设时间段内的日新增阳性历史数据,将第二预设时间段内的日新增阳性历史数据输入训练好的BiLSTM模型进行预测,得到预测的日新增阳性数据。

可选地,在本申请的一个实施例中,第一区域包括多个子区域,第一区域的日新增阳性历史数据包括第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据,通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据,包括:

分别计算第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据占第一区域的日新增阳性历史数据的比例;

将比例按从大到小进行排序,并选择排名靠前的预设数量个比例对应的日新增阳性历史数据作为目标历史数据。

可选地,在本申请的一个实施例中,通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理,包括:

将分区窗口长度预设为第三预设时间段,将滑动窗口长度预设为第四预设时间段,并根据分区窗口长度和滑动窗口长度对目标历史数据进行分区;

利用Min-Max归一化对分区后的目标历史数据进行线性变换,将分区后的目标历史数据缩放至(0,1)之间的范围。

可选地,在本申请的一个实施例中,BiLSTM模型包括神经元为7的双层LSTM模型和两个Dense层。

可选地,在本申请的一个实施例中,利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型,包括:

将平均绝对误差和均方根误差作为损失函数,根据损失函数将归一化处理后的目标历史数据输入BiLSTM模型进行训练,当平均绝对误差和均方根误差均小于预设阈值时,得到训练好的BiLSTM模型。

可选地,在本申请的一个实施例中,均方根误差表示为:

其中,RMSE表示均方根误差,N表示输入的训练样本总数,y

平均绝对误差表示为:

其中,MAE表示平均绝对误差,N表示输入的训练样本总数,y

为达上述目的,本申请第二方面实施例提出了一种基于神经网络算法的数据预测装置,包括:

获取模块,用于获取第一预设时间段内的第一区域的日新增阳性历史数据,并通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据;

分区模块,用于通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理;

训练模块,用于构建BiLSTM模型,并利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型;

预测模块,用于获取第二预设时间段内的日新增阳性历史数据,将第二预设时间段内的日新增阳性历史数据输入训练好的BiLSTM模型进行预测,得到预测的日新增阳性数据。

可选地,在本申请的一个实施例中,第一区域包括多个子区域,第一区域的日新增阳性历史数据包括第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据,获取模块,还用于:

分别计算第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据占第一区域的日新增阳性历史数据的比例;

将比例按从大到小进行排序,并选择排名靠前的预设数量个比例对应的日新增阳性历史数据作为目标历史数据。

为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于神经网络算法的数据预测方法。

为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种基于神经网络算法的数据预测方法。

本申请实施例的基于神经网络算法的数据预测方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有预测方法未注意到疫情数据集的整体价值以及数据的时间特征从而导致预测精度较低的技术问题,通过结合深度学习和神经网络模型提取数据的时间特征,从而提高了预测精度,促进了准确的数据管理,从而能够精确预测城市疫情期间的每日新增阳性病例,为公共卫生决策提供信息,减少疫情对社区的影响。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例一所提供的一种基于神经网络算法的数据预测方法的流程示意图;

图2为本申请实施例的基于神经网络算法的数据预测方法的BiLSTM模型示意图;

图3为本申请实施例的基于神经网络算法的数据预测方法的另一个流程示意图。

图4为本申请实施例二所提供的一种基于神经网络算法的数据预测装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于神经网络算法的数据预测方法和装置。

图1为本申请实施例一所提供的一种基于神经网络算法的数据预测方法的流程示意图。

如图1所示,该基于神经网络算法的数据预测方法包括以下步骤:

步骤100,获取第一预设时间段内的第一区域的日新增阳性历史数据,并通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据;

步骤200,通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理;

步骤300,构建BiLSTM模型,并利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型;

步骤400,获取第二预设时间段内的日新增阳性历史数据,将第二预设时间段内的日新增阳性历史数据输入训练好的BiLSTM模型进行预测,得到预测的日新增阳性数据。

本申请实施例的基于神经网络算法的数据预测方法,通过获取第一预设时间段内的第一区域的日新增阳性历史数据,并通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据;通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理;构建BiLSTM模型,并利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型;获取第二预设时间段内的日新增阳性历史数据,将第二预设时间段内的日新增阳性历史数据输入训练好的BiLSTM模型进行预测,得到预测的日新增阳性数据。由此,能够解决现有预测方法未注意到疫情数据集的整体价值以及数据的时间特征从而导致预测精度较低的技术问题,通过结合深度学习和神经网络模型提取数据的时间特征,从而提高了预测精度,促进了准确的数据管理,从而能够精确预测城市疫情期间的每日新增阳性病例,为公共卫生决策提供信息,减少疫情对社区的影响。

本申请实施例中,第一预设时间段可以为100天,也可以为110天,本申请对此不作具体限制。

本申请实施例中,使用BiLSTM模型预测每日阳性病例数据,BiLSTM模型是一种深度学习架构,可对数据的前向和后向时间依赖性进行建模。BiLSTM模型的使用允许识别数据中的长期模式和关系,从而精确预测城市疫情期间的每日阳性病例,为公共卫生政策和决策提供信息,最终有助于减少疫情对社区的影响。

进一步地,在本申请实施例中,第一区域包括多个子区域,第一区域的日新增阳性历史数据包括第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据,通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据,包括:

分别计算第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据占第一区域的日新增阳性历史数据的比例;

将比例按从大到小进行排序,并选择排名靠前的预设数量个比例对应的日新增阳性历史数据作为目标历史数据。

本申请实施例中,第一区域可以为特定城市,第一区域的多个子区域可以为特定城市的多个行政区,第二区域可以为国外,第三区域可以为国内除第一区域外的地区。

本申请实施例中,第一区域的日新增阳性历史数据包括国外输入第一区域的日新增阳性历史数据、各个行政区的日新增阳性历史数据、国内除第一区域外的地区输入第一区域的日新增阳性历史数据。

本申请实施例中,为了提高疫情数据的整体价值,可以从构成特定城市每日阳性数据的多个特征中选择信息量最大、相关性最强的数据特征,选择的数据特征应该准确地描述数据之间的关系,同时最大限度地减少冗余和噪声。通过选择最相关的数据特征,可以提高模型的效率和准确性,防止过度拟合,并更好地理解生成数据的底层过程。

本申请实施例中,也可以通过机器学习方法、相关性分析、互信息或特征重要性排序选择数据。

进一步地,在本申请实施例中,通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理,包括:

将分区窗口长度预设为第三预设时间段,将滑动窗口长度预设为第四预设时间段,并根据分区窗口长度和滑动窗口长度对目标历史数据进行分区;

利用Min-Max归一化对分区后的目标历史数据进行线性变换,将分区后的目标历史数据缩放至(0,1)之间的范围。

本申请实施例中,第三预设时间段可以为7天,第四预设时间段可以为1天,即将窗口长度设置为7天,将预测期设置为1天,将滑动窗口长度设置成1。通过检查前7天的数据,可以预测1天后的新增阳性人群数据。

本申请实施例中,第二预设时间段大于或等于第三预设时间段,即至少获取待预测日期前7天的日新增阳性数据,输入训练好的BiLSTM模型中进行预测,得到待预测日期的日新增阳性数据。

分区窗口是一个关键参数,它决定了如何将输入数据划分为更小的子集或分区进行神经网络处理。当处理时间序列数据或具有时间或空间结构的其他数据时,通常使用分区窗口,并且可以显著影响神经网络模型的性能和效率。分区窗口被定义为固定长度的时间间隔或空间区域,其基于输入数据确定分区的大小和数量。

分区窗口也可以自适应设置大小,根据数据特性调整窗口大小。一旦定义,输入数据就被划分为大小相等的重叠或非重叠分区,神经网络在组合结果以获得最终输出之前独立处理这些分区。这种方法具有许多优点,包括提高了效率、减少了内存需求以及处理大型数据集的能力。然而,划分窗口也会对神经网络模型的准确性和性能产生重大影响。如果窗口大小太小,则可能会错过数据中重要的时间或空间关系,从而导致准确性降低。相反,如果窗口大小过大,模型可能会变得过于复杂,并对数据进行过拟合,从而导致泛化性能降低。为了确定给定数据集的最佳分区窗口,应考虑数据集大小、时间或空间分辨率以及潜在模式复杂性等各种因素。网格搜索、交叉验证和其他优化方法可以用来实现这一点。总之,神经网络模型的划分窗口是一个关键参数,它在如何为神经网络处理划分输入数据方面发挥着重要作用。最佳分区窗口的选择应考虑各种因素,以确保模型的最佳性能和效率。

数据预处理是建立神经网络模型的关键步骤。数据预处理的一个重要方面是归一化,一种用于将数据缩放到小范围值的技术。规范化用于确保所有特征对模型的贡献相等,并且模型不受具有大值或大范围的特征的支配。

本申请实施例中,采用最小-最大归一化,将数据缩放到0到1之间的范围。合理进行归一化有助于减少数据中异常值和噪声的影响,并且可以提高神经网络模型的性能。

进一步地,在本申请实施例中,BiLSTM模型包括神经元为7的双层LSTM模型和两个Dense层。

本申请设计的BiLSTM模型结构如图2所示,将日增阳性数据送入神经元为7的双层LSTM模型中,以挖掘出数据中的时序关系,再通过两个Dense层来增强数据特征,最后将预测结果输出。

进一步地,在本申请实施例中,利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型,包括:

将平均绝对误差和均方根误差作为损失函数,根据损失函数将归一化处理后的目标历史数据输入BiLSTM模型进行训练,当平均绝对误差和均方根误差均小于预设阈值时,得到训练好的BiLSTM模型。

进一步地,在本申请实施例中,均方根误差表示为:

其中,RMSE表示均方根误差,N表示输入的训练样本总数,y

平均绝对误差表示为:

其中,MAE表示平均绝对误差,N表示输入的训练样本总数,y

本申请选择平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root MeanSquare Error,RMSE)这两个指标来评估模型,并检验其预测能力。MAE和RMSE是常用的回归模型评估指标,可以用于衡量模型的精度和稳定性。

RMSE是指预测值与真实值的偏差平方的平均值的平方根,其公式表示为所示:

其中,N表示样本总数,y

为了避免RMSE的缺陷,本申请引入了另一个评价指标MAE,MAE是所有预测值与真实值偏差的绝对值的平均值,其公式表示为:

其中,N表示样本总数,y

RMSE和MAE的取值均为[0,+∞],RMSE和MAE值越小,说明模型的精度越高。当RMSE和MAE取值为0时,说明该模型为完美模型,但在实际应用中,几乎不可能达到这种完美的状态。因此,在选择模型时,需要综合考虑MAE和RMSE这两个指标,以评估模型的整体表现,并选择最优的模型。

如图3所示,该基于神经网络算法的数据预测方法,包括步骤101特征选择:从每日新增阳性数据的几个特征中筛选识别对疫情整体价值最大且最相关的信息量最大的特征。步骤102窗口划分:设置窗口长度为7天,预测期设置为1天,滑动窗口长度为1。通过查看之前7天的数据,预测未来1天的新增阳性人口数据。步骤103数据预处理:对数据进行归一化处理,确保所有特征对模型的贡献相等,避免特征值过大或过小对模型产生过度影响。步骤104连续特征的提取:从一段时间的新增阳性数据趋势中提取有用信息,这些信息可能会呈现规律,为提供疫情趋势的信息,可能对预测未来新增阳性人数有帮助。步骤105神经网络模型构建:使用BiLSTM模型对每日新增阳性人员数据进行预测。步骤106误差函数模型构建:选择两个误差函数指标来评估模型,以检验其预测能力。

图4为本申请实施例二所提供的一种基于神经网络算法的数据预测装置的结构示意图。

如图4所示,该基于神经网络算法的数据预测装置,包括:

获取模块10,用于获取第一预设时间段内的第一区域的日新增阳性历史数据,并通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据;

分区模块20,用于通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理;

训练模块30,用于构建BiLSTM模型,并利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型;

预测模块40,用于获取第二预设时间段内的日新增阳性历史数据,将第二预设时间段内的日新增阳性历史数据输入训练好的BiLSTM模型进行预测,得到预测的日新增阳性数据。

本申请实施例的基于神经网络算法的数据预测装置,包括获取模块,用于获取第一预设时间段内的第一区域的日新增阳性历史数据,并通过数据统计对第一区域的日新增阳性历史数据进行选择,得到目标历史数据;分区模块,用于通过预设的分区窗口对目标历史数据进行分区,并对分区后的目标历史数据进行归一化处理;训练模块,用于构建BiLSTM模型,并利用归一化处理后的目标历史数据对BiLSTM模型进行训练,得到训练好的BiLSTM模型;预测模块,用于获取第二预设时间段内的日新增阳性历史数据,将第二预设时间段内的日新增阳性历史数据输入训练好的BiLSTM模型进行预测,得到预测的日新增阳性数据。由此,能够解决现有预测方法未注意到疫情数据集的整体价值以及数据的时间特征从而导致预测精度较低的技术问题,通过结合深度学习和神经网络模型提取数据的时间特征,从而提高了预测精度,促进了准确的数据管理,从而能够精确预测城市疫情期间的每日新增阳性病例,为公共卫生决策提供信息,减少疫情对社区的影响。

进一步地,在本申请实施例中,第一区域包括多个子区域,第一区域的日新增阳性历史数据包括第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据,获取模块,还用于:

分别计算第二区域输入第一区域的日新增阳性历史数据、各个子区域的日新增阳性历史数据、第三区域输入第一区域的日新增阳性历史数据占第一区域的日新增阳性历史数据的比例;

将比例按从大到小进行排序,并选择排名靠前的预设数量个比例对应的日新增阳性历史数据作为目标历史数据。

为了实现上述实施例,本申请还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于神经网络算法的数据预测方法。

为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的基于神经网络算法的数据预测方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种基于神经网络的经营数据预测方法、可读存储介质和预测系统
  • 一种基于BP神经网络的钻速预测方法和基于BP神经网络以及粒子群算法的钻速优化方法
  • 一种基于神经网络数据挖掘算法的蓄电池组预测方法和系统
技术分类

06120116491820