掌桥专利:专业的专利平台
掌桥专利
首页

一种水文时间序列预测模型动态生成方法

文献发布时间:2023-06-19 16:11:11



技术领域

本发明属于水文预测技术,具体涉及一种水文时间序列预测模型动态生成方法。

背景技术

时序数据广泛存在于社会和生活的各个领域,以离散形式记录着随时间变化的水文现象的水文数据属于典型的时间序列数据。水文时序数据大多具有数据量大、噪声多、不稳定、更新快和复杂性高等特点,如水位、流量、降雨量等信息。在当今的社会生活中,水利信息化突显出越来越重要的作用,其主要工作包含信息采集、挖掘和分析等,如何从繁杂的水文数据中获取有效的特征与知识从而服务于水文预报与调度工作是现在急需解决的难题。

数据挖掘技术的发展为水文信息管理、水利现代化研究以及水文预报等提供了有力的技术支持。水文时间序列数据挖掘是将时序数据挖掘技术应用在水文现象中,旨在从数据量大、数据维度高以及稳定性较低的水文数据中,提取事先未知的、隐含的和潜在的有用信息,比如洪水频率、水文情势突变等,为水文预报、防洪减灾工作服务。有效的水文时序数据挖掘对于把握未来水文过程的变化规律、提高预报水平、预防水文灾害具有重要的现实意义。

水文时间序列相似性分析是水文规律研究、聚类、模体挖掘以及异常检测等问题的基础。水情变化由于受多种因素的影响,如水文规律、人类活动、气候因素、地理环境等,通常会呈现出周期性特点。水文过程表现出的年际间周期变化可定义为年际间的相似性,同样,不同的洪水场次由于受到降雨过程的影响都呈现出由上升到峰值最后消退的趋势,即存在相似性,这些相似的过程中必然包含了大量的信息,能够反映很多有用的规律。近年来我国一些流域频发暴雨、洪水事件,容易引发山体滑坡、泥石流等严重灾害,导致人员伤亡、经济受损,因此水文预测工作的重要性日益凸显。有效的水文预测在防洪减灾工程中能够发挥巨大的社会作用,随着经济的不断发展,预测工作的效益也日益显著。为了适应新时期水利信息化的发展,需要有效利用水文过程间相似性服务于水文预测工作,为防洪预警工作提供决策支持,最大限度地降低经济损失。

发明内容

发明目的:本发明的目的在于解决现有技术存在的不足,提供一种水文时间序列预测模型动态生成方法,通过数据挖掘的相关技术,对水文时间序列进行相似性分析和预测研究。

技术方案:本发明的一种水文时间序列预测模型动态生成方法,包括以下步骤:

步骤S1、采集一水系流域水文站一定时间段内的历史水位数据,组织成水文时间序列数据集。对水位样本数据进行预处理;

步骤S2、采用改进的符号距离UMD结合DBSCAN聚类的方法对滑动窗口分割并符号聚合近似表示(SAX)的序列进行聚类。再针对每条待匹配序列动态形成其相似序列集,即将各类代表序列与待匹配序列的符号表示进行距离衡量选取相似类别组成相似序列候选集,采用改进的DTW算法相似序列候选集进行筛选,构建相似序列集;

步骤S3、对TCN模型的卷积核数量num、批尺寸大小batch_size、学习率lr等进行参数寻优,同时利用相似序列集对TCN模型进行训练,最终得到基于相似性搜索的水文时间序列预测模型;

步骤S4、对所述水文时间序列预测模型动态生成方法得到的模型进行水文预测。

所述步骤S1用于获取数据集和相应的标签信息并对数据集中的数据进一步处理,所述步骤S1进一步为:对数据集中的水位数据样本进行预处理,其中包括对缺失数据进行填补、对错误数据进行修正、数据标准化。

标准化公式如下:

其中x表示原始数据,x′表示标准化后的数据,mean(x)表示x的均值,σ表示标准差。

对历史水位数据进行相似性分析,挖掘的有效信息可进一步应用于水文预测以提高预测结果的精度。所述步骤S2用于构建待匹配序列的相似序列集,具体包括:

步骤S2.1、将经过预处理的水文数据进行滑动窗口分割得到序列段数据集,对每个序列段进行分段聚合近似(PAA)表示并采用SAX符号化,再对符号化后的数据集进行基于UMD-DBSCAN聚类算法操作,得到聚类结果;

PAA计算公式如下:

其中m表示时间序列的长度,ω表示PAA序列的长度,

符号序列

其中,

步骤S2.2、根据所述步骤S2.1的聚类结果,采用UMD的最小距离方差法对每一类数据计算出一条中心序列作为该类的代表序列。将待匹配符号序列与各类的代表序列进行距离度量,根据阈值选择相应的类别,得到相似序列的候选集;

步骤S2.3、依据待匹配序列对相似序列候选集再次筛选。使用改进的DTW算法对序列间的相似度进行度量,选取相似度在合适范围内的序列构成预测模型所用的数据集。

TCN模型中存在一些重要的参数,选择更优的参数能够有效提高序列预测的精度,因此对TCN模型的卷积核数量num、批尺寸大小batch_size、学习率lr等参数进行寻优,所述步骤S3具体包括:

步骤S3.1、将所述步骤S2中得到的相似序列集划分为训练集与验证集,为了降低数据本身的不稳定性和数据间量级差别的影响对数据进行归一化;

归一化公式如下:

其中tr

步骤S3.2、初始化TCN模型卷积核数量num、批尺寸大小batch_size、学习率lr等参数的取值范围,设置优化算法的迭代次数N_iteration及相关参数;

步骤S3.3、采用均方根误差(RMSE)作为个体适应度,训练TCN模型并测试,根据适应度值更新优化算法中的个体;

步骤S3.4、以最大迭代次数N_iteration作为优化算法结束条件,达到最大迭代次数时的最优个体即为最优参数组合,进一步得到基于相似性搜索的水文时间序列预测模型。

所述步骤4中使用的TCN模型由于存在因果卷积和膨胀卷积可以与时间序列有效的历史记忆相结合,在处理时序问题方面具有一定的优势。TCN预测模型主要由以下几个部分组成:(1)输入层:以目标水文站的历史水位值作为输入特征;(2)网络层:用于时间序列数据特征的搜索和模型计算参数的传递,通过网络层的训练可以找到能够反映输入特征与预测结果间最佳映射关系的一组计算参数。(3)输出层:包括对预测得到水位值进行反归一化处理,输出最终的模型预测结果。

有益效果:与现有技术相比,本发明的优点在于:

(1)本发明采用时间序列相似性搜索方法获得待匹配序列的相似序列集,有效的减少了用于模型训练的数据量、缩短了模型的训练时间。

(2)在获得的相似序列集的基础上对TCN模型的参数进行搜索,利用最优参数进行模型的构建与水文预测,预测结果精度更高,并且能够在保证预测效果的情况下提高水文预测的效率。

附图说明

图1为本发明的整体结构示意图。

图2为本发明的相似性分析模块的工作流程图。

图3为本发明一实施例中预测工作流程图。

图4为实施例中未来24h模型预测误差对比图。

具体实施方式

下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。

如图1所示,本实施例的一种水文时间序列预测模型动态生成方法,包括以下步骤:

步骤S1、选取长江中游地区莲花塘水文站的历史水位信息,时间从2014年2月26日8时至2018年2月28日14时共计35119条小时水位数据,将其组织成水文时间序列数据集。该水位样本数据中存在数据缺失、数据错误等情况因此进行预处理,其中包括对缺失数据进行填补、对错误数据进行修正、数据标准化;

标准化公式如下:

其中x表示原始数据,x′表示标准化后的数据,mean(x)表示x的均值,σ表示标准差;

步骤S2、采用改进的符号距离UMD结合DBSCAN聚类的方法对滑动窗口分割并符号聚合近似表示(SAX)的序列进行聚类。再针对每条待匹配序列动态形成其相似序列集,即将各类代表序列与待匹配序列的符号表示进行距离衡量选取相似类别组成相似序列候选集,采用改进的DTW算法相似序列候选集进行筛选,构建相似序列集;

步骤S2.1、将2014年2月26日8时至2018年2月28日14时的历史水位数据采用滑动窗口的方法进行分割得到初始时间序列数据集,滑动窗口的窗口大小为120,移动步长为1,分割后共得到35000条子序列;对每条序列进行分段聚合近似(PAA)表示,得到每条长为20的PAA序列;设置字母表中字符个数a为6并采用SAX符号化,再对符号化后的数据集进行基于UMD-DBSCAN聚类算法操作,得到聚类结果;

PAA计算公式如下:

其中m表示时间序列的长度,ω表示PAA序列的长度,

符号序列

其中,

步骤S2.2、根据所述步骤S2.1,莲花塘站字符化后的序列数据被划分为31类,采用UMD的最小距离方差法对每一类数据计算出一条中心序列作为该类的代表序列;选取莲花塘站2018/2/23 16:00:00-2018/2/28 15:00:00的数据作为待匹配序列,将其符号化序列与各类的代表序列进行距离度量,选择相应的类别组成相似序列的候选集;

步骤S2.3、依据待匹配序列对相似序列候选集再次筛选。使用改进的DTW算法对序列间的相似度进行度量,选取相似度前50%的序列构成预测模型所用的相似序列数据集;

步骤S3、对TCN模型的卷积核数量num、批尺寸大小batch_size、学习率lr等进行参数寻优,同时利用相似序列集对TCN模型进行训练,最终得到基于相似性搜索的水文时间序列预测模型;

步骤S3.1、将所述步骤S2得到的相似序列集前80%的数据作为训练集,余下的20%数据作为验证集,为了降低数据本身的不稳定性和数据间量级差别的影响对数据进行归一化;

归一化公式如下:

其中tr

步骤S3.2、初始化TCN模型卷积核数量num、批尺寸大小batch_size、学习率lr等参数的取值范围,设置num范围是(8,256),batch_size范围是(16,512),lr范围是(0.001,0.01)。设置优化算法的迭代次数N_iteration为30次;

步骤S3.3、采用均方根误差(RMSE)作为个体适应度,训练TCN模型并测试,根据适应度值更新优化算法中的个体;

步骤S3.4、以最大迭代次数N_iteration作为优化算法结束条件,达到最大迭代次数时的最优个体即为最优参数组合,进一步得到基于相似性搜索的水文时间序列预测模型。

步骤S4、对所述水文时间序列预测模型动态生成方法得到的模型进行水文预测

使用所述基于相似性搜索的水文时间序列预测模型对莲花塘的水位数据进行预测,采用SVM模型、CNN模型、LSTM模型、TCN模型进行对比,2018/7/3 10:00未来24个小时的预测结果如图4所示,对预测结果的评价指标采用RMSE、MAE、SMAPE三种,计算公式如下:

式中y

表1为本实施例中的相关对比。

表1

通过表1数据对比不难看出,实施例中的其他四个模型在莲花塘水文站表现并不是很好,其误差值(RMSE、MAE、SMAPE)均比较大,而本发明技术方案的水文时间序列预测误差相对较小,从整体上看,本发明的预测准确率更高。

相关技术
  • 一种水文时间序列预测模型动态生成方法
  • 一种基于定量筛选时间序列预测模型的时间序列预测方法
技术分类

06120114738472