掌桥专利:专业的专利平台
掌桥专利
首页

一种基于联邦学习框架的水文数据异常识别与修复方法

文献发布时间:2023-06-19 19:30:30


一种基于联邦学习框架的水文数据异常识别与修复方法

技术领域

本发明涉及水文数据处理领域,尤其是一种基于联邦学习框架的水文数据异常识别与修复方法。

背景技术

随着全球自然灾害的不确定性增强,智慧水文的建设越来越受到人们的重视。其旨在构建以云计算、大数据等技术为核心的空天地一体化水文遥测体系,从而更加实时准确的对大自然发生的水文现象进行观测记录,为水文研究提供数据基础。显然,作为水文数据的主要来源,水文遥测设备肩负着数据的采集与存储等重任。遥测设备能否准确无误的提供真实可靠的水文数据直接关系到防洪抗旱调度、生态环境保护、水资源综合开发等基本决策。然而,遥测设备在实际运行过程中,常因系统故障、设备老化、地址偏远信号不强等因素,导致采集到的水文数据出现数值错误、部分缺失、严重断档等异常情况。这严重影响了水文数据的完整性、真实性以及准确性,并直接导致各类水文模型统计分析的能力大大降低。因此,通过对水文数据的异常识别,挖掘数据潜在特征,同时对异常数据进行修复,对于提升水文预报性能,降低因不确定灾害带来的损失具有重要意义。

然而,现有的水文数据的异常识别与修复方法主要存在以下问题:1)在实际情况中,异常数据的识别与修复往往是需要同步解决的,但大多数研究更多关注于异常检测,忽略了修复异常数据的重要意义;2)大多数模型没有考虑到水文遥测数据中诸如水位、雨量、流量等特征潜在的时序信息,导致异常识别的精度较低,数据修复的还原度较差;3)忽视了遥测数据中包含的隐私问题。

发明内容

本发明为克服现有技术的上述不足之处,提供了一种基于联邦学习框架和长短时记忆网络的生成对抗网络模型,以实现在数据隐私得到保护的前提下,同时完成水文遥测数据的异常识别与修复。

本发明首先对联邦学习架构的每一个客户端(即水文遥测设备)的原始水文数据进行结构化建模成相应的时间序列数据,之后等待服务器初始化参数,将待优化的生成对抗网络模型及全局模型参数发送至各个客户端。客户端接收之后把各自处理好的时间序列输入到生成对抗网络中,然后使用判别器网络对异常序列进行鉴别,生成器网络对异常序列进行重构修复,二者以对抗的方式训练逐步优化。同时,将长短时记忆网络嵌入其中,并引入注意力机制学习数据的潜在特征,捕获其时间依赖关系。之后客户端将各自训练好的本地模型参数发送至服务器并由服务器整合成新的全局模型参数重新发送至客户端。最终在水文遥测站数据隐私得到保护的情况下,既可以对水文遥测数据实现数据修复功能,同时也能对异常数据进行鉴别。

本发明是通过以下技术方案达到上述目的:一种基于联邦学习框架的水文数据异常识别与修复方法,包括模型训练过程和识别修复过程,模型训练过程包括以下步骤:

S1:对训练用水文数据进行预处理并进行异常化处理;

S2:搭建联邦学习架构,对模型参数初始化;

S3:客户端通过对抗学习优化异常检测与数据修复功能;

S4:本地客户端与服务器交互,进行全局参数更新;

识别修复过程具体为:对原始水文数据进行预处理后输入到训练后的模型中,输出即为修复后的数据。

作为优选,步骤S1具体包括步骤如下:

S1.1:对水文数据进行筛选,剔除掉噪声数据和重复数据,即从中选择具有研究意义的数据;

S1.2:将筛选后的水文数据进行归一化处理,并处理成相同时隙的矩阵序列F

S1.3:将处理好的矩阵序列F

在正式识别修复时,对数据的预处理包括S1.1和S1.2,不包含S1.3。

作为优选,步骤S2具体包括步骤如下:

S2.1:将K个水文遥测站作为客户端,云服务器作为服务器(即可信任的第三方)搭建联邦学习框架;K为水文遥测站的总数;

S2.2:定义第k个客户端的数据集大小为Data

S2.3:服务器初始化全局模型参数,即生成对抗网络和LSTM各层网络的训练参数,并将全局模型及初始参数发送给每一个客户端。

作为优选,所述模型包括生成器和判别器,生成器包括LSTM网络和全连接层,判别器包括带注意力机制的双向LSTM网络和全连接层;

在预测T+1时刻的水文数据时,需要将T+1时刻之前的水文数据经过处理后得到矩阵序列F

遗忘门,用于获取要舍弃的信息f

f

输入门,用于得到要记忆的信息i

i

根据上述遗忘信息f

以及输出门:

o

h

最终计算得出t时刻的生成器输出隐层状态h

x

得到下一时刻的待预测值x

判别器的双向LSTM网络包括正向LSTM网络层和反向LSTM网络层,正向LSTM网络层和反向LSTM网络层的结构均与生成器中的LSTM网络层结构相同,输入到正向LSTM网络层的矩阵序列为正向输入,t时刻的正向输出隐层状态记为

不仅如此,为了提高判别器的学习能力,还引入了注意力机制,注意力层通过以下公式提取权重矩阵:

α=softmax(w

并通过H与权重矩阵α的乘积r作为注意力层的输出:

r=Hα

其中,H是双向LSTM层的输出,即所有时间点的隐层状态信息{h

PSY

得到序列F

作为优选,步骤S3具体包括步骤如下:

S3.1:初始化生成器G并将其固定,开始训练判别器D;以真实数据F

其中

S3.2:生成器的优化:以待修复的序列F

最后,当且仅当

S3.3:K个客户端计算出各自的损失梯度L

其中s(*)是正则化函数,l

作为优选,步骤S4具体包括步骤如下:

所有K个客户端将各自本地模型训练参数w

来更新全局模型参数;其中,n

作为优选,识别修复过程包括步骤如下:

第k个客户端将水文数据处理为矩阵序列F

若包含异常点,则将待修复的矩阵序列F

本发明带来的有益效果是,可以在数据隐私得到保护的前提下,同时完成水文遥测数据的异常识别与修复,准确度和可信度高。

附图说明

图1为本发明的一种模型训练流程图;

图2为本发明的一种联邦学习框架训练结构图;

图3为本发明的一种长短时记忆网络内部结构图;

图4为本发明的一种基于注意力机制的双向长短时记忆网络模型结构图;

图5为本发明的一种生成对抗网络模型结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。

本发明实施例提供了一种基于联邦学习框架的水文数据异常检测与数据修复方法,包括模型训练过程和识别修复过程,如图1和图2所示,训练过程包括:

S1:对训练用水文数据进行预处理并进行异常化处理,即在原始数据集的基础上提取出有用的数据,步骤如下:

S1.1:其中原始数据的清洗针对的是浙江省杭州市、金华市、绍兴市、丽水市的四个水文遥测站从2022年1月1日到2022年3月31日共90天所采集到的水文遥测数据,确保了模型训练及测试的数据来源真实可靠。数据所拥有的属性包括:

表1

从表中不难看出,原始数据集中包含的数据内容丰富,涉及到的信息量复杂且涵盖了大量隐私。显然,针对数据异常检测以及修复的目标,我们面向的是传感器的监测数据。此外,由于不同遥测站点设备型号及所处地理位置的差异,导致数据记录间隔、采集到的数据属性等可能不尽相同。因此,我们选择筛掉多余种类的数据属性,提取这四个遥测站水文设备的公共属性,并以五分钟为间隔统计一次采集记录,显著地减小数据量,方便后续分析计算。提取后的数据属性如下:

数据提取之后发现其中有一些属性在常规情况下长时间不发生变化,这种数据属性我们判定为不满足实验研究的条件,比如针对雨量属性,如果连续几天不发生降雨情况,则属性值长时间为0;此外,通过数据分析还发现由于水位变化幅度较小,当前水位与水位5分钟属性值往往相同,因此考虑筛除掉。故本发明针对的水文遥测数据主要包含以下属性:

表3S1.2:数据的归一化采用以下公式

其中,x为归一化前的数据,max、min分别为该属性数据中的最大值与最小值,X为归一化后的数据。在对所有属性的数据归一化之后,以每一条属性的相同时间点作为该时间点的特征。即每个时间点包含该时刻的流量、环境温度、当前水位、电源电压、指标流速、瞬时水温以及当前瞬时流速。为了更好的提取其中的序列特征,以两个小时即24个时间点为窗口大小作为序列的长度,由此构造出每个矩阵序列F

S1.3:为了测试该发明方法的性能,对S1.2构造的矩阵序列F

S2:搭建联邦学习架构,对模型参数初始化,具体步骤如下:

S2.1:将浙江省杭州市、金华市、绍兴市、丽水市的四个水文遥测站作为本地客户端,云服务器则作为可信任的第三方搭建联邦学习框架。其中,服务器的配置包括主机操作系统为Ubuntu 18.04,内存128GB,CPU为Intel(R)Xeon(R)Gold,16核双线程,显卡为NVDIAQuadro P6000。

S2.2:每个客户端的数据集均是从2022年1月1日到2022年3月31日共90天所采集到的水文遥测数据。其中,前30天的数据作为训练集,整体90天的数据作为测试集,且测试数据中包含约10%,即9天的数据的经过处理为异常数据F

S2.3:服务器初始化模型参数W,并将全局模型发送给每一个客户端以供它们各自训练自己的数据集。

模型包括生成器和判别器,生成器包括LSTM网络和全连接层,判别器包括带注意力机制的双向LSTM网络和全连接层;模型提取时序特征信息的具体过程如下:

首先每个客户端接收来自服务器发送的全局模型,之后开始各自训练训练本地数据集,此训练过程四个本地客户端同步完成。同时计算出本地数据的损失梯度(其中s(*)是正则化函数,w为本地权重参数,λ∈[0,1]):

将处理过的矩阵序列F

h

最终计算得出t时刻的隐层状态h

对于判别器来说,为了更好的学习数据的特征,如图4所示,在原有的正向LSTM网络层上增加一层反向的LSTM层,考虑两个方向的上下文来增加网络的可用信息。该网络结构包含两个分别向前传递的

不仅如此,为了提高判别器的学习能力,还引入了注意力机制。该层通过以下公式提取权重矩阵:

α=softmax(w

并通过H与权重矩阵α的乘积r作为注意力层的输出:

r=Hα

其中,H是双向LSTM层的输出,即所有时间点的隐层状态信息{h

PSY

得到序列F

S3:客户端通过对抗学习优化异常检测与数据修复功能,具体步骤如下:

S3.1:在提取时间序列特征之后,需要平衡生成对抗网络中生成器及判别器的对抗学习过程以优化异常检测与数据修复功能。生成对抗网络通过“二元博弈”对抗的思想进行优化,并且要求判别器优于生成器的特性,否则容易造成梯度消失,因此往往先训练多次判别器D再训练一次生成器。首先初始化生成器G并将其固定,开始训练判别器D,以真实数据F

S3.2:生成器的优化则与传统生成对抗网络模型训练过程类似,以F

S4:本地客户端与服务器交互,进行全局参数更新,具体步骤如下:

在每个客户端第一轮本地训练完成之后,将各自训练得到的权重w

来更新全局模型参数。在得到最新的W

整体的生成对抗网络模型如图5所示。

识别修复过程为:客户端将各自的水文数据处理为矩阵序列F

实施应用案例表明,本发明提出的基于联邦学习的水文遥测数据异常检测与修复方法是有效的,相对于其它设计方法,本发明采用联邦学习架构作用于数据隐私保护,生成对抗网络中的判别器与生成器则分别用于数据异常检测和数据修复。为了提高模型提取时序特征的能力,分别将基于注意力机制的双向长短时记忆网络及普通长短时记忆网络嵌入到模型的判别器和生成器中。模型将水文遥测设备的水文数据处理成时序矩阵序列之后作为输入,由判别器中的双向长短时记忆网络层提取相关时序信息,并将其结果即隐层状态作为注意力层的输入以获取权重矩阵,最终,通过全连接层输出鉴别结果,完成数据的异常识别。此外,由判别器判定为异常数据的矩阵序列则还会输入至生成器,利用其拟合数据分布的能力完成数据修复。实验使用浙江省水文通信平台提供的杭州市、金华市、绍兴市、丽水市的四个遥测站的真实水文数据集,结果充分证明了该模型的可行性与优越性。

以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

相关技术
  • 一种基于数据挖掘的照明插座能耗隐性异常数据的识别方法
  • 一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法
  • 基于通用框架的多任务联邦学习场景识别方法及相关组件
技术分类

06120115934540