掌桥专利:专业的专利平台
掌桥专利
首页

一种基于密度筛选的深度神经网络回归模型

文献发布时间:2023-06-19 11:08:20



技术领域

本发明涉及一种基于密度筛选的深度神经网络回归模型,其属于水位预估的技术领域。

背景技术

水文监测系统适用于水文部门对江、河、湖泊、水库、渠道和地下水等水文参数进行实时监测,监测内容包括:水位、流量、流速、降雨(雪)、蒸发、泥沙、冰凌、墒情、水质等。水文监测系统采用无线通讯方式实时传送监测数据,可以大大提高水文部门的工作效率。经过多年的建设管理水利行业各部门积累了大量数据信息,这些数据通过逐年累月的积累,最终形成水利大数据集;此外,新媒体与传感技术的日益发展,非传统类型的水利数据越来越多,不仅仅有水力、生态、水文、气象方面的数据,还包括地理数据、排水设施数据、地形地势以及河流分布数据等。因此,如何利用水利数据为国民经济的发展和水利的产业的更好推进服务,成为需要解决的问题。

发明内容

为解决现有技术中存在的问题,本发明提供一种基于密度筛选的深度神经网络回归模型。

本发明采用的技术方案为:一种基于密度筛选的深度神经网络回归模型,包括以下步骤:

S1、根据数据密度筛选数据:

假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:

其中,点p的第k距离邻域N

对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:

a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};

b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}

d(p,o)是两点p和o之间的距离;

对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};

局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;

如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;

局部离群因子表示为:

以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据

作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;

S2、数据的标准化处理:

用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(x

S3、通过样本获取Y

S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;

S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;

S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。

本发明的有益效果为:该方法中基于正常数据点的数据密度高于异常点的数据密度,将异常数据进行筛除,得到有效的样本集,从大量的数据中筛选出有用的数据。将样本集进行标准化处理,消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难,提高效率。构建深度学生的神经网络模型,通过历史数据对神经网络模型进行不断的训练,训练后的神经网络模型可用于水位的预测。

具体实施方式

具体实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

一种基于密度筛选的深度神经网络回归模型,包括以下步骤:

S1、根据数据密度筛选数据:

假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:

其中,点p的第k距离邻域N

对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:

a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};

b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}

d(p,o)是两点p和o之间的距离;

对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};

局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;

如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;

局部离群因子表示为:

以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据

作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;

S2、数据的标准化处理:

用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(x

S3、通过样本获取Y

S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;

S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;

S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。

相关技术
  • 一种基于密度筛选的深度神经网络回归模型
  • 一种基于深度神经网络回归模型的近场信号源定位方法
技术分类

06120112809649