掌桥专利:专业的专利平台
掌桥专利
首页

一种灌区流量调度知识图谱问答系统构建与使用方法

文献发布时间:2023-06-19 16:06:26



技术领域

本发明属于灌区流量调度技术领域,尤其涉及一种灌区流量调度知识图谱问答系统构建与使用方法。

背景技术

灌区是一个典型的自然和社会因素双重驱动演化的复杂水资源系统,也是国家水网建设的重要内容。合理的灌区用水调度,对于提高全局用水效率、实现水资源可持续发展具有重要意义。

灌区真实的用水调度过程,主要依赖于灌区用水调度人员多年的历史经验。以用水调度的目标流量作为决策结果,影响目标流量的原因要素众多,故需用多个特征变量描述,且某一特征变量又源于不同空间分布测点,由此形成了依赖于历史因果经验的复杂逻辑决策网络。该决策网络是灌区用水调度人员经过长期学习试错历练,被固化在其潜意识思维中,外在表现出能科学理性预测灌区用水调度过程的能力。现今灌区用水调度存在两个亟待解决的问题:

(1)、现已有的灌区用水调度多基于的水文学或水文-水力学耦合模型,其在理论物理上可以得到相对合理的流量调度值,但很难有效应对本就具有社会属性的灌区用水流量调度问题;

(2)、由于考虑到可信度以及便利性两方面的因素,现如今几乎没有调度模型能被真正应用在灌区日常调度中。

针对第一个问题,机器学习模型能通过对历史数据的学习,将包含大量调度经验的调度规律总结出来,可得到结合了自然以及人文两方面考量在内的合理调度流量。现有技术利用机器学习仅是对水量进行了求解,而未对大量历史调度数据中包含的调度经验进行解读。同时对于实际管理灌区的调度员来说,复杂模型的应用过程不够简便,水量的求解过程太过复杂,且未经过管区实际调度应征过的模型都不如传承多年的调度经验更具可信度,即其为解决灌区用水流量调度存在的第二个问题。

发明内容

针对现有技术中的上述不足,本发明提供的一种灌区流量调度知识图谱问答系统构建与使用方法通过结合机器学习模型和SHAP模型解译法,对含有灌区用水调度人员多年历史经验的调度数据进行学习和解译,将调度经验知识化,解决了灌区用水流量调度可信度与便利度低的问题。

为了达到上述发明目的,本发明采用的技术方案为:

本发明提供一种灌区流量调度知识图谱问答系统构建与使用方法,包括如下步骤:

S1、获取灌区流量调度特征量数据集,并根据不同调度场景对灌区流量调度特征量数据集分类,得到若干不同类型流量调度特征数据;

S2、构建调度场景机器学习模型,并将各不同类型流量调度特征数据输入已训练的调度场景机器学习模型调参,得到第一机器学习模型;

S3、利用SHAP模型解译法解译第一机器学习模型,得到最优特征值组合和调度经验数据;

S4、将最优特征值组合输入第一机器学习模型训练并调参,得到第二机器学习模型;

S5、利用第二机器学习模型预测各不同类型流量调度特征数据,分别得到各类型流量调度特征数据对应的调度流量梯度;

S6、基于调度经验数据、各不同类型流量调度特征数据以及各类型流量调度特征数据对应的调度流量梯度,构建灌区流量调度知识问答系统;

S7、构建灌区流量调度的问题模板,并利用朴素贝叶斯分类器对问题集合与问题模板概率匹配,且通过灌区流量调度知识问答系统结合HanLP分词器,完成灌区流量调度知识问答系统的使用。

本发明的有益效果为:本发明提供的灌区流量调度知识图谱问答系统构建与使用方法,通过结合机器学习模型和SHAP模型解译法,对含有灌区用水调度人员多年历史经验的调度数据进行学习和解译,将调度经验知识化,同时通过对调度场景的模拟,利用机器学习模型得到调度流量预测梯度值,以此形成了以调度经验以及调度预测流量为主体的灌区用水流量调度图形数据库Neo4j。并在图形数据库Neo4j基础上搭建灌区流量调度知识问答系统,最终可实现灌区用水调度经验的知识化,为灌区管理人员搭建了一个便于对调度经验以及推荐流量进行检索的知识问答系统。

进一步地,所述构建调度场景机器学习模型包括如下步骤:

A1、获取灌区用水调度目标流量;

A2、构建灌区用水调度目标流量和各不同类型流量调度特征数据间的非线性回归映射;

A3、根据非线性回归映射得到若干最优决策树和各最优决策树对应的预测值;

A4、基于各最优决策树和对应的预测值构建决策树森林网络,完成构建机器学习模型。

采用上述进一步方案的有益效果为:通过非线性回归映射构建调度场景机器学习模型,并对灌区特征数据进行学习训练,以此获得历史数据中的调度经验,增加灌区流量调度知识图谱问答系统的可信度。

进一步地,所述步骤A3包括如下步骤:

B1、根据非线性回归映射随机从各不同类型流量调度特征数据抽取m个特征变量,其中,m表示特征变量个数;

B2、从m个特征变量中选取s个特征变量作为决策树节点,其中,s表示特征变量个数,且s小于m;

B3、针对各相邻决策树节点均方差和最小时,将该决策树节点分化并递归得到最优决策树;

B4、将各最优决策树叶子节点的均值作为对应的预测值;

B5、重复步骤B1到B4,得到若干最优决策树和各最优决策树对应的预测值。

采用上述进一步方案的有益效果为:通过树状结构的机器学习模型,在有多颗决策树后,将所有树预测值的平均值作为目标变量的预测结果,根据预测结果不断优化特征变量数目和决策树数目后,得到若干最优决策树和各最优决策树对应的预测值,形成灌区用水调度目标流量与各特征变量之间的非线性回归映射。

进一步地,所述步骤S3包括如下步骤:

S31、利用SHAP模型解译法解译第一机器学习模型,分别得到特征值重要性排序和不同特征值对调度流量的影响方向;

S32、根据特征值重要性排序选择排序靠前的特征值,并删除不同调度场景特征值组合的冗余,得到最优特征值组合;

S33、分析不同特征值对调度流量的影响方向,得到调度经验数据。

采用上述进一步方案的有益效果为:根据特征值重要性排序筛选重要性排名靠前的特征值,去除了不同调度情境下特征值组合的冗余,得到最优特征值组合,且通过不同特征值对调度流量的影响方向分析得到历史数据中含有的调度经验。

进一步地,所述步骤S31包括如下步骤:

S311、利用SHAP模型计算特征变量的shapley值;

S312、根据特征变量的shapley值计算得到第一机器学习模型的SHAP值g(z′);

S313、根据第一机器学习模型的SHAP值g(z′)得到特征值重要性排序和不同特征值对调度流量的影响方向。

采用上述进一步方案的有益效果为:通过SHAP模型对特征变量进行计算得到特征值重要性排序和不同特征值对调度流量的影响方向,实现不断权衡各影响要素或特征变量的重要程度,进而动态联合决策,增加灌区流量调度知识图谱问答系统的可信性。

进一步地,所述特征变量的shapley值的计算表达式如下:

其中,φ

采用上述进一步方案的有益效果为:提供了特征变量的shapley值的计算方法。

进一步地,所述第一机器学习模型的SHAP值g(z′)的表达式如下:

z′

φ

其中,z′表示联合向量,0′表示第j个特征变量不位于联合向量z′

采用上述进一步方案的有益效果为:提供第一机器学习模型的SHAP值g(z′)的计算方法。

进一步地,所述步骤S6包括如下步骤:

S61、将闸门、调度流量、调度经验数据、各不同类型流量调度特征数据以及各类型流量调度特征数据对应的调度流量梯度分别作为实体存储至图形数据库Neo4j;

S62、基于图形数据库Neo4j,构建灌区流量调度知识问答系统。

采用上述进一步方案的有益效果为:通过各类实体构建灌区流量调度知识问答系统,便利了灌区调度员对灌区流量调度知识图谱问答系统给出的推荐调度流量进行检索。

进一步地,所述步骤S7包括如下步骤:

S71、构建灌区流量调度的问题模板;

S72、利用朴素贝叶斯分类器对问题集合与问题模板概率匹配;

S73、通过灌区流量调度知识问答系统获取提问数据,并通过HanLP分词器将提问数据与问题模板匹配,得到问题集合中的对应问题;

S74、根据对应问题查找图形数据库Neo4j,并通过灌区流量调度知识问答系统反馈图形数据库Neo4j查找结果,完成灌区流量调度知识问答系统的使用。

采用上述进一步方案的有益效果为:通过构建问题模板,并将问题模板、问题集合以及提问数据匹配,再通过灌区流量调度知识问答系统查找图形数据库Neo4j,并展示对应的查找结果,便利了灌区调度员的调度问题检索。

附图说明

图1为本发明实施例中灌区流量调度知识图谱问答系统构建与使用方法的步骤流程图。

图2为本发明实施例中特征值重要性排序的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

如图1所示,在本发明的一个实施例中,本发明提供一种灌区流量调度知识图谱问答系统构建与使用方法,包括如下步骤:

S1、获取灌区流量调度特征量数据集,并根据不同调度场景对灌区流量调度特征量数据集分类,得到若干不同类型流量调度特征数据;

常有调度场景如表1所示:

表1

由于降雨/墒情等数据可能源于不同空间分布测点,因此最初输入模型的特征值数量均大于30,其中,T1为温度,G为灌期的经验划分,S表示干渠周边中小型水库及塘坝蓄水,R表示雨量站点测量的日降雨量,C为城市及生态供水补水水量,Y为用水需求;

S2、构建调度场景机器学习模型,并将各不同类型流量调度特征数据输入已训练的调度场景机器学习模型调参,得到第一机器学习模型;

所述构建调度场景机器学习模型包括如下步骤:

A1、获取灌区用水调度目标流量;

A2、构建灌区用水调度目标流量和各不同类型流量调度特征数据间的非线性回归映射;

A3、根据非线性回归映射得到若干最优决策树和各最优决策树对应的预测值;

所述步骤A3包括如下步骤:

B1、根据非线性回归映射随机从各不同类型流量调度特征数据抽取m个特征变量,其中,m表示特征变量个数;

B2、从m个特征变量中选取s个特征变量作为决策树节点,其中,s表示特征变量个数,且s小于m;

B3、针对各相邻决策树节点均方差和最小时,将该决策树节点分化并递归得到最优决策树;

B4、将各最优决策树叶子节点的均值作为对应的预测值;

B5、重复步骤B1到B4,得到若干最优决策树和各最优决策树对应的预测值;

A4、基于各最优决策树和对应的预测值构建决策树森林网络,完成构建机器学习模型;

S3、利用SHAP模型解译法解译第一机器学习模型,得到最优特征值组合和调度经验数据;

所述步骤S3包括如下步骤:

S31、利用SHAP模型解译法解译第一机器学习模型,分别得到特征值重要性排序和不同特征值对调度流量的影响方向;

所述步骤S31包括如下步骤:

S311、利用SHAP模型计算特征变量的shapley值;

所述特征变量的shapley值的计算表达式如下:

其中,φ

S312、根据特征变量的shapley值计算得到第一机器学习模型的SHAP值g(z′);

所述第一机器学习模型的SHAP值g(z′)的表达式如下:

z′

φ

其中,z′表示联合向量,0′表示第j个特征变量不位于联合向量z′

所述SHAP值基于shapley值,shapley值是博弈论中的一个概念;

S313、根据第一机器学习模型的SHAP值g(z′)得到特征值重要性排序和不同特征值对调度流量的影响方向;

如图2所示,特征值重要性排序由高到底依次为:气象站点记录的日气温数据T1,时间T,干渠周边中小型水库及塘坝蓄水S,灌期和非灌期经验划分G,城市和生态分阶段供水补水水量C,田地墒情SK,雨量站点测量的日降雨量R和地区水利局和防办向灌区调度总局发出的调度请求Y;

S32、根据特征值重要性排序选择排序靠前的特征值,并删除不同调度场景特征值组合的冗余,得到最优特征值组合;

S33、分析不同特征值对调度流量的影响方向,得到调度经验数据;

S4、将最优特征值组合输入第一机器学习模型训练并调参,得到第二机器学习模型;

S5、利用第二机器学习模型预测各不同类型流量调度特征数据,分别得到各类型流量调度特征数据对应的调度流量梯度;

模拟不同调度场景预测各不同类型流量调度特征数据,得到各类型对应的调度流量梯度如表2所示:

表2

S6、基于调度经验数据、各不同类型流量调度特征数据以及各类型流量调度特征数据对应的调度流量梯度,构建灌区流量调度知识问答系统;

所述步骤S6包括如下步骤:

S61、将闸门、调度流量、调度经验数据、各不同类型流量调度特征数据以及各类型流量调度特征数据对应的调度流量梯度分别作为实体存储至图形数据库Neo4j;

S62、基于图形数据库Neo4j,构建灌区流量调度知识问答系统;

S7、构建灌区流量调度的问题模板,并利用朴素贝叶斯分类器对问题集合与问题模板概率匹配,且通过灌区流量调度知识问答系统结合HanLP分词器,完成灌区流量调度知识问答系统的使用;

所述Hanlp分词器为最短路径分词,有中文分词、词性标注、新词识别、命名实体识别、自动摘要、文本聚类、情感分析和词向量等功能,支持自定义词典;

所述步骤S7包括如下步骤:

S71、构建灌区流量调度的问题模板;

S72、利用朴素贝叶斯分类器对问题集合与问题模板概率匹配;

S73、通过灌区流量调度知识问答系统获取提问数据,并通过HanLP分词器将提问数据与问题模板匹配,得到问题集合中的对应问题;

S74、根据对应问题查找图形数据库Neo4j,并通过灌区流量调度知识问答系统反馈图形数据库Neo4j查找结果,完成灌区流量调度知识问答系统的使用。

如输入:降雨量-20,灌期-否,温度-30;得到答案:预测调度流量:2。

本发明的有益效果为:本发明提供的灌区流量调度知识图谱问答系统构建与使用方法,通过结合机器学习模型和SHAP模型解译法,对含有灌区用水调度人员多年历史经验的调度数据进行学习和解译,将调度经验知识化,同时通过对调度场景的模拟,利用机器学习模型得到调度流量预测梯度值,以此形成了以调度经验以及调度预测流量为主体的灌区用水流量调度图形数据库Neo4j。并在图形数据库Neo4j基础上搭建灌区流量调度知识问答系统,最终可实现灌区用水调度经验的知识化,为灌区管理人员搭建了一个便于对调度经验以及推荐流量进行检索的知识问答系统。

相关技术
  • 一种灌区流量调度知识图谱问答系统构建与使用方法
  • 一种基于知识图谱的综合管廊行业知识问答系统构建方法
技术分类

06120114699529