一种用于电力调度知识图谱的多轮对话管理方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及电力调度技术领域，特别是涉及一种用于电力调度知识图谱的多轮对话管理方法。

背景技术

随着工业化和城市化进程的不断加快，人们对电力的需求越来越大，同时能源结构不断优化，新能源不断增长，电力调度面临的挑战也越来越严峻。在这样的背景下，如何实现电力调度的高效、可靠、安全成为了一个重要的问题。

过去，电力调度主要使用的是传统的人工决策方法。这种方法需要调度员对电力系统的运行状态进行实时监控，根据实际情况进行调整和决策。但是，传统的人工决策方法存在着诸多不足，比如依赖于调度员的经验和技能水平，不同的调度员可能对相同的情况做出不同的决策，而且在面对复杂和多变的电力调度情况时容易出现主观意识的干扰。此外进行实时监控和决策工作量大，压力大，效率低下，且可能存在人为疏漏等问题，因此在面对突发情况时，反应时间较长，可能会导致电力系统的不稳定或者故障。

为了改善人工决策方法的问题，下述专利提出了其他方法：(1)专利“CN112632288A”公开了一种基于知识图谱的电力调度系统及方法，该方法主要分为以下步骤：首先语音获取子系统用于获取电力人员发送的语音信息，并识别语音信息的特征信息，将语音信息和特征信息发送给调度决策子系统。然后通过信息接收模块接收语音信息和特征信息，并将语音信息和特征信息发送给知识图谱控制模块；通过知识图谱控制模块从预设的调度知识图谱库中，获取与特征信息和语音信息相对应的调度决策，并将调度决策发送给调度指令生成模块；通过调度指令生成模块根据调度决策生成调度指令，并将调度指令输出给电力调度执行机构自动执行。(2)专利“CN112507131A”公开了一种电力调度知识图谱构建方法、设备及系统，该方法主要包括如下步骤：信息获取步骤，获取电力电量的预设指标信息；知识抽取步骤，对预设指标信息进行知识抽取，知识抽取包括实体抽取、关系抽取和属性抽取；知识加工步骤，对抽取后的知识按照预设规范进行加工；构建知识图谱步骤，将加工后的知识存入图数据库中构建知识图谱。(3)专利“CN113314106A”公开了一种基于语音和意图识别的电力信息查询与调控功能调用方法，该方法根调度语音语料由基于深度学习的声学模型和语言模型联合输出调度电话文本；根据调控指令词向量由基于深度学习的领域识别模型和意图识别模型中进行调度意图识别；再利用规则方法由槽位识别模型输出调控指令匹配结果；根据调控指令匹配结果，结合电网潮流分析、短路电流计算以及分合闸操作，进行电力信息查询、电网自动计算、电力自动调度；将调度电话文本和调控指令匹配结果均输入至语音合成引擎，转化为调度电话语音，进行调度电话自动应答。(4)专利“CN115879691A”公开了一种基于大数据的人工智能电力调度决策系统及方法，该系统包括：多模型融合电力数据处理单元，用于对电力数据利用算法进行处理，得到计算结果；电力调度全过程单元，用于实现发电站电力输送、变电站电力变压、变电站电力分配以及居民电力连接；大数据算法调配单元，用于提供人工智能算法和基础数据预处理算法；系统统一协调管理单元，用于将不同模型下的电力数据、大数据算法调配单元、电力调度数据库，进行全过程的调配与管制；电力调配场景选择单元，用于在不同的场景下进行电力数据的调度方式的选择。本专利解决了电力行业生产中业务场景关联少等问题，对电力行业数字化及智能化发展有着重要作用。

但是这些专利中公开的方法在电力调度中存在的共同缺陷：

1.缺乏智能化决策能力：上述方法虽然使用了知识图谱和语音识别等技术，但缺乏对复杂情况下的智能化决策能力。这可能导致无法有效应对电力调度中的变化和挑战。

2.缺少综合考虑因素：上述方法中的电力调度方法可能只考虑了特定的指标或部分因素，而没有综合考虑多个关键因素。这可能导致无法实现全局最优的电力调度决策。

3.信息获取和处理效率低：上述方法中的一些方法可能需要大量的语音交互或数据处理步骤，导致信息获取和处理的效率较低，从而影响电力调度的实时性和准确性。

发明内容

本发明的目的是提供一种用于电力调度知识图谱的多轮对话管理方法，提高了电力调度的工作效率。

为实现上述目的，本发明提供了如下方案：

一种用于电力调度知识图谱的多轮对话管理方法，包括：

获取调度员的输入信息；所述输入信息为提问或回复；

对所述输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态；

将所述对话状态输入至动作确定网络中，得到所述输入信息对应的动作；所述动作确定网络是基于强化学习方法和电力调度知识图谱对策略网络进行训练得到的；

当所述动作为结束时，基于所述动作生成调度策略反馈给所述调度员，所述调度员根据所述调度策略进行电力调度；

当所述动作为提问或者确认时，基于所述动作生成回复语句反馈给所述调度员，并获取基于回复语句确定的更新后的所述调度员的输入信息，并返回“对所述输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态”，直到所述动作为结束。

可选地，所述动作确定网络的训练过程，包括：

初始化策略网络和评价网络；

构建所述电力调度知识图谱；

获取调度员的多个训练用的当前输入信息；

分别对各训练用的当前输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的训练用的当前对话状态；

从第一个训练用的当前对话状态开始，利用各训练用的当前对话状态对策略网络和评价网络进行训练，直到策略网络和评价网络收敛，并将训练好的策略网络确定为所述动作确定网络；

其中，对于任一当前训练次数下的策略网络和评价网络的训练过程包括：

将第i个训练用的当前对话状态输入至当前训练次数下的策略网络中，输出对应的当前动作；

当所述当前动作为结束时，基于所述动作和电力调度知识图谱生成调度策略反馈给所述调度员，所述调度员基于所述调度策略给出当前奖励且将第i个训练用的当前对话状态替换为第i+1个训练用的当前对话状态，并返回“将第i个训练用的当前对话状态输入至当前训练次数下的策略网络中，输出对应的当前动作”；

当所述当前动作为提问或者确认时，基于所述当前动作生成当前回复语句反馈给所述调度员，所述调度员基于所述当前回复语句给出当前奖励且输入训练用的下一输入信息；

对训练用的下一输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的训练用的下一对话状态；

将训练用的下一对话状态输入至当前训练次数下的策略网络中，输出对应的下一动作；

利用当前奖励、当前对话状态、当前动作、下一对话状态和下一动作更新当前训练次数下的评价网络；

利用当前对话状态和当前动作更新当前训练次数下的策略网络；

判断更新后的当前训练次数下的评价网络和更新后的当前训练次数下的策略网络是否均收敛；

若是，则将更新后的当前训练次数下的策略网络确定为所述动作确定网络；

若否，则将当前对话状态更新为下一对话状态，并返回“将第i个训练用的当前对话状态输入至当前训练次数下的策略网络中，输出对应的当前动作”。

可选地，构建电力调度知识图谱，具体包括：

获取历史电力调度文本数据；

所述历史电力调度文本数据中提取多个三元组；所述三元组包括实体、属性和属性值；

利用图数据库Neo4j，基于所有所述三元组，构建所述电力调度知识图谱。

可选地，对所述输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态，具体包括：

对所述输入信息进行语义理解，得到对应的意图和槽位值；

根据所述意图确定待填充槽位；

将所述槽位值填充到对应的待填充槽位中，得到对应的对话状态。

可选地，利用当前奖励、当前对话状态、当前动作、下一对话状态和下一动作更新当前训练次数下的评价网络，具体包括：

根据当前对话状态和当前动作，利用计算当前训练次数下的评价网络计算当前对话价值；

根据下一对话状态和下一动作，利用计算当前训练次数下的评价网络计算下一对话价值；

根据当前奖励、当前对话价值和下一对话价值计算当前训练次数下的评价网络的误差；

基于当前训练次数下的评价网络的误差，利用反向传播算法更新当前训练次数下的评价网络。

可选地，利用当前对话状态和当前动作更新当前训练次数下的策略网络，具体包括：

根据当前对话状态和当前动作计算当前训练次数下的策略网络的误差；

基于当前训练次数下的策略网络的误差，利用反向传播算法更新当前训练次数下的策略网络。

一种用于电力调度知识图谱的多轮对话管理系统，包括：

输入信息获取模块，用于获取调度员的输入信息；所述输入信息为提问或回复；

语义理解模块，用于对所述输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态；

动作确定模块，用于将所述对话状态输入至动作确定网络中，得到所述输入信息对应的动作；所述动作确定网络是基于强化学习方法和电力调度知识图谱对策略网络进行训练得到的；

调度策略确定模块，用于当所述动作为结束时，基于所述动作生成调度策略反馈给所述调度员，所述调度员根据所述调度策略进行电力调度；

更新回复模块，用于当所述动作为提问或者确认时，基于所述动作生成回复语句反馈给所述调度员，并获取基于回复语句确定的更新后的所述调度员的输入信息，并返回“对所述输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态”，直到所述动作为结束。

一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述所述的用于电力调度知识图谱的多轮对话管理方法。

一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上述所述的用于电力调度知识图谱的多轮对话管理方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种用于电力调度知识图谱的多轮对话管理方法，包括：首先对获取的调度员的输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态；然后将对话状态输入至动作确定网络中，得到输入信息对应的动作；当动作为结束时，基于动作生成调度策略反馈给调度员，调度员根据调度策略进行电力调度；当动作为提问或者确认时，基于动作生成回复语句反馈给调度员，并获取基于回复语句确定的更新后的调度员的输入信息，并返回“对输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态”，直到动作为结束。本发明基于电力调度知识图谱进行电力调度，提高了电力调度的工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的用于电力调度知识图谱的多轮对话管理方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种用于电力调度知识图谱的多轮对话管理方法，旨在提高电力调度的工作效率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例1提供的用于电力调度知识图谱的多轮对话管理方法流程示意图。如图1所示，本实施例中的用于电力调度知识图谱的多轮对话管理方法，包括：

步骤101：获取调度员的输入信息；输入信息为提问或回复。

步骤102：对输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态。

步骤103：将对话状态输入至动作确定网络中，得到输入信息对应的动作。

其中，动作确定网络是基于强化学习方法和电力调度知识图谱对策略网络进行训练得到的。

步骤104：当动作为结束时，基于动作生成调度策略反馈给调度员，调度员根据调度策略进行电力调度。

步骤105：当动作为提问或者确认时，基于动作生成回复语句反馈给调度员，并获取基于回复语句确定的更新后的调度员的输入信息，并返回步骤102，直到动作为结束。

作为一种可选的实施方式，动作确定网络的训练过程，包括：

初始化策略网络和评价网络。

构建电力调度知识图谱。

获取调度员的多个训练用的当前输入信息。

分别对各训练用的当前输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的训练用的当前对话状态。

从第一个训练用的当前对话状态开始，利用各训练用的当前对话状态对策略网络和评价网络进行训练，直到策略网络和评价网络收敛，并将训练好的策略网络确定为动作确定网络。

其中，对于任一当前训练次数下的策略网络和评价网络的训练过程包括：

将第i个训练用的当前对话状态输入至当前训练次数下的策略网络中，输出对应的当前动作。

当当前动作为结束时，基于动作和电力调度知识图谱生成调度策略反馈给调度员，调度员基于调度策略给出当前奖励且将第i个训练用的当前对话状态替换为第i+1个训练用的当前对话状态，并返回“将第i个训练用的当前对话状态输入至当前训练次数下的策略网络中，输出对应的当前动作”。

当当前动作为提问或者确认时，基于当前动作生成当前回复语句反馈给调度员，调度员基于当前回复语句给出当前奖励且输入训练用的下一输入信息。

对训练用的下一输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的训练用的下一对话状态。

将训练用的下一对话状态输入至当前训练次数下的策略网络中，输出对应的下一动作。

利用当前奖励、当前对话状态、当前动作、下一对话状态和下一动作更新当前训练次数下的评价网络。

利用当前对话状态和当前动作更新当前训练次数下的策略网络；

判断更新后的当前训练次数下的评价网络和更新后的当前训练次数下的策略网络是否均收敛。

若是，则将更新后的当前训练次数下的策略网络确定为动作确定网络。

若否，则将当前对话状态更新为下一对话状态，并返回“将第i个训练用的当前对话状态输入至当前训练次数下的策略网络中，输出对应的当前动作”。

具体的，当当前动作为提问或者确认时，基于当前动作生成当前回复语句反馈给调度员，具体实施例包括：：

基于模板的对话生成构建依赖于提供的动作和槽位值。根据动作和当前槽位值的填充情况，使用规则和预定义的回复模板生成回复语句。生成对话的流程如下：

根据提供的动作类型和待填充的槽位生成提问。

(1)动作为提问是：对于待填充的槽位“工作类型＝未知，动作为提问”，生成提问：“请问需要进行什么操作？”对于待填充的槽位“工作问题”，生成提问：“请提供具体的故障表现。”对于待填充的槽位“工作地点”，生成提问：“您查询的线路是什么？”。

(2)动作为确认时：对于动作为提问，槽位信息为工作地点＝安徽线路，生成回复：工作地点是否为安徽线路。

具体的，当当前动作为结束时，基于动作和电力调度知识图谱生成调度策略，包括：

(1)查询电力调度知识图谱：

使用SPARQL语言来查询电力调度知识图谱。

查询即为在电力调度知识图谱中找到目标实体，并返回该目标实体在目标问题下的“suggestion”属性的值。Suggestion即为调度策略。

(2)生成回复：

查询电力调度知识图谱得到调度策略后，需要根据获得的信息生成对话回复。在这个过程中，常会使用预定义的回复模板，并将模板中的占位符替换为实际的值。

作为一种可选的实施方式，构建电力调度知识图谱，具体包括：

获取历史电力调度文本数据。具体的，获取历史电力调度文本数据包括：整理电力调度相关文件资料，在资料的文本段落中，如果存在有关电网的主要信息，则将文本段落作为历史电力调度文本数据保存，其中主要信息包括：(1)拓扑结构：发电厂、变电站、输电线路、负荷等的位置、连接和参数；(2)运行状态：电网的频率、电压、功率、负荷曲线等的实时或历史数据；(3)运行模式：发电计划、负荷预测、调度指令、运行方式等的规划或执行情况；(4)故障事件：故障原因、故障影响、故障处理等的记录或分析结果。其中发电计划指的是各个发电厂的发电进程方案，主要包含各发电机组的发电量、时间表；运行状态指电网当前的运行状况，包括电网中的频率、电压、功率负荷等实时或历史数据。调度指令指发布给电网上各发电机组和设备的控制指令。运行方式指电网当前的运行模式，包括分布式运行模式还是集中式运行模式。故障事件指电网中发生的各种故障事故的记录，包括故障的原因、影响及处理结果等。

历史电力调度文本数据中提取多个三元组；三元组包括实体、属性和属性值。

具体的，历史电力调度文本数据中提取多个三元组，包括：

(1)对历史电力调度文本数据进行预处理，将历史电力调度文本数据以句子为单位进行分割，去除历史电力调度文本数据中的标点符号、特殊符号(如！、？、％等)、空格、停用词，使用预训练的BERT模型，将历史电力调度文本数据中的每个字符作为输入序列传递给BERT模型，将每个字符编码为对应的上下文相关的向量表示。

(2)将向量表示输入Bi-LSTM层，Bi-LSTM层对每个字符或词进行双向编码，得到每个字符的特征向量。

(3)经过Bi-LSTM层编码后的特征向量输入至条件随机场(Conditional RondomField，CRF)层，其中CRF的计算公式为

其中，P(y|x)表示给定输入句子序列x时，输出标签序列y的条件概率分布；Score(x,y)是给定输入序列x和输出序列y的得分函数，可以分解为两部分

(4)将标签序列转换为实体及其属性及属性值。遍历标签序列，当遇到“B-”开头的标签时，开始一个新的三元组，并将对应的字符或词作为三元组的第一个元素；当遇到“I-”开头的标签时，将对应的字符或词追加到当前三元组的最后一个元素；当遇到“O”标签时，结束当前的三元组，并将当前三元组输出。由此循环，得到文本中所有的实体及其属性及属性值的三元组。属性指的是电力相关实体的特性，如电压，属性值指的是特性的具体值，如电压属性值为10KV。

利用图数据库Neo4j，基于所有三元组，构建电力调度知识图谱。

具体的，利用图数据库Neo4j，基于所有三元组，构建电力调度知识图谱，包括：

利用图数据库Neo4j构建知识图谱，将三元组中映射到知识图谱中的节点、节点和边，存储在Neo4j数据库中并为每个实体和关系赋予一个唯一的标识符。

作为一种可选的实施方式，步骤102，具体包括：

对输入信息进行语义理解，得到对应的意图和槽位值。

具体的，对输入信息进行语义理解，得到对应的意图和槽位值，包括：

对于调度员的输入信息I＝[i

将输出向量H中第一个值h

输出向量H中的第2个到第N个值，即h

根据意图确定待填充槽位。

将槽位值填充到对应的待填充槽位中，得到对应的对话状态。

作为一种可选的实施方式，利用当前奖励、当前对话状态、当前动作、下一对话状态和下一动作更新当前训练次数下的评价网络，具体包括：

根据当前对话状态和当前动作，利用计算当前训练次数下的评价网络计算当前对话价值。

根据下一对话状态和下一动作，利用计算当前训练次数下的评价网络计算下一对话价值。

根据当前奖励、当前对话价值和下一对话价值计算当前训练次数下的评价网络的误差。

具体的，评价网络的误差TD_loss的计算公式为：

TD_loss＝R+b*V(s_，a_)-V(s,a)。

其中，R为当前奖励，b为折扣因子，V(s_，a_)为下一对话价值，V(s，a)为当前对话价值。

基于当前训练次数下的评价网络的误差，利用反向传播算法更新当前训练次数下的评价网络。

作为一种可选的实施方式，利用当前对话状态和当前动作更新当前训练次数下的策略网络，具体包括：

根据当前对话状态和当前动作计算当前训练次数下的策略网络的误差。

具体的，策略网络的误差actor_loss的计算公式为：

actor_loss＝-V(s，a)。

基于当前训练次数下的策略网络的误差，利用反向传播算法更新当前训练次数下的策略网络。

实施例2

本实施例中的用于电力调度知识图谱的多轮对话管理系统，包括：

输入信息获取模块，用于获取调度员的输入信息；输入信息为提问或回复。

语义理解模块，用于对输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态。

动作确定模块，用于将对话状态输入至动作确定网络中，得到输入信息对应的动作；动作确定网络是基于强化学习方法和电力调度知识图谱对策略网络进行训练得到的。

调度策略确定模块，用于当动作为结束时，基于动作生成调度策略反馈给调度员，调度员根据调度策略进行电力调度。

更新回复模块，用于当动作为提问或者确认时，基于动作生成回复语句反馈给调度员，并获取基于回复语句确定的更新后的调度员的输入信息，并返回“对输入信息进行语义理解，得到对应的意图和槽位值，从而得到对应的对话状态”，直到动作为结束。

实施例3

一种电子设备，包括：

一个或多个处理器。

存储装置，其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如实施例1中的用于电力调度知识图谱的多轮对话管理方法。

实施例4

一种存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如实施例1中的用于电力调度知识图谱的多轮对话管理方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载