导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>基于改进DeepPath模型的电网调度业务智能问答推理系统及方法

基于改进DeepPath模型的电网调度业务智能问答推理系统及方法

文献发布时间：2024-04-18 20:01:23

技术领域

本发明属于电网调度技术领域，尤其涉及一种基于改进DeepPath模型的电网调度业务智能问答推理系统及方法。

背景技术

随着电网的快速发展，电网调度业务问答系统成为目前调度技术研究的重点问题。目前基于自然语言处理等诸多技术的客服系统已经被诸多公司采用，然而相应的技术仍处在起始阶段，使用流程复杂并且往往得不到想要的答案，效率低下，给调度人员带来了极大的困扰。最终大量重复性的需求都被转移到调度人员自身，浪费了大量的人力资源，并且用户对问答系统的满意度也比较低。

近年来，路径排序算法逐渐成为大型知识图谱中学习推理路径的一种热门方法，其使用基于重启的随机行走推理机制来执行多个有界深度优先搜索过程，以找到相关路径，然后使用监督学习选择更合理的路径。然而，路径排序算法在完全离散的空间中运行，这使得其难以评估和比较知识图谱中的实体和关系。

针对上述的缺陷，DeepPath算法被提出，与路径排序算法中基于随机游走的查找模式不同，DeepPath是一种可控多跳推理方法，DeepPath模型包括两部分：左边是外部环境，被建模成马尔可夫决策过程，指定知识图谱和智能体的交互，右边是策略网络智能体，将其中的状态向量映射到策略中，在每个过程中，智能体通过学习一个关系来拓展推理路径。此外，DeepPath算法在准确度、精确性和多样性方面设置奖励，能够更好的监督每一步的过程。综上所示，DeepPath模型将对路径的搜索转化为强化学习的过程，在此过程中通过控制所找路径的属性来减少所需的搜索空间；但在智能问答中，由于包含大量的相似语法与路径，会导致模型的收敛性会很差，即使经过很长时间的训练，智能体都无法找到有价值的路径，因此该方法往往存在决策能力不足的问题。基于此，本发明提出了一种基于改进DeepPath模型的电网调度业务智能问答推理系统及方法。

发明内容

针对现有技术中存在的不足，本发明提供了一种基于改进DeepPath模型的电网调度业务智能问答推理系统及方法，提高了智能体找到路径的质量，设置了针对全局准确性、路径效率、路径多样性的奖励机制，并采用了Transformer结构作为策略网络，提高了对上下文的抓取能力，提出了采用有监督策略开始训练过程，使用随机的广度优先搜索来训练监督策略，提升了推理的有效性与效率。

本发明是通过以下技术手段实现上述技术目的的。

一种基于改进DeepPath模型的电网调度业务智能问答推理系统的电网调度业务智能问答推理方法，系统包括模型单元、分析单元、执行单元、显示单元，模型单元用于建立电力调度知识图谱本体模型，分析问题句并识别问题句中的实体，分析单元用于进行语义分析以提取目标和约束条件，执行单元用于执行知识推理，显示单元用于生成可视化查询结果并返回给用户，电网调度业务智能问答推理方法包括如下过程：

步骤1：采集电力公司调度业务部门原始数据作为知识基础，构建电力调度知识图谱本体模型，然后对问题句进行深入分析，根据电力调度知识图谱本体模型和特定知识来识别问题句中的实体，作为后续输入；

步骤2：在步骤1的基础上，进行语义分析，以提取目标和约束条件；

步骤3：在步骤2的基础上，执行知识推理：

步骤3.1：使用电力调度知识图谱本体模型搜索和合并推理路径；

步骤3.2：基于Transformer结构自动生成查询语句；

步骤3.3：在知识库中运行查询；

步骤4：在步骤3的基础上，生成可视化查询结果，并将答案返回给用户。

进一步地，所述步骤2包括：将电力调度知识图谱本体模型分为两个部分：抽象模型和物理模型；抽象模型是电网调度业务及其相应属性和相互关系的统一定义，即推理过程；物理模型定义了特定的电力设备，阐明了各种设备的拓扑连接，并描述了设备与抽象模型之间的从属关系。

进一步地，所述步骤3.1包括：

改进DeepPath模型包括两个部分，外部环境和智能体，外部环境ε指定了智能体和知识图谱之间的交互关系，该外部环境被建模为马尔可夫决策过程；定义元组S、A、P、R>表示马尔可夫决策过程，马尔可夫决策过程就是搜索和和合并推理路径的过程，其中，S是连续状态空间，A＝{a

智能体表示为一个策略网络πθ(s,a)＝p(a|s；θ)，它将状态向量映射到一个随机策略，θ表示具体的策略，πθ(s,a)表示在s状态下采取a动作发生θ策略的可能性；

每个状态都获取智能体在知识图谱中的位置，在执行行为后，智能体将从一个实体移动到另一个实体，这两者由智能体所采取的行为联系起来，智能体从一个实体移动到另一个实体行为关系的状态向量如下所示：

式中，e

为提高智能体找到路径的质量，设置奖励机制。

进一步地，所述奖励机制包括以下评分标准：

全局准确性：在环境设置中，智能体可以执行的操作数量较多，则错误的决策比正确的决策多，并且这些错误决策序列的数量随着路径的长度增加而呈指数增长，因此，第一个奖励函数r

若智能体在一系列行为后达到目标，则给予其离线正奖励+1；

路径效率：对于关系推理任务，由于短路径比长路径能提供更可靠的推理证据；更短的关系链通过限制智能体与环境的交互长度来提高推理效率，则效率奖励r

式中，路径p定义为一系列关系r

路径多样性：在知识图谱中，存在语义相似的实体，导致智能体寻找到具有相似的语法和语义的路径，这些路径包含冗余信息；为了鼓励智能体找到更加多样化的路径，使用当前路径和已有路径之间的余弦相似度定义奖励函数r

式中，

进一步地，所述步骤3.2包括：

Transformer结构输入为一个数据序列，输入的词被嵌入并且通过位置编码器，位置编码器根据词在该句子中的位置将向量分配给相应的词，从而提取语义；在Transformer结构中，多头注意层和前馈网络组成编码器块，并接收嵌入信息；多头注意层负责计算每个输入的注意向量，并表示句子中每个词与其单词之间的关系；注意向量则通过前馈网络将向量传递到解码器，每次传输一个；

解码器由位置编码器和屏蔽的多头注意层构成，其工作方式与编码器块类似；来自它的注意层，多个屏蔽头部的注意向量和来自编码器的注意层被传递到另一个多头注意块；＝每个向量表示在整个文档中与其他词的关系；然后将相应的向量传递到前馈网络中，再传递至线性层并转化为Softmax激活函数输出；

Transformer中每个编码器都有自注意层和前馈层；自注意层中，编码器将来自所有其他词的信息进行聚合，并将上下文提供信息的每个单词生成新的表示；前馈网络在每个位置中独立应用，在输入的句子连续位置，自注意层将查看其他的位置，并寻找有助于编码词的相关线索，每个位置中的词经过编码器中的路径，自注意层中将存在这些路径之间的依赖关系；在编码器的每个子层后，还存在规范化的步骤；位置向量被添加到每个输入的嵌入，该嵌入进行特定的学习以获取不同词间的距离或每个词的位置。

进一步地，所述步骤3.3包括：

在Transformer结构中采用有监督的策略开始训练过程，使用随机的广度优先搜索来训练监督策略；

监督策略学习：对于每个源节点e

对于具有关系序列r

其中，J(θ)是每一段路径预期的总回报，即最大化预期累积回报；对于有监督的学习，对成功路径的每一步给予+1的分数，通过插入双侧广度优先搜索找到的路径，用于更新策略网络的近似梯度，如下式所示：

其中，J表示梯度；

广度优先搜索算法添加了随机机制，不直接搜索e

进一步地，所述步骤3.3还包括

通过奖励重新训练：为了找到推理方法中受奖励函数控制的路径，使用奖励函数来限制监督策略网络；对于每一个关系，将一个对实体对的推理视为一个事件，从源结点开始，智能体根据随机的策略选择关系，它是在所有关系上的一个概率分布，用以扩展推理路径；关系会可能引向一个新的实体，或者失败；失败的步骤将导致智能体获得负的奖励，其在失败步骤后保持状态；由于智能体采用随机的策略，所以其不会因为重复错误的步骤而陷入到循环当中；为了进一步提高训练效率，将训练集的长度设定一个上限；当上限达到后，如果智能体仍未找到目标实体的话则事件结束；当每个事件结束后，策略网络通过以下的梯度进行更新：

本发明具有如下有益效果：

针对实际运用中，客户所提出问题所包含的关键词十分相似，本发明设置了针对全局准确性、路径多样性的奖励机制，并采用了Transformer结构作为策略网络，提高了对上下文的抓取能力，有效解决了相似关键词无法区分的问题。

针对电网调度业务十分繁杂，其知识图谱过大的问题，本发明提出了基于改进DeepPath的推理方法，提高智能体找到路径的质量，同时设置了针对路径效率的奖励机制，有效提高了智能体搜索知识图谱的速度。

针对即使经过很长时间的训练，智能体都无法找到有价值的路径的问题，本发明提出了采用有监督策略开始训练过程，使用随机的广度优先搜索来训练监督策略，提升了推理的有效性与效率。

附图说明

图1为电网调度业务智能问答推理框架图；

图2为电力调度知识图谱本体建模示意图；

图3为基于改进DeepPath的电网调度业务智能问答模型示意图；

图4为Transformer结构示意图；

图5为Transformer结构中的编码流程图；

图6为DeepPath模型示意图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

本发明所述基于改进DeepPath模型的电网调度业务智能问答推理系统，包括模型单元、分析单元、执行单元、显示单元。模型单元用于根据电力公司调度业务部门原始数据建立电力调度知识图谱本体模型，分析问题句，识别问题句中的实体；分析单元用于进行语义分析以提取目标和约束条件；执行单元用于执行知识推理，使用电力调度知识图谱本体模型搜索和合并推理路径，自动生成查询语句，并在知识库中运行查询；显示单元用于生成可视化查询结果并返回给用户。

参照图1、2，本发明所述基于改进DeepPath模型的电网调度业务智能问答推理方法，包括如下过程：

步骤1：采集电力公司调度业务部门原始数据作为知识基础，统一建模，构建电力调度知识图谱本体模型，然后对问题句(将客户提出的问题作为问题句)进行深入分析，即将问题句输入电力调度知识图谱本体模型，根据电力调度知识图谱本体模型和特定知识来识别问题句中的实体，作为后续输入，实体指的是问题句中可以被知识图谱所检索到的部分。

步骤2：在步骤1的基础上，进行语义分析，以提取目标和约束条件，具体如下：

将电力调度知识图谱本体模型分为两个部分：抽象模型和物理模型；抽象模型是电网调度业务及其相应属性和相互关系的统一定义，即推理过程，这种设计主要避免了不同业务在信息系统模型构建过程中对同一业务对象的重复解释，从而导致重复的数据录入和维护；物理模型定义了特定的电力设备，阐明了各种设备的拓扑连接，并描述了设备与抽象模型(如制造商、供应商、管理部门和变电站)之间的从属关系。

步骤3：在步骤2的基础上，执行知识推理，使用电力调度知识图谱本体模型搜索和合并推理路径，自动生成查询语句，并在知识库中运行查询，具体如下：

步骤3.1：使用电力调度知识图谱本体模型搜索和合并推理路径：

参照图6，改进DeepPath模型包括两个部分，外部环境和智能体，智能体表征了知识图谱内部的位置，外部环境是智能体和知识图谱的交互；外部环境ε指定了智能体和知识图谱之间的交互关系，该外部环境被建模为马尔可夫决策过程；定义元组表示马尔可夫决策过程，马尔可夫决策过程就是搜索和和合并推理路径的过程，其中，S是连续状态空间，A＝{a

智能体表示为一个策略网络πθ(s,a)＝p(a|s；θ)，它将状态向量映射到一个随机策略，θ表示具体的策略，πθ(s,a)表示在s状态下采取a动作发生θ策略的可能性。

每个状态都获取智能体在知识图谱中的位置，在执行行为后，智能体将从一个实体移动到另一个实体，这两者由智能体所采取的行为(关系)联系起来，步骤t(步骤t表示智能体将从一个实体移动到另一个实体行为关系)的状态向量如下所示：

式中，e

为了提高智能体找到路径的质量，设置奖励机制，奖励包括以下评分标准：

(1)全局准确性：在环境设置中，智能体可以执行的操作数量可能非常多，这就意味着，错误的决策比正确的决策要多得多，并且这些错误决策序列的数量将会随着路径的长度增加而呈指数增长，鉴于这一特点，第一个奖励函数r

如果智能体在一系列行为后达到目标，则给予其离线正奖励+1。

(2)路径效率：对于关系推理任务，由于短路径往往比长路径能提供更可靠的推理证据。更短的关系链还可以通过限制智能体与环境的交互长度来提高推理效率，效率奖励r

式中，路径p定义为一系列关系r

(3)路径多样性：在知识图谱中，由于存在很多语义相似的实体，这可能会导致智能体寻找到具有相似的语法和语义的路径，通常这些路径包含冗余信息。为了鼓励智能体找到更加多样化的路径，使用了当前路径和已有路径之间的余弦相似度定义了奖励函数r

式中，

步骤3.2：自动生成查询语句：

如图3、4所示，Transformer结构是一种新型的编码器-解码器结构，其输入是一个数据序列，所输入的词被嵌入并且通过位置编码器，这时位置编码器根据词在该句子中的位置将向量分配给相应的词，从而提取语义；在Transformer结构中，多头注意层和前馈网络组成编码器块，并接收嵌入信息；具体的，多头注意层主要负责计算每个输入的注意向量，并表示句子中每个词与其单词之间的关系；注意向量则通过前馈网络将向量传递到解码器块，每次传输一个；需要说明的是，在多头注意层中，因为注意网络相互独立，该结构可以实现并行计算。

此外，解码器由位置编码器和屏蔽的多头注意层构成，其工作方式与编码器块类似；来自它的注意层，多个屏蔽头部的注意向量和来自编码器的注意层被传递到另一个多头注意块。其中，每个向量表示在整个文档中与其他词的关系；然后将相应的向量传递到前馈网络中，再传递至线性层并转化为Softmax激活函数输出。

图5展示了Transformer中的编码流程，其中每个编码器都有自注意层和前馈层；自注意层中，编码器将来自所有其他词的信息进行聚合，并将上下文提供信息的每个单词生成新的表示；相似的，前馈网络在每个位置中独立应用，在输入的句子连续位置，自注意层将查看其他的位置，并寻找有助于编码词的相关线索，每个位置中的词经过编码器中的路径，自注意层中将存在这些路径之间的依赖关系；此外在编码器的每个子层后，还存在规范化的步骤。位置向量被添加到每个输入的嵌入，该嵌入进行特定的学习以帮助知道其知道不同词间的距离或每个词的位置。

步骤3.3：在知识库(即步骤1中的知识基础)中运行查询：

在Transformer结构中采用有监督的策略开始训练过程，使用随机的广度优先搜索来训练监督策略，以获得更优化的查询方法用于查询；

监督策略学习：对于每个源节点e

对于具有关系序列r

其中，J表示梯度。

需要说明的是，现有的广度优先搜索算法是有偏的搜索算法，它更倾向于使用短路径，当搜索这些有偏向的路径时，智能体会很难找到对获取信息可能有用的较长路径。这对于推理结果不利，路径应该仅由定义的奖励函数来控制。为了防止具有路径偏向的搜索，在本发明为广度优先搜索算法添加了随机机制，其不是直接搜索e

通过奖励重新训练：为了找到推理方法中受奖励函数控制的路径，使用奖励函数来限制监督策略网络；对于每一个关系，将一个对实体对的推理视为一个事件，从源结点开始，智能体根据随机的策略选择关系，它是在所有关系上的一个概率分布，用以扩展推理路径；关系会可能引向一个新的实体，或者失败；失败的步骤将导致智能体获得负的奖励，其在失败步骤后保持状态；由于智能体采用随机的策略，所以其不会因为重复错误的步骤而陷入到循环当中。为了进一步提高训练效率，将训练集的长度设定一个上限。当上限达到后，如果智能体仍未找到目标实体的话则事件结束。当每个事件结束后，策略网络通过以下的梯度进行更新：

步骤4：在步骤3的基础上，生成可视化查询结果，并将答案返回给用户。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：国网上海市电力公司;

上一篇：一株贝莱斯芽孢杆菌及其应用
下一篇：一种高效散热的多层线路板埋铜装置及工艺