掌桥专利:专业的专利平台
掌桥专利
首页

一种面向电力搜索问答的知识图谱构建方法及装置

文献发布时间:2024-01-17 01:28:27


一种面向电力搜索问答的知识图谱构建方法及装置

技术领域

本发明涉及电力运维技术领域,具体涉及一种面向电力搜索问答的知识图谱构建方法及装置。

背景技术

传统的电力资源网络知识数据,多是以工程技术文档、说明手册、摘录等文档形式存储于服务器,由于该种类型较为固定,且难以进行预览,导致记录的知识数据较为分散,无法快速形成系统、精准的知识反馈。随着智能技术的发展,针对电力行业人工智能技术的应用日益剧增。因而亟需设计一种能够利用底层的电力行业数据标注、模型服务、平台接口、业务流程等信息,实现面向电力搜索问答的知识图谱构建方法。

发明内容

为解决上述现有技术的中的不足,本发明的目的在于克服现有不足,提供一种面向电力搜索问答的知识图谱构建方法,包括:

步骤1,基于电力系统和电力资源网采集电力领域的纯文本、非结构化、半结构化信息;

步骤2,基于采集的电力领域信息进行模糊筛选,剔除干扰特征数据;

步骤3,获取模糊筛选后的纯文本、非结构化、半结构化信息,将纯文本和半结构化信息直接转换为三元组;基于深度神经网络模型对非结构化信息提取,采集并存储非结构化信息的三元组,实现面向电力搜索问答的知识图谱构建。

作为上述方案的进一步优化,所述电力领域的纯文本、非结构化、半结构化信息提取包括对词条识别、信息结构抽取和词条分类。

作为上述方案的进一步优化,所述词条识别的实现方法如下:

采集任一目标文本Text,目标文本Text的i项字符为a

分别构建文本Text与其i项字符的字符标识A=(a

基于构建的字符标识A,生成对应的跨度序列B=(b

则基于字符标识A=(a

其中,a

作为上述方案的进一步优化,所述方法还包括:

对所述跨度表征B

其中,trM为用于描述跨度归集器M

作为上述方案的进一步优化,所述信息结构抽取实现方法如下:

构建电力领域目标文本Text的分词标识与其对应的分词表征Word

Word

其中,f(w)为池化量,w

作为上述方案的进一步优化,所述方法还包括:

对构建生产的分词表征Word

将多个带注意力引导的邻接矩阵传输至密集连接层,所述密集连接层输出n个邻接矩阵的增量维度输出结果Reciv=(tr

获取增量维度输出结果Reciv,传输至线性结合层,获取电力领域目标文本Text的信息表征:

其中,trWord为分词表征矩阵,

作为上述方案的进一步优化,所述词条分类实现如下:

构建文本Text与其i项字符的字符标识A=(a

Out=Aggcn(A,A)    (5)

设词条关系Q,所述词条关系Q的输入构建如下:

其中,Q

作为上述方案的进一步优化,获取词条关系Q,将词条关系Q的输入传输至词条关系归集器P:

其中,μ为S型函数,trQ为参数矩阵,

作为上述方案的进一步优化,基于纯文本、非结构化数据、半结构化数据信息获取的三元组构建成三元组模型,任一的三元组模型记录包含开始端点、关系路径和结束端点。

本发明还提供了一种面向电力搜索问答的知识图谱装置,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的一种面向电力搜索问答的知识图谱构建方法。

本发明采用上述的技术方案,与现有技术相比,具有如下有益效果:

1.本发明通过构建词条识别方法,主要是选择跨度作为描述电力搜索问答的词条识别对象,相较于现有技术而言,本发明公开的方法能够快速处理嵌套结构的词条识别问题;即应用本发明公开的构建词条识别方法,其对应识别的词条数量更加全面,使得最后生成知识图谱更加完善。

2.相较于传统的深度神经引导图卷积网络模型主要应用于英语的文本关系,即无法适用于其他语言体系结构,因而存在较大的限制性;本发明通过在信息结构抽取方法中通过池化的方法,构建中文分词表征,即针对特定的语言体系能够进行适应性信息抽取,保持对电力领域目标文本的结构信息最大化利用。

3.本发明创建的面向电力搜索问答的知识图谱,通过以配电站为中心进行辐射发散,基于该知识图谱能够提升用户对于电力搜索问答的体验效果;同时,基于可视化图形页面,能够使用户直观快速了解输入的电力搜索问答的直接关联词条和间接关联词条;因而通过本发明公开的一种面向电力搜索问答的知识图谱构建方法,协助用户快速获得电力搜索目标答案、辅助分析方案,能够有效提升用户的体验和工作效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本发明一种面向电力搜索问答的知识图谱构建方法的流程示意图;

图2为本发明一种面向电力搜索问答的知识图谱构建方法的另一幅流程示意图;

图3为本发明一种面向电力搜索问答的知识图谱构建方法的词条关系结构示意图。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1-3所示,本发明实施例公开了一种面向电力搜索问答的知识图谱构建方法,包括:

步骤1,基于电力系统和电力资源网采集电力领域的纯文本、非结构化、半结构化信息;

步骤2,基于采集的电力领域信息进行模糊筛选,剔除干扰特征数据;特别说明的是,所述干扰特征数据为在进行电力领域的信息采集过程中,出现明显的非关联词条,如检索出的明显非电力领域词条;通过模糊筛选,剔除干扰项,能够降低对后续词条处理的干扰,增进特征数据提取的精准度,从而构建高准确度的知识图谱;

步骤3,获取模糊筛选后的纯文本、非结构化、半结构化信息,将纯文本和半结构化信息直接转换为三元组;基于深度神经网络模型对非结构化信息提取,采集并存储非结构化信息的三元组,实现面向电力搜索问答的知识图谱构建。

进一步的,电力领域的纯文本、非结构化、半结构化信息提取包括对词条识别、信息结构抽取和词条分类。

进一步的,词条识别的实现方法如下:

采集任一目标文本Text,目标文本Text的i项字符为a

分别构建文本Text与其i项字符的字符标识A=(a

基于构建的字符标识A,生成对应的跨度序列B=(b

则基于字符标识A=(a

其中,a

对所述跨度表征B

其中,trM为用于描述跨度归集器M

本发明通过构建词条识别方法,主要是选择跨度作为描述电力搜索问答的词条识别对象,相较于现有技术而言,本发明公开的方法能够快速处理嵌套结构的词条识别问题;即应用本发明公开的构建词条识别方法,其对应识别的词条数量更加全面,使得最后生成知识图谱更加完善。

进一步的,信息结构抽取实现方法如下:

构建电力领域目标文本Text的分词标识与其对应的分词表征Word

Word

其中,f(w)为池化量,w

对构建生产的分词表征Word

更进一步的,相较于传统的深度神经引导图卷积网络模型主要应用于英语的文本关系,即无法适用于其他语言体系结构,因而存在较大的限制性;本发明通过在信息结构抽取方法中通过池化的方法,构建中文分词表征,即针对特定的语言体系能够进行适应性信息抽取,保持对电力领域目标文本的结构信息最大化利用。

在此需要特别说明的是,本发明主要是构建以中文为基础的应用于电力搜索问答的知识图谱,因而本发明引入的分词表征主要作用对象是中文。本领域技术人员应能够基于公开的技术方案理解并掌握其它语言体系的信息结构抽取,在此不做赘述;

将多个带注意力引导的邻接矩阵传输至密集连接层,所述密集连接层输出n个邻接矩阵的增量维度输出结果Reciv=(tr

获取增量维度输出结果Reciv,传输至线性结合层,获取电力领域目标文本Text的信息表征:

其中,trWord为分词表征矩阵,

进一步的,词条分类实现如下:

构建文本Text与其i项字符的字符标识A=(a

Out=Aggcn(A,A)    (5)

设词条关系Q,所述词条关系Q的输入构建如下:

其中,Q

获取词条关系Q,将词条关系Q的输入传输至词条关系归集器P:

其中,μ为S型函数,trQ为参数矩阵,

更具体的,本发明还提供如下的实施例:

表一词条关系体征值

根据表一可知,根据本发明技术公开的引入词条关系,当词条的跨度差较大,如表一中的<配电站,低压>、<配电站,绝缘>,基于本发明技术公开得方案,其体征值均明显大于传统模型Bi-LSTM+CRF的命名实体识别;当词条的跨度差较小,如表一中的<电缆,高压>,其体征值略大于传统模型,即基于本发明技术的改进型深度神经引导卷积模型设计,能够显著提升电力搜索问答的结果预测,提升电力搜索问答反馈的准确率,效果良好。

进一步的,基于纯文本、非结构化数据、半结构化数据信息获取的三元组构建成三元组模型,任一的三元组模型记录包含开始端点、关系路径和结束端点。

更具体的,本发明还提供了另一个实施例,一种面向电力搜索问答的知识图谱构建方法的结构示意图,如图3所示,本发明实施例创建的面向电力搜索问答的知识图谱,通过以配电站为中心进行辐射发散,基于该知识图谱能够提升用户对于电力搜索问答的体验效果,协助用户快速检索到以配电站为核心的关联词条,如变压器、电缆等;同时,基于可视化图形页面,能够使用户直观快速了解输入的电力搜索问答的直接关联词条和间接关联词条;因而通过本发明公开的一种面向电力搜索问答的知识图谱构建方法,协助用户快速获得电力搜索目标答案、辅助分析方案,能够有效提升用户的体验和工作效率。

更具体的,本发明还提供如下的实施例,当用户输入待查询的电力领域问题后,通过初步过滤筛选,剔除明显不符合电力领域的问题;若判断为有价语句,则进行信息提取,如为纯文本和半结构化信息则直接转换为三元组;若为非结构化信息,提取并存储非结构化信息的三元组,从而根据提取的三元组信息完成电力搜索问答的反馈,具体参见如下:

Exp1:

Input:配电站的常规设备有哪些

Triple:[配电站],[设备],[变压器;高压柜;低压柜;电缆]

Output:变压器;高压柜;低压柜;电缆

Exp2:

Input:电缆的种类有哪些呢

Triple:[电缆],[种类],[高压电缆;低压电缆]

Output:高压电缆;低压电缆

在此需要特别说明的是,为便于加快实现电力搜索问答的反馈,本发明设置有词条数据库,用于存储和记录电力资源网直接采集获取的结构化数据以及经信息抽取后的非结构化数据信息,基于该词条数据库,能够快速匹配从而加快电力搜索问答反馈。

本发明还公开了一种面向电力搜索问答的知识图谱装置,基于该装置主要应用上述一种面向电力搜索问答的知识图谱构建方法,在此不做赘述。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
  • 一种电力标准知识图谱构建方法、知识问答系统及装置
  • 一种面向船舶电力系统设计任务的知识图谱构建方法及装置
技术分类

06120116230997