掌桥专利:专业的专利平台
掌桥专利
首页

一种基于实体关系联合抽取的电力知识图谱可视化方法

文献发布时间:2024-04-29 00:47:01


一种基于实体关系联合抽取的电力知识图谱可视化方法

技术领域

本申请涉及复杂网络领域,具体涉及一种基于实体关系联合抽取的电力知识图谱可视化方法。

背景技术

配电风电力信息数量呈上升趋势,作为与国家和人民生活密切相关的电力企业,其职能性质决定了舆论的高度关注。电价调整、供电、安全生产、环保、供热维护等问题容易引起关注,并通过网络无限放大。电力文本信息的监控难度也在不断加强,电力信息化监控平台应运而生。电力信息化监控平台利用贴虫技术、云计算等先进技术,在网络平台自动采集信息、并对信息进行处理和集或化管理,以监控电力文本信息。电力信息化平台根据这些文本,可以对电价调整、供电、安全生产等方面做出最佳决策,优化大众的电力使用感受,侯持电力稳定运行。

大众根据现实生活中较强影响力的事件或热点问题发表的言论及观点导致文本出现的数据量越来越多。为有效展现电力信息化监控平台文本品控效果,平台文本品控效果的可视化展示便显得尤为重要。王晰巍等提出的主题图谱可视化方法,夏立新等提出基于事理图谱的文本可视化方法,虽然在一定程度上可以实现文本品控效果的可视化展现,但是已经不能满足电力信息爆发式增长条件下的文本品控效果展示,且可视化展现过程中的数据爬取效果以及调度效果并不理想,需在此基础上不断完善并提出新的可视化方法。

发明内容

本申请实施例的目的在于提供一种基于实体关系联合抽取的电力知识图谱可视化方法,用于实现更高质量的监测及可视化需求。

为实现上述目的,本申请提供如下技术方案:

本申请实施例提供一种基于实体关系联合抽取的电力知识图谱可视化方法,包括以下步骤:

步骤1:针对电力文本信息进行数据预处理;

步骤2:建立电力实体关系联合抽取模型,其中包括基于Roberta层和PGD对抗层的预训练、基于BiLSTM层的全局文本信息抽取和基于CRF层的标签约束;

步骤3:进行知识加工融合,最终实现可视化表示。

所述步骤2中基于Roberta层和PGD对抗层的预训练具体流程如下:

利用Roberta预训练模型中的Transformer结构,对输入电力文本序列进行编码,使用自注意力机制训练得到对应的向量,对于输入的电力文本序列X={x

Q=A

其中,W

自注意力层输出公式为:

式中,d

Transformer使用多头注意力机制Multi-head Self-attention,输出矩阵M

M

式中,kh表示头的数量,

Roberta模型将输入的电力文本序列转化为表示词向量、句向量以及位置量,进而输入到模型中提取,利用自注意力机制和全连接层对输入的电力文本进行建模,从大量文本信息中选择出和当前任务目标更契合的有效信息,为了进一步对电力文本信息进行特征学习,将巡检文本以句子为单位输入进已预训练的Roberta模块得到高质量的词向量,再利用BiLSTM层学习电力文本的上下文特征。

所述步骤2中基于BiLSTM层的全局文本信息抽取和基于CRF层的标签约束具体为,

结合配电网运行及巡检数据特征,在BiLSTM特征学习的基础上,采用条件随机场CRF模型来学习约束规则,通过考虑相邻实体标签之间的依赖关系来获取全局的最优标签序列,对BiLSTM网络层的输出进行修正,从而减少模型输出非法序列的可能性,弥补BiLSTM层缺点,避免出现标签预测不合理的情况,实现电力领域实体和关系的精准抽取。

与现有技术相比,本申请的有益效果是:

1.提出了一种基于实体关系联合抽取的电力知识图谱可视化方法,实现更高质量的监测及检测需求。

2.针对电力文本信息中实体密集且关系重叠难点,设计实体关系联合抽取模型,以有效解决标注效率和抽取准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明的方法流程示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合图1,介绍本发明的具体实施方式为基于实体关系联合抽取的电力知识图谱可视化方法,包括以下具体步骤:

步骤1:针对电力文本信息进行数据预处理,主要进行数据清洗。

步骤2:建立电力实体关系联合抽取模型,其中包括基于Roberta层和PGD对抗层的预训练、基于BiLSTM层的全局文本信息抽取和基于CRF层的标签约束,具体流程如下:

利用Roberta预训练模型中的Transformer结构,对输入电力文本序列进行编码,使用自注意力机制训练得到对应的向量。对于输入的电力文本序列X={x

Q=A

其中,W

自注意力层输出公式为:

式中,d

Transformer使用多头注意力机制Multi-head Self-attention,输出矩阵M

M

式中,kh表示头的数量,

Roberta模型将输入的电力文本序列转化为表示词向量、句向量以及位置量,进而输入到模型中提取,利用自注意力机制和全连接层对输入的电力文本进行建模,从大量文本信息中选择出和当前任务目标更契合的有效信息。为了进一步对电力文本信息进行特征学习,将巡检文本以句子为单位输入进已预训练的Roberta模块得到高质量的词向量,再利用BiLSTM层学习电力文本的上下文特征。

结合配电网运行及巡检数据特征,在BiLSTM特征学习的基础上,采用条件随机场CRF模型来学习约束规则,通过考虑相邻实体标签之间的依赖关系来获取全局的最优标签序列,对BiLSTM网络层的输出进行修正,从而减少模型输出非法序列的可能性,弥补BiLSTM层缺点,避免出现标签预测不合理的情况,实现电力领域实体和关系的精准抽取。

步骤3:进行知识加工融合,最终实现可视化表示。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种基于实体关系联合抽取模型的多三元组抽取方法
  • 一种基于实体关系联合抽取的知识图谱构建方法
  • 基于实体关系联合抽取的法律知识图谱构建方法及设备
技术分类

06120116592138