掌桥专利:专业的专利平台
掌桥专利
首页

大坝应急响应知识库联动的多视角学习实体对齐方法和系统

文献发布时间:2023-06-19 19:30:30


大坝应急响应知识库联动的多视角学习实体对齐方法和系统

技术领域

本发明涉及一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,属于文本数据处理技术领域。

背景技术

互联网的迅速发展带来数据的爆炸式增长,如何将信息结构化以便更快速精确的检索信息亟待解决,由此,知识图谱(Knowledge Graph,KG)的概念应运而生。知识图谱提出的初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验,其本质是一种大规模的语义网络(Semantic Network),结构化的语义知识库(Knowledge Base,KB),形式化的描述物理世界中的概念及其相互关系。随着相关技术的不断发展,知识图谱已经广泛应用于智能搜索、智能问答、个性化推荐等领域。

如今知识图谱技术已经被逐渐运用于社会的各个领域。其中,在大坝安全应急工况风险联动领域,知识图谱技术被广泛运用于大坝安全的知识库构建以及应急响应系统的风险联动当中。目前大坝安全的知识库构建工作硕果累累,但是这些构建的知识图谱大多是分散而独立的,当前的大坝安全知识图谱中存在着图谱中的多个实体指向客观世界的相同事物的问题,各个知识图谱之间存在大量重复的知识,同时实体对齐方法对监督数据依赖性较强,且知识图谱构建时由于侧重点不同从而知识图谱出现稀疏或不完整的情况,导致实体对齐任务效果不佳,从而影响知识图谱之间联动的准确性,这些问题都阻碍了大坝安全数据的有效集成与复用,因此提高实体对齐效果,从而提高在大坝发生应急工况时安全知识库的风险联动的准确性是当务之急。

已有实体对齐方法存在数据特征利用不充分,在知识图谱稀疏或属性信息稀少的情况下对齐准确率较低,对实体语义捕获不充分等问题。在关系稀疏且属性信息较少的情况下,仅通过关系三元组和属性三元组较难判断对齐,同时实体名称略有区别,但是两者的文本描述部分具有很大的相似性,很容易出现相同的实体或者具有类似结构的表述内容。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,对知识图谱进行了基于BERT模型(一种预训练的语言表征模型)的多视角学习实体对齐(entity alignment)工作。将存在于不同的大坝安全知识图谱中,但指向客观世界中同一物体的名称对应起来,并得到它们之间评估相似性程度的置信度。该任务可以对大坝安全知识图谱进行扩充,从而提高大坝安全知识图谱的质量和覆盖范围,从而在大坝发生应急工况下,提高风险联动的准确性,使得有关部门做出更有效的决策。

本发明提出大坝应急响应知识库联动的多视角学习实体对齐方法,该方法通过融合实体文本描述特征,解决知识图谱稀疏时仅依赖关系和属性进行对齐的准确率低以及数据特征利用不充分的问题;通过使用预训练的BERT模型对属性及文本描述特征进行嵌入,解决使用字符级别属性嵌入时语义捕获不充分的问题。同时,在属性嵌入部分考虑到并非所有的属性对实体对齐的贡献都一样,可能存在许多无用的噪声属性,因此为了学习到不同属性的重要程度,以共享注意力权重的形式作用于属性类型嵌入与属性值嵌入。解决在知识图谱稀疏的情况下,三元组信息缺少时实体对齐概率较低的问题。

技术方案:一种大坝应急响应知识库联动的多视角学习实体对齐方法,利用大坝应急响应文件数据,进行知识抽取构建三元组的操作,利用Neo4j构建大坝应急响应知识库的知识图谱;将实体的结构特征和实体的属性及文本描述特征表示为嵌入的特征向量;将上述向量进行拼接实现联合语义表示;将需要实体对齐的两个实体的联合语义表示向量输入孪生神经网络计算实体相似度,来实现实体对齐;实体对齐方法嵌入大坝应急响应知识库系统中进行实体对齐操作。

方法包括如下内容:

(1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱。

(2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示。

(3)实体的语义联合表示:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。

(4)基于孪生神经网络的实体对齐匹配方法:将得到的实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐,通过以上基于孪生神经网络的实体对齐匹配方法构建多视角学习实体对齐模型。

将实体对齐方法嵌入大坝应急响应知识库系统并运行于计算机设备上,针对大坝应急响应知识库中的图谱进行实体对齐操作,从而实现应急工况发生时,知识库之间的联动,提高风险联动的准确性,从而提高应急措施的实施效率。

进一步的,所述(1)大坝应急响应知识库的知识图谱构建,具体步骤如下:

(1.1)从大坝安全知识库中,取大坝应急响应文本数据,从大坝应急响应文本数据中提取信息三元组,得到三元组集合。

(1.2)利用图数据库Neo4j在构建好的三元组集合的基础上,构建大坝应急响应知识库的知识图谱,所得知识图谱中的实体用于下文方法中知识库联动的实体对齐操作。

进一步的,所述步骤(2)中实体的特征嵌入,将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。具体步骤如下:

(2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式。

给定一个关系三元组(h,r,t),TransE将头实体h、尾实体t和关系r都嵌入到统一的低维向量空间中,使得实体和关系满足约束:h+r≈t,即r是头尾实体之间的翻译关系。为了在学习中实现这一假设,通过不断调整h、r,使得h+r尽可能与t相等,定义打分函数为:f

其中,使用||·||

其中,(h,r,t)∈S是知识库中的正例三元组,即知识图谱中真实存在的三元组。(h′,r,t′)∈S′是负采样的三元组,即将正例三元组的头实体或尾实体替换成实体集中的其他实体,从而生成知识图谱内不存在的三元组。γ是取值大于0的间隔距离超参数,在训练时多视角学习实体对齐模型采用梯度下降法。

对于负采样的三元组S′,采用截断式反例三元组生成方式,以期生成高质量的反例三元组。在训练过程中生成反例的具体做法:对于一个待替换的实体,通过计算该实体与其他实体之间的向量相似度找到距离该实体最近的前k个实体,进而从该k个实体中随机采样任一实体来替换该实体,生成对应的反例三元组。与原始的TransE模型通过随机采样生成反例的方式相比,随机采样的方式生成反例三元组的速度快,但不能保证生成质量,可能对训练产生消极作用,而采用截断式反例生成方式生成的反例更容易与正例拥有相同的类型或相似的关系,从而能够对训练有积极的帮助。

(2.2)属性特征及文本描述特征嵌入:对于实体的属性特征和文本描述特征的嵌入部分,多视角学习实体对齐模型基于BERT模型对实体的属性和文本描述特征分别进行特征向量表示。BERT利用MLM(masked language model)进行预训练并且采用深层的双向Transformer组件来构建整个多视角学习实体对齐模型,因此最终生成能够融合左右上下文信息的深层双向语言表征,使嵌入向量具有更丰富的语义信息。首先利用预训练的BERT模型接受上述大坝安全知识图谱中的三元组中的文本信息作为输入,取分类标签的对应值,然后使用MLP进行映射,将得到的结果作为实体描述信息的向量表示。

首先对于文本描述特征,进行上述操作得到实体描述信息的向量表示:E

其中,W

其中

进一步的,所述步骤(3)中实体的语义联合表示的具体执行步骤如下:

(3.1)基于以上操作对结构特征、属性特征及文本描述特征的编码,分别得到其向量表示,采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。拼接得到的向量既保留了结构信息,也保留了属性及文本描述中的语义信息,即:实体的联合语义表示

其中,E

进一步的,所述步骤(4)中基于孪生神经网络的实体对齐匹配方法的具体执行步骤如下:

(4.1)孪生神经网络(Siamese neural network)是基于两个人工神经网络建立的耦合架构,由两个结构相同且权重共享的神经网络拼接而成。以两个样本为输入到两个神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度。

本方法所使用的孪生神经网络模型由两个对称的子网络和一个距离评估函数组成,将向量拼接所得到的实体联合语义向量作为网络底层的输入,通过CNN层和全连接层对隐层特征进行融合;同时,两个子网络的CNN层和全连接层之间共享权重,将两个子网络的输出经过距离评估函数进行计算。将两个实体联合语义向量样本E

(4.2)在欧式距离的基础上,将最小化相同类的数据之间的距离,最大化不同类之间的距离,使用对比损失函数来计算实体之间的相似性,具体公式如下:

其中,D

进一步的,运用上述方法在大坝应急响应知识库系统中实现大坝安全知识库中知识图谱的实体对齐。将大坝应急响应知识库联动的多视角实体对齐方法应用到计算机设备上,基于计算机设备对大坝应急响应知识库进行计算,实现大坝应急响应知识库联动的实体对齐。

一种大坝应急响应知识库联动的多视角学习实体对齐系统,包括:

知识图谱模块:在建立完成大坝应急响应知识库的基础上,对大坝应急响应文件数据进行知识抽取的操作,得到用于构建知识图谱的三元组,利用Neo4j图数据库进行大坝应急响应知识图谱的构建;

实体的特征嵌入模块:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;

实体的语义联合表示模块:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,得到实体联合语义向量;

基于孪生神经网络的实体对齐匹配模块:将实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。

一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的大坝应急响应知识库联动的多视角学习实体对齐方法。

一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的大坝应急响应知识库联动的多视角学习实体对齐方法的计算机程序。

有益效果:与现有技术相比,针对现有的实体对齐方法大多仅使用了知识图谱中的实体结构特征,对实体其他特征如实体名称、属性值、文本描述等利用不充分的情况,导致实体对齐任务效果不佳的问题。本发明利用基于BERT的多视角实体对齐方法,解决在知识图谱稀疏的情况下,三元组信息缺少时实体对齐概率较低的问题。本发明同时引入实体的结构信息和语义信息,来解决知识图谱稀疏时仅使用单一特征时实体对齐准确率较低的问题;通过采用BERT方法对属性特征和文本描述特征进行嵌入,能够很好的捕获语义上下文的特征信息,辅助实体对齐任务;同时以共享注意力权重的形式作用于属性嵌入,防止引入噪声属性造成结果偏差,提高系统的实体对齐效果。实现在应急工况发生时,大坝的应急响应知识库之间的快速联动,有效迅速寻找对应工况的应急措施,实现安全风险的有效预防和应对,切实保障大坝的日常安全。

附图说明

图1为本发明实施例的方法流程图;

图2为本发明实施例的知识图谱的实例图;

图3为本发明实施例的基于BERT嵌入的多视角学习实体对齐模型架构图;

图4为本发明实施例的孪生神经网络模型示意图;

图5本发明实施例的大坝数据集中实体三元组及文本描述示例。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示,大坝应急响应知识库联动的多视角学习实体对齐方法,包括如下步骤:

(1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱。具体步骤如下:

(1.1)大坝安全的三元组的数据源主要来源于大坝应急管控文件数据和日常巡检报告数据两部分。其中巡检报告数据包含地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修和日常检查等获取的数据,除大量三元组之外,还囊括了文本描述信息。首先根据大坝应急响应知识库的知识图谱提取出参考实体和结构三元组,然后从知识库中提取所有涉及对齐中实体的属性三元组,具体文本案例如下:

大坝应急相遇文本描述案例

利用大坝应急响应文本提取三元组后,构建大坝安全知识图谱。最终得到的数据集形式为三元组的集合,形式例如:(渗流,位置,混凝土接缝)。

(1.2)得到三元组后根据所得三元组,利用图数据库Neo4j构建知识图谱,大坝应急响应知识库的两个知识图谱,如图2所示。应急响应知识库中得到的大坝数据集统计数据如下所示:

大坝数据集统计数据

在该大坝数据集中,将各个数据集70%的数据用于监督训练,20%的数据作为验证数据,10%的数据作为测试数据集。

(2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示。基于BERT嵌入的多视角学习实体对齐模型架构如图3所示,具体步骤如下:

(2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式;

给定一个关系三元组(h,r,t),TransE将头实体h、尾实体t和关系r都嵌入到统一的低维向量空间中,使得实体和关系满足约束:h+r≈t,即r是头尾实体之间的翻译关系。以关系三元组(渗流,位置,混凝土接缝)为例,TransE的目标是将头实体“渗流”的向量加上关系“位置”的向量,尽可能的等于尾实体“混凝土接缝”的向量。为了在学习中实现这一假设,通过不断调整h、r,使得h+r尽可能与t相等,定义打分函数为:f

其中,使用||·||

/>

其中,(h,r,t)∈S是知识库中的正例三元组,即知识图谱中真实存在的三元组,如(渗流,位置,混凝土接缝)就是一个正例三元组。(h′,r,t′)∈S′是负采样的三元组,即将正例三元组的头实体或尾实体替换成实体集中的其他实体,从而生成知识图谱内不存在的三元组。γ是取值大于0的间隔距离超参数,在训练时模型采用梯度下降法。

对于负采样的三元组S′,采用截断式反例三元组生成方式,以期生成高质量的反例三元组。以关系三元组(渗流,位置,混凝土接缝)为例,生成一个反例三元组为(渗流,位置,射水),实体“混凝土接缝”和实体“射水”基本没有关系,导致该反例对训练帮助有限;相反,生成一个反例三元组(渗流,位置,渐变段混凝土)则对训练帮助更大,这是因为实体“混凝土接缝”和实体“渐变段混凝土”属于同一类型,两者在向量空间中的距离也更为接近。

(2.2)属性特征及文本描述特征嵌入:对于实体的属性特征和文本描述特征的嵌入部分,多视角学习实体对齐模型基于BERT模型对其分别进行特征向量表示,本发明通过基于孪生神经网络的实体对齐匹配方法,得到多视角学习实体对齐模型。BERT利用MLM(masked language model)进行预训练并且采用深层的双向Transformer组件来构建整个多视角学习实体对齐模型,因此最终生成能够融合左右上下文信息的深层双向语言表征,使嵌入向量具有更丰富的语义信息。首先利用预训练的BERT接受上述大坝安全知识图谱中的三元组中的文本信息作为输入,取分类标签的对应值,然后使用MLP进行映射,将得到的结果作为该实体的向量表示。

首先对于文本描述特征,进行上述操作得到该实体描述信息的向量表示:E

其中,W

将属性类型和属性值的最终嵌入向量进行拼接操作,然后使用MLP进行映射,得到该实体属性的向量表示:

(3)实体的语义联合表示:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。具体步骤如下:

(3.1)基于以上操作对结构特征、属性特征及文本描述特征的编码,分别得到其向量表示,本节采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。拼接得到的向量既保留了结构信息,也保留了属性及文本描述中的语义信息,即:

其中,E

(4)基于孪生神经网络的实体对齐匹配方法:将得到的实体的联合语义表示向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。具体步骤如下:

(4.1)如图4所示,使用的孪生神经网络模型由两个对称的子网络和一个距离评估函数组成,将向量拼接所得到的实体联合语义向量作为网络底层的输入,通过CNN层和全连接层对隐层特征进行融合;同时,两个子网络的CNN层和全连接层之间共享权重,将其输出经过距离评估函数进行计算。将两个样本E

(4.2)在欧式距离的基础上,将最小化相同类的数据之间的距离,最大化不同类之间的距离,使用对比损失函数来计算实体之间的相似性,具体公式如下:

其中,D

(5)将上述多视角学习实体对齐方法运用于计算机设备上,针对大坝应急响应知识库的知识图谱进行实体对齐,以图5实例为例,在两处文本中提取的(渗流,主体,1号机进水口)和(渗水,位置,混凝土接缝处)两个三元组中,实体“渗流”和“渗水”指代的事物相同,通过本模型方法可以在多视角实体对齐系统中实现实体对齐,将渗流和渗水两个实体进行对齐后可以有效地进行应急响应的措施应对。

如图2所示,在应急工况“非正常渗水的工况”发生的情况下导致了河道堵塞,在系统中运行模型通过实体对齐进行风险联动,可以得到应急分级知识图谱中的“坝体非正常渗水”和应急措施知识图谱中的“大坝挡(渗)水安全险情Ⅰ级”两个实体相较近似,因此判断该险情为“大坝挡(渗)水安全险情”。同时又发生了河道堵塞的问题,在实体对齐的风险联动中发现“大坝挡(渗)水安全险情Ⅰ级”实体的措施关系中有实体“若为河道堵塞,及时清除下游障碍保证行洪”,因此系统可以判断险情为“大坝挡(渗)水安全险情Ⅰ级”,因此采取“大坝挡(渗)水安全险情Ⅰ级”对应的应急措施。

大坝应急响应知识库联动的多视角学习实体对齐系统,包括:

知识图谱模块:在建立完成大坝应急响应知识库的基础上,对大坝应急响应文件数据进行知识抽取的操作,得到用于构建知识图谱的三元组,利用Neo4j图数据库进行大坝应急响应知识图谱的构建;

实体的特征嵌入模块:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;

实体的语义联合表示模块:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,得到实体联合语义向量;

基于孪生神经网络的实体对齐匹配模块:将实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。针对大坝数据集,即主要来源于黄登、景洪、漫湾等各个大坝应急管控文件数据和日常巡检报告数据。其中巡检报告数据包含地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修和日常检查等获取的数据,除大量三元组之外,还囊括了文本描述信息。通过构造知识图谱进行实体对齐,利用本系统进行实体对齐的对齐效果显著提升,并且该模型的性能总体上优于其他的对齐方法,切实提高了应急响应知识库在应急工况发生时风险联动的效率,切实保障大坝安全。

具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。

上述的本发明实施例大坝应急响应知识库联动的多视角学习实体对齐方法,各步骤与大坝应急响应知识库联动的多视角学习实体对齐系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

相关技术
  • 面向大坝安全知识库风险联动的实体对齐方法和系统
  • 一种网络安全应急响应知识图谱实体对齐方法
技术分类

06120115933885