导航：首页> 发电、变电或配电>知识图谱的信息补全方法、装置、电子设备及存储介质

知识图谱的信息补全方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 19:18:24

技术领域

本发明涉及信息处理技术领域，尤其涉及一种知识图谱的信息补全方法、装置、电子设备及存储介质。

背景技术

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通常知识图谱由三元组的信息序列构成，三元组的构成元素包括头实体、关系和尾实体。在知识图谱的构建过程中，存在某些三元组不够完善，即某个信息序列存在未知元素。例如信息序列(A，出生于，？)，从该信息序列中可以确定A的出生地未知，为此，需要对知识图谱中的信息序列进行缺失检测及补全。

发明内容

针对现有技术存在的问题，本发明提供一种知识图谱的信息补全方法、装置、电子设备及存储介质。

第一方面，本发明提供一种知识图谱的信息补全方法，包括：

确定待补全信息序列中的已知元素对应的文本信息；

根据所述文本信息确定文本预测序列；

将所述文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；

根据所述信息序列构建用于补全信息的关联路径；

根据用于补全信息的关联路径对所述待补全信息序列中的未知元素进行确定。

在一个实施例中，所述根据所述文本信息确定文本预测序列，包括：

将所述文本信息输入到语义分析模型中，由所述语义分析模型输出所述文本信息对应的文本预测序列。

在一个实施例中，所述方法还包括语义分析模型的获取步骤，包括：

基于文本信息-文本预测序列训练集对初始模型进行训练，并在模型进行第k次迭代训练时，采用当前训练中的模型对文本信息分析文本预测序列，并将分析得到的文本预测序列作为新的信息序列-文本预测序列训练集；

基于新的信息序列-文本预测序列对当前训练中的模型继续训练，并在迭代次数满足预设数目时，更新模型参数，确定语义分析模型。

在一个实施例中，将所述文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列，包括：

确定所述文本预测序列中的各元素对应的文本信息对应的节点信息和节点关系信息；

基于节点信息和节点关系信息之间的关联性，构建信息序列；

确定存在多个信息序列，且多个信息序列中存在相同的节点信息；

基于多个信息序列中相同的节点信息的下一个节点信息的匹配概率，从多个信息序列确定唯一的信息序列。

第二方面，本发明提供一种知识图谱的信息补全装置，包括：

获取模块，用于确定待补全信息序列中的已知元素对应的文本信息；

确定模块，用于根据所述文本信息确定文本预测序列；

分析模块，用于将所述文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；

构建模块，用于根据所述信息序列构建用于补全信息的关联路径；

处理模块，用于根据用于补全信息的关联路径对所述待补全信息序列中的未知元素进行确定。

在一个实施例中，所述确定模块具体用于：

将所述文本信息输入到语义分析模型中，由所述语义分析模型输出所述文本信息对应的文本预测序列。

在一个实施例中，所述装置还包括建立模块，用于：

基于新的信息序列-文本预测序列对当前训练中的模型继续训练，并在迭代次数满足预设数目时，更新模型参数，确定语义分析模型。

在一个实施例中，所述分析模块具体用于：

确定所述文本预测序列中的各元素对应的文本信息对应的节点信息和节点关系信息；

基于节点信息和节点关系信息之间的关联性，构建信息序列；

确定存在多个信息序列，且多个信息序列中存在相同的节点信息；

基于多个信息序列中相同的节点信息的下一个节点信息的匹配概率，从多个信息序列确定唯一的信息序列。

第三方面，本发明提供一种电子设备，包括存储器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述知识图谱的信息补全方法的步骤。

第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面所述知识图谱的信息补全方法的步骤。

本发明提供的知识图谱的信息补全方法、装置、电子设备及存储介质，通过对待补全信息序列分解出文本信息，基于文本信息预测出文本预测序列，然后基于已有的知识图谱，确定与文本预测序列匹配的信息序列，然后基于该信息序列构建关联路径，根据关联路径对待补全信息序列中的未知元素进行补全，提高确定未知信息的准确性，达到完善知识图谱的目的。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的知识图谱的信息补全方法的流程示意图；

图2是本发明提供的知识图谱的信息补全装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明提供的一种知识图谱的信息补全方法的流程示意图，参见图1，该方法包括：

11、确定待补全信息序列中的已知元素对应的文本信息；

12、根据文本信息确定文本预测序列；

13、将文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；

14、根据信息序列构建用于补全信息的关联路径；

15、根据用于补全信息的关联路径对待补全信息序列中的未知元素进行确定。

针对步骤11～步骤15，需要说明的是，在本发明中，知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通常知识图谱由三元组的信息序列构成，三元组的构成元素包括头实体、关系和尾实体。在知识图谱的构建过程中，存在某些三元组不够完善，即某个信息序列存在未知元素。例如信息序列(A，出生于，？)，从该信息序列中可以确定A的出生地未知，故本发明的方法旨在对信息序列的未知元素进行补全。

在本发明中，待补全信息序列中的已知元素具有对应的文本信息。如元素“爱因斯坦”可以匹配到文本“爱因斯坦”，元素“母语”可以匹配到文本“母语”。然后将匹配到的文本信息，在前后文本中加入分隔符“|”，构成一个文本序列。例如，在上述例子中，待补全样本序列经匹配转写为文本序列是“爱因斯坦|母语”。

将得到的文本序列输入到BART语言模型，利用文本序列到文本序列的映射关系，输出文本信息对应的文本预测序列。例如输出的文本预测序列是“爱因斯坦|出生于|德国|语言|德语”。

将文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列。在本发明中，已有的知识图谱包括多个节点和节点关系。为此，将文本预测序列中每个文本与各个节点信息和各个节点关系信息进行语义匹配，以确定所需的节点和节点关系。从所需的节点和节点关系中可以确定多个信息序列。例如文本预测序列是“爱因斯坦|出生于|德国|语言|德语”可以确定信息序列为(爱因斯坦，出生于，德国)和(德国，语言，德语)。

在本发明中，该信息序列可以在知识图谱中以路径体现，故根据信息序列构建用于补全信息的关联路径。

在本发明中，根据用于补全信息的关联路径对待补全信息序列中的未知元素进行确定。由此，待补全信息序列的未知元素被确定之后，相当于完善了整个知识图谱，即知识图谱中不存在有缺陷的信息序列。

本发明提供的知识图谱的信息补全方法，通过对待补全信息序列分解出文本信息，基于文本信息预测出文本预测序列，然后基于已有的知识图谱，确定与文本预测序列匹配的信息序列，然后基于该信息序列构建关联路径，根据关联路径对待补全信息序列中的未知元素进行补全，提高确定未知信息的准确性，达到完善知识图谱的目的。

在上述方法的进一步方法中，主要是对语义分析模型的获取过程进行解释说明，具体如下：

基于信息序列-路径训练集对初始模型进行训练，并在模型进行第k次迭代训练时，采用当前训练中的模型对信息序列匹配路径，并将匹配得到的路径作为新的信息序列-路径训练集。

基于新的信息序列-路径训练集对当前训练中的模型继续训练，并在迭代次数满足预设数目时，更新模型参数，确定路径确定模型。

对此，需要说明的是，本发明提出的迭代式训练方式使用当前模型来预测前k-1跳的路径，并以搜索这之后的路径。如果不能找到后续的路径，可能是由于模型对前k-1跳的预测失败，那么将重新搜索整个路径，以加强模型对此样本的学习。在第k轮迭代时新搜索出来的路径的历史元素分布与模型推理过程中的分布更为接近，因此将其加入训练集中，以减小训练与推断过程中的分布偏置。在第k次迭代的训练数据汇总后，训练集的大小成为初始大小的k倍，在下一次迭代前，继续在新的训练集上训练模型，并保持梯度下降步数相同，在迭代次数满足预设数目时，更新模型参数，确定路径确定模型。以此训练得到的模型能够确定更准确的路径。

在上述方法的进一步方法中，主要是对将文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列的处理过程进行解释说明，具体如下：

确定文本预测序列中的各元素对应的文本信息对应的节点信息和节点关系信息；

基于节点信息和节点关系信息之间的关联性，构建信息序列；

确定存在多个信息序列，且多个信息序列中存在相同的节点信息；

基于多个信息序列中相同的节点信息的下一个节点信息的匹配概率，从多个信息序列确定唯一的信息序列。

对此，需要说明的是，知识图谱中的各个节点信息和节点关系信息之间存在一定的关联性，为此，筛选出文本预测序列中的各元素对应的文本信息对应的节点信息和节点关系信息。然后基于节点信息和节点关系信息之间的关联性，构建信息序列。

当元素对应的文本信息与节点信息和节点关系信息存在相近或相似的语义，此时，可能会造成构建的信息序列出现多个。

当存在多个信息序列时，需要从多个信息序列中筛选出更合理的信息序列。

确定存在多个信息序列，且多个信息序列中存在相同的节点信息时，基于多个信息序列中相同的节点信息的下一个节点信息的匹配概率，从多个信息序列确定唯一的信息序列。例如信息序列为abcde，abcfg。存在相同的节点信息abc，确定d和f的匹配概率中，d的匹配概率最大，该信息序列为abcde。

下面对本发明提供的知识图谱的信息补全装置进行描述，下文描述的知识图谱的信息补全装置与上文描述的知识图谱的信息补全方法可相互对应参照。

图2示出了本发明提供的一种知识图谱的信息补全装置的流程示意图，参见图2，该装置包括获取模块21、确定模块22、分析模块23、构建模块24和处理模块25，其中：

获取模块，用于确定待补全信息序列中的已知元素对应的文本信息；

确定模块，用于根据所述文本信息确定文本预测序列；

分析模块，用于将所述文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；

构建模块，用于根据所述信息序列构建用于补全信息的关联路径；

处理模块，用于根据用于补全信息的关联路径对所述待补全信息序列中的未知元素进行确定。

在上述装置的进一步装置中，该确定模块具体用于：

将所述文本信息输入到语义分析模型中，由所述语义分析模型输出所述文本信息对应的文本预测序列。

在上述装置的进一步装置中，该装置还包括建立模块，用于：

基于新的信息序列-文本预测序列对当前训练中的模型继续训练，并在迭代次数满足预设数目时，更新模型参数，确定语义分析模型。

在上述装置的进一步装置中，该分析模块具体用于：

确定所述文本预测序列中的各元素对应的文本信息对应的节点信息和节点关系信息；

基于节点信息和节点关系信息之间的关联性，构建信息序列；

确定存在多个信息序列，且多个信息序列中存在相同的节点信息；

基于多个信息序列中相同的节点信息的下一个节点信息的匹配概率，从多个信息序列确定唯一的信息序列。

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

需要说明的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

本发明提供的知识图谱的信息补全装置，通过对待补全信息序列分解出文本信息，基于文本信息预测出文本预测序列，然后基于已有的知识图谱，确定与文本预测序列匹配的信息序列，然后基于该信息序列构建关联路径，根据关联路径对待补全信息序列中的未知元素进行补全，提高确定未知信息的准确性，达到完善知识图谱的目的。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)31、通信接口(Communication Interface)32、存储器(memory)33和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信。处理器31可以调用存储器33中的计算机程序，以执行知识图谱的信息补全方法的步骤，例如包括：确定待补全信息序列中的已知元素对应的文本信息；根据文本信息确定文本预测序列；将文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；根据信息序列构建用于补全信息的关联路径；根据用于补全信息的关联路径对待补全信息序列中的未知元素进行确定。

此外，上述的存储器33中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行知识图谱的信息补全方法的步骤，例如包括：确定待补全信息序列中的已知元素对应的文本信息；根据文本信息确定文本预测序列；将文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；根据信息序列构建用于补全信息的关联路径；根据用于补全信息的关联路径对待补全信息序列中的未知元素进行确定。

另一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行知识图谱的信息补全方法的步骤，例如包括：确定待补全信息序列中的已知元素对应的文本信息；根据文本信息确定文本预测序列；将文本预测序列中的各元素对应的文本信息与已有的知识图谱中各个节点信息和节点关系信息进行语义匹配，确定信息序列；根据信息序列构建用于补全信息的关联路径；根据用于补全信息的关联路径对待补全信息序列中的未知元素进行确定。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载