一种面向广域地理信息知识图谱构建的知识抽取方法

文献发布时间：2023-06-19 19:28:50

技术领域

本发明涉及知识图谱应用技术领域，具体为一种面向广域地理信息知识图谱构建的知识抽取方法。

背景技术

知识图谱是人工智能领域的分支，是大数据时代知识表示最重要的一种方式，本质上是由具有属性的实体通过关系链接而成的网状知识库，即具有有向图结构的一个知识库，其中图的节点代表实体或者概念，而图的边代表实体或概念之间的各种语义关系。

知识图谱在逻辑上可分为模式层与数据层，数据层由一系列的事实组成，而知识将以事实为单位进行存储，模式层构建在数据层之上，通过本体库来规范数据层的一系列事实表达；目前，知识图谱已在智能搜索、深度问答、地理信息等领域有所应用，其中地理知识图谱作为地理信息数据的实例化体现，能够清晰的向用户展现数据在哪些领域、哪些地区应用等推荐型知识，以支撑其规划、管理与决策，我国基础地理信息数据库体系发展迅速，基础地理数据服务与信息服务尺度多元、内容丰富、更新及时，在国家信息化建设和社会化应用中发挥了重要的作用。

尽管当前地理知识图谱发展迅速，但面向广域地理信息多源异构数据的知识图谱构建较少，电网规划相关的基础设施建设中会产生大量的地理信息数据，输变电工程选线选址则是电网规划的重要环节，直接影响到规划区域电网的结构、投资及运行的经济性与可靠性，传统选线选址主要靠人工经验和实地勘察进行判断，不仅工作量大、工期长，还会受到气候条件、生态环境等诸多因素的影响，使得选址工作难度很大。

在电网建设规模不断扩大及电网信息化快速发展的背景下，可以将地理知识图谱作为基础信息平台，提取出通过遥感卫星等方式获得的海量多源异构地理信息之间的关系，但多源异构地理信息往往是非关系型、非结构化和半结构化的数据，具有典型的多源、多维、多类、多尺度等特征，导致地理实体之间的关系抽取难度较大，对此本发明提出了一种面向广域地理信息知识图谱构建的知识抽取方法，将有助于输变电工程选线选址的前期辅助决策，实现输变电工程的智能选址。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

本发明实施例的第一方面，提供一种面向广域地理信息知识图谱构建的知识抽取方法，包括：选取地理语义网作为种子数据，通过对远程知识库进行对齐获取大量训练数据并构建数据集；利用BiLSTM-CRF方法对所述数据集进行命名实体识别，基于word2vec模型将所述命名实体识别出的人名、地名、组织进行向量编码，所述向量编码将单词编码成计算机可以接受的词向量；通过所述数据集对神经网络进行训练，将所述词向量输入所述神经网络并进行词语级和句子级特征提取，提取后输出表征实体关系的特征向量；采用准确率、召回率、F1值三项基本指标对所述表征实体关系的特征向量进行评价。

作为本发明所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案，其中：所述数据集的构建包括，

选取地理语义网作为种子数据，所述地理语义网的三元组格式与构建数据集需要的格式存在较大偏差，在构建数据集前需进行预处理；

通过对远程知识库进行对齐获取大量训练数据并构建数据集；

若第i个句子包含多个实体，则令所有实体两两组合形成实体对，并将所述实体对输入所述地理语义网进行匹配，若所述实体对并无关系，则标记为null，作为负样本。

作为本发明所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案，其中：所述命名实体识别的过程包括，

将单词输入BiLSTM网络的Look-up层进行编码，基于BiLSTM的句子表示将正向隐状态序列

通过线性函数预测将每个词映射为BIO标注的标签，其中“B-X”表示元素所在的片段属于X类型并且元素在片段的开头，“I-X”表示元素所在的片段属于X类型并且元素在此片段的中间位置，“O”表示不属于任何类型；

加入CRF模型对BiLSTM输出的预测标签进行条件约束。

作为本发明所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案，其中：所述词向量的获取包括，

基于word2vec模型将所述命名实体识别出的人名、地名、组织简化为多维向量运算，将训练好的向量组成嵌入矩阵；

所述嵌入矩阵V

其中，R表示单词，d

初始化所述嵌入矩阵，通过查找两个实体间的距离获得每一个实际距离对应的实值矢量，对于句子S＝{x

其中，d

作为本发明所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案，其中：所述表征实体关系的特征向量的获取包括，

基于一维卷积神经网络对实体关系进行抽取，设定滑动窗口的尺寸为3，第i个单词卷积后的范围为[x

z＝{z

其中，z

对所述一次卷积后的结果使用分段最大池化方法进行特征筛选，输出所述表征实体关系的特征向量。

作为本发明所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案，其中：所述神经网络的训练包括，

采用梯度下降算法和随机梯度下降算法对所述数据集进行参数优化；

所述梯度下降算法的参数更新的计算包括，

其中，sθ

所述随机梯度下降算法的参数更新的计算包括，

其中，(x

当地理信息训练集的特征波动较大时，使用Adam梯度下降算法对密集特征进行优化；

所述Adam梯度下降算法进行优化的计算包括，

其中，m

作为本发明所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案，其中：还包括，

为避免神经网络训练出现过拟合问题，采用dropout算法让除输入输出神经元之外的所有神经元以一定的概率p失活，剩余的神经元赋值为h/1-p；

通过让隐藏层的节点在每次迭代时有一定几率失效，神经网络在每个训练批次不会过度依赖局部参数特征，避免数据量太少导致训练太完美的情况。

本发明实施例的第二方面，提供一种面向广域地理信息知识图谱构建的知识抽取系统，包括：

数据训练模块，用于选取地理语义网作为种子数据，通过对远程知识库进行对齐获取大量训练数据并构建数据集；

向量编码模块，用于利用BiLSTM-CRF方法对所述数据集进行命名实体识别，基于word2vec模型将所述命名实体识别出的人名、地名、组织进行向量编码，所述向量编码将单词编码成计算机可以接受的词向量；

特征提取模块，通过数据训练模块训练的数据集对神经网络进行训练，将所述词向量输入所述神经网络并进行词语级和句子级特征提取，提取后输出表征实体关系的特征向量；

评价模块，采用准确率、召回率、F1值三项基本指标对所述表征实体关系的特征向量进行评价。

本发明实施例的第三方面，提供一种设备，所述设备包括，

处理器；

用于存储处理器可执行指令的存储器；

所述处理器被配置为调用所述存储器存储的指令，以执行本发明任一实施例所述的方法。

本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，包括：

所述计算机程序指令被处理器执行时实现如本发明任一实施例所述的方法。

本发明的有益效果：本发明提供一种面向广域地理信息知识图谱构建的知识抽取方法能够使用远程监督构建数据集，避免了人工特征选择等步骤，减少并改善了特征抽取过程中的误差积累问题；本发明使用BiLSTM-CRF方法进行命名实体识别，对实体单词编码时考虑了实体之间的位置，可以有效考虑序列前后的标签信息；此外，本发明训练神经网络时采用了大量数据，同时引入了dropout等多种算法，提高了神经网络的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明提供的一种面向广域地理信息知识图谱构建的知识抽取方法的关系抽取流程图；

图2为本发明提供的一种面向广域地理信息知识图谱构建的知识抽取方法中训练数据集构建示意图；

图3为本发明提供的一种面向广域地理信息知识图谱构建的知识抽取方法中数据预处理流程图；

图4为本发明提供的一种面向广域地理信息知识图谱构建的知识抽取方法中数据预处理流程图；

图5为本发明提供的一种面向广域地理信息知识图谱构建的知识抽取方法中dropout算法工作过程图；

图6为本发明提供的一种面向广域地理信息知识图谱构建的知识抽取方法中选取不同dropout比率时训练效果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～5为本发明的一个实施例，提供了一种面向广域地理信息知识图谱构建的知识抽取方法，包括：

S1：选取地理语义网作为种子数据，通过对远程知识库进行对齐获取大量训练数据并构建数据集。需要说明的是：

选取LinkedGeoData地理语义网作为种子数据，地理语义网的三元组格式{id，关系/属性，实体/属性值}与构建数据集需要的格式{实体，关系，实体}存在较大偏差，在构建数据集前需进行预处理，预处理的过程如图3所示，包括，

①数据分片：由于原文件中相似的实例聚集出现，呈现相同的规律，为了便于观察处理，将相似的实例分割再进行数据预处理；

②去空值：去除用户误操作导致的空值问题；

③去布尔值：关系和属性的分类放在数据清洗之后可以大规模减少人工审核工作量；

④去数值型：去除长度小于6的数字而非所有数值型属性；

⑤筛选生成IdToName：要将{id，关系/属性，实体/属性值}转化为{实体，关系，实体}，需要将问题转化为多表查询，表示为，

因此，需要从原文件中筛选出id与name对应的三元组，并导出成id、name的映射文件；

⑥筛选生成IdToType：NER(命名实体识别)可以识别出实体并标注类型，单纯的匹配字符必然出现歧义，因此匹配字符串的同时检查类型是否一致可以一定程度上避免歧义问题，对此需要从原文件中筛选并生成id与type的映射，并从原文件删除此类三元组；

⑦去除属性：删除剩余文本中不满足要求的属性三元组；

⑧生成IdToRel文件；

进一步的，通过对远程知识库进行对齐获取大量训练数据并构建数据集；

应说明的，若第i个句子包含多个实体，则令所有实体两两组合形成实体对，并将实体对输入地理语义网进行匹配，若实体对并无关系，则标记为null，作为负样本，具体流程如图2所示；

应说明的，本发明，使用LinkedGeoData地理语义网作为种子数据，并对LinkedGeoData地理语义网的实例数据进行预处理，转换为包含实体、关系、实体的三元组结构，极大地减少了人力的损耗且领域迁移性较强。

S2：利用BiLSTM-CRF方法对数据集进行命名实体识别，基于word2vec模型将命名实体识别出的人名、地名、组织进行向量编码，向量编码将单词编码成计算机可以接受的词向量。需要说明的是：

如图4所示，将单词输入BiLSTM网络的Look-up层进行编码，基于BiLSTM的句子表示将正向隐状态序列

进一步的，加入CRF模型对BiLSTM输出的预测标签进行条件约束，从而可以输出符合标注转移约束条件的、概率最大的预测标注序列，这些约束条件可以在训练数据时被CRF层自动学习得到，通常包括以下几种约束条件：

①句子中第一个词必须以标签“B-”或“O”开始，而不是“I-”；

②标签“B-label1 I-label2 I-label3 I-…”，label1，label2，label3应该属于同一类实体，例如，“B-Person I-Person”是合法的序列，但是“B-Person I-Organization”是非法标签序列；

③标签序列“O I-label”是非法序列，实体标签的首个标签应该是“B-”，而非“I-”，即有效的标签序列应该是“O B-label”；

应说明的，本发明使用BiLSTM-CRF方法进行命名实体识别，包括BiLSTM网络和CRF模型，基本思想就是对每一个训练序列分别作用一个向前和向后的长短时记忆网络，并且这两个连接着同一个输入层，这样的一种网络结构可以给输出层提供每一个序列点完整的上下文信息，并且经过CRF模型有效地考虑了序列前后的标签信息；

再进一步的，词向量的获取包括，

基于word2vec模型将命名实体识别出的人名、地名、组织简化为多维向量运算，将训练好的向量组成嵌入矩阵，嵌入矩阵V

其中，R表示单词，d

初始化嵌入矩阵，通过查找两个实体间的距离获得每一个实际距离对应的实值矢量，对于句子S＝{x

其中，d

应说明的，本发明使用word2vec模型训练词向量，该模型包含输入层、隐藏层和输出层，其中输入层利用one-hot编码将输入文本转换为向量，one-hot的维度则是输入文本中词的个数n；隐藏层没有激活函数只包含线性单元，它的输入是输入文本的长度n，该层神经元的个数为m，即隐藏层的参数是一个[n,m]的矩阵，而这个参数矩阵就是词向量矩阵，其中m是词向量的大小，因此经过隐藏层，把n维的one-hot向量映射成了所需要的m维词向量；输出层将隐藏层矩阵和输出层矩阵相乘，经softmax拟合得到最终输出；

应说明的，本发明对实体在句中的位置进行了编码，自然语言对于地理信息的描述具有一定的规律性，尤其是两个代表地理实体的单词的位置，通过对实体之间的位置进行编码利于更准确的分析实体之间的关系。

S3：通过数据集对神经网络进行训练，将词向量输入神经网络并进行词语级和句子级特征提取，提取后输出表征实体关系的特征向量。需要说明的是：

基于一维卷积神经网络对实体关系进行抽取，设定滑动窗口的尺寸为3，第i个单词卷积后的范围为[x

z＝{z

其中，z

对一次卷积后的结果使用分段最大池化方法进行特征筛选，输出表征实体关系的特征向量，分段池化的结果的计算包括，

其中，z

最终的池化结果的计算包括，

进一步的，采用梯度下降算法和随机梯度下降算法对数据集进行参数优化；

梯度下降算法的参数更新的计算包括，

其中，sθ

随机梯度下降算法的参数更新的计算包括，

其中，(x

再进一步的，当地理信息训练集的特征波动较大时，使用Adam梯度下降算法对密集特征进行优化；

Adam梯度下降算法进行优化的计算包括，

其中，m

更进一步的，如图5所示，为避免神经网络训练出现过拟合问题，采用dropout算法让除输入输出神经元之外的所有神经元以一定的概率p失活，剩余的神经元赋值为h/1-p，通过让隐藏层的节点在每次迭代时有一定几率失效，神经网络在每个训练批次不会过度依赖局部参数特征，避免数据量太少导致训练太完美的情况。

S4：采用准确率、召回率、F1值三项基本指标对表征实体关系的特征向量进行评价。

本发明提供一种面向广域地理信息知识图谱构建的知识抽取方法能够使用远程监督构建数据集，避免了人工特征选择等步骤，减少并改善了特征抽取过程中的误差积累问题；本发明使用BiLSTM-CRF方法进行命名实体识别，对实体单词编码时考虑了实体之间的位置，可以有效考虑序列前后的标签信息；此外，本发明训练神经网络时采用了大量数据，同时引入了dropout等多种算法，提高了神经网络的效果。

本发明公开的第二方面，

提供一种面向广域地理信息知识图谱构建的知识抽取系统，包括：

数据训练模块，用于选取地理语义网作为种子数据，通过对远程知识库进行对齐获取大量训练数据并构建数据集；

向量编码模块，用于利用BiLSTM-CRF方法对数据集进行命名实体识别，基于word2vec模型将命名实体识别出的人名、地名、组织进行向量编码，向量编码将单词编码成计算机可以接受的词向量；

特征提取模块，通过数据训练模块训练的数据集对神经网络进行训练，将词向量输入神经网络并进行词语级和句子级特征提取，提取后输出表征实体关系的特征向量；

评价模块，采用准确率、召回率、F1值三项基本指标对表征实体关系的特征向量进行评价。

本发明公开的第三方面，

提供一种设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为调用存储器存储的指令，以执行前述中任意一项的方法。

本发明公开的第四方面，

提供一种计算机可读存储介质，其上存储有计算机程序指令，包括：

计算机程序指令被处理器执行时实现前述中任意一项的方法。

本发明可以是方法、装置、系统和/或计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

实施例2

参照图6为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种面向广域地理信息知识图谱构建的知识抽取方法的验证测试，为对本方法中采用的技术效果加以验证说明。

通过对预处理后的数据进行测试，比较Adam、SGD和GD的效果，实验结果如表1所示。

表1：优化算法结果比较。

表1中F1为知识抽取的评价指标，是知识抽取准确率和召回率的综合，根据表1可以看出以三元组SPO表示的数据信息的F1评测值较高，表明这几种参数优化方法都起到了较好的作用。

为了避免神经网络训练中出现过拟合问题，本发明采用了dropout算法，通过让隐藏层的节点在每次迭代时有一定几率失效，神经网络在每个训练批次中不会过度依赖局部参数特征，避免数据量太少导致训练太完美的情况，如图6为训练神经网络时设置不同dropout比率的训练效果图，根据该图像可知dropout比率为0.3～0.6时训练效果比较好。

因此，本发明提供的方法能够使用远程监督构建数据集，避免了人工特征选择等步骤，减少并改善了特征抽取过程中的误差积累问题，同时引入了dropout等多种算法，提高了神经网络的效果。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：罗晨;王立;汪玉翔;李振;周海;杨珂;张裕;杨钦;李阳;卢正常;
专利申请人：贵州电网有限责任公司;

上一篇：一种基于Pre-HUSPM的数据库序列插入处理方法
下一篇：基于分布式计算的目标碰撞检测方法