掌桥专利:专业的专利平台
掌桥专利
首页

知识图谱生成方法、装置和设备

文献发布时间:2023-06-19 19:30:30


知识图谱生成方法、装置和设备

技术领域

本公开涉及知识图谱构建技术领域,尤其涉及一种知识图谱生成方法、装置和设备。

背景技术

随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础,因而,得到了广泛的推广和应用。

目前,在构建知识图谱的过程中,通常基于预先设定的语法规则直接对实体的属性以及属性值进行提取,但是在网络数据内容呈现爆发式增长的今天,预先设定的语法规则已经难以适应数据变化的新需求,导致实体的属性以及属性值的提取准确性较低,进而降低了知识图谱准确性。

发明内容

有鉴于此,本公开提出了一种知识图谱生成方法、装置和设备,可以实现提高实体属性信息提取的准确性,进而提高知识图谱的准确性。

根据本公开的第一方面,提供了一种知识图谱生成方法,包括:

获取知识图谱所在行业的网络文本,由所述网络文本中提取语句,对所述语句进行分词和标注处理,得到多个分词以及各分词的标注信息;

基于各分词的标注信息,由各所述分词中识别出所述语句中的实体;

由各所述分词中识别出所述实体的候选属性信息,并由所述候选属性信息中识别出所述实体的属性信息;

确定所述实体之间的实体关系,并基于所述实体、所述实体的属性信息以及所述实体之间的实体关系,生成所述知识图谱。

在一种可能的实现方式中,在获取知识图谱所在行业的网络文本时,还包括:对所述网络文本进行数据清洗;

其中,所述数据清洗包括筛选与行业匹配度高的网络文本、清理所述网络文本中的停用词,对所述网络文本中的文字进行标准化中的至少一种。

在一种可能的实现方式中,在基于各分词的标注信息,由各所述分词中识别出所述语句中的实体时,基于预先构建的实体提取模型实现。

在一种可能的实现方式中,所述候选属性信息包括候选属性和候选属性值中的至少一种。

在一种可能的实现方式中,在由各所述分词中识别出所述实体的候选属性信息时,基于预先配置的候选属信息提取规则实现。

在一种可能的实现方式中,在由所述候选属性信息中识别出所述实体的属性信息时,基于预先构建的属性信息提取模型实现。

在一种可能的实现方式中,所述实体之间的实体关系包括:实体之间的关系类型、实体之间的关系强度和实体之间的关系偏好中的至少一种。

在一种可能的实现方式中,所述方法还包括:

获取所述行业的词条文件,并由所述词条文件中筛选出行业热词;

基于所述行业热词对所述知识图谱中的实体进行拓展描述。

根据本公开的第二方面,提供了一种知识图谱生成装置,包括:

数据获取模块,用于获取知识图谱所在行业的网络文本,由所述网络文本中提取语句,对所述语句进行分词和标注处理,得到多个分词以及各分词的标注信息;

实体识别模块,用于基于各分词的标注信息,由各所述分词中识别出所述语句中的实体;

属性信息识别模块,用于由各所述分词中识别出所述实体的候选属性信息,并由所述候选属性信息中识别出所述实体的属性信息;

图谱构建模块,用于确定所述实体之间的实体关系,并基于所述实体以及所述实体的属性、属性值以及实体关系,生成所述知识图谱。

根据本公开的第三方面,提供了一种知识图谱生成设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本公开第一方面所述的方法。

本公开提供了一种知识图谱生成方法,包括获取知识图谱所在行业的网络文本,由网络文本中提取语句,对语句进行分词和标注处理,得到多个分词以及各分词的标注信息;基于各分词的标注信息,由各分词中识别出语句中的实体;由各分词中识别出实体的候选属性信息,并由候选属性信息中识别出实体的属性信息;确定实体之间的实体关系,并基于实体、实体的属性信息以及实体之间的实体关系,生成知识图谱。本公开中先通过粗筛的方式识别出实体的候选属性信息,在通过精筛的方式由候选属性信息中筛选出实体的真实属性信息,通过粗筛与精筛相结合的方式进行实体属性信息的提取,从而提高了实体属性信息提取的准确性和知识图谱的准确性。

根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。

图1示出根据本公开一实施例的知识图谱生成方法的流程图;

图2示出根据本公开一实施例的第三神经网络模型的结构示意图;

图3示出根据本公开一实施例的第一句法依存树结构样本的示意图;

图4示出根据本公开一实施例的第二句法依存树结构样本的示意图;

图5示出根据本公开一实施例的第三句法依存树结构样本的示意图;

图6示出根据本公开一实施例的句法依存树示意图;

图7示出根据本公开另一实施例的句法依存树示意图;

图8示出根据本公开又一实施例的句法依存树示意图;

图9示出根据本公开一实施例知识图谱生成装置的示意性框图;

图10示出根据本公开一实施例知识图谱生成设备的示意性框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。

<方法实施例>

图1示出根据本公开一实施例的知识图谱生成方法的流程图。如图1所示,该方法可以包括步骤S1100-S1400。

S1100,获取知识图谱所在行业的网络文本,由网络文本中提取语句,对语句进行分词和标注处理,得到多个分词以及各分词的标注信息。

在构建行业知识图谱时,首先需要运用网络爬虫技术定向爬取与行业有关的网络文本。举例来说,在构建助残行业的知识图谱时,可以从网络定向上爬取与助残相关的政策文件作为构建助残行业知识图谱的网络文本。

为了提高网络文本的获取质量,在一种可能的实现方式中,在获取到构建知识图谱的网络文本后,还包括:对网络文本进行数据清洗的操作。其中,数据清洗可以包括筛选与行业匹配度高的网络文本、清理网络文本中的停用词,对网络文本中的文字进行标准化中的至少一种。

在一种可能的实现方式中,在筛选与行业匹配度高的网络文本时,基于预先构建的行业词典以及文本筛选规则实现。具体地,行业词典中收录有该行业的专业术语,文本筛选规则中设定了各专业术语的词频阈值和筛选规则,其中,各专业术语的词频阈值可以相同,也可以不同,在此不作具体限定。在获取到网络文本后,先基于行业词典确定网络文本中包括专业术语,并计算专业术语的词频;然后,根据各专业术语的词频和词频阈值以及对应的筛选规则,筛选出与行业匹配度高的网络文本。

此处需要说明的是,各专业术语的词频阈值可以根据各专业术语在各网络文本中的词频均值确定。例如,针对专业术语A,获取N篇与行业有关的网络文本,分别计算专业术语A在N篇网络文本中的词频,计算N个词频的平均值并将该平均值作为专业术语A对应的词频阈值。

在一种可能的实现方式中,各专业术语在网络文本中的词频可以基于TF-IDF模型计算得到。例如,将专业术语A和网络文本B输入至TF-IDF模型,将计算出专业术语A在网络文本B的词频。

举例来说,助残行业词典中收录的专业术语包括残障人士、残保金和温馨家园等,文本筛选规则中残障人士、残保金以及温馨家园对应的词频阈值为5%,筛选规则为同时出现残障人士、残保金以及温馨家园三个专业术语,且专业主语出现的词频大于对应的词频阈值,则在网络文本中包括残障人士、残保金和温馨家园三个专业术语,且三个专业术语在网络文本中的词频均大于对应的词频阈值5%时,将该网络文本筛选出来作为与行业匹配度高的网络文本。

在一种可能的实现方式中,在清洗网络文本中的停用词时,基于预先构建的停用词典实现。具体地,停用词典中收录了停用词,在获取到网络文本后,基于停用词典确定网络文本中是否存在停用词,在网络文本中包括停用词的情况下,将对应的停用词进行删除。

在一种可能的实现方式中,在对网络文本中的文字进行标准化时,基于预先构建的行业词典实现。具体地,基于行业词典对网络文本进行分词,计算各分词与行业词典中收录的专业术语的第一相似度,在第一相似度大于设定的第一相似阈值时,将该分词替换为对应的专业术语,以实现对网络文本的标准化处理。

在一种可能的实现方式中,在计算分词与行业词典中收录的专业术语的第一相似度时,可以包括以下步骤:首先,分别计算分词与专业术语的词向量;然后,计算分词的词向量与专业术语的词向量之间的余弦距离,并将计算出的余弦距离作为分词与专业术语的第一相似度。

在一种可能的实现方式中,在确定第一相似阈值时,可以包括以下步骤:首先,由行业词典中选取设定数量的专业术语,针对筛选出的每个专业术语设置对应的相似术语,分别计算各专业术语与对应的相似术语的第一相似度,接着计算各第一相似度的平均值,并将计算出的第一相似度的平均值作为第一相似度阈值。

在一种可能的实现方式中,在获取到网络文本数据后,可以先由网络文本中筛选出与行业匹配度高网络文本,然后对于筛选出的网络文本,依次进行停用词清理和文字标准化处理,从而得到最终构建知识图谱的网络文本。通过以上数据清洗操作,可以提高获取的网络文本质量。

在完成数据清洗后,针对筛选出来的每一份网络文本,逐一提取网络文本中的语句(可以是网络文本中的一句话),针对提取出的每个语句进行实体、实体的属性信息以及实体之间的实体关系的提取。由于各网络文本中各语句的处理方式相同,因此,下面以一个语句的处理过程为例,对提取实体、实体的属性信息以及实体之间的实体关系的过程进行说明。

在一种可能的实现方式中,对于提取出的语句,可以采用自然语言处理工具对其进行分词和标注处理,得到包括多个分词的分词结果,以及各分词对应的标注信息。其中,标注信息可以包括:分词长度、前后缀、所在位置、词性和句法依存关系、标点中的至少一种。

S1200,基于语句中各分词的标注信息,由各分词中识别出语句中的实体。

在一种可能的实现方式中,可以预先构建的实体提取模型进行语句中的实体提取。在该可实现方式中,需要先构建实体提取训练数据集;然后,基于实体提取训练数据对选定的第一神经网络模型进行训练,得到实体提取模型;最后,将分词结果以及各分词的标注信息输入至实体提取模型,实体提取模型将根据输入的各分词的标注信息由分词结果的各分词中识别出语句中的实体。

在一种可能的实现方式中,在构建实体提取训练数据时,可以包括以下步骤:首先,由清洗后的网络文本中选取设定数据的网络文本作为训练文本。其次,针对每一份训练文本,逐一提取训练文本中的语句。再次,针对提取出的每一语句,采用自然语言处理工具对其进行分词和标注处理,得到语句的分词结果以及分词结果中各分词的标注信息;通过人工标注的方式标注出分词结果中的实体;将语句对应的分词结果、各分词的标注信息以及标注出的实体作为一条实体提取训练数据,其中,语句的分词结果和各分词的标注信息作为实体提取训练数据的输入数据,将标注出的实体作为实体提取训练数据的输出数据。最后,将得到的全部实体提取训练数据作为实体提取训练数据集。

在构建出实体提取训练数据集的情况下,以每一实体提取训练数据的输入数据(即语句的分词结果和各分词的标注信息)为输入,以每一实体提取训练数据的输出数据(即标注出的实体)为输出,对选定的第一神经网络模型进行训练,从而得到可以根据分词结果以及各分词的标注信息进行实体提取的实体提取模型。

在一种可能的实现方式中,选定的第一神经网络模型可以基于长短时记忆网络(LSTM)和随机条件场(CRF)构建。

S1300,由各分词中识别出实体的候选属性信息,并由候选属性信息中识别出实体的属性信息。其中,候选属性信息可以包括候选属性和候选属性的属性值中的至少一种。

在一种可能的实现方式中,在由各分词中识别出实体的候选属性信息时,可以基于预先构建的属性信息提取规则实现。

在候选属性信息包括实体的候选属性的可实现方式中,属性信息提取规则可以包括:第一候选属性提取规则、第二候选属性提取规则和第三候选属性提取规则中的至少一种。

在一种可能的实现方式中,第一候选属性提取规则可以基实体相邻的分词的词性进行设置。具体地,基于实体相邻的分词的词性设置的第一候选属性提取规则可以是:在分词结果中包括量词分词/名称分词的第一分词结构(即在量词分词后有对应的名词分词)且该第一分词结构与实体相邻,则将量词分词后的名词分词筛选出来作为该实体的候选属性。举例来说,在“z有4000余架各型设备”这句话中,“z”是实体,后面具有相邻的量词分词“4000余架”和名词分词“设备”这个第一分词结构,则将量词分词“4000余架”后的名词分词“设备”筛选出来作为“z”这个实体的候选属性。

在一种可能的实现方式中,第二候选属性提取规则可以基于实体相邻的分词的词性进行设置。具体地,基于实体相邻的分词的词性设置的第二候选属性提取规则可以是:在分词结果中包括形容词分词/名词分词的第二分词结构(即在形容词分词后有名词分词)且该第二分词结构与实体相邻,则将形容词分词后的名词分筛选出来作为该实体的候选属性。举例来说,在“z有强大的学习能力”这句话中,“z”是实体,后面具有形容词分词“强大”和名词分词“学习能力”这个第二分词结构,则将形容词分词“强大”后的名词分词“学习能力”筛选出来作为“z”这个实体的候选属性。

在一种可能的实现方式中,第三候选属性提取规则可以是:计算分词结果中各名词分词与该实体的预设属性词的第二相似度,在第二相似度大于预设的第二相似度阈值的情况下,将该名词分词筛选出来作为该实体的候选属性。其中,可以计算各名词分词与预设属性词的词向量距离,并将计算出的词向量距离作为各名词分词与该实体的预设属性词的第二相似度。其中,第二相似度阈值的设定方法可以参照第一相似度,在此不再赘述。

此处需要说明的是,对于行业中的可能出现的实体均设置有对应的预设属性词,这样,在得到语句的分词结果后,便可以先查到该实体对应的预设属性词,并计算实体所在的分词结果中各名词分词与其预设属性词的第二相似度,并在第二相似度大于预设的第二相似度阈值的情况下,将该名词分词筛选出来作为该实体的候选属性。

在候选属性提取规则包括第一候选属性提取规则、第二候选属性提取规则和第三候选属性提取规则的可实现方式中,在分词结果中的分词满足任意一项候选属性提取规则时,将其筛选出来作为实体的候选属性。具体地,在由各分词中识别出实体的候选属性时:先将与实体相邻的量词后的名词候选分词以及与实体相邻的形容词后的名词候选分词筛选出来作为实体的候选属性;然后计算各分词与实体的预设属性词的第二相似度,在第二相似度大于预设的第二相似度阈值的情况下,将分词筛选出来作为实体的候选属性。也就是说,分词结果中的分词只要满足任意一项候选属性提取规则,则将其提取出来作为该实体的候选属性,以通过三个候选属性提取规则的粗筛过程扩大候选属性的筛选范围,避免候选属性的丢失。

为了提高候选属性的提取效率,在一种可能的实现方式中,在由各分词中识别出实体的候选属性时,还包括滤除分词中的动词性分词的步骤。具体地,先将分词结果中的动词性分词滤除,得到候选分词;然后,再根据预设的候选属性提取规则,由候选分词中提取出实体的候选属性。

在候选属性信息包括实体候选属性的候选属性值的可实现方式中,在提取出实体的候选属性的情况下,还包括:基于预设的候选属性值提取规则,由分词结果中提取出候选属性的候选属性值。

在该可实现方式中,候选属性信息提取规则还包括候选属性值提取规则。候选属性值提取规则可以基于与候选属性相邻的分词的词性进行设置。其中,候选属性值提取规则可以包括第一候选属性值提取规则和第二候选属性值提取规则。

该第一候选属性值提取规则可以是:在分词结果中将与候选属性相邻的量词分词提取出来作为候选属性的候选属性值。具体地,在提取出实体的候选属性之后,确定候选属性在分词结果中的位置,然后将与候选属性相邻的量词分词提取出来作为该候选属性的候选属性值。举例来说,在“z有4000余架各型设备”这句话中,“z”是实体,“设备”为实体的候选属性,则将与候选属性“设备”相邻的量词分词“4000余架”筛选出来作为“设备”的候选属性值。

该第二候选属性值提取规则可以是:在分词结果中将与候选属性相邻的形容词分词提取出来作为候选属性的候选属性值。具体地,在提取出实体的候选属性之后,确定候选属性在分词结果中的位置,然后将与候选属性相邻的形容词分词提取出来作为该候选属性的候选属性值。举例来说,在“z有强大的学习能力”这句话中,“z”是实体,“学习能力”为实体的候选属性,则将与候选属性“学习能力”相邻的形容词分词“强大”提取做来作为“学习能力”这个候选属性的候选属性值。

在由分各分词中识别出实体的候选属性信息之后,将执行由候选属性信息中识别出实体的真实属性信息的步骤。

在一种可能的实现方式中,由候选属性信息中识别出实体的真实属性信息时,可以基于预先构建的属性信息提取模型实现。

在该可实现方式中,需要先构建属性信息提取训练数据集;然后,基于属性信息提取训练数据集对选定的第二神经网络模型进行训练,得到属性信息提取模型;最后,将实体、实体的候选属性信息输入至属性信息提取模型,该属性信息提取模型将由实体的候选属性信息中识别出真实的实体属性信息。

在一种可能的实现方式中,在构建属性信息提取训练数据集时,可以包括以下步骤:首先,获取实体提取训练数据集。其次,针对实体提取训练数据集中的每条训练数据,采用上述候选属性信息提取规则由分词结果的各分词中提取出实体的候选属性信息,通过人工标注的方式由各候选属性信息中标注出实体的属性信息,将实体、实体的候选属性信息、实体的真实的候选属性信息作为一条属性信息提取训练数据,其中,实体、实体的候选属性信息作为属性信息提取训练数据的输入数据,以真实的候选属性信息为作为属性信息提取训练数据的输出数据。最后,将得到的全部属性信息提取训练数据作为属性信息提取训练数据集。

在构建出属性信息提取训练数据集的情况下,以训练集中的每一训练数据的输入数据(即实体、实体的候选属性信息)为输入,以每一训练数据的输出数据(实体的真实属性信息)为输出,对选定的第二神经网络模型进行训练,从而得到可以根据实体、实体的候选属性信息进行实体的真实属性信息提取模型的属性信息提取模型。其中,在对第二神经网络模型进行训练时可以基于多层感知机算法实现。

此处需要说明的是,在进行实体的属性信息提取时,先通过预先设定的候选属性信息提取规则将实体所有可能的候选属性信息筛选出来,扩大属性信息的提取范围,避免所有可能的候选属性信息的丢失。然后,再对候选属性信息进行精确筛选,得到真实的属性信息。也就是说在该可实现方式中,通过粗筛和精筛两个步骤相结合实现了实体属性信息提取的准确性。

S1400,确定实体之间的实体关系,并基于实体、实体的属性信息以及实体之间的实体关系,生成知识图谱。

在一种可能的实现方式中,实体之间的实体关系可以包括:实体之间的关系类型、实体之间的关系强度和实体之间的关系偏好中的至少一种。其中,实体之间的关系类型可以包括包含、对等和属于中的至少一种。实体之间的关系强度的取值范围可以是1-100,实体关系强度的数值越大,证明两个实体之间的关系越密切,对应的两个实体在知识图谱中的连线长度越短。实体之间的关系偏好的取值范围为-1到1,包括正向(+1标识)和负向(-1标识)。在两个实体之间的关系偏好值越接近1时,说明实体之间关系正向,对应的两个实体在知识图谱中的连线颜色为第一颜色(例如绿色)。在两个实体之间的关系偏好值越接近-1时,说明两个实体之间关系负向,对应的两个实体在知识图谱中的连线颜色为第二颜色(例如红色)。

在一种可能的实现方式中,在确定实体之间的关系类型时,可以基于句法依存树实现。具体可以包括以下步骤:

第一,生成语句的句法依存树。

在一种可能的实现方式中,在生成语句的句法依存树,可以基于预先构建的实体关系提取模型实现。在该可实现方式中,需要先构建实体关系提取训练数据;然后,基于实体关系提取训练数据对选定的第三神经网络模型进行训练,得到实体关系提取模型;接着,将语句输入至预先构建的实体关系提取模型中,该实体关系提取模型将输出语句的隐向量;最后,根据语句的隐向量生成语句的句法依存树。其中,语句的隐向量用于表征语句的句法依存关系。

在一种可能的实现方式中,在构建实体关系提取训练数据时,可包括以下步骤:首先,获取训练文本,具体参见步骤S1200。其次,针对每一份训练文本,逐一提取训练文本中的语句,并通过人工标注的方式标注语句的隐向量,并将语句及语句的隐向量作为一条实体关系提取训练数据,其中,语句作为输入数据,语句的隐向量作为输出数据。最后,将基于所有训练文本中的语句构建出的训练数据作为实体关系提取训练数据集。

在构建出实体关系提取训练数据的情况下,以每一训练数据的输入数据(即语句)为输入,以每一训练数据的输出数据(即语句的隐向量)为输出,对选定的第三神经网络模型进行训练,从而得到可以计算语句的隐向量的实体关系提取模型。

在一种可能的实现方式中,第三神经网络模型的结构可以如图2所示。具体地,第三神经网络模型包括依次连接的输入层、编码网络Net1、偏置层和解码网络Net2和输出层。其中,输入层用于计算输入的语句中各文字的词向量(W1-W12),并将各文字的词向量输入至编码网络Net1。编码网络Net1由依次连接的长短时记忆网络1(即LSTM1)、长短时记忆网络2(即LSTM2)和长短时记忆网络3(即LSTM3)构成,用于对各文字的词向量进行向量化,并将得到的向量输入至偏置层。偏置层用于提供偏置向量,以通过偏置向量对编码网络输出的向量进行偏置运算,以加强词性对最终输出层数据的影响,保证输出结果对低质量文本语句的鲁棒性。其中,该偏置向量根据词性类型进行设定,例如,可以将名词的偏置向量设置为1,将形容词的偏置向量设置为1.5,将动词的偏置向量设置为1.8,将语气词的偏执向量设置为0.2等。解码网络Net2由依次连接的八层反向传播网络构成,用于对偏置层输出的数据进行解码,s1-s12是输出层网络节点,跟解码网络Net2的输出进行全连接,最终经过网络训练得到语句的隐向量Y。其中,隐向量Y中的R11为实体R1的第一个字的隐向量,R12为实体R1的第二个字的隐向量,N11为名词N1的第一个字的隐向量,N12为名词N1的第二个字的隐向量,D11为动词D1的第一个字的隐向量,D12为动词D1的第二个字的隐向量,R21为实体R2的第一个字的隐向量,R22为实体R2的第二个字的隐向量,N21为名词N2的第一个字的隐向量,N22为名词N2的第二个字的隐向量,L1为标点符号的隐向量,为语句结束符号的隐向量。

在生成语句的隐向量后,便可以根据概率图模型生成语句的句法依存树。

第二,基于句法依存树确定实体之间的实体关系类型。具体地,在句法依存树中确定出实体所在的树节点;通过CRF算法在句法依存树中标注出实体存在依存关系;由句法依存树中提取出一个或多个实体所在的句法依存树结构,并采用预先配置的实体关系类型匹配模板,确定出两个实体之间的关系类型。其中,实体之间的关系类型可以包括包含、对等和属于中的至少一种。

此处需要说明的是,实体关系类型匹配模板中记录了各类实体关系类型对应的句法依存树结构样本,这样,在由句法依次树中截取两个实体所在的句法依存树结构后,便可以在实体关系类型匹配模板中检索是否存在与两个实体所在的句法依存树结构相同的句法依存树结构样本,在存在的情况下,直接将一致的句法依存树结构样本所属的实体关系类型作为两个实体之间的关系类型。

在一种可能的实现方式中,实体关系类型匹配模块包括反映实体之间存在包含关系的第一句法依存树结构样本、反映实体之间存在属于关系的第二句法依存树结构样本以及和反映实体之间存在对等关系的第三句法依存树结构样本。其中,第一句法依存树结构样本可以如图3所示,具体地,图3中根节点ROOT下,R1为第一实体,D1为反映包含关系的第一专属动词,该第一专属动词可以是有或者包括等,m为数词,g为量词,R2为第二实体。第二句法依存树结构样本可以如图4所示,具体地,图4中根节点ROOT下,R1为第一实体,D2为反映属于关系的第二专属动词,该第二专属动词可以是属于或者隶属等,m为数词,g为量词,R2为第二实体。第三句法依存树结构样本可以如图5所示,具体地,图5中根节点ROOT下,R1为第一实体,N1为第一名词,且第一实体R1用来修饰第一名词N1,R2为第二实体,N2为第二名词,且第一实体R2用来修饰第二名词N2,D3为反映对等关系的第三专属动词,该第三专属动词可以是对抗。

举例来说,对于句子A,经过实体关系提取模型计算得到的语句的隐向量为“R1/N1/D3/R2/N2/L1”。其中,R1为第一实体,N1为第一名词,D3为第三动词,R2为第二实体,N2为第二名字,L1为第一标点。基于“R1/N1/D3/R2/N2/L1”这个隐向量生成的句法依存树如图6所示。通过CRF算法在句法依存树中标注出第一实体R1与第一名词N1的依存关系为修饰,第二实体R2与第二名字N2的依存关系为修饰,标注的结果可以如图7所示。由句法依存树中提取出实体R1和实体R2所在的句法依存树结构,可以如图8所示。通过图匹配的方式,将第一实体R1和第二实体R2所在的句法依存树结构与实体关系类型匹配模板中记录的句法依存树结构样本进行匹配,得到与之相匹配的第三句法依存树结构样本,则可以将第三句法依存树结构样本反映的对等关系作为第一实体R1和第二实体R2之间的实体关系类型。

在一种可能的实现方式中,在确定实体之间的关系强度时,可以基于实体的词频实现。举例来说,对于实体A和实体B,分别计算实体A在网络文本中的词频、实体B在网络文本中的词频以及实体A和实体B的联合词频,然后,计算实体A在网络文本中的词频与实体B在网络文本中的词频的乘积,最后,用实体A和实体B的联合词频除以实体A在网络文本中的词频与实体B在网络文本中的词频的乘积,作为实体A和实体B之间的关系强度。其中,联合词频可以根据实体A和实体B在同一句子中同时出现联合概率确定。

通过实体关系的计算,使得知识图谱不仅可以反映两个实体之间的关系类型,还可以反映实体之间的关系强度,从而丰富了知识图谱的信息量。

在一种可能的实现方式中,在确定实体之间的关系偏好时,可以基于实体之间的形容词性分词实现。具体地,在根据实体间之间的形容词性分词确定实体之间的关系偏好时,可以基于形容词的褒贬性确定。举例来说,在实体之间的形容词为褒义词时,则两个实体之间的关系偏好为正向,可以+1表示。在实体之间形容词为贬义词时,则两个实体之间的关系偏好为负向,可以用-1表示。

通过关系偏好的计算可以使得知识图谱不仅可以反映两个实体之间的关系类型、关系强度,还可以反映实体之间的关系偏好,从而丰富了知识图谱的信息量。

在实体关系包括实体关系类型、实体关系强度和实体关系偏好的可实现方式中,在基于实体、实体的属性信息以及实体之间的实体关系,生成知识图谱时,可以包括以下步骤:将实体作为知识图谱中的各节点,实体的属性信息为节点的属性信息,基于两个实体之间的关系类型确定实体之间的关系描述,基于两个实体之间的关系强度确定实体之间的连线长度,基于两个实体之间的关系偏好确定实体之间连线的颜色。

在一种可能的实现方式中,在获取网络文本时,还包括获取行业的词条文件,并由词条文件中筛选出行业热词;基于行业热词对实体进行拓展描述的操作。具体地,可以由维基百科或者百度百科中爬取与行业有关的词条文件,将行业词条文件中的词条名称作为行业热词。在完成知识图谱的构建后,可以计算各行业热词与知识图谱中实体进行比对,判断行业热词与实体是否一致,在行业热词与实体一致的情况下,将行业热词与实体进行合并。在判断行业热词与实体不一致的情况下,判断行业热词与实体的第三相似度,在第三相似度大于设定的第三相似度阈值的情况下,将行业热词显示在实体的附近以通过行业热词对实体进行拓展描述。在判断行业热词与实体不一致且行业热词与实体的第三相似度小于设定第三相似度阈值的情况下,删除行业热词。在该可实现方式中,可以对实体的当前流行表述方式进行扩展描述,从而进一步丰富了知识图谱的信息量。

此处需要说明的是,第三相似度的计算方法可以参照第一相似度,在此不再赘述。第三相似度阈值可以参照第一相似度阈值的计算方法计算出初始第三相似度阈值,然后在用初始第三相似度阈值乘以1.5作为最终的第三相似度阈值。

在本公开中知识图谱生成方法可以包括以下步骤:获取知识图谱所在行业的网络文本,由网络文本中提取语句,对语句进行分词和标注处理,得到多个分词以及各分词的标注信息;基于各分词的标注信息,由各分词中识别出语句中的实体;由各分词中识别出实体的候选属性以及候选属性值,并由候选属性和候选属性值中筛选出实体的属性以及属性值;生成语句的句法依存树,基于句法依存树确定实体之间的实体关系;基于实体以及实体的属性、属性值以及实体关系,生成知识图谱。本公开中,先由各分词中识别出实体的候选属性以及候选属性值,再由候选属性和候选属性值中筛选出实体的属性以及属性值,通过粗筛和精筛两个步骤相结合的方式进行实体的属性和属性值的提取,提高实体属性和属性值提取的准确性,从而提高了知识图谱构建的准确性。

<装置实施例>

图9示出根据本公开一实施例的知识图谱生成装置的示意性框图。如图9所示,知识图谱生成装置100包括:

数据获取模块110,用于获取知识图谱所在行业的网络文本,由网络文本中提取语句,对语句进行分词和标注处理,得到多个分词以及各分词的标注信息;

实体识别模块120,用于基于各分词的标注信息,由各分词中识别出语句中的实体;

属性信息识别模块130,用于由各分词中识别出实体的候选属性信息,并由候选属性信息中识别出实体的属性信息;

图谱构建模块140,用于确定实体之间的实体关系,并基于实体以及实体的属性、属性值以及实体关系,生成知识图谱。

<设备实施例>

图10示出根据本公开一实施例知识图谱生成设备的示意性框图。如图10所示,知识图谱生成设备200包括:处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的知识图谱生成方法。

此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本公开实施例的知识图谱生成设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。

存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的知识图谱生成方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行知识图谱生成设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术分类

06120115932588