掌桥专利:专业的专利平台
掌桥专利
首页

一种构建知识图谱的方法、装置、终端和存储介质

文献发布时间:2023-06-19 09:30:39


一种构建知识图谱的方法、装置、终端和存储介质

技术领域

本发明涉及信息处理技术领域,具体涉及一种构建知识图谱的方法、装置、终端和存储介质。

背景技术

知识图谱是一种基于语义知识的形式化描述框架,通常采用节点表示语义符号,并可以利用节点之间的连线来表示符号之间的语义关系,知识图谱为互联网上海量数据的表达、组织、管理等提供了一种有效的方式,广泛应用于多种领域。

现有的知识图谱构建方式中,通常由人工获取到不同数据之间的关联关系,并基于关联关系绘制知识图谱,然而,人为判断数据间的关联关系并绘制图谱,对人力要求较高且耗时较长,并且,关联关系由人为主观判断,使得在知识图谱中并不能体现数据间的相关性判断依据,因此,当前对于知识图谱的构建智能性以及构建效率较低。

发明内容

本发明实施例提供了一种构建知识图谱的方法、装置、终端和存储介质,可以基于收集的数据自动构建相关知识图谱,并在知识图谱中以不同的展示形式体现数据间的相关性,提升知识图谱构建的智能性以及构建效率。

一方面,本发明实施例提供了一种构建知识图谱的方法,所述方法包括:

从数据源中获取与目标实体相关联的关联数据;

对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体;

确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性;

基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体;

基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析,其中,所述目标知识图谱中所述目标实体与所述目标关联实体的相对展示方式由所述目标实体与所述目标关联实体之间的相关性确定。

一方面,本发明实施例提供了一种构建知识图谱的装置,所述装置包括:

获取模块,用于从数据源中获取与目标实体相关联的关联数据;

预处理模块,用于对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体;

确定模块,用于确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性;

筛选模块,用于基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体;

构建模块,用于基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析,其中,所述目标知识图谱中所述目标实体与所述目标关联实体的相对展示方式由所述目标实体与所述目标关联实体之间的相关性确定。

一方面,本发明实施例提供了一种终端,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述构建知识图谱的方法。

一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述构建知识图谱的方法。

本发明实施例中,终端从数据源中获取与目标实体相关联的关联数据,对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体,确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性,基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体,基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析,其中,所述目标知识图谱中所述目标实体与所述目标关联实体的相对展示方式由所述目标实体与所述目标关联实体之间的相关性确定。通过实施上述方法,可以基于收集的数据自动构建相关知识图谱,并在知识图谱中以不同的展示形式体现数据间的相关性,提升知识图谱构建的智能性以及构建效率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种构建知识图谱的方法流程示意图;

图2a为本发明实施例提供的一种知识图谱示意图;

图2b为本发明实施例提供的另一种知识图谱示意图;

图2c为本发明实施例提供的另一种知识图谱示意图;

图3为本发明实施例提供的另一种构建知识图谱的方法流程示意图;

图4为本发明实施例提供的一种构建知识图谱的装置结构示意图;

图5为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本发明实施例提出一种构建知识图谱的方法,可以基于收集的数据自动构建相关知识图谱,并在知识图谱中以不同的展示形式体现数据间的相关性,提升知识图谱构建的智能性以及构建效率。

本发明实施例提出一种构建知识图谱的方法实现于终端,所述终端包括智能手机、平板电脑、笔记本电脑、掌上电脑、便携式媒体播放器(Portable Media Player,PMP)、个人数字助理(Personal Digital Assistant,PDA)、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。

图1为本发明实施例提出的一种构建知识图谱的方法流程示意图,如图1所示,本实施例中的构建知识图谱的方法的流程可以包括:

S101、从数据源中获取与目标实体相关联的关联数据。

本发明实施例中,数据源可以是指由自建数据源和互联网开源数据源组成的,自建数据源可以为研发人员预先构建的数据库,数据库中存储了各种实体以及实体的相关信息,互联网开源数据源具体存储了可以从互联网中查询到的数据。终端可以从数据源中获取与目标实体相关联的关联数据。具体的,终端可以基于目标实体的初步信息从数据源中获取大量未经处理的关联数据。其中,目标实体的初步信息可以是指目标实体的名称、目标实体的所有人等,关联数据具体可以为文本信息,文本信息可以为文章、段落或词组等。

在一种实现方式中,目标实体的初步信息为目标实体的名称,终端从数据源中获取与目标实体相关联的关联数据的具体方式可以为,终端获取包含目标实体的名称的文本信息,并将获取到的文本信息确定为与目标实体相关联的关联数据。

在一种实现方式中,目标实体的初步信息为目标实体的所有人,则终端从数据源中获取与目标实体相关联的关联数据的具体方式可以为,终端获取包含目标实体的所有人名称的文本信息,以及获取到目标实体的所有人的相关数据,作为与目标实体相关联的关联数据。其中,所有人的相关数据包括所有人的亲属信息、信贷信息和历史行为信息等。

例如,目标实体为房产类资产,则终端获取到的关联数据可以包括房产资产的地段信息、业主信息、拍卖信息、业主名下其他房产信息等。

S102、对关联数据进行预处理,得到关联数据中与目标实体相关联的参考关联实体集合。

本发明实施例中,终端获取到关联数据之后,可以对关联数据进行预处理,得到关联数据中与目标实体相关联的参考关联实体集合,参考关联实体集合中包括至少一个参考关联实体。

在一个实施例中,关联数据可以是指包含了目标实体的文本信息,终端基于获取到的文本信息对关联数据进行预处理得到参考关联实体集合的具体方式可以为,对文本信息进行分词处理,得到至少一个词组,终端从至少一个词组中筛选出满足预设规则的目标词组,并确定目标词组对应的参考实体集合以及参考实体集合中的各个参考实体与目标实体的关系,基于各个参考实体与目标实体的关系从参考实体集合中筛选出至少一个参考实体,并将筛选出的参考实体作为参考关联实体,构建得到与目标实体相关联的参考关联实体集合。其中,预设规则可以是词性为预设词性,如预设词性为名词,则终端从分词得到的至少一个词组中筛选出名词词组,作为满足预设规则的目标词组。目标词组对应的参考实体集合具体从包含目标词组的文本中获取,具体可以为,对包含目标词组的文本进行分词处理,得到多个词组,将上述多个词组中每个词组作为目标词组对应的参考实体,终端获取到基于上述多个参考实体构建参考实体集合。其中,参考实体与目标实体的关系可以是根据文本信息中的一些关键动词分析得到,终端将参考实体与目标实体的关系从文本信息中抽取出来。例如,目标实体为房产B,从关联数据中获得的文本信息内容为:“位于位置A的房产B的所属人C还购买了房产D”,对文本信息进行分词处理,得到词组“位于”、“位置A”、“房产B”、“所属人C”、“购买”、“房产D”,通过预设规则对多个词组进行筛选,得到目标词组,并确定目标词组对应的参考实体集合为“位置A”、“房产B”、“所属人C”、“房产D”,提取出文本信息中的关键动词为“位于”、“购买”,对关键动词进行分析得到目标实体与参考实体集合中的各个参考实体的关系,进一步的,还可以分析参考实体集合中的各个参考实体与目标实体的关系为直接关系或非直接关系,提取出的关系可以以表格的形式展现,具体如表1所示:

表1

在一个实施例中,关联数据可以是指和目标实体有关的结构化数据和非结构化数据,结构化数据可以是指关系型数据库的数据,非结构化数据可以是指非结构化的文本数据、表格、HTML文件等。基于获取到的结构化数据和非结构化数据对关联数据进行预处理得到参考关联实体集合的具体方式可以为,对结构化数据和非结构化数据进行预处理得到表示参考实体、目标实体和实体间关系的目标三元组,实体间关系具体为参考实体和目标实体之间的关系,并基于三元组中各个实体间关系从各个参考实体中筛选出至少一个参考实体,将筛选出的参考实体作为参考关联实体,构建得到与目标实体相关联的参考关联实体集合。其中,对结构化数据进行预处理可以是采用数据转换工具将结构化数据转换为资源描述框架数据,并将资源描述框架数据转换为结构化数据三元组,结构化数据三元组包括结构化数据中包含的参考实体、目标实体、以及参考实体和目标实体间关系,,对非结构化数据进行预处理可以是采用实体抽取技术、关系抽取技术获取非结构化数据三元组,非结构化数据三元组包括非结构化数据中包含的参考实体、目标实体、以及参考实体和目标实体间关系,其中,采用实体抽取技术可以是通过实体识别模型获取参考实体,采用关系抽取技术可以是使用关系抽取框架中的模型获取参考实体与目标实体的关系,对得到的结构化数据三元组与非结构化数据三元组做合并处理,将表示相同含义的参考实体进行整合,得到同时包含结构化数据三元组和非结构化数据三元组的目标三元组,即进行实体对齐,其中,进行实体对齐包括的技术可以是实体统一、指代消解,进一步的,还可以对获得的目标三元组进行知识推理、质量评估,以确保目标三元组包含的信息的质量。

S103、确定参考关联实体集合中各个参考关联实体与目标实体之间的相关性。

本发明实施例中,终端获取到参考关联实体集合之后,可以基于参考关联实体集合中的各个参考关联实体与目标实体的关系进一步确定出参考关联实体集合中的各个参考关联实体与目标实体之间的相关性,基于相关性的大小,终端可以判断出参考关联实体集合中的各个参考关联实体与目标实体的关联程度强弱。

在一个实施例中,参考关联实体与目标实体之间的相关性由参考关联实体的获取源确定,终端确定参考关联实体集合中一个目标参考关联实体与目标实体之间的相关性的方式可以为,确定目标参考关联实体的获取源,根据获取源与相关性的对应关系确定目标参考关联实体与目标实体之间的相关性,其中,获取源可以包括官方数据库、经认证的机构数据库或未经认证的机构数据库,若目标参考关联实体从官方数据库中获取,则确定相关性大小为第一相关值,若目标参考关联实体从认证机构数据库中获取,则确定相关性大小为第二相关值,若目标参考实体从非认证机构数据库中获取,则确定相关性大小为第三相关值,该第一相关值大于第二相关值,第二相关值大于第三相关值,其中,官方数据库可以为政府机构公开的数据对应的数据库,经认证的机构可以拥有认证机构颁发的认证证书的机构,其公开的数据对应的数据库即为经认证的机构数据库,未经认证的机构数据库可以为存储互联网中各个用户发布的数据的数据库。上述方式可以基于不同的数据来源,确定参考关联实体与目标实体之间的相关性。

在一个实施例中,终端确定参考关联实体集合中的任一个目标参考关联实体与目标实体的相关性的具体方式可以是,终端获取目标参考关联实体与目标实体在关联数据中的共现概率,以及确定目标参考关联实体与目标实体之间的关系对应的关系类型,并根据关系类型确定目标参考关联实体的权重,终端根据目标参考关联实体的权重,对目标参考关联实体与目标实体在关联数据中的共现概率进行加权处理,得到目标参考关联实体与目标实体之间的相关性。其中,目标参考关联实体与目标实体在关联数据中的共现概率的具体确定方式可以为,终端从关联数据中获取文本信息,并确定参考关联实体与目标实体在同一文本信息中的共现频次,以及目标参考关联实体在关联数据中的出现频次,终端将共现频次与出现频次的比值确定为目标参考关联实体与目标实体在关联数据中的共现概率,例如,在一个文本信息中,目标参考关联实体j与目标实体i的共现频次x

在一个实施例中,终端获取参考关联实体集合中一个目标参考关联实体与目标实体在关联数据中的共现概率的具体方式还可以是,建立目标实体和目标参考关联实体的共现矩阵,获取关联数据中的文本信息,并预设一个范围,若在文本信息中目标参考关联实体k与目标实体i的距离在预设范围内,就表示参考关联实体k出现在目标实体i的环境一次,设x

进一步的,终端根据得到的关系类型确定参考关联实体的权重可以是人工赋予权重值。例如,目标实体的所属人赋予权重值为1,目标实体的位置赋予权重值为0.7,所属人名下其他实体赋予权重值为0.5,所属人名下其他实体相关信息赋予权重值为0.3;或者与目标实体的关系为直接关系的参考关联实体权重为1,与目标实体的关系为非直接关系的参考关联实体权重为0.5。对各个参考关联实体与目标实体进行加权处理得到相关性的具体方式可以是,通过将各个参考关联实体与目标实体在关联数据中的共现概率和赋予参考关联实体的加权值进行乘法处理,得到对应的参考关联实体与目标实体之间的相关性。例如,参考关联实体集合有参考关联实体1、参考关联实体2和参考关联实体3,对应的共现概率分别为0.7、0.5、0.2,以及对应的权重值分别为0.5、0.7、0.3,基于各个参考关联实体的共现概率和相关性,得到参考关联实体1与目标实体的相关性为0.7*0.5=0.35,参考关联实体2与目标实体的相关性为0.7*0.5=0.35,参考关联实体1与目标实体的相关性为0.2*0.3=0.06。

S104、基于各个参考关联实体与目标实体之间的相关性和预设筛选维度从参考关联实体集合筛选出至少一个目标关联实体。

本发明实施例中,终端基于上述获得的各个参考关联实体与目标实体的相关性,得到参考关联实体集合中的各个参考关联实体与目标实体的关联程度大小并进一步对各个参考关联实体进行筛选,获取关联程度较强的参考关联实体,具体的,终端可以预先设置的筛选维度规则,基于筛选维度规则从参考关联实体集合中筛选出至少一个参考关联实体,并作为目标关联实体。

在一个实施例中,预设的筛选维度规则可以是预设一个阈值,终端从参考关联实体集合中筛选出与目标实体之间的相关性大于阈值的参考关联实体,并作为目标关联实体,具体的,预设阈值可以由人工直接设置得到,例如,参考关联实体集合中的参考关联实体1的相关性为0.7、参考关联实体2的相关性为0.3、参考关联实体3的相关性为0.5,人工设置阈值为0.5,则筛选出作为目标关联实体的参考关联实体为参考关联实体1、参考关联实体3。预设阈值还可以通过基于多个相关性进行公式计算得到,将多个相关性数值输入平均值公式,

S105、基于目标实体和各个目标关联实体构建目标知识图谱。

本发明实施例中,终端将基于目标实体和各个目标关联实体构建多维度的目标知识图谱,构建的目标知识图谱以目标实体为中心,并将目标实体分别与各个目标关联实体连接,构建完成后,终端可以基于目标知识图谱对目标实体进行分析,并将构建的目标知识图谱以及基于目标知识图谱分析得到的信息存入数据库中。

在一个实施例中,目标实体与各个目标关联实体连接的具体方式可以是,终端获取目标实体与各个目标关联实体之间的相关性,并基于相关性确定对应的图谱构建方式。其中,图谱构建方式可以是,根据相关性的大小,确定各个目标关联实体在目标知识图谱中与目标实体的连接距离,具体的,可以根据相关性不同,用于连接目标实体和各个目标关联实体的线段的距离不同。可选的,根据相关性的大小,确定各个目标关联实体在目标知识图谱中的展示颜色,即相关性不同,用于表示实体的颜色不同,例如,与目标实体的相关性最高的目标关联实体在目标知识图谱中用绿色表示,与目标实体的相关性第二高的目标关联实体在目标知识图谱中用蓝色表示等,如图2a所示。

在一个实施例中,在构建目标知识图谱之后,还可以对目标知识图谱进行扩展,继续构建目标关联实体中的扩展关联实体的知识图谱,并将构建的扩展关联实体的知识图谱存入数据库中,具体方式为,从各个目标关联实体中筛选出需要进行图谱构建的扩展关联实体,筛选出扩展关联实体的方式可以是基于各个目标关联实体与目标实体的相关性进行筛选。终端获得扩展关联实体后,基于扩展关联实体的初步信息,从数据源中获取与扩展关联实体相关联的扩展关联数据,终端基于扩展关联数据获取与扩展关联数据相关联的参考扩展关联实体集合,获取参考扩展关联实体集合的具体方式可以是,获取参考扩展关联数据中包含了扩展关联实体的文本信息,并对该文本信息进行分词处理,得到至少一个词组,终端从至少一个词组中筛选出满足预设规则的扩展目标词组,并确定扩展目标词组对应的参考扩展实体集合以及参考扩展实体集合中的各个参考扩展实体与扩展关联实体的关系,终端基于各个参考扩展实体与扩展关联实体的关系从参考扩展实体集合中筛选出至少一个参考扩展实体,并将筛选出的参考扩展实体作为参考扩展关联实体,构建得到与扩展关联实体相关联的参考扩展关联实体集合。其中,预设规则可以是筛选出与扩展关联实体同词性的词,例如,扩展关联实体是一个名词,预设的规则可以是筛选出名词词组。确定参考扩展实体与扩展关联实体的关系可以是根据文本信息中的一些关键动词分析得到参考扩展实体与扩展关联实体的关系,并将参考扩展实体与扩展关联实体的关系从文本信息中抽取出来,基于参考扩展实体集合中的各个参考扩展实体与扩展关联实体的关系从参考扩展实体集合中筛选出至少一个参考扩展实体可以是指基于抽取出的关系,从参考扩展实体集合中筛选出参考扩展实体,并将筛选出的参考扩展实体作为参考扩展关联实体,构建得到与扩展关联实体相关联的参考扩展关联实体集合。终端获得参考扩展关联实体集合,并基于扩展关联实体与参考扩展关联实体集合中的各个参考扩展关联实体构建得到知识子图谱,构建的具体方式可以为以扩展关联实体为中心,并将扩展关联实体分别与各个参考扩展关联实体连接,如图2b所示。

在一个实施例中,终端得到知识子图谱,可以将知识子图谱与目标知识图谱进行合并处理,得到针对目标关联实体的扩展知识图谱,并将得到的扩展知识图谱存入数据库中,具体方式可以是,根据知识子图谱中的扩展关联实体与目标知识图谱中的目标关联实体的对应关系,将知识子图谱叠加在目标知识图谱中相应的目标关联实体上,如图2c所示。

本发明实施例中,终端从数据源中获取与目标实体相关联的关联数据,并对关联数据进行预处理,得到关联数据中与目标实体相关联的参考关联实体集合,终端确定参考关联实体集合中各个参考关联实体与目标实体之间的相关性,并基于各个参考关联实体与目标实体之间的相关性和预设筛选维度从参考关联实体集合中筛选出至少一个目标关联实体,终端基于目标实体和各个目标关联实体构建目标知识图谱。通过实施上述方法,可以通过对关联数据进行预处理得到参考关联实体集合并通过计算参考关联实体集合中的参考关联实体与目标实体的相关性,获得与目标实体高相关的目标关联实体,并基于目标关联实体和目标实体构建得到高相关性的知识图谱,在一定程度上摒弃大量冗余信息并提升构建效率,使构建的知识图谱更加准确。

图3为本发明实施例提出的一种构建知识图谱的方法流程示意图,如图3所示,本实施例中的构建知识图谱的方法的流程可以包括:

S301、接收到目标实体知识图谱构建指令时,检测数据库中是否存储目标实体的知识图谱。

本发明实施例中,当完成一个知识图谱构建时,终端会将知识图谱存储在数据库中,当终端接收到一个目标实体知识图谱构建指令时,将会检测数据库中是否存储有相应的目标实体知识图谱,若数据库中存储有相应的目标实体知识图谱,则执行S302,若数据库中没有存储有相应的目标实体知识图谱,则进行执行S303。

S302、若数据库中存储有目标实体知识图谱,检测是否满足知识图谱更新条件。

本发明实施例中,终端检测到数据库中存储有相应的目标实体知识图谱时,对目标实体知识图谱进行检测,判断是否满足知识图谱更新条件,若满足知识图谱更新条件,则说明目标实体知识图谱需要进行更新,执行S304,若不满足知识图谱更新条件,则说明目标实体知识图谱不需要进行更新,执行S305。其中,判断是否满足知识图谱更新条件的具体方式可以是判断目标实体知识图谱的构建时间是否超出预设的有效时间范围,若目标实体知识图谱的构建时间超出有效时间范围,则满足知识图谱更新条件,若目标实体知识图谱的构建时间没有超出有效时间范围,则不满足知识图谱更新条件。

S303、若数据库中没有存储目标实体知识图谱,对目标实体知识图谱进行构建,并存储在数据库中。

本发明实施例中,终端若检测到数据库中没有存储有目标实体知识图谱,则说明该目标实体为新的目标实体,需要对目标实体进行知识图谱的构建,构建的具体方式可以如S101-S105所示,构建完成后将目标实体知识图谱存储在数据库中,用以当下一次终端接收到该目标实体知识图谱构建指令时进行检测或调用。

S304、若不满足知识图谱更新条件,直接调用目标实体知识图谱。

本发明实施例中,终端若检测到目标实体知识图谱不满足知识图谱更新条件,则无需对目标实体知识图谱进行更新,直接调用目标实体知识图谱进行展示。

S305、若满足知识图谱更新条件,对目标实体知识图谱进行更新,并存储在数据库中。

本发明实施例中,终端若检测到目标实体知识图谱满足知识图谱更新条件,则对目标实体知识图谱进行更新,更新的具体方式可以是对目标实体重新进行知识图谱的构建,构建的具体方式可以如S101-S105所示。更新的具体方式还可以是获取与目标实体有关的新的关联数据并对新的关联数据进行处理得到新的目标关联实体和相关性,具体方式可以如S101-S104所示,并将目标实体知识图谱原有的目标关联实体和相关性与新的目标关联实体和相关性进行差异对比,输出有差异的目标关联实体或相关性,并基于有差异的目标关联实体或相关性在目标实体知识图谱上对应更新。更新后的知识图谱将存储在数据库中,用以当下一次终端接收到目标实体知识图谱构建指令时进行检测或调用。

本发明实施例中,终端接收到目标实体知识图谱构建指令时,检测数据库中是否存储目标实体的知识图谱,若数据库中存储有目标实体知识图谱,终端则检测是否满足知识图谱更新条件,若不满足知识图谱更新条件,终端直接调用目标实体知识图谱,若满足知识图谱更新条件,终端对目标实体知识图谱进行更新,并存储在数据库中,若数据库中没有存储该目标实体知识图谱,终端对目标实体知识图谱进行构建,并存储在数据库中。通过实施上述方法,可以在一定程度上提高获取目标知识图谱的效率,同时避免多次构建同一个目标实体的知识图谱,浪费资源。

下面将结合附图4对本发明实施例提供的一种构建知识图谱的装置进行详细介绍。需要说明的是,附图4所示的构建知识图谱的装置,用于执行本发明图1和图3所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示,经参照本发明图1和图3所示的实施例。

请参见图4,为本发明提供的一种构建知识图谱的装置的结构示意图,该构建知识图谱的装置400可包括:获取模块401、预处理模块402、确定模块403、筛选模块404、构建模块405。

获取模块401,用于从数据源中获取与目标实体相关联的关联数据;

预处理模块402,用于对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体;

确定模块403,用于确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性;

筛选模块404,用于基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体;

构建模块405,用于基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析,其中,所述目标知识图谱中所述目标实体与所述目标关联实体的相对展示方式由所述目标实体与所述目标关联实体之间的相关性确定。

在一个实施例中,所述关联数据包括包含所述目标实体的文本信息,所述预处理模块402,具体用于对所述文本信息进行分词处理,得到至少一个词组;从所述至少一个词组中筛选满足预设规则的目标词组;确定所述目标词组对应的参考实体集合以及所述参考实体集合中的各个参考实体与所述目标实体的关系;基于所述各个参考实体与所述目标实体的关系从所述参考实体集合中筛选出至少一个参考实体,构建得到与所述目标实体相关联的参考关联实体集合。

在一个实施例中,所述确定模块403,具体用于获取所述目标参考关联实体与所述目标实体在所述关联数据中的共现概率,所述目标参考关联实体包括所述参考关联实体集合中任一个参考关联实体;确定所述目标参考关联实体与所述目标实体之间的关系对应的关系类型,并根据所述关系类型确定所述目标参考关联实体的权重;根据所述目标参考关联实体的权重,对所述目标参考关联实体与所述目标实体在所述关联数据中的共现概率进行加权处理,得到所述目标参考关联实体与所述目标实体之间的相关性。

在一种实施例中,所述关联数据包括至少一个文本,所述确定模块403,具体用于获取所述目标参考关联实体与所述目标实体在所述关联数据中的同一文本中的共现频次,以及所述目标参考关联实体在所述关联数据中的出现频次;将所述共现频次和所述出现频次的比值,确定为所述目标参考关联实体与所述目标实体在所述关联数据中的共现概率。

在一种实施例中,所述预设筛选维度包括预设阈值,所述筛选模块404,具体用于从所述参考关联实体集合中筛选出与所述目标实体之间的相关性大于所述预设阈值的参考关联实体,作为目标关联实体。

在一种实施例中,所述构建模块405,具体用于获取所述目标实体与各个所述目标关联实体之间的相关性,基于所述相关性确定在所述知识图谱中所述目标实体与所述目标关联实体的相对展示方式,所述相对展示方式包括所述各个目标关联实体在所述目标知识图谱中与所述目标实体的连接距离,以及所述各个目标关联实体在所述目标知识图谱中的展示颜色。

在一个实施例中,所述构建模块405之后,从所述各个目标关联实体中筛选出扩展关联实体,从所述数据源中获取与所述扩展关联实体相关联的扩展关联数据,基于所述扩展关联数据获取与所述扩展关联实体相关联的参考扩展关联实体集合,基于所述扩展关联实体和所述参考扩展关联实体集合构建扩展知识子图谱,将所述目标知识图谱和所述扩展知识子图谱进行合并处理,得到针对所述目标关联实体的扩展知识图谱。

本发明实施例中,获取模块401从数据源中获取与目标实体相关联的关联数据,预处理模块402对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体,确定模块403用于确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性,筛选模块404基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体,构建模块405基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析,其中,所述目标知识图谱中所述目标实体与所述目标关联实体的相对展示方式由所述目标实体与所述目标关联实体之间的相关性确定。通过实施上述方法,可以基于收集的数据自动构建相关知识图谱,并在知识图谱中以不同的展示形式体现数据间的相关性,在一定程度上提升知识图谱构建的智能性以及构建效率。

请参见图5,为本发明实施例提供的一种终端的结构示意图。如图5所示,该终端500包括:至少一个处理器501、输入设备502、输出设备503、存储器504、至少一个通信总线505。其中,输入设备502可以是控制面板或者麦克风等,输出设备503可以是显示屏等。其中,存储器504可以是高速RAM存储器,也可以是非不稳定的存储器(non-voIatiIememory),例如至少一个磁盘存储器。其中,通信总线505用于实现这些组件之间的连接通信。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4所描述的装置,存储器504中存储一组程序代码,且处理器501,输入设备502,输出设备503调用存储器504中存储的程序代码,用于执行以下操作:

处理器501,用于从数据源中获取与目标实体相关联的关联数据;

处理器501,用于对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体;

处理器501,用于确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性;

处理器501,用于基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体;

处理器501,用于基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析,其中,所述目标知识图谱中所述目标实体与所述目标关联实体的相对展示方式由所述目标实体与所述目标关联实体之间的相关性确定。

在一个实施例中,所述关联数据包括包含所述目标实体的文本信息,所述处理器501,具体用于:

对所述文本信息进行分词处理,得到至少一个词组;

从所述至少一个词组中筛选满足预设规则的目标词组;

确定所述目标词组对应的参考实体集合以及所述参考实体集合中的各个参考实体与所述目标实体的关系;

基于所述各个参考实体与所述目标实体的关系从所述参考实体集合中筛选出至少一个参考实体,构建得到与所述目标实体相关联的参考关联实体集合。

在一个实施例中,所述处理器501,具体用于:

获取所述目标参考关联实体与所述目标实体在所述关联数据中的共现概率,所述目标参考关联实体包括所述参考关联实体集合中任一个参考关联实体;

确定所述目标参考关联实体与所述目标实体之间的关系对应的关系类型,并根据所述关系类型确定所述目标参考关联实体的权重;

根据所述目标参考关联实体的权重,对所述目标参考关联实体与所述目标实体在所述关联数据中的共现概率进行加权处理,得到所述目标参考关联实体与所述目标实体之间的相关性。

在一个实施例中,所述关联数据包括至少一个文本,所述处理器501,具体用于:

获取所述目标参考关联实体与所述目标实体在所述关联数据中的同一文本中的共现频次,以及所述目标参考关联实体在所述关联数据中的出现频次;

将所述共现频次和所述出现频次的比值,确定为所述目标参考关联实体与所述目标实体在所述关联数据中的共现概率。

在一个实施例中,所述处理器501,具体用于:从所述参考关联实体集合中筛选出与所述目标实体之间的相关性大于所述预设阈值的参考关联实体,作为目标关联实体。

在一个实施例中,所述处理器501,具体用于:

获取所述目标实体与各个所述目标关联实体之间的相关性;

基于所述相关性确定在所述知识图谱中所述目标实体与所述目标关联实体的相对展示方式,所述相对展示方式包括所述各个目标关联实体在所述目标知识图谱中与所述目标实体的连接距离,以及所述各个目标关联实体在所述目标知识图谱中的展示颜色。

在一个实施例中,所述基于所述目标实体和各个所述目标关联实体构建目标知识图谱之后,所述处理器501,具体用于:

从所述各个目标关联实体中筛选出扩展关联实体;

从所述数据源中获取与所述扩展关联实体相关联的扩展关联数据;

基于所述扩展关联数据获取与所述扩展关联实体相关联的参考扩展关联实体集合;

基于所述扩展关联实体和所述参考扩展关联实体集合构建扩展知识子图谱,将所述目标知识图谱和所述扩展知识子图谱进行合并处理,得到针对所述目标关联实体的扩展知识图谱。

本发明实施例中,处理器501从数据源中获取与目标实体相关联的关联数据,处理器501对所述关联数据进行预处理,得到所述关联数据中与所述目标实体相关联的参考关联实体集合,所述参考关联实体集合中包括至少一个参考关联实体,处理器501确定所述参考关联实体集合中各个参考关联实体与所述目标实体之间的相关性,处理器501基于所述各个参考关联实体与所述目标实体之间的相关性和预设筛选维度从所述参考关联实体集合筛选出至少一个目标关联实体,处理器501基于所述目标实体和各个所述目标关联实体构建目标知识图谱,以基于所述目标知识图谱对所述目标实体进行分析。通过实施上述方式,可以基于收集的数据自动构建相关知识图谱,并在知识图谱中以不同的展示形式体现数据间的相关性,提升知识图谱构建的智能性以及构建效率。

本发明实施例中所述模块,可以通过通用集成电路,例如CPU(CentraIProcessing Unit,中央处理器),或通过ASIC(AppIication Specific IntegratedCircuit,专用集成电路)来实现。

应当理解,在本发明实施例中,所称处理器501可以是中央处理模块(CentraIProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitaISignaI Processor,DSP)、专用集成电路(AppIication Specific IntegratedCircuit,ASIC)、现成可编程门阵列(FieId-ProgrammabIe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

通信总线505可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(PeripheraI Component,PCI)总线或扩展工业标准体系结构(EItended Industry Standard Architecture,EISA)总线等,该通信总线505可以分为地址总线、数据总线、控制总线等,为便于表示,图5仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnIy Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 一种知识图谱构建方法、装置、可读存储介质及终端设备
  • 一种构建知识图谱的方法、装置、终端和存储介质
技术分类

06120112195227