掌桥专利:专业的专利平台
掌桥专利
首页

知识图谱的构建方法、工具、装置和服务器

文献发布时间:2023-06-19 11:57:35


知识图谱的构建方法、工具、装置和服务器

技术领域

本说明书属于人工智能技术领域,尤其涉及知识图谱的构建方法、工具、装置和服务器。

背景技术

知识图谱是人工智能技术中的一个重要分支,对于机器的学习和认知有着重要作用。

但是,现有的知识图谱的构建方法,对具有构建知识图谱需求的用户而言技术门槛较高、构建难度较大。并且,基于现有的知识图谱的构建方法,在具体构建知识图谱时,往往还会存在操作复杂、繁琐,构建效率低,无法满足用户多样化的业务需求等问题。

针对上述问题,目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种知识图谱的构建方法、工具、装置和服务器,以简化用户侧操作,降低知识图谱的构建难度,使得用户可以高效、准确地构建得到满足多样化业务需求的、效果较好的知识图谱。

本说明书实施例提供了一种知识图谱的构建方法,包括:

获取目标源数据;

确定目标源数据的数据结构类型;

根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元;

调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象;

根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

在一些实施例中,所述目标源数据的数据结构类型包括以下至少之一:结构化数据、非结构化数据、半结构化数据。

在一些实施例中,根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元,包括:

根据预设的构建规则,从多个预设的数据源算子中筛选出与目标源数据对应的目标源算子;其中,所述目标源算子用于将所述目标源数据接入目标知识提取单元;

根据所述目标源数据的数据结构类型,确定出相匹配的目标数据处理结构;其中,所述目标数据处理结构用于处理目标源数据以得到多个三元数据组;

确定并配置目标标识终止算子;其中,所述目标标识终止算子用于从目标数据处理结构输出的多个三元数据组中提取出符合要求的三元数据组以得到对应的实体关系文件;

组合所述目标源算子、目标数据处理结构和目标标识终止算子,得到与所述目标数据源匹配的目标知识提取单元。

在一些实施例中,根据所述目标源数据的数据结构类型,确定出相匹配的目标数据处理结构,包括:

在确定目标源数据的数据结构类型为结构化数据的情况下,从多个预设的数据处理算子中筛选出初始处理算子;

对所述初始处理算子进行相应配置,得到目标处理算子;并将所述目标处理算子确定为相匹配的目标数据处理结构。

在一些实施例中,所述预设的数据处理算子包括以下至少之一:SQL算子、HIVE算子、SPARK算子。

在一些实施例中,根据所述目标源数据的数据结构类型,确定出相匹配的目标数据处理结构,包括:

在确定目标源数据的数据结构类型为非结构化数据或半结构化数据的情况下,将预设的三元组抽取模型确定为相匹配的目标数据处理结构。

在一些实施例中,在确定目标源数据的数据结构类型之后,所述方法还包括:

根据所述目标源数据的数据结构类型,从多个预设的知识提取单元中筛选出推荐的知识提取单元;

向用户展示所述推荐的知识提取单元;

将用户选中的推荐的知识提取单元确定为所述目标知识提取单元。

在一些实施例中,根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱,包括:

获取关于目标知识图谱的定义参数文件;其中,所述定义参数文件包括:数据对象的定义参数和/或数据关系的定义参数;

根据所述实体关系文件和所述定义参数文件,通过进行数据映射,生成与所述目标数据源关联的目标知识图谱。

在一些实施例中,所述定义参数文件还包括索引定义参数;

相应的,在根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱的过程中,所述方法还包括:

根据所述索引定义参数,利用数据对象的定义参数和/或数据关系的定义参数,构建针对所述目标知识图谱的目标查询索引。

在一些实施例中,在根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱之后,所述方法还包括:

接收目标查询语句;其中,所述目标查询语句至少携带有目标知识图谱的目标标识;

根据所述目标标识,检索图数据库,以确定出目标知识图谱;

响应所述目标查询语句,对所述目标知识图谱进行查询操作,以得到对应的查询结果;

反馈所述查询结果。

在一些实施例中,所述目标源数据包括客户的交易数据的流水记录;相应的,所述查询结果包括目标客户的交易数据的流向图。

本说明书实施例还提供了一种知识图谱的构建工具,至少包括:源数据导入接口、第一处理界面、第二处理界面;其中,

所述源数据导入接口,用于支持用户导入目标源数据;

所述第一处理界面,用于支持用户设置目标知识图谱中的数据对象的定义参数和/或数据关系的定义参数,以生成关于目标知识图谱的定义参数文件;

所述第二处理界面,用于支持用户根据预设的构建规则,确定并组合相匹配的目标源算子、目标数据处理结构、标识终止算子,以得到与目标源数据匹配的目标知识提取单元;

所述知识图谱的构建工具还用于调用目标知识提取单元处理目标源数据,得到对应的实体关系文件;并根据所述实体关系文件和所述定义参数文件,通过进行数据映射,生成与所述目标数据源关联的目标知识图谱。

本说明书实施例还提供了一种知识图谱的构建装置,包括:

获取模块,用于获取目标源数据;

确定模块,用于确定目标源数据的数据结构类型;

第一构建模块,用于根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元;

调用模块,用于调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象;

第二构建模块,用于根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述知识图谱的构建方法的步骤。

本说明书实施例还提供了一种计算机存储介质,其上存储有计算机指令,所述指令被执行时实现所述知识图谱的构建方法的步骤。

本说明书提供了一种知识图谱的构建方法、工具、装置和服务器,基于该知识图谱的构建方法,可以先确定出待处理的目标源数据的数据结构类型;再根据预设的构建规则和目标源数据的数据结构类型,构建得到与该目标源数据相匹配的、针对性较强的目标知识提取单元;进一步,可以调用上述目标知识提取单元来具体处理目标源数据,得到包含有多个三元数据组的符合要求的实体关系文件;再根据上述实体关系文件,构建得到与所述目标源数据关联的目标知识图谱。从而可以有效地简化用户侧操作,降低知识图谱的构建难度,使得用户可以高效、准确地构建得到满足多样化业务需求的、效果较好的知识图谱。

附图说明

为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的知识图谱的构建方法的系统的结构组成的一个实施例的示意图;

图2是本说明书的一个实施例提供的知识图谱的构建工具的示意图;

图3是本说明书的一个实施例提供的知识图谱的构建方法的流程示意图;

图4是本说明书的一个实施例提供的服务器的结构组成示意图;

图5是本说明书的一个实施例提供的知识图谱的构建装置的结构组成示意图;

图6是在一个具体的场景示例中应用本说明书实施例提供的知识图谱的构建方法的实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

本说明书实施例提供了一种知识图谱的构建方法,该方法具体可以应用于包含有服务器和终端设备的系统中。具体可以参阅图1所示。其中,服务器和终端设备可以通过有线或无线的方式相连,以进行具体的数据交互。

在本实施例中,所述服务器具体可以包括一种应用于网络平台一侧,能够实现数据传输、数据处理等功能的后台服务器。具体的,所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器所包含的服务器数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。

在本实施例中,所述终端设备具体可以包括一种应用于用户一侧,能够实现数据采集、数据传输等功能的前端电子设备。具体的,所述终端设备例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者,所述终端设备也可以为能够运行于上述电子设备中的软件应用。例如,可以是在智能手机上运行的某APP等。

在本实施例中,上述服务器具体还可以与网络平台的图数据库相连,用于维护、管理网络平台的图数据库。其中,所述图数据库具体可以存储有多个知识图谱。上述终端设备具体还可以部署有知识图谱的构建工具。

在本实施例中,当前用户需要对一批数据(例如,XX银行2020年客户的交易数据的流水记录)进行处理,以构建得到符合业务需求(例如,适用于分析客户是否存在违规交易风险)的目标知识图谱时,可以先在终端设备上发起针对知识图谱的构建工具的启动指令,以启动知识图谱的构建工具。

相应的,终端设备启动并向用户展示出知识图谱的构建工具的操作界面。具体可以参阅图2所示。进而用户可以利用上述知识图谱的构建工具,通过终端设备处理相应的目标源数据,以构建得到符合业务需求的目标知识图谱。

在所展示的知识图谱的构建工具的操作界面中至少包含有源数据导入接口、第一处理界面、第二处理界面等结构。

具体实施时,首先,用户可以根据操作界面上的相关指示,利用源数据导入接口,选择并通过本地文件上传、HDFS文件导入、数据库表导入、第三方数据接入等多种导入方式导入待处理的一批数据,作为目标源数据。

具体导入目标源数据时,用户还可以自定义导入方式,例如,可以选择使用源数据导入接口在导入目标源数据的过程中,通过源数据导入接口展示出待导入数据的预览信息;其中,上述预览信息具体可以是数据量参数(例如,数据的行数、列数、总数等),也可以是数据的内容参数(例如,数据的内容关键字、数据中前几行数据的预览、数据名称等)。这样用户在利用源数据导入接口导入目标源数据时,可以根据预览信息更加准确地进行导入操作,避免出现导入错误。

接着,用户可以利用第一处理界面,设置定义待构建的目标知识图谱中的数据对象的定义参数和/或数据关系的定义参数。

具体的,用户可以在第一处理界面中设置数据对象(或者称实体对象)的名称、属性、类型等作为数据对象的定义参数(例如,客户的姓名、客户的账户、客户的企业等)。用户也可以在第一处理界面中设置数据关系的名称、属性、类型等作为数据关系的定义参数(例如,数据对象之间的归属关系、数据对象之间的转账关系、数据对象之间的债务关系等)。

相应的,终端设备可以通过上述第一处理界面接收用户所设置的数据对象的定义参数和/或数据关系的定义参数,并根据上述定义参数,生成关于目标知识图谱的定义参数文件。

通过上述方式,用户可以基于实际的业务需求,利用第一处理界面通过生成目标知识图谱的定义参数文件,灵活地完成对目标知识图谱的图谱结构的构建。

当然,需要说明的是,具体实施时,也可以是用户先在第一处理界面中输入具体的业务需求;再由终端设备根据业务需求,结合目标源数据的数据特点,自动生成关于目标知识图谱的定义参数文件。

然后,用户可以利用第二处理界面,根据预设的构建规则、目标源数据的数据结构类型,高效、简便地构建出与目标源数据匹配的,符合业务需求的目标知识提取单元。其中,上述目标知识提取单元用于处理目标源数据,以提取出用于生成目标知识图谱的实体关系文件。所述实体关系文件具体可以包含有基于目标源数据所提取得到的多个三元数据组。每一个三元数据组至少可以包括两个数据对象和一个数据关系,其中,同一个三元数据组中的两个数据对象可以通过数据关系相连。

具体的,可以参阅图2所示,第二处理界面具体可以包括:菜单栏、主画布、参数配置栏等结构。其中,在上述菜单栏中具体可以展示有数据源算子选择框、数据处理结构选择框、标识终止算子选择框。在上述参数配置栏中具体可以提供针对数据源算子、数据处理结构、标识终止算子的参数配置接口。

进一步,上述数据源算子选择框具体可以包含有多个供用户选择的预设的数据源算子,例如,针对结构化数据的DATAS算子、针对非结构化数据的DATAU算子等。上述数据处理结构选择框具体可以包含有多个供用户选择的预设的数据处理结构,例如,与结构化数据匹配的多个预设的数据处理算子(包括:SQL算子、HIVE算子、SPARK算子等)、与非结构化数据或半结构化数据匹配的预先训练好的预设的三元组抽取模型等。上述标识终止算子选择框具体可以包含有多个供用户选择的预设的标识终止算子,例如,MDATAS算子等。

具体的,用户可以基于预设的构建规则,结合具体的业务需求、目标源数据的数据结构类型,通过上述第二处理界面,先从菜单栏中选出相匹配的预设的数据源算子、预设的数据处理结构,以及预设的标识终止算子;同时,可以利用参数配置栏对所选出的预设的数据源算子、预设的数据处理结构,以及预设的标识终止算子,以得到对应的目标源算子、目标数据处理结构,以及目标标识终止算子;再通过主画布对上述目标源算子、目标数据处理结构,以及目标标识终止算子进行组合,得到满足用户的个性化的业务需求的,与目标源数据相匹配的目标知识提取单元。

例如,以目标源数据为XX银行2020年客户的交易数据的流水记录为例,首先,基于预设的构建规则,考虑到该目标源数据为通过数据库表导入的结构化数据,可以选择使用针对结构化数据的DATAS算子,并配置相应的导入参数,以对目标源数据的导入方式进行自定义设置,得到对应的目标源算子。同时,还可以选择使用适合于处理结构化数据的SQL算子,并配置相应的处理逻辑,以目标源数据的知识提取方式进行自定义设置,得到对应的目标数据处理结构。然后,考虑到具体的业务需求,可以选择使用MDATAS算子,并配置相应的提取参数(例如,待提取的数据对象的标识信息、待提取的数据关系的标识信息等),以对所提取出的数据对象、数据关系进行自定义设置,得到对应的目标标识终止算子。

接着,用户可以将上述目标源算子、目标数据处理结构,以及目标标识终止算子拖入主画布中,并按照目标源算子、目标数据处理结构、目标标识终止算子的顺序排列好;再利用连接线分别连接目标源算子和目标数据处理结构,以及目标数据处理结构和目标标识终止算子,完成组合,得到满足用户的业务需求的,与目标源数据匹配的目标知识提取单元。

通过上述方式,用户可以基于实际的业务需求,利用第二处理界面高效、便捷地构建得到符合要求的目标知识提取单元。

当然,需要说明的是,具体实施时,上述过程也可以是终端设备基于预设的构建规则,根据目标源数据的数据结构类型、具体的业务需求,自动生成上述目标知识提取单元的。

在得到目标知识提取单元之后,用户可以在知识图谱的构建工具进行相应操作(例如,点击确认运行图标)发起运行指令。终端设备可以响应用户发起的运行指令,基于知识图谱的构建工具中的指令程序,调用目标指示提取单元处理目标源数据,以高效地从目标源数据中提取出用于构建目标知识图谱的三元数据组,进而对应的实体关系文件。

进一步,终端设备可以基于知识图谱的构建工具中的指令程序,根据所述实体关系文件和所述定义参数文件,通过进行数据映射,生成与所述目标数据源关联的目标知识图谱。

通过上述方式,用户只需要进行简单的操作,就能够高效、准确地构建得到满足多样化业务需求的目标知识图谱。

在得到目标知识图谱之后,终端设备可以向用户展示出所述目标知识图谱,供用户查询使用目标知识图谱。

用户还可以利用知识图谱的构建工具通过终端设备对目标知识图谱进行修改、编辑,以及对目标知识图谱进行命名等操作。

此外,终端设备还可以为目标知识图谱设置相对应的目标标识(例如,可以将目标知识图谱的生成编号或者名称确定为与该目标知识图谱对应的目标标识);并将携带有目标标识的目标知识图谱发送至服务器。相应的,服务器可以将所接收到的携带有目标标识的目标知识图谱存储到图数据库中。

后续,用户需要再次查询目标知识图谱时,可以通过终端设备生成并向服务器发送相关的目标查询语句。其中,目标查询语句至少携带有目标标识。

相应的,服务器接收目标查询语句;并根据目标查询语句所携带的目标标识检索图数据库,找到用户指示查询的目标知识图谱。接着,服务器可以响应目标查询语句,对该目标知识图谱进行具体的查询操作,得到对应的查询结果;再将该查询结果反馈给终端设备。

终端设备接收并向用户展示出上述查询结果。

这样终端设备可以高效、便捷地完成对目标知识图谱的查询,得到所需要的查询结果。进而,终端设备可以根据查询结果进行进一步的数据处理。

例如,终端设备可以目标客户的交易数据的流向图,进一步分析目标客户的交易数据的流转是否存在异常;再以此作为依据判断该目标客户是否在违规交易风险(例如,洗钱风险、赌博风险等)。从而可以高效、准确地识别出存在违规交易风险的客户。

参阅图3所示,本说明书实施例提供了一种知识图谱的构建方法。其中,该方法具体实施时,可以包括以下内容。

S301:获取目标源数据。

S302:确定目标源数据的数据结构类型。

S303:根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元。

S304:调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象。

S305:根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

通过上述实施例,可以有效地简化用户侧操作,降低知识图谱的构建难度,使得用户可以较为高效、准确地构建得到满足用户多样化业务需求的目标知识图谱。

在一些实施例中,上述目标源数据具体可以是指用于生成用户所需要的目标知识图谱的源数据。对应不同的应用场景和不同的业务需求,上述目标源数据具体可以是不同内容的数据。具体的,例如,在客户的交易风险预测场景中,上述目标源数据具体可以是客户的交易数据(例如,资产数据、理财数据等)的流水记录等。又例如,在历史人物的关系考证场景中,上述目标源数据具体还可以是不同历史人物之间的通信记录等。

在一些实施例中,上述目标源数据具体可以包括多种不同数据结构类型的数据。具体的,所述目标源数据的数据结构类型具体可以包括以下至少之一:结构化数据、非结构化数据、半结构化数据等。

其中,上述结构化数据具体可以是指一种满足预设的数据格式(例如,key-value的键值对格式等)的数据。通常对于某一个结构化数据,根据该数据所对应的预设的数据格式,能够相对较直接地确定出该数据所包含的不同数据的具体属性。例如,对于一个满足键值对格式的数据,能够较直接地确定出该数据中具体哪个数据是key值,哪个数据是value值

上述半结构化数据具体可以是指一种虽然不满足预设的数据格式,但仍然满足某些其他常规格式(例如,表格格式等)的数据。通常对于某一个半结构化数据,虽然无法像结构化数据那样较为直接地确定出该数据所包含的不同数据的具体属性;但是结合所对应的常规格式,通过一定的语义分析处理,也能够确定出该数据所包含的不同数据的具体属性。

上述非结构化数据具体可以是指一种不满足预设的数据格式,同时也不满足某些常规格式的数据,例如,交易订单中的一段文本留言等。通常对于非结构化数据,需要进行语义分析处理,才能确定出该数据所包含的不同数据的具体属性。

通过上述实施例,可以将本说明书实施例所提供的知识图谱的构建方法推广应用于处理多种不同的数据结构类型的目标源数据,以满足用户多样化的业务需求。

在一些实施例中,具体获取目标源数据时,对于结构化数据,可以通过以下所列举的获取方式任意一种来获取目标源数据:通过本地文件上传获取目标源数据;通过HDFS文件导入获取目标源数据;通过数据库表导入获取目标源数据等。

对于半结构化数据和非结构化数据,可以通过以下所列举的获取方式任意一种来获取目标源数据:通过本地文件上传获取目标源数据;通过接入的第三方提供的数据获取目标源数据;通过接收其他分布式集群传输的数据获取目标源数据等。

在一些实施例中,为了能够更加高效地获取目标源数据,在具体通过HDFS文件导入获取目标源数据时,预先可以利用HDFS的特性,将目标源数据(对应HDFS元数据)的文件路径记录于数据库中;在需要获取目标源数据时,可以查询数据库得到并利用上述文件路径,直接访问获取相应的目标源数据。从而可以避免数据获取过程中的多次落地,提高目标源数据的获取效率。

在一些实施例中,具体实施时,可以检测并根据目标源数据的数据结构特征,确定出目标源数据的数据结构类型。

在一些实施例中,为了能够较好地兼顾处理多种不同数据结构类型的目标源数据,可以先确定出目标源数据的数据结构类型;再根据目标源数据的数据结构类型,区分不同数据结构类型的目标源数据,针对不同数据结构类型的目标源数据,采用相匹配的方式进行处理,以构建得到符合用户的业务需求的目标知识图谱。

具体的,可以先区分出两大类:第一类(包括结构化数据)和第二类(包括非结构化数据和半结构化数据);再针对上述两大类,根据预设的构建规则构建出相匹配的目标知识提取单元;进而可以利用相匹配的目标知识提取单元来处理目标源数据,以构建得到对应的目标知识图谱。

在一些实施例中,上述根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元,具体实施时,可以包括以下内容:

S1:根据预设的构建规则,从多个预设的数据源算子中筛选出与目标源数据对应的目标源算子;其中,所述目标源算子用于将所述目标源数据接入目标知识提取单元;

S2:根据所述目标源数据的数据结构类型,确定出相匹配的目标数据处理结构;其中,所述目标数据处理结构用于处理目标源数据以得到多个三元数据组;

S3:确定并配置目标标识终止算子;其中,所述目标标识终止算子用于从目标数据处理结构输出的多个三元数据组中提取出符合要求的三元数据组以得到对应的实体关系文件;

S4:组合所述目标源算子、目标数据处理结构和目标标识终止算子,得到与所述目标数据源匹配的目标知识提取单元。

通过上述实施例,可以基于预设的构建规则,结合目标源数据的数据结构类型等数据特征,准确地建立得到与目标源数据匹配的,符合用户的业务需求的目标知识提取单元。

在一些实施例中,上述根据所述目标源数据的数据结构类型,确定出相匹配的目标数据处理结构,具体实施时,可以包括以下内容:在确定目标源数据的数据结构类型为结构化数据的情况下,从多个预设的数据处理算子中筛选出初始处理算子;对所述初始处理算子进行相应配置,得到目标处理算子;并将所述目标处理算子确定为相匹配的目标数据处理结构。

通过上述实施例,可以基于预设的构建规则,针对数据结构类型为结构化数据的目标源数据,确定出针对性较强、较为匹配的目标数据处理结构。

在一些实施例中,可以根据用户的业务需求、目标源数据的数据特征,以及用户所偏好的编程语言等,从多个预设的数据处理算子筛选出符合要求的预设的数据处理算子作为初始处理算子。进一步,可以根据业务需求,对该初始处理算子进行处理逻辑的配置,从而可以得到较为匹配的目标数据处理结构。

在一些实施例中,所述预设的数据处理算子具体可以包括以下至少之一:SQL算子、HIVE算子、SPARK算子等。

当然,需要说明的是,上述所列举的预设的数据处理算子只是一种示意性说明。具体实施时,根据具体情况和所使用的编程语言,还可以引入其他类型的数据处理算子作为预设的数据处理算子。

通过上述实施例,针对数据结构类型为结构化数据的目标源数据,可以准备并提供多种可选的预设的数据处理算子,来得到符合要求的目标数据处理结构,从而可以得到匹配度相对更高、更加精准的目标数据处理结构。

在一些实施例中,上述根据所述目标源数据的数据结构类型,确定出相匹配的目标数据处理结构,具体实施时,还可以包括:在确定目标源数据的数据结构类型为非结构化数据或半结构化数据的情况下,将预设的三元组抽取模型确定为相匹配的目标数据处理结构。

通过上述实施例,可以基于预设的构建规则,针对数据结构类型为非结构化数据或半结构化数据的目标源数据,确定出针对性较强、较为匹配的目标数据处理结构。

在一些实施例中,上述预设的三元组抽取模型具体可以是指一种预先训练好的,基于语义识别能够从文本数据中提取出相应的三元数据组的模型。其中,上述三元数据组具体可以包含有通过数据关系相连的两个数据对象。

在一些实施例中,在客户的交易风险预测场景中,上述数据对象具体可以是客户的姓名,也可以是客户的账户,还可以是客户的持股企业等等。上述数据关系具体可以是数据对象之间的转账关系,也可以是数据对象之间的利益归属关系,还可以是数据对象之间的债务关系等等。当然,上述所列举的数据对象、数据关系只是一种示意性说明。根据具体的应用场景和业务需求,上述数据对象、数据关系还可以是其他内容的数据。

在一些实施例中,具体实施前,可以按照以下方式训练得到预设的三元组抽取模型:获取样本文本数据;标注出样本文本数据中存在数据关系的两个数据对象,得到标注后的样本文本数据;利用标注后的样本文本数据进行模型训练,以得到预设的三元组抽取模型。

在一些实施例中,在确定目标源数据的数据结构类型之后,所述方法具体实施时,还可以包括以下内容:根据所述目标源数据的数据结构类型,从多个预设的知识提取单元中筛选出推荐的知识提取单元;向用户展示所述推荐的知识提取单元;将用户选中的推荐的知识提取单元确定为所述目标知识提取单元。

通过上述实施例,具体实施前,可以根据历史处理记录,针对多种相对较常见的目标源数据,以及相对较常见的业务需求,预先配置好多个预设的知识提取单元;具体实施时,可以先根据目标源数据的数据结构类型,从多个预设的知识提取单元中筛选出与目标源数据的数据结构类型匹配的预设的知识提取单元作为推荐的知识提取单元供用户选择;相应的,用户只需要根据具体的业务需求,从多个已有的推荐的知识提取单元中选出符合自己的业务需求的推荐知识提取单元作为目标知识提取单元即可。从而可以更加高效、便捷地得到符合用户的业务需求的目标知识提取单元。

在一些实施例中,在构建得到目标知识提取单元之后,可以调用该目标知识提取单元处理目标源数据,以从目标源数据中提取出三元数据组;再从三元数据组中筛选出与用户的业务需求关联的三元数据组,构建得到符合要求的实体关系文件。其中,上述实体关系文件具体可以包含有多个与用户的业务需求关联的三元数据组。

在一些实施例中,根据所述实体关系文件,上述构建与所述目标源数据关联的目标知识图谱,具体实施时,可以包括以下内容:

S1:获取关于目标知识图谱的定义参数文件;其中,所述定义参数文件包括:数据对象的定义参数和/或数据关系的定义参数;

S2:根据所述实体关系文件和所述定义参数文件,通过进行数据映射,生成与所述目标数据源关联的目标知识图谱。

通过上述实施例,可以利用实体关系文件和定义参数文件,通过数据映射,高效、准确地构建得到用户所需要的目标知识图谱。

在一些实施例中,上述目标知识图谱具体可以是一种包含有多个节点和连接边的图。其中,每一个节点对应一个数据对象,每一个连接边对应至少一个数据关系。并且,节点之间通过连接边相连。

在一些实施例中,在根据所述实体关系文件和所述定义参数文件,具体进行数据映射时,可以根据实体关系文件,将定义参数文件中的数据对象映射成一个节点,将数据关系映射成一个连接边,并转换成对应的图数据,从而可以构建得到目标知识图谱。

在一些实施例中,在具体构建目标知识图谱时,还可以根据实体关系文件和定义参数文件,确定出节点的属性信息和/或连接边的属性信息;并对知识图谱中对应节点和/或连接边进行属性信息标注,从而可以得到数据内容相对更加丰富、效果相对更好的目标知识图谱。

在一些实施例中,所述定义参数文件具体还可以包括:索引定义参数;相应的,在根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱的过程中,所述方法具体实施时,还可以包括:根据所述索引定义参数,利用数据对象的定义参数和/或数据关系的定义参数,构建针对所述目标知识图谱的目标查询索引。

通过上述实施例,在构建目标知识图谱的同时,还可以根据定义参数文件中的索引定义参数,构建得到针对该目标知识图谱的目标查询索引,以便后续可以利用目标查询索引,更加高效地使用和查询该目标知识图谱。

在一些实施例中,具体实施时,可以将所构建得到的目标知识图谱,连同对应的目标查询索引一同存入图数据库中,便于后续使用。

在一些实施例中,考虑到在批量构建多个数据量较大的目标源数据的目标知识图谱时,往往需要耗费大量的数据处理资源,容易对系统(或者服务器、终端设备等)形成较大的处理负荷,影响系统整体运行的稳定性。因此,在批量构建多个目标知识图谱时,系统还可以被设置为先预估各个目标知识图谱构建时所需要数据处理量是否大于预设的阈值处理量。其中,上述预设的阈值处理量具体可以根据系统的整体处理性能确定。

在确定目标知识图谱构建时所需要的数据处理量小于预设的阈值处理量时,系统可以正常加载数据,处理并构建得到对应的目标知识图谱。

在确定目标知识图谱构建时所需要的数据处理量大于或等于预设的阈值处理时,系统可以暂停加载数据,以及目标知识图谱的构建处理,并提示发起该目标知识图谱的用户,该目标知识图谱的构建处理需要先进行审批,在审批通过的情况下才能正常执行。此外,系统也可以实时监测系统的负荷状态,在确定系统的负荷状态允许构建处理该目标知识图谱的情况下,再恢复加载数据,并进行相应的目标知识图谱的构建处理。从而可以保护系统整体的运行稳定、可靠。

在一些实施例中,在根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱之后,所述方法具体实施时,还可以包括以下内容:接收目标查询语句;其中,所述目标查询语句至少携带有目标知识图谱的目标标识;根据所述目标标识,检索图数据库,以确定出目标知识图谱;响应所述目标查询语句,对所述目标知识图谱进行查询操作,以得到对应的查询结果;反馈所述查询结果。

通过上述实施例,可以响应用户发起的目标查询语句,高效地从图数据库中找出对应的目标知识图谱进行查询操作,以及时地向用户反馈相关的查询结果。

在一些实施例中,在确定出目标知识图谱之后,还可以检测图数据库中是否存储有目标知识图谱的目标查询索引;在检测到目标查询索引的情况下,可以响应目标查询语句,结合目标查询索引,更加高效、精准地对目标知识图谱进行查询操作,从而可以进一步提高查询效率,改善用户的查询体验。

在一些实施例中,所述目标源数据包括客户的交易数据的流水记录;相应的,所述查询结果包括目标客户的交易数据的流向图。

具体的,例如,在客户的交易风险预测场景中,上述交易数据可以是资金数据,查询结果可以是目标客户的资金数据的流向图。具体实施时,可以根据目标客户的资金数据的流向图分析该目标客户的资金数据的流转是否存在异常,进而可以判断该目标客户是否存在相应的交易风险(例如,洗钱风险、赌博风险、欺诈风险等)。

通过上述实施例,可以较好地将本说明书实施例所提供的知识图谱的构建方法应用于客户的交易风险的预测场景中,以利用所构建出的目标知识图谱来准确、高效地预测目标客户是否存在相应的交易风险。

由上可见,本说明书实施例提供的知识图谱的构建方法,基于该知识图谱的构建方法,可以先确定出待处理的目标源数据的数据结构类型;再根据预设的构建规则和目标源数据的数据结构类型,构建得到与该目标源数据相匹配的目标知识提取单元;进一步,可以调用上述目标知识提取单元来具体处理目标源数据,得到包含有多个三元数据组的符合要求的实体关系文件;再根据上述实体关系文件,构建得到与所述目标源数据关联的目标知识图谱。从而可以有效地简化用户侧操作,降低知识图谱的构建难度,使得用户可以高效、准确地构建得到满足多样化业务需求的、效果较好的知识图谱。

参阅图2所示,本说明书实施例还提供了一种知识图谱的构建工具。该知识图谱的构建工具至少可以包括:源数据导入接口、第一处理界面、第二处理界面;其中,

所述源数据导入接口,具体可以用于支持用户导入目标源数据;

所述第一处理界面,具体可以用于支持用户设置目标知识图谱中的数据对象的定义参数和/或数据关系的定义参数,以生成关于目标知识图谱的定义参数文件;

所述第二处理界面,具体可以用于支持用户根据预设的构建规则,确定并组合相匹配的目标源算子、目标数据处理结构、标识终止算子,以得到与目标源数据匹配的目标知识提取单元;

所述知识图谱的构建工具用于调用目标知识提取单元处理目标源数据,得到对应的实体关系文件;并根据所述实体关系文件和所述定义参数文件,通过进行数据映射,生成与所述目标数据源关联的目标知识图谱。

通过上述实施例,用户可以利用上述知识图谱的构建工具,高效、便捷地实现一站式构建得到满足多样化业务需求的目标知识图谱,从而可以有效地简化用户侧操作,降低知识图谱的构建难度,改善了用户的使用体验。

本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取目标源数据;确定目标源数据的数据结构类型;根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元;调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象;根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

为了能够更加准确地完成上述指令,参阅图4所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口401、处理器402以及存储器403,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。

其中,所述网络通信端口401,具体可以用于获取目标源数据。

所述处理器402,具体可以用于确定目标源数据的数据结构类型;根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元;调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象;根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

所述存储器403,具体可以用于存储相应的指令程序。

在本实施例中,所述网络通信端口401可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。

在本实施例中,所述处理器402可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中,所述存储器403可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。

本说明书实施例还提供了一种基于上述知识图谱的构建方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标源数据;确定目标源数据的数据结构类型;根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元;调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象;根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。

在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。

参阅图5所示,在软件层面上,本说明书实施例还提供了一种知识图谱的构建装置,该装置具体可以包括以下的结构模块:

获取模块501,具体可以用于获取目标源数据;

确定模块502,具体可以用于确定目标源数据的数据结构类型;

第一构建模块503,具体可以用于根据预设的构建规则和所述目标源数据的数据结构类型,构建与所述目标源数据匹配的目标知识提取单元;

调用模块504,具体可以用于调用所述目标知识提取单元处理所述目标源数据,以得到符合要求的实体关系文件;其中,所述实体关系文件包含有多个三元数据组;所述三元数据组至少包括通过一个数据关系相连的两个数据对象;

第二构建模块505,具体可以用于根据所述实体关系文件,构建与所述目标源数据关联的目标知识图谱。

需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

由上可见,本说明书实施例提供的知识图谱的构建装置,可以有效地简化用户侧操作,降低知识图谱的构建难度,使得用户可以高效、准确地构建得到满足多样化业务需求的、效果较好的知识图谱。

在一个具体的场景示例中,可以应用本说明书实施例提供的知识图谱的构建方法导入数据以构建得到对应的知识图谱。具体实施过程可以参阅图6所示,包括以下步骤。

步骤1:将各类型数据(例如,多种不同数据结构类型的目标源数据)导入系统。

步骤2:根据场景需求构建图谱结构(例如,生成对应的定义参数文件)。

在本场景示例中,图谱结构的构建可以包括:定义图谱中包含的实体信息(例如,数据对象的定义参数)、关系信息(例如,数据关系的定义参数)、实体关系的属性信息以及索引信息。具体的,例如,可以定义实体VERTEX包括但不限VERTEX的类型标签、VERTEX的各类属性;定义关系EDGE包括但不限于EDGE的类型标签、EDGE的起始点类型、EDGE的各类属性。对于有特定查询需求的场景,可通过构建索引(例如,目标查询索引)以提升后续查询的效率,具体可以构建在实体、关系或属性及三者的组合上。例如,可以在VERTEX上构建点索引已提升有以点开始查询需求的场景的查询效率。

步骤3:对各类型数据进行结构化处理(以得到对应的实体关系文件)。

在本场景示例中,对于结构化数据,首先可以在(第二处理界面中的)主侧边栏选择需要处理的结构化数据DATAS算子(例如,目标源算子),拖入主画布。其次在主侧边栏选择数据处理算子,如SQL算子,在配置侧边栏中填写SQL算子具体处理逻辑(得到目标数据处理结构),点击运行算子。运行成功后选择标识终止算子,填写终止算子名称MDATAS(得到目标标识终止算子),点击运行算子直至运行成功。

对于非结构化数据或半结构化数据,类似的,首先拖入非结构化数据DATAU,然后选择以训练好的模型算子(例如,预设的三元组抽取模型),点击运行预测,待算子运行成功后,选择标识终止算子MDATAU直至运行成功。

步骤4:将本体与数据进行知识映射。

在本场景示例中,首先,可以在全量数据中选择将要使用的数据源作为候选数据源,其次选择即将被映射的本体模型。然后,选择本体模型中的某一实体VERTEX,选择VERTEX对应的数据源MDATAS。最后,对于VERTEX的每一个属性,选择MDATAS的一个字段与之一一映射。以此类推,将所有的实体关系与实体关系数据源文件进行映射。

步骤5:将图结构与数据导入数据库(生成对应的知识图谱,并存入图数据库)。

在本场景实施例中,在生成并存储知识图谱时,还可以填写图谱的一些配置信息,包括但不限于图名称等。再点击图导入一键批量将本体模型及数据导入知识图谱。

步骤6:通过可视化模块对图谱进行可视化展示。

在本场景示例中,用户需要查询图谱数据时,可以填写并发送相应的查询语句,对图谱数据进行查询并对查询结果进行可视化展示。

通过上述场景示例,验证了本说明书实施例所提供的知识图谱的构建方法是一种一站式,较为简便、高效的方法,具有如下优势:一是为使用知识图谱技术进行分析探查的无技术背景的业务人员提供简单高效的图谱构建与可视化展示平台,对于构建的每个环节都提出了易用性优化,解决了图谱有大量可用场景却技术高门槛的劣势;二是综合考虑并总结提取了图谱构建过程中不可或缺的几大方面,组成简单易用低门槛的一站式图谱构建系统,图谱构建各流程参考ETL进行模块拆分,相较业内已有流程,更清晰明了展示图谱构建的各个流程,契合用户思维认知逻辑,为图谱构建工具的打造提供了新思路;三是对于知识抽取模块,提出一种基于DAG的数据处理流程,相较常见的规则模型,更加强大易用。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

相关技术
  • 知识图谱的构建方法、工具、装置和服务器
  • 自然资源知识图谱构建方法、装置、服务器及可读存储器
技术分类

06120113117032