掌桥专利:专业的专利平台
掌桥专利
首页

一种基于特征融合的人员信息的知识图谱构建方法及系统

文献发布时间:2024-04-18 19:58:53


一种基于特征融合的人员信息的知识图谱构建方法及系统

技术领域

本发明属于知识图谱构建技术领域,尤其涉及一种基于特征融合的人员信息的知识图谱构建方法及系统。

背景技术

在公共安全领域应用过程中,如何在冗杂、海量的数据中选择有效信息,并在公共安全领域搭建人员的信息体系,是未来的发展趋势。同时,人员关系挖掘与社会信息综合性评估在公共安全领域也发挥着越来越重要的作用,但目前基于通用社交网络的分析方法无法满足在公共安全领域中的特定研判分析要求与应用,比如,在挖掘高风险人员的用户画像或者对犯罪团伙时不能进行有效的算法分析、建模研判、可视化呈现等。

发明内容

本发明提供一种基于特征融合的人员信息的知识图谱构建方法及系统,用于通过利用多种数据建立人员关系,深入挖掘人员信息,形成人员关系图谱。

第一方面,本发明提供一种基于特征融合的人员信息的知识图谱构建方法,包括:

获取不同来源的历史非结构化数据和历史半结构化数据;

对所述历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据;

对所述历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据;

对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据;

将得到的所述第一关系数据和所述第二关系数据基于不同类别存储至图数据库;

根据所述图数据库中的各个关系数据构建人员信息的知识图谱。

第二方面,本发明提供一种基于特征融合的人员信息的知识图谱构建系统,包括:

获取模块,配置为获取不同来源的历史非结构化数据和历史半结构化数据;

融合模块,配置为对所述历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据;

第一计算模块,配置为对所述历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据;

第二计算模块,配置为对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据;

存储模块,配置为将得到的所述第一关系数据和所述第二关系数据基于不同类别存储至图数据库;

构建模块,配置为根据所述图数据库中的各个关系数据构建人员信息的知识图谱。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的基于特征融合的人员信息的知识图谱构建方法的步骤。

第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行本发明任一实施例的基于特征融合的人员信息的知识图谱构建方法的步骤。

本申请的基于特征融合的人员信息的知识图谱构建方法及系统,具有以下有益效果:

对获取的历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据,对历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据,对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据,根据各个关系数据构建人员信息的知识图谱,知识图谱包括人员多级关系、多人团伙分析、图模式匹配、人员最短路径等,可以实现各种维度的挖掘以及分析,可以在多种场景下应用。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于特征融合的人员信息的知识图谱构建方法的流程图;

图2为本发明一实施例提供的一种基于特征融合的人员信息的知识图谱构建系统的结构框图;

图3是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本申请的一种基于特征融合的人员信息的知识图谱构建方法的流程图。

如图1所示,基于特征融合的人员信息的知识图谱构建方法具体包括以下步骤:

步骤S101,获取不同来源的历史非结构化数据和历史半结构化数据;

步骤S102,对所述历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据。

在本步骤中,在对历史非结构化数据和历史半结构化数据进行数据抽取、实体抽取和关系抽取后,将抽取的特征进行特征融合,得到历史结构化数据。

具体地,对历史半结构化数据进行数据清洗并建立索引,并基于预设的结构化模板将清洗后的历史半结构化数据通过数据映射进行数据抽取;对历史非结构化数据基于预设的人员ID视觉标签进行数据抽取。

基于长短期记忆网络的BiLSTM-CRF模型对历史非结构化数据和历史半结构化数据进行实体抽取。

基于句法分析方法对历史非结构化数据和历史半结构化数据进行关系抽取。

需要说明的是,将抽取的特征进行特征融合,得到历史结构化数据包括:

采集历史非结构化数据中各个文件的预设各项属性信息,以及将历史结构化数据转换为预设数据编码格式;

根据历史非结构化数据中文件的数量N,获取历史结构化数据中与历史非结构化数据中N个文件分别一一对应的N个字段;

将历史非结构化数据中各个文件的预设各项属性信息,分别添加作为历史结构化数据中对应字段的扩展字段,构成历史非结构化数据中对应文件的引用,其中,历史结构数据中具有扩展字段的字段,与对应扩展字段构成复合字段;

分别获得历史结构化数据的长度信息和历史非结构化数据的长度信息,然后将历史结构化数据长度信息、历史非结构化数据长度信息,以及历史结构化数据的预设数据编码格式三者进行组合构成文件头;

将文件头、历史结构化数据和历史非结构化数据依序拼接,构成历史半结构化数据。

步骤S103,对所述历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据。

具体地,对历史数据进行离线计算挖掘关系数据得到第一关系数据包括对日志类信息采用离线计算挖掘关系数据,具体方法包括:

预设信息导出时间和设定导出日志类信息的时间段;

将目标人员与嫌疑人库和案件库进行匹配;

若发现可疑的同行人员,标记同行人员,对可疑人员的过往历史数据进行分析,得到目标人员与同行人员的关系密切程度;

将分析结果存储到图数据库中。

日志类信息根据业务周期采用离线计算方式进行数据处理。例如:出行类数据的处理,每天凌晨会将昨天的全部出行数据加载出来,对目标人员做嫌疑人库匹配以及案件库匹配,发现可疑的同行人员,然后对可疑人员的过往大量历史数据再次分析,得到关系的密切程度,最终将分析结果存储到图数据库中。同理,其他类数据同样指定了一系列的模来对历史数据进行挖掘,将最终有效的信息写入图数据库中。采用离线计算方式计算历史数据可以节省大量的算力。

步骤S104,对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据。

例如:从目标人员基础信息获取目标人员户籍地址,基于户籍住址进行同乡模型匹配,生成同乡关系;将车辆信息与历史发生嫌疑案件的车辆进行比对,将比对成功的车辆信息加入案件关系库;将房产信息与历史发生嫌疑案件的小区进行比对,将比对成功的小区信息加入案件关系库等,将基础信息及分析出的关系数据录入图数据库。在实时计算段可以及时发现异常情况,可以及时将异常情况直接推送到其他终端,及时有效地帮助工作人员获取最新进展。对于关系类信息以及日志类信息的处理方法类似,对关系类信息和日志类信息进行关系挖掘并进行存储。

步骤S105,将得到的所述第一关系数据和所述第二关系数据基于不同类别存储至图数据库。

步骤S106,根据所述图数据库中的各个关系数据构建人员信息的知识图谱。

综上,在本申请的方法中,对获取的历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据,对历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据,对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据,根据各个关系数据构建人员信息的知识图谱,知识图谱包括人员多级关系、多人团伙分析、图模式匹配、人员最短路径等,可以实现各种维度的挖掘以及分析,可以在多种场景下应用。

请参阅图2,其示出了本申请的一种基于特征融合的人员信息的知识图谱构建系统的结构框图。

如图2所示,知识图谱构建系统200,包括获取模块210、融合模块220、第一计算模块230、第二计算模块240、存储模块250以及构建模块260。

其中,获取模块210,配置为获取不同来源的历史非结构化数据和历史半结构化数据;融合模块220,配置为对所述历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据;第一计算模块230,配置为对所述历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据;第二计算模块240,配置为对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据;存储模块250,配置为将得到的所述第一关系数据和所述第二关系数据基于不同类别存储至图数据库;构建模块260,配置为根据所述图数据库中的各个关系数据构建人员信息的知识图谱。

应当理解,图2中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图2中的诸模块,在此不再赘述。

在另一些实施例中,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行上述任意方法实施例中的基于特征融合的人员信息的知识图谱构建方法;

作为一种实施方式,本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令设置为:

获取不同来源的历史非结构化数据和历史半结构化数据;

对所述历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据;

对所述历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据;

对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据;

将得到的所述第一关系数据和所述第二关系数据基于不同类别存储至图数据库;

根据所述图数据库中的各个关系数据构建人员信息的知识图谱。

计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于特征融合的人员信息的知识图谱构建系统的使用所创建的数据等。此外,计算机可读存储介质可以包括高速随机存取存储器,还可以包括存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至基于特征融合的人员信息的知识图谱构建系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图3是本发明实施例提供的电子设备的结构示意图,如图3所示,该设备包括:一个处理器310以及存储器320。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器320为上述的计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于特征融合的人员信息的知识图谱构建方法。输入装置330可接收输入的数字或字符信息,以及产生与基于特征融合的人员信息的知识图谱构建系统的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述电子设备可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

作为一种实施方式,上述电子设备应用于基于特征融合的人员信息的知识图谱构建系统中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

获取不同来源的历史非结构化数据和历史半结构化数据;

对所述历史非结构化数据和历史半结构化数据进行知识抽取,并将抽取的特征进行特征融合,得到历史结构化数据;

对所述历史结构化数据进行离线计算挖掘关系数据,得到第一关系数据;

对获取的实时结构化数据进行实时计算挖掘关系数据得到第二关系数据;

将得到的所述第一关系数据和所述第二关系数据基于不同类别存储至图数据库;

根据所述图数据库中的各个关系数据构建人员信息的知识图谱。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种疾病知识图谱构建方法和平台系统、设备、存储介质
  • 基于人员信息的知识图谱构建方法、系统、设备及介质
  • 一种基于地理知识的安保知识图谱构建与融合方法与系统
技术分类

06120116513381