掌桥专利:专业的专利平台
掌桥专利
首页

抽取实体关系图中关键实体的方法、系统和存储介质

文献发布时间:2023-06-19 09:38:30


抽取实体关系图中关键实体的方法、系统和存储介质

技术领域

本发明涉及公共安全技术领域,具体涉及抽取实体关系图中关键实体的方法、系统和存储介质。

背景技术

随着社会的发展,各种各样的通讯方式使人们之间的沟通变得丰富多样,常见的通讯方式包括点对点通讯方式如:电话、短信、QQ、MSN、微信、E-mail等,以及平台式通讯方式如:博客、微博、聊天室、微信聊天群、视频会议等,这些都极大地提高了人们的沟通效率。每个人都可以根据自己的需要在特定时间选择特定的通讯方式与他人进行沟通,而同时这些日新月异的沟通方式也必然会被犯罪分子利用以进行犯罪活动,或者被恐怖分子利用实现彼此间的联络从而进行有组织的恐怖活动。为了及时发现这些犯罪活动的迹象,对各种通讯数据进行分析并构建关系图,进而通过关系图寻找关键人物是公共安全领域常用的手段之一。传统上进行关系分析大部分是通过已知的关联关系实现关系图的绘制,以人工分析为主,如公共安全部门常用的挂图作战的方式。这种方式有很多不足,如人工搜集的数据量较小、数据分析效率较低等,极大地限制了公共安全领域的工作效率。

发明内容

本申请提供一种抽取实体关系图中关键实体的方法、系统和存储介质,以解决人工进行实体关系分析效率低的问题。

根据第一方面,一种实施例中提供一种抽取实体关系图中关键实体的方法,包括:

获取包括实体和指向关系的数据资源;

根据所述数据资源创建实体关系图,所述实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在所述数据资源中出现的次数;

根据所述实体关系图计算各个实体间的状态转移概率;

由所述各个实体间的状态转移概率生成实体状态转移概率矩阵;

根据所述实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;

选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出所述关键实体。

一种实施例中,所述指向关系包括传输类型,不同传输类型的指向关系对应所述实体关系图中不同的边。

一种实施例中,所述根据所述实体关系图计算各个实体间的状态转移概率包括:任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的某一传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值。

一种实施例中,所述根据所述实体关系图计算各个实体间的状态转移概率包括:任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值。

一种实施例中,所述链接分析算法为PageRank算法。

一种实施例中,所述数据资源为一段时间内的wifi传输数据,每条传输数据包括源地址和目的地址,所述源地址和目的地址为MAC地址;所述实体为MAC地址,所述指向关系为由源地址指向目的地址。

根据第二方面,一种实施例中提供一种抽取实体关系图中关键实体的系统,包括:

输入模块,用于获取包括实体和指向关系的数据资源;

实体关系图创建模块,用于根据所述数据资源创建实体关系图,所述实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在所述数据资源中出现的次数;

状态转移概率计算模块,用于根据所述实体关系图计算各个实体间的状态转移概率;

实体状态转移概率矩阵生成模块,用于根据所述各个实体间的状态转移概率生成实体状态转移概率矩阵;

链接分析模块,用于根据所述实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;

输出模块,用于选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出所述关键实体。

根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现上述第一方面所述的方法。

依据上述实施例的抽取实体关系图中关键实体的方法、系统和计算机可读存储介质,能够根据所获取的数据资源生成实体关系图,并使用链接分析算法对实体关系图进行分析从而获得关键实体,不需要人工参与,使数据处理和实体关系分析的效率大大提高。

附图说明

图1为一种实施例中抽取实体关系图中关键实体的方法流程示意图;

图2为一种实施例中所创建的实体关系图;

图3为另一种实施例中抽取实体关系图中关键实体的方法流程示意图;

图4为一种实施例中抽取实体关系图中关键实体的系统结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。

非正常活动成员之间往往采用各种沟通工具进行频繁联系,公共安全部门在跟踪处理时也会利用频繁的沟通信息,对各种可以获取到的沟通数据进行分析,提取出特定的群体。然而传统的分析方式多为人工分析,数据也多为人工搜集,数据量小效率低,因此本发明提供一种可在计算机上执行的抽取实体关系图中关键实体的方法,可根据沟通数据创建实体关系图,并使用链接分析的机器学习算法来寻找实体关系图中与其他实体联系密集的实体,以供公共安全领域人员参考。

请参考图1,如图1所示,本发明一种实施例的抽取实体关系图中关键实体的方法包括步骤S101~S106,下面具体说明。

步骤S101:获取包括实体和指向关系的数据资源。实体可以为微信、QQ等社交软件的用户名,也可以是电话号码,或者电子邮箱地址,或者IP地址、MAC地址等。指向关系指实体间信息传输的方向,例如实体A向实体B发送了一条信息,则指向关系为由实体A指向实体B。根据具体任务的需要,可提取一段时间内的数据资源进行分析,也可提取全量数据进行分析。

一种实施例中,指向关系还包括传输类型,传输类型指实体间通讯的方式,例如实体A通过微信向实体B发送了一条信息,则指向关系为由实体A指向实体B,传输类型为微信。

步骤S102:根据数据资源创建实体关系图。实体关系图为一有向加权图,其每个节点对应数据资源中的一个实体,每条边对应数据资源中的一个指向关系,边的权值为其所对应的指向关系在数据资源中出现的次数。当指向关系包括传输类型时,不同传输类型的指向关系对应实体关系图中不同的边。

请参考图2,图2示出了实体关系图的一个例子。图中节点A、B、C、D、E、F代表实体,指向关系包括QQ、微信和E-mail三种传输类型,与标号为①的曲线类型相同的边代表传输类型为QQ的指向关系,与标号为②的曲线类型相同的边代表传输类型为微信的指向关系,与标号为③的曲线类型相同的边代表传输类型为E-mail的指向关系,括号内的数字代表边的权值,即消息传输的次数。以实体A为例,图中实体A以QQ的方式向实体B发送了128次信息,以微信的方式向实体B发送了22次信息,以E-mail的方式向实体B发送了5次信息;以微信的方式向实体E发送了15次信息;以QQ的方式向实体D发送了5次信息,以E-mail的方式向实体D发送了12次信息;并接收实体E以QQ方式发送的5次信息。

步骤S103:根据实体关系图计算各个实体间的状态转移概率。实体间的转移概率可以有两种计算方式,下面具体说明。

以单一传输类型计算:只选择实体关系图中某一传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的该传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值。以图2为例,选择传输类型QQ来计算状态转移概率。图中实体A指向实体B的传输类型为QQ的边的权值为128,而以实体A为起点的所有传输类型为QQ的边一共有两条,一条指向实体B,权值为128,一条指向实体D,权值为5,它们的和为133,则实体A向实体B的状态转移概率为128/133=0.962,实体A向实体D的状态转移概率为5/133=0.038。

以多种传输类型计算:选择实体关系图中两种及两种以上的传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值。以图2为例,选择所有三种传输类型来计算状态转移概率。图中实体A指向实体B的三种传输类型的边的权值之和为128+22+5=155,而以实体A为起点的所有这三种传输类型的边的权值之和为128+22+5+12+5+15=187,则实体A向实体B的状态转移概率为155/187=0.828;同理可求得实体A向实体D的状态转移概率为(12+5)/187=0.091;实体A向实体E的状态转移概率为15/187=0.081。当存在多种传输类型时,以多种传输类型计算状态转移概率,可以充分利用多维数据信息,提高预测的准确性。

步骤S104:由各个实体间的状态转移概率生成状态转移概率矩阵M,M的行代表指向关系中的起点实体,列代表终点实体,且同一实体在矩阵M的行和列中位置相同,M的第i行第j列的元素为第i个实体向第j个实体的状态转移概率,其中i和j均为不大于实体个数的正整数。矩阵M每一行的元素之和为1,即

其中i表示列数,j表示行数。以图2为例,由上述以多种传输类型计算的状态转移概率生成的状态转移概率矩阵的结构为:

步骤S105:根据状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率。链接分析算法源于分析网页的重要程度,其原理为,如果有越多的网页能够链接到一个网页,则这个网页被浏览的概率就越高,越有可能是重要的网页,这与实体关系图中关键实体的分析类似。本发明中,使用链接分析算法来计算实体关系图中节点的重要程度,从而寻找出关键实体。

一种实施例中,可以使用链接分析算法中的PageRank算法来计算实体重要程度。PageRank算法的原理为:对于一强连通且非周期性的有向图,其节点间的状态转移概率矩阵为m,初始化各个节点的概率分布R

步骤S106:选择收敛概率最大的前预定数目个实体作为关键实体。对步骤S105中得到的各个实体的收敛概率进行排序,选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出这些关键实体,以供分析人员参考。

下面通过一个具体的例子,介绍本发明的抽取实体关系图中关键实体的方法在wifi传输数据中的应用。请参考图3,如图3所示,从wifi传输数据中抽取关键实体的方法包括步骤S301~S306,下面具体说明。

步骤S301:获取wifi传输数据。wifi传输数据可通过wifi信号采集硬件设备获取,本实施例以一天的wifi传输数据为例进行分析,一天所获取的wifi传输数据大约为100万条,每条传输数据包括源地址和目的地址,源地址和目的地址为MAC地址,则实体为MAC地址,指向关系为由源地址指向目的地址。

步骤S302:根据wifi传输数据创建MAC地址关系图。

步骤S303:根据MAC地址关系图计算各个MAC地址间的状态转移概率。这里的传输类型可视为只有wifi传输一种,因此可以单一传输类型计算状态转移概率。

步骤S304:由各个MAC地址间的状态转移概率生成状态转移概率矩阵M。

步骤S305:根据状态转移概率矩阵,使用PageRank算法计算各个MAC地址的收敛概率。

步骤S306:选择收敛概率最大的前预定数目个MAC地址作为关键MAC地址。对步骤S305中得到的各个MAC地址的收敛概率进行排序,选择收敛概率最大的前预定数目个MAC地址作为关键MAC地址,并按收敛概率由大到小的顺序输出这些关键MAC地址,以供分析人员参考。

通过分析发现,根据本实施例提取出的关键MAC地址可获得多种有效信息,对于大数据量的快速分析以及获取有用信息起到了重要作用。

本发明还提供一种抽取实体关系图中关键实体的系统,请参考图4,如图4所示,本发明一种实施例的抽取实体关系图中关键实体的系统包括输入模块1、实体关系图创建模块2、状态转移概率计算模块3、实体状态转移概率矩阵生成模块4、链接分析模块5和输出模块6,下面具体说明。

输入模块1用于获取包括实体和指向关系的数据资源。实体可以为微信、QQ等社交软件的用户名,也可以是电话号码,或者电子邮箱地址,或者IP地址、MAC地址等。指向关系指实体间信息传输的方向,例如实体A向实体B发送了一条信息,则指向关系为由实体A指向实体B。根据具体任务的需要,可提取一段时间内的数据资源进行分析,也可提取全量数据进行分析。

一种实施例中,指向关系还包括传输类型,传输类型指实体间通讯的方式,例如实体A通过微信向实体B发送了一条信息,则指向关系为由实体A指向实体B,传输类型为微信。

实体关系图创建模块2用于根据数据资源创建实体关系图,实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在数据资源中出现的次数。当指向关系包括传输类型时,不同传输类型的指向关系对应实体关系图中不同的边。

请参考图2,图2示出了实体关系图的一个例子。图中节点A、B、C、D、E、F代表实体,指向关系包括QQ、微信和E-mail三种传输类型,与标号为①的曲线类型相同的边代表传输类型为QQ的指向关系,与标号为②的曲线类型相同的边代表传输类型为微信的指向关系,与标号为③的曲线类型相同的边代表传输类型为E-mail的指向关系,括号内的数字代表边的权值,即消息传输的次数。以实体A为例,图中实体A以QQ的方式向实体B发送了128次信息,以微信的方式向实体B发送了22次信息,以E-mail的方式向实体B发送了5次信息;以微信的方式向实体E发送了15次信息;以QQ的方式向实体D发送了5次信息,以E-mail的方式向实体D发送了12次信息;并接收实体E以QQ方式发送的5次信息。

状态转移概率计算模块3用于根据实体关系图计算各个实体间的状态转移概率。实体间的转移概率可以有两种计算方式,下面具体说明。

以单一传输类型计算:只选择实体关系图中某一传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的该传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值。以图2为例,选择传输类型QQ来计算状态转移概率。图中实体A指向实体B的传输类型为QQ的边的权值为128,而以实体A为起点的所有传输类型为QQ的边一共有两条,一条指向实体B,权值为128,一条指向实体D,权值为5,它们的和为133,则实体A向实体B的状态转移概率为128/133=0.962,实体A向实体D的状态转移概率为5/133=0.038。

以多种传输类型计算:选择实体关系图中两种及两种以上的传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值。以图2为例,选择所有三种传输类型来计算状态转移概率。图中实体A指向实体B的三种传输类型的边的权值之和为128+22+5=155,而以实体A为起点的所有这三种传输类型的边的权值之和为128+22+5+12+5+15=187,则实体A向实体B的状态转移概率为155/187=0.828;同理可求得实体A向实体D的状态转移概率为(12+5)/187=0.091;实体A向实体E的状态转移概率为15/187=0.081。当存在多种传输类型时,以多种传输类型计算状态转移概率,可以充分利用多维数据信息,提高预测的准确性。

实体状态转移概率矩阵生成模块4用于根据各个实体间的状态转移概率生成实体状态转移概率矩阵M,M的行代表指向关系中的起点实体,列代表终点实体,且同一实体在矩阵M的行和列中位置相同,M的第i行第j列的元素为第i个实体向第j个实体的状态转移概率,其中i和j均为不大于实体个数的正整数。矩阵M每一行的元素之和为1,即

其中i表示列数,j表示行数。以图2为例,由上述以多种传输类型计算的状态转移概率生成的状态转移概率矩阵的结构为:

链接分析模块5用于根据实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率。链接分析算法源于分析网页的重要程度,其原理为,如果有越多的网页能够链接到一个网页,则这个网页被浏览的概率就越高,越有可能是重要的网页,这与实体关系图中关键实体的分析类似。本实施例中,使用链接分析算法来计算实体关系图中节点的重要程度,从而寻找出关键实体。

一种实施例中,链接分析模块5使用链接分析算法中的PageRank算法来计算实体重要程度。PageRank算法的原理为:对于一强连通且非周期性的有向图,其节点间的状态转移概率矩阵为m,初始化各个节点的概率分布R

输出模块6用于选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出这些关键实体。对链接分析模块5得到的各个实体的收敛概率进行排序,选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出这些关键实体,以供分析人员参考。

依据上述实施例的抽取实体关系图中关键实体的方法和系统,可以通过获取海量数据资源生成实体关系图,并使用链接分析算法对实体关系图进行分析从而获得关键实体,不需要人工参与,即使实体关系图的规模随时间不断增长也能够应对,克服了人工分析对于实体关系图规模的限制,使数据处理和实体关系分析的效率大大提高。

本文参照了各种示范实施例进行说明。然而,本领域的技术人员将认识到,在不脱离本文范围的情况下,可以对示范性实施例做出改变和修正。例如,各种操作步骤以及用于执行操作步骤的组件,可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外,如本领域技术人员所理解的,本文的原理可以反映在计算机可读存储介质上的计算机程序产品中,该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

虽然在各种实施例中已经示出了本文的原理,但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。

前述具体说明已参照各种实施例进行了描述。然而,本领域技术人员将认识到,可以在不脱离本披露的范围的情况下进行各种修正和改变。因此,对于本披露的考虑将是说明性的而非限制性的意义上的,并且所有这些修改都将被包含在其范围内。同样,有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而,益处、优点、问题的解决方案以及任何能产生这些的要素,或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体,皆属于非排他性包含,这样包括要素列表的过程、方法、文章或设备不仅包括这些要素,还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外,本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。

具有本领域技术的人将认识到,在不脱离本发明的基本原理的情况下,可以对上述实施例的细节进行许多改变。因此,本发明的范围应仅由权利要求确定。

相关技术
  • 抽取实体关系图中关键实体的方法、系统和存储介质
  • 实体关系抽取的方法、系统、电子装置和存储介质
技术分类

06120112240814