一种团伙关联数据挖掘方法、装置、设备及存储介质

文献发布时间：2023-06-19 10:02:03

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种团伙关联数据挖掘方法、装置、设备及存储介质。

背景技术

现代电子商务、运输、物流业的发展过程中，产生了大量的、各种形式的实物或者电子化交易平台。而犯罪分子利用这些交换平台从事非法交易，通过相互的复杂交易行为，形成犯罪团伙。与单个罪犯的犯罪行为相比，由于犯罪团伙具有复杂的组织结构，其犯罪行为更为复杂，执法机构对此的调查和打击难度大。因此，快速准确地辨识犯罪团伙成员，挖掘出犯罪团伙，对提高犯罪团伙打击效果来说具有重要意义。

随着信息化建设，执法机构获取到的各类社会数据也日益增多，这些数据为犯罪团伙的挖掘提供了重要支持。但由于犯罪团伙的结构性质，仅靠人工来对大量的社会数据进行分析以挖掘犯罪团伙，实现的难度较大且效率较低，因此，亟需高效准确的大数据分析手段来进行团伙挖掘。

发明内容

有鉴于此，本发明目的在于提供一种基于警务大数据的团伙关联数据挖掘方法、装置、设备和存储介质。

第一方面，本发明提供的一种团伙关联数据挖掘方法，包括：

获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库；

对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集；基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合；根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据；

和/或对所述关联关系数据库中数据进行数据清洗得到第二清洗结果集；基于第二清洗结果集采用社区挖掘算法计算得到团伙关系人集合；根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。

以及还包括根据所述亲密度关系人数据确定当前关注人员的潜在犯罪团伙；或是根据所述团伙关系人数据确定当前关注人员的潜在犯罪团伙；或是根据所述亲密度关系人数据与所述团伙关系人数据的交集或并集确定当前关注人员的潜在犯罪团伙。

上述关联关系数据库包括轨迹数据库、通讯数据库、警情数据库、亲属关系数据库中的至少一种。

优选的，若上述关联关系数据库包括轨迹数据库，所述获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库，具体为：获取轨迹数据，按照第一组关联关系对所述轨迹数据进行整理得到第一组关系结果集，基于所述第一组关系结果集建立轨迹数据库；

优选的，若上述关联关系数据库包括通讯数据库，所述获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库，具体为：获取通讯数据，按照第二组关联关系对所述通讯数据进行整理得到第二组关系结果集，基于所述第二组关系结果集建立通讯数据库；

优选的，若上述关联关系数据库包括警情数据库，所述获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库，具体为：获取警情数据，按照第三组关联关系对所述警情数据进行整理得到第三组关系结果集，基于所述第三组关系结果集建立警情数据库；

优选的，若上述关联关系数据库包括亲属关系数据库，所述获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库，具体为：获取亲属关系数据，按照第四组关联关系对所述亲属关系数据进行整理得到第四组关系结果集，基于所述第四组关系结果集建立亲属关系数据库。

上述第一组关联关系包括同旅馆住宿关系、同网吧上网关系、同交通出行关系；上述第二组关联关系包括微信好友关系、qq好友关系、手机通讯录关系、存在通话记录关系；上述第三组关联关系包括同拘留所关系、同监所关系、同派出所关系、同看守所关系、同案件关系、接处警关系；上述第四组关联关系包括父子关系、父女关系、母子关系、母女关系、甥舅关系、祖孙关系、夫妻关系、离婚关系。

优选的，所述关联关系数据库中的数据采用第一预设数据结构，所述第一预设数据结构的字段包括公民身份信息、关系人身份信息、关系名称和次数；所述对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集具体为：根据所述公民身份信息字段，将数据库中包含同一公民身份信息的所有数据进行合并得到公民及其关系人关系集合，通过将所述公民及其关系人关系集合中所有数据变换为第二预设数据结构以得到第一清洗结果集；所述第二预设数据结构的字段包括公民身份信息、关系人身份信息和关系指标列；所述关系指标列的列数为预设值，所述关系指标列的列值根据关联关系以及所述次数字段确定。

优选的，上述关系指标列的列值根据关联关系以及所述次数字段确定具体为，首先判断是否存在关联关系，若不存在关联关系，则将所述关系指标列的列值赋值为0，若存在关联关系，则进一步判断所述次数字段是否为空，若所述次数字段不为空则将所述关系指标列的列值赋值为所述次数字段对应次数值，若所述次数字段为空则将所述关系指标列的列值赋值为1。所述判断是否存在关联关系具体为，判断所述关系指标列对应的关系名称是否存在于所述公民及其关系人关系集合中，若存在则判断为存在关联关系，否则判断为不存在关联关系。

优选的，上述对所述关联关系数据库中数据进行数据清洗得到第二清洗结果集具体为：先对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集，再对第一清洗结果集中各数据通过仅保留公民身份号码字段及关系人身份号码字段两列数据的方式进行处理得到第二清洗结果集。

优选的，上述方法中所述基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合具体为：对第一清洗结果集中每一个公民身份信息所对应人员，采用变异系数法计算与其相关的所有关系人的亲密度得分，形成采用第三预设数据结构的数据组成的亲密度关系人集合，所述第三预设数据结构的字段包括公民身份信息、关系人身份信息、亲密度得分；所述根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据具体为：首先根据公民身份信息字段从所述亲密度关系人集合中获取与当前关注人员所对应的数据，并将获取的数据按照亲密度得分字段所对应分值从高到低的顺序进行排序，从排序结果中提取关系人身份信息作为亲密度关系人数据。

优选的，上述方法中所述基于第二清洗结果集采用社区发现算法计算得到团伙关系人集合具体为：将根据第二清洗结果集中数据所确定的所有公民及其关系人作为网络中相邻节点，构建社会关系网络图，采用社区发现算法对所述社会关系网络图进行社区划分，将划分得到的每个社区作为一个团伙，每个团伙标识有唯一的社区号，形成采用第四预设数据结构的数据组成的团伙关系人集合，所述第四预设数据结构的字段包括公民身份号码、关系人身份号码、社区号；所述根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据具体为：首先根据公民身份号码字段在团伙关系人集合中查询与当前关注人员的身份号码所对应的社区号，并将查询获得的社区号所对应的所有关系人身份号码作为团伙关系人数据。

优选的，所述社区发现算法采用的是改进的GN算法，所述改进的GN算法的实现包括：

步骤1、利用广度优先遍历法计算社会关系网络图中每个节点为根节点的各个边的边介数；

步骤2、对同一条边的所有边介数的值进行求和计算，根据求合计算结果删除边介数最大的边，社会关系网络图被划分出新的社区；

步骤3、计算并判断模块度是否在预设区间，是则输出社会关系网络图划分得到的社区，否则返回执行步骤1。

第二方面，本发明提供的一种团伙关联数据挖掘装置，包括数据库构建模块、数据清洗模块、第一数据挖掘模块、第二数据挖掘模块；

所述数据库构建模块，用于获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库；

所述数据清洗模块，用于对所述数据库构建模块所构建的关联关系数据库中数据进行数据清洗得到第一清洗结果集；以及用于根据所述第一清洗结果集得到第二清洗结果集；

所述第一数据挖掘模块，用于基于所述数据清洗模块得到的第一清洗结果集采用变异系数法计算得到亲密度关系人集合；以及根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据；

所述第二数据挖掘模块，用于基于所述数据清洗模块得到的第二清洗结果集采用社区发现算法计算得到团伙关系人集合；以及根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。

进一步的，上述装置还包括确定模块，所述确定模块用于根据所述第一数据挖掘模块获得的亲密度关系人数据和/或所述第二数据挖掘模块获得的团伙关系人数据确定当前关注人员的潜在犯罪团伙。

第三方面，本发明提供的一种设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述的团伙关联数据挖掘方法。

第四方面，本发明提供的一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的团伙关联数据挖掘方法。

本发明提供的团伙关联数据挖掘方法、装置、设备及存储介质，具有如下有益效果：

（1）利用警务大数据里的轨迹数据、通讯数据、警情数据、亲属关系数据等进行犯罪团伙关联建立关联关系数据库，充分考虑了人员之间的各种关联关系使标识人员间的犯罪团伙关系的指标更周全，以及充分考虑了特定时间、事件、位置等关键时空节点并加以区分，不易造成犯罪团伙关系的误判和漏判，从而能够更加高效准确地实现团伙挖掘。

（2）利用建立的关联关系数据库，可以较快地进行犯罪团伙挖掘，避免繁琐的信息查询流程，进而简化同伙挖掘流程，提高信息挖掘效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一的一种团伙关联数据挖掘方法流程图；

图2为一种社会关系网络图的示意图；

图3为一种经过并行化改进的GN算法的实现流程图；

图4为本发明实施例二的一种团伙关联数据挖掘装置结构示意图；

图5为本发明实施例三的设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

本实施例提供的一种团伙关联数据挖掘方法，首先根据获取的用于团伙挖掘的业务数据建立关联关系数据库，然后基于该关联关系数据库中的数据通过进行数据清洗，可以挖掘获得与当前关注人员亲密度关系较高的亲密关系人数据，也可以挖掘获得与当前关注人员存在社区团伙关系的团伙关系人数据。

可以理解的是，在实际应用中，可以是仅基于所述亲密关系人数据或是仅基于所述团伙关系人数据确定犯罪团伙，也可以是同时利用所述亲密关系人数据和所述团伙关系人数据确定犯罪团伙。

其中，参照图1所给出的一种团伙关联数据挖掘方法，包括以下步骤：

步骤S11：获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库；

具体的，本实施例中所述用于团伙挖掘的业务数据可以采用警务大数据中的轨迹数据、通讯数据、警情数据、亲属关系数据，基于各类数据按照各自的关联关系进行判定后形成的各类关系数据库建立关联关系数据库。

若所述关联关系数据库包括轨迹数据库，则本步骤具体为：获取轨迹数据，按照第一组关联关系对所述轨迹数据进行整理得到第一组关系结果集，基于所述第一组关系结果集建立轨迹数据库；

若所述关联关系数据库包括通讯数据库，则本步骤具体为：获取通讯数据，按照第二组关联关系对所述通讯数据进行整理得到第二组关系结果集，基于所述第二组关系结果集建立通讯数据库；

若所述关联关系数据库包括警情数据库，则本步骤具体为：获取警情数据，按照第三组关联关系对所述警情数据进行整理得到第三组关系结果集，基于所述第三组关系结果集建立警情数据库；

若所述关联关系数据库包括亲属关系数据库，则本步骤具体为：获取亲属关系数据，按照第四组关联关系对所述亲属关系数据进行整理得到第四组关系结果集，基于所述第四组关系结果集建立亲属关系数据库。

进一步的，所述第一组关联关系包括同旅馆住宿关系、同网吧上网关系、同交通出行关系；所述第二组关联关系包括微信好友关系、qq好友关系、手机通讯录关系、存在通话记录关系；所述第三组关联关系包括同拘留所关系、同监所关系、同派出所关系、同看守所关系、同案件关系、接处警关系；所述第四组关联关系包括父子关系、父女关系、母子关系、母女关系、夫妻关系、离婚关系。

步骤S12：对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集；基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合；根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据；

其中，关联关系数据库中的数据采用的是第一预设数据结构，所述第一预设数据结构的字段包括公民身份信息、关系人身份信息、关系名称和次数。

示例性的，身份信息可以具体划分为身份号码和姓名，一般情况下身份号码采用的是公民身份证号，则第一预设数据结构具体如下：

表中的公民身份号码和公民姓名均理解为公民身份信息字段，关系人身份号码和关系人姓名均理解为关系人身份信息字段。

具体的，对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集具体为：根据所述公民身份信息字段，将数据库中包含同一公民身份信息的所有数据进行合并得到公民及其关系人关系集合，通过将所述公民及其关系人关系集合中所有数据变换为第二预设数据结构以得到第一清洗结果集；

所述第二预设数据结构的字段包括公民身份信息、关系人身份信息和关系指标列；所述关系指标列的列数为预设值，该预设值具体为关联关系判定中所包含的所有关系数，比如上述第一组关联关系、第二组关联关系、第三组关联关系和第四组关联关系中所包含的所有关系总数；所述关系指标列的列值根据关联关系以及所述次数字段确定，首先判断是否存在关联关系，若不存在关联关系，则将所述关系指标列的列值赋值为0，若存在关联关系，则进一步判断次数字段是否为空，若次数字段不为空则将所述关系指标列的列值赋值为所述次数字段对应次数值，若次数字段为空则将所述关系指标列的列值赋值为1。

上述判断是否存在关联关系具体为，判断关系指标列对应的关系名称是否存在于所述公民及其关系人关系集合中，若存在则判断为存在关联关系，否则判断为不存在关联关系。

示例性的，身份信息可以具体划分为身份号码和姓名，如关联关系判定中所包含的所有关系数为n，则第二预设数据结构具体如下：

表中的公民身份号码和公民姓名均理解为公民身份信息字段，关系人身份号码和关系人姓名均理解为关系人身份信息字段，关系指标1至关系指标n均归为关系指标列字段。

例如，以公民张三为例，将数据库中包含的张三的所有数据进行合并，合并后的结果集中的所有关系情况筛选如下：

关系数为23所对应的关系指标列如下（其中省略之处为父子、父女、母女、母子、祖孙、甥舅）：

对上述关系指标列的列值进行统计，若双方不存在关系则将列值赋值为0，若双方存在关系，则有次数项的将次数作为列值，无次数项的将列值赋值为1；结合以上数据，公民张三和关系人李四，同旅馆住宿的列值为2，同铁路出行的列值为4，同民航出行的列值为1，微信好友的列值为1，手机通讯录的列值为1，存在通话记录的列值为54，同入派出所的列值为1，同案件的列值为1，接处警的列值为2，夫妻的列值为1，其他的关系指标列列值均为0。

数据清洗后的结果集如下（其中省略之处是列值为0的qq好友、同监所、同拘留所、同看守以及父子、父女、母女、母子、祖孙、甥舅共9个关系指标列）：

步骤S12中的基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合具体为：对第一清洗结果集中每一个公民身份信息所对应人员，采用变异系数法计算与其相关的所有关系人的亲密度得分，形成采用第三预设数据结构的数据组成的亲密度关系人集合，所述第三预设数据结构的字段包括公民身份信息、关系人身份信息、亲密度得分。

示例性的，第三预设数据结构具体如下：

表中的公民身份号码和公民姓名均理解为公民身份信息字段，关系人身份号码和关系人姓名均理解为关系人身份信息字段。

上述采用变异系数法计算的具体步骤包括：

步骤a：在第一清洗结果集中，提取出与当前公民存在关联关系的所有关系人数据。

以当前公民张三为例，在第一清洗结果集中，将公民身份号码为‘310******’作为过滤条件，提取获得与张三具有关联关系的所有关系人数据。

得到的数据示例如下（关系数共23个，其中省略之处是省略了23个关系指标列中的qq好友、同监所、同拘留所、同看守以及父子、父女、母女、母子、祖孙、甥舅等9个关系指标列）：

步骤b：计算各项关系的平均值

由数据示例可见，第一清洗结果集中每一列关系指标对应一项关系，由此可确定关系数n，第一清洗结果集中每一行对应一个相关关系人的所有数据，由此可确定关系人数。

步骤c：计算各项关系的标准差

步骤d：计算各项关系的变异系数

步骤e：计算各项关系的权重

步骤f：计算关系人的亲密度得分score，计算公式为：

进一步的，步骤S12中的根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据可以具体为：首先根据公民身份信息字段从所述亲密度关系人集合中获取与当前关注人员所对应的数据，并将获取的数据按照亲密度得分字段所对应分值从高到低的顺序进行排序，从排序结果中取排名靠前的一部分关系人身份信息作为亲密度关系人数据。可以理解的是，在获取当前关注人员对应的亲密度关系人数据时，可以根据实际情况进行亲密度关系人数据的提取，例如仅选取排名前5的关系人身份信息作为亲密度关系人数据。

步骤S13：根据所述第一清洗结果集得到第二清洗结果集；基于第二清洗结果集采用社区发现算法计算得到团伙关系人集合；根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。

其中，本实施例所采用的社区发现算法可以是传统的GN算法，GN算法是一个基于删除边的算法，本质是基于聚类中的分裂思想，在原理上是使用边介数作为相似度的度量方法，在GN算法中，每次都会选择边介数高的边删除，进而网络分裂速度远快于随机删除边时的网络分裂。GN 算法的优点是发现社区的准确度高，算法结构简单，鲁棒性强。但是 GN算法仍然存在问题，该算法在发现社区结构时的时间复杂度高，计算效率慢。针对该问题本实施例还可以采用经过并行化改进的 GN 算法，这样可以提高对大数据分析时发现社团的速度，使得在实际应用中能够快速准确的发现社团，确定社团结构。

具体的，本步骤中根据所述第一清洗结果集得到第二清洗结果集具体为：对第一清洗结果集中各数据通过仅保留公民身份号码字段及关系人身份号码字段两列数据的方式进行处理可以得到第二清洗结果集。

示例性的，第一清洗结果集中数据的结构如下：

根据所述第一清洗结果集得到的第二清洗结果集中数据的结构如下：

本步骤的基于第二清洗结果集采用社区发现算法计算得到团伙关系人集合具体为：将根据第二清洗结果集中数据所确定的所有公民及其关系人作为网络中相邻节点，构建社会关系网络图，采用社区发现算法对所述社会关系网络图进行社区划分，将划分得到的每个社区作为一个团伙，每个团伙标识有唯一的社区号，形成采用第四预设数据结构的数据组成的团伙关系人集合，所述第四预设数据结构的字段包括公民身份号码、关系人身份号码、社区号。

示例性的，第四预设数据结构具体如下：

上述社区关系网络图的示意图如图2所示，其中任意相邻两节点V表示公民及其关系人，边E表示关系，箭头所指向的是关系人。

社区发现算法之GN 算法的核心步骤其实就是围绕着网络中所有节点之间的边进行的，而边介数的值的大小直接决定了该边是否会在算法的迭代中删除。经对算法本身的计算模式的深入研究，发现在边介数的计算时对其并行化有利于对算法自身的改进，提高计算效率。

本实施例提出的经过并行化改进的GN算法的实现，如图3所示包括以下步骤：

步骤1、利用广度优先遍历法计算社会关系网络图中每个节点为根节点的各个边的边介数；

步骤2、对同一条边的所有边介数的值进行求和计算，根据求合计算结果删除边介数最大的边，社会关系网络图被划分出新的社区；

步骤3、计算并判断模块度是否在预设区间，是则输出社会关系网络图划分得到的社区，否则返回执行步骤1。

具体的，关于模块度的计算与现有计算中传统的GN算法中模块度计算方式相同，本文不再做详细描述，模块度的预设区间一般取为0.3~0.7。

上述改进的GN算法的具体实现中，采用 Hadoop平台下的 MapReduce（并行计算框架）机制对网络中不同的节点按广度优先遍历法计算边介数的值，Map类将读取的数据按行分成<行号，节点>的形式后，将每行数据传送给 map 函数进行图的广度优先遍历生成最短路径树存储结构queue(queue用于存储所有顶点的最短路径树，为了方便计算每个边的介数)，计算边介数并对每一个边进行赋值操作，经过广度优先遍历和边介数的值的计算后生成<边号，边介数>的键值对类型传递给 reduce类。reduce类接收到 Map类传递的数据后，对同一个边号开始做加法赋值运算并得出网络中每条边的边介数的值后，找出网络中边介数的值最大的边后，将其从原始网络中删除。

以Map类读取100行数据为例，可以将它们按行分割为5个区后存储到 HDFS （分布式文件系统）中，HDFS寻找网络中空闲的Map类机器并把每一行数据传递给一个空闲的Map类机器，当 Map类拿到数据后开始计算以该节点为根节点的广度优先遍历图中的各个边的边介数。Map类以<边号，边介数>键值对的形式交给 Reduce 类做后面的处理，这时 Reduce类只知道每个 Map类中每个边在该节点的广度优先遍历图中的介数值，而不是整个网络中该边的总介数值。经 Reduce类处理时，它会开始统计所有 Map类传递过来的边介数的值，计算出网络中每个边的总的边介数。

步骤S13的根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据具体为：首先根据公民身份号码字段在团伙关系人集合中查询与当前关注人员的身份号码所对应的社区号，并将查询获得的社区号所对应的所有关系人身份号码作为团伙关系人数据。

步骤S14：根据所述亲密度关系人数据和所述团伙关系人数据确定当前关注人员的潜在犯罪团伙。

具体可以是，取所述亲密度关系人数据和所述团伙关系人数据的交集或是并集作为当前关注人员的潜在犯罪团伙。

可以理解的是，本步骤还可以替换为根据所述亲密度关系人数据确定当前关注人员的潜在犯罪团伙，相应的可省略方法流程中的步骤S13；或是本步骤还可以替换为根据所述团伙关系人数据确定当前关注人员的犯罪团伙，相应的方法流程中的步骤S12替换为对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集。

由于本发明的实现所基于的关联关系数据库，充分考虑了人员之间的各种关联关系使标识人员间的犯罪团伙关系的指标更周全，以及充分考虑了特定时间、事件、位置等关键时空节点并加以区分，不易造成犯罪团伙关系的误判和漏判，从而能够更加高效准确地实现团伙挖掘。

为了更好的理解上述步骤S11的关联关系数据库，下面将以一个具体实例来对本实施例中的关联关系数据库的建立进行说明，该实例中关联关系数据库的建立包括利用警务大数据中的轨迹数据、通讯数据、警情数据、亲属关系数据分别建立轨迹数据库、通讯数据库、警情数据库和亲属关系数据库，该实例中，轨迹数据库的建立中使用了铁路数据、大巴数据、民航数据来做同交通出行关系判定，亲属关系数据库的建立中使用了实有人口数据和民政部婚姻数据来做父子、父女、母子、母女、甥舅、祖孙等关系以及夫妻关系和离婚关系判定，其详细介绍具体如下：

步骤1：轨迹数据库建立，具体包括同旅馆住宿关系判定、同铁路出行关系判定、同网吧上网关系判定、同大巴出行关系判定、同民航出行关系判定，以及根据判定得到的各个关系结果集建立轨迹数据库。

（1）同旅馆住宿关系判定

获取旅馆数据，通过大数据关联碰撞，将五分钟内在当天同一旅馆的同一房号入住登记的人员判定有同旅馆住宿关系。

旅馆数据结构包括：

关联关系判定方式为：旅馆编号相同，房间号码相同，入住日期相同，入住登记时间差小于5分钟，公民身份号码不同。

同旅馆住宿关系结果集包括：

（2）同铁路出行关系判定

获取铁路数据，通过大数据关联碰撞，将人员在始发站相同，终点站相同，同发车日期和时间的同一车次的同一车厢号出行次数达两次以上，判定有同铁路出行关系。

铁路数据结构包括：

关联关系判定方式为：始发站相同，终点站相同，车次号相同，车厢号相同，发车日期相同，发车时间相同，同出行次数大于2次，公民身份号码不同。

同铁路出行关系结果集包括：

（3）同网吧上网关系判定

获取网吧上网数据，通过大数据关联碰撞，将在当天同一网吧上网的人员上网登记时间在5分钟间隔内的，判定有同网吧上网关系。

网吧上网数据结构包括：

关联关系判定方式为：网吧编号相同，上网日期相同，上网登记时间差小于5分钟，公民身份号码不同。

同网吧上网关系结果集包括：

（4）同大巴出行关系判定

获取大巴数据，通过大数据关联碰撞，将人员在始发站相同，终点站相同，同发车日期和时间的同一车次的同一车厢号出行次数达两次以上，判定有同铁路出行关系。

大巴数据结构包括：

关联关系判定方式为：始发站相同，终点站相同，车次号相同，车牌号相同，发车日期相同，发车时间相同，同出行次数大于2次，公民身份号码不同。

同大巴出行关系结果集包括：

（5）同民航出行关系判定

获取民航数据，通过大数据关联碰撞，将人员在始发站相同，终点站相同，同发车日期和时间的同一航班号的同一航次出行的次数达两次以上，判定有同民航出行关系。

民航数据结构包括：

关联关系判定方式为：始发站相同，终点站相同，航班号相同，航次号相同，出发日期相同，出发时间相同，同出行次数大于2次，公民身份号码不同。

同民航出行关系结果集包括：

步骤2：通讯数据库建立，具体包括微信好友关系判定、qq好友关系判定、手机通讯录关系判定、存在通话记录关系判定，以及根据判定得到的各个关系结果集建立通讯数据库。

（1）微信好友关系判定

获取蛛网微信数据，通过大数据关联碰撞，将实名登记的互为微信好友的人员判定有微信好友关系。

蛛网微信数据结构包括：

关联关系判定方式为：微信号过滤出实名认证的，微信好友号关联到关系人身份号码。

微信好友关系结果集包括：

（2）qq好友关系判定

获取蛛网qq数据，通过大数据关联碰撞，将实名登记的互为qq好友的人员判定有qq好友关系。

蛛网qq数据结构包括：

关联关系判定方式为：qq号过滤出实名认证的，qq好友号关联到关系人身份号码。

qq好友关系结果集包括：

（3）手机通讯录关系判定

获取蛛网手机通讯录数据，通过大数据关联碰撞，将实名登记的互为手机通讯录的人员判定有手机通讯录关系。

蛛网手机通讯录数据结构包括：

关联关系判定方式为：手机号码过滤出实名认证的，通讯录手机号码关联到关系人身份号码。

手机通讯录关系结果集包括：

（4）存在通话记录关系判定。

获取蛛网通讯记录数据，通过大数据关联碰撞，将实名登记的手机号码的呼叫和接听超过两次以上的人员判定为存在通话记录关系。

蛛网通讯记录数据结构包括：

关联关系判定方式为：呼叫号码过滤出实名认证的，接听号码关联到关系人身份号码，呼叫和接听超过两次。

存在通话记录关系结果集包括：

步骤3：警情数据库建立，具体包括同拘留所关系判定、同监所关系判定、同入派出所关系判定、同看守所关系判定、同案件关系判定、接处警关系判定，以及根据判定得到的各个关系结果集建立警情数据库。

（1）同拘留所关系判定

获取拘留所数据，通过大数据关联碰撞，将在当天同入同一拘留所的登记时间为5分钟内的人员判定有同拘留所关系。

拘留所数据结构包括：

关联关系判定方式为：单位编号相同，入所日期相同，入所登记时间差小于5分钟，公民身份号码不同。

同拘留所关系结果集包括：

（2）同监所关系判定

获取检索数据，通过大数据关联碰撞，将在当天同入同一监所的登记时间为5分钟内的人员判定有同监所关系。

监所数据结构包括：

关联关系判定方式为：单位编号相同，入所日期相同，入所登记时间差小于5分钟，公民身份号码不同。

同监所关系结果集包括：

（3）同入派出所关系判定

获取派出所数据，通过大数据关联碰撞，将在当天同入同一派出所的登记时间为5分钟内的人员判定有同入派出所关系。

派出所数据结构包括：

关联关系判定方式为：单位编号相同，入所日期相同，入所登记时间差小于5分钟，公民身份号码不同。

同入派出所关系结果集包括：

（4）同看守所关系判定

获取看守所数据，通过大数据关联碰撞，将在当天同入同一看守所的登记时间为5分钟内的人员判定有同看守所关系。

看守所数据结构包括：

关联关系判定方式为：单位编号相同，入所日期相同，入所登记时间差小于5分钟，公民身份号码不同。

同看守所关系结果集包括：

（5）同案件关系判定

获取案件数据，通过大数据关联碰撞，将在同一案件编号下的人员判定有同案件关系。

案件数据结构包括：

关联关系判定方式为：案件编号相同，案件登记时间相同，公民身份号码不同。

同案件关系结果集包括：

（6）接处警关系判定

获取接处警数据，通过大数据关联碰撞，将在同一接处警编号下的人员判定有案件关系。

接处警数据结构包括：

关联关系判定方式为：接处警编号相同，接处警登记时间相同，公民身份证号不同。

接处警关系结果集包括：

步骤4：亲属关系数据库建立，具体包括父子、父女、母子、母女、甥舅、祖孙关系判定，夫妻关系、离婚关系判定，以及根据判定得到的各个关系结果集建立亲属关系数据库。

亲属关系可以通过实有人口数据、婚姻数据过滤得到，例如可过滤的亲属关系有父子、父女、母子、母女、甥舅、祖孙关系、夫妻关系、离婚关系。

（1）父子、父女、母子、母女、甥舅、祖孙关系判定

获取实有人口数据，通过大数据过滤筛选，将社会关系名称为父子、父女、母子、母女、甥舅、祖孙的分别判定有父子、父女、母子、母女、甥舅、祖孙关系。

实有人口数据结构包括：

父子关系结果集、父女关系结果集、母子关系结果集、母女关系结果集、甥舅关系结果集、祖孙关系结果集均包括：

(2)夫妻关系、离婚关系判定

由于近年来我国离婚率逐年上升，实有人口数据的更新速度往往慢于民政部婚姻数据，所以夫妻关系的判定存在一定的复杂性，我们的处理办法是以民政部婚姻数据为主，实有人口数据为辅助。

通过大数据过滤筛选，将民政部婚姻数据当前登记时间最近的关系为离婚的判定为离婚关系，依靠离婚关系结果集，通过大数据碰撞，将实有人口数据中关系为夫妻或配偶，且不存在于离婚关系结果集中的判定为夫妻关系。

实有人口数据结构包括：

民政部婚姻数据结构包括：

离婚关系判定方式为：民政部婚姻数据，取登记时间为最近的一条，且婚姻关系为离婚。

离婚关系结果集包括：

夫妻关系判定方式为：将实有人口数据通过大数据筛选，取社会关系名称为夫妻或配偶的数据，通过与离婚关系结果集的数据进行大数据关联碰撞作差集，且男方公民身份号码和女方人员身份号码相同。

夫妻关系结果集包括：

本实施例提供的团伙关联数据挖掘方法，基于建立的关联关系数据库，在进行关联数据挖掘过程中结合了变异系数法和改进了的采用并行策略的社区发现算法，使得本发明可以更加精准和高效地进行犯罪团伙挖掘，避免了繁琐的信息查询流程，提高了信息挖掘效率。

实施例二

在实施例一基础上，本实施例提供一种团伙关联数据挖掘装置，如图4所示，该装置包括：数据库构建模块21、数据清洗模块22、第一数据挖掘模块23、第二数据挖掘模块24，其中：

数据库构建模块21，用于获取用于团伙挖掘的业务数据，基于所述业务数据通过进行关联关系判定建立关联关系数据库。

具体的，本实施例中用于团伙挖掘的业务数据可以采用警务大数据中的轨迹数据、通讯数据、警情数据、亲属关系数据，基于各类数据按照各自的关联关系进行判定后形成的各类关系数据库建立关联关系数据库。

本实施例中，数据库构建模块21所构建的关联关系数据库可以包括轨迹数据库、通讯数据库、警情数据库、亲属关系数据库中的至少一种，实际应用中为了提高数据挖掘准确率，所构建的关联关系数据库优选包含以上各类数据库的全部。

数据清洗模块22，用于对所述数据库构建模块21所构建的关联关系数据库中数据进行数据清洗得到第一清洗结果集；以及用于根据第一清洗结果集得到第二清洗结果集。

其中，关联关系数据库中的数据采用的是第一预设数据结构，所述第一预设数据结构的字段包括公民身份信息、关系人身份信息、关系名称和次数。

进一步的，数据清洗模块22具体包括：

数据合并单元，用于根据公民身份信息字段，将关联关系数据库中包含同一公民身份信息的所有数据进行合并得到公民及其关系人关系集合。

数据结构转换单元，用于将所述数据合并单元得到的公民及其关系人关系集合中所有数据变换为第二预设数据结构以得到第一清洗结果集。

所述第二预设数据结构的字段包括公民身份信息、关系人身份信息和关系指标列；所述关系指标列的列数为预设值，该预设值具体为关联关系判定所包含的所有关系数；所述关系指标列的列值根据关联关系以及所述次数字段确定，首先判断是否存在关联关系，若不存在关联关系，则将所述关系指标列的列值赋值为0，若存在关联关系，则进一步判断次数字段是否为空，若次数字段不为空则将所述关系指标列的列值赋值为所述次数字段对应次数值，若次数字段为空则将所述关系指标列的列值赋值为1。

数据筛选单元，用于对所述数据结构转换单元得到的第一清洗结果集中各数据，通过仅保留用于公民身份号码字段及关系人身份号码字段两列数据的方式进行处理以得到第二清洗结果集。

第一数据挖掘模块23，用于基于所述数据清洗模块22得到的第一清洗结果集采用变异系数法计算得到亲密度关系人集合；以及根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据。

进一步的，第一数据挖掘模块23具体包括：

计算单元，用于对第一清洗结果集中每一个公民身份信息所对应人员，采用变异系数法计算与其相关的所有关系人的亲密度得分，形成采用第三预设数据结构的数据组成的亲密度关系人集合，所述第三预设数据结构的字段包括公民身份信息、关系人身份信息、亲密度得分。

提取单元，用于根据公民身份信息字段从所述计算单元得到的亲密度关系人集合中获取与当前关注人员所对应的数据，并将获取的数据按照亲密度得分字段所对应分值从高到低的顺序进行排序，从排序结果中取排名靠前的一部分关系人身份信息作为亲密度关系人数据。

第二数据挖掘模块24，用于基于所述数据清洗模块22得到的第二清洗结果集采用社区发现算法计算得到团伙关系人集合；以及根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。

进一步的，第二数据挖掘模块24具体包括：

社区划分单元，用于将根据第二清洗结果集中数据所确定的所有公民及其关系人作为网络中相邻节点，构建社会关系网络图，采用社区发现算法对所述社会关系网络图进行社区划分，将划分得到的每个社区作为一个团伙，每个团伙标识有唯一的社区号。

集合形成单元，用于根据所述社区划分单元划分的社区形成采用第四预设数据结构的数据组成的团伙关系人集合，所述第四预设数据结构的字段包括公民身份号码、关系人身份号码、社区号。

查询获取单元，用于根据公民身份号码字段在所述集合形成单元形成的团伙关系人集合中查询与当前关注人员的身份号码所对应的社区号，并将查询获得的社区号所对应的所有关系人身份号码作为团伙关系人数据。

进一步的，本实施例提供的装置还包括确定模块25，具体用于根据所述第一数据挖掘模块23获得的亲密度关系人数据和/或所述第二数据挖掘模块24获得的团伙关系人数据确定当前关注人员的潜在犯罪团伙。

实施例三

参见图5，是本发明实施例三提供的一种设备的结构示意图。

本发明实施例提供的一种设备，包括处理器31、存储器32以及存储在所述存储器中且被配置为由所述处理器31执行的计算机程序，所述处理器31执行所述计算机程序时实现如上任一实施例所述的团伙关联数据挖掘方法。

另外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的团伙关联数据挖掘方法。

所述处理器31执行所述计算机程序时实现上述团伙挖掘方法实施例中的步骤，例如图1所示的团伙关联数据挖掘方法的所有步骤。或者，所述处理器31执行所述计算机程序时实现上述团伙关联数据挖掘装置实施例中各模块/单元的功能，例如图4所示的团伙关联数据挖掘装置的各模块的功能。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨水利;杨贺凯;吴建平;
专利申请人：北京数网信息技术有限公司;