掌桥专利:专业的专利平台
掌桥专利
首页

一机多号识别方法、装置、设备及介质

文献发布时间:2024-04-18 20:00:50


一机多号识别方法、装置、设备及介质

技术领域

本申请属于通信技术领域,尤其涉及一种一机多号识别方法、装置、设备及介质。

背景技术

国际移动用户识别码(IMSI,International Mobile Subscriber Identity),是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。相关技术中,为了满足用户在日常生活中的通讯需求,一个用户可以具有多个号码,也即一机多号,而在人口统计等场景下,能够识别一机多号是尤为重要的。

基于此,如何准确识别出一机多号,成为当前亟需解决的问题。

发明内容

本申请实施例的目的是提供一种一机多号识别方法及其装置,能够准确识别出一机多号。

第一方面,本申请实施例提供一种一机多号识别方法,该方法包括:获取待识别区域内M个IMSI的轨迹信令数据,M为正整数;基于M个IMSI的轨迹信令数据,将M个IMSI划分至N个分组,其中,N为正整数,每个分组中包括两个IMSI,分组中的两个IMSI在预设时间段内的轨迹信令数据对应相同网格区间;对于同一分组,基于每个IMSI的轨迹信令数据,构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵;基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度;获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值;在两个IMSI的轨迹相似度大于第一相似度阈值的情况下,识别分组中的两个IMSI属于同一用户。

在第一方面的一些可实现方式中,预设时间段包括预设工作时间段和预设休息时间段,基于M个IMSI的轨迹信令数据,将M个IMSI划分至N个分组,包括:将待识别区域划分为多个网格区间;基于每个IMSI的轨迹信令数据,确定每个IMSI对应的第一网格标识和第二网格标识,其中,第一网格标识为IMSI在预设工作时间段内的轨迹信令数据对应网格区间的标识,第二网格标识为IMSI在预设休息时间段内的轨迹信令数据对应网格区间的标识;将第一网格标识和第二网格标识均相同的一对IMSI划分至同一分组,得到N个分组。

在第一方面的一些可实现方式中,轨迹信令数据对应第一时间段,第一时间粒度与第一空间粒度相对应,基于每个IMSI的轨迹信令数据,构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,包括:按照第一空间粒度对待识别区域进行切片,得到n1个网格切片,n1为正整数;获取与第一空间粒度匹配的第一时间粒度;按照第一时间粒度对第一时间段进行切片,得到n2个时间切片,n2为正整数;基于n1个网格切片、n2个时间切片和IMSI的轨迹信令数据进行时空编码,得到IMSI的时空二维矩阵。

在第一方面的一些可实现方式中,在按照第一空间粒度对待识别区域进行切片之前,方法还包括:获取IMSI的轨迹信令数据所涉及的空间范围;获取与空间范围匹配的空间粒度,得到IMSI对应的第一空间粒度。

在第一方面的一些可实现方式中,基于n1个网格切片、n2个时间切片和轨迹信令数据进行时空编码,得到时空二维矩阵,包括:对于n2个时间切片中的每个时间切片,基于IMSI的轨迹信令数据,从n1个网格切片中筛选时间切片关联的P个目标网格切片,其中,目标网格切片为IMSI的轨迹信令数据在时间切片所属的网格切片;将时间切片关联的P个目标网格切片对应的矩阵值设置为1,将时间切片未关联的n1-P个网格切片对应的矩阵值设置为零,得到时间切片对应的n1个矩阵值;组合n2个时间切片对应的n1*n2个矩阵值,得到IMSI在n1个网格切片和n2个时间切片下的时空二维矩阵。

在第一方面的一些可实现方式中,时间切片包括n2个,基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度,包括:基于两个IMSI的时空二维矩阵,计算两个IMSI在每个时间切片上的轨迹相似度;基于两个IMSI在n2个时间切片上的n2个轨迹相似度,计算两个IMSI的轨迹相似度。

在第一方面的一些可实现方式中,在获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值之前,方法还包括:获取多个用户的正样本数据集,其中,正样本数据集包括属于同一用户的多个IMSI的轨迹信令数据;基于每个IMSI的轨迹信令数据,确定每个IMSI在多个时空粒度组合下的多个时空二维矩阵,时空粒度组合包括时间粒度及其对应的空间粒度;对于同一用户,确定每两个IMSI在同一时空粒度组合下的两个时空二维矩阵的轨迹相似度,得到同一用户在同一时空粒度组合下的至少一个轨迹相似度;基于多个用户在同一时空粒度组合下对应的多个轨迹相似度,确定同一时空粒度组合下的相似度阈值;获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值,包括:确定第一时间粒度和第一空间粒度所在的时空粒度组合,以及所在的时空粒度组合下的相似度阈值为第一相似度阈值。

第二方面,本申请实施例提供一种一机多号识别装置,该装置包括:获取模块,用于获取待识别区域内M个用户识别码IMSI的轨迹信令数据;划分模块,用于基于M个IMSI的轨迹信令数据,将M个IMSI划分至N个分组,其中,每个分组中包括两个IMSI,分组中的两个IMSI在预设时间段内的轨迹信令数据对应相同网格区间;构建模块,用于对于同一分组,基于每个IMSI的轨迹信令数据,构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵;确定模块,用于基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度;获取模块,用于获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值;识别模块,用于在两个IMSI的轨迹相似度大于第一相似度阈值的情况下,识别分组中的两个IMSI属于同一用户。

在第二方面的一些可实现方式中,预设时间段包括预设工作时间段和预设休息时间段,划分模块包括:划分单元,用于将待识别区域划分为多个网格区间;确定单元,用于基于每个IMSI的轨迹信令数据,确定每个IMSI对应的第一网格标识和第二网格标识,其中,第一网格标识为IMSI在预设工作时间段内的轨迹信令数据对应网格区间的标识,第二网格标识为IMSI在预设休息时间段内的轨迹信令数据对应网格区间的标识;划分单元,用于将第一网格标识和第二网格标识均相同的一对IMSI划分至同一分组,得到N个分组。

在第二方面的一些可实现方式中,轨迹信令数据对应第一时间段,第一时间粒度与第一空间粒度相对应,构建模块包括:切片子模块,用于按照第一空间粒度对待识别区域进行切片,得到n1个网格切片;获取子模块,用于获取与第一空间粒度匹配的第一时间粒度;切片子模块,还用于按照第一时间粒度对第一时间段进行切片,得到n2个时间切片;编码子模块,用于基于n1个网格切片、n2个时间切片和IMSI的轨迹信令数据进行时空编码,得到IMSI的时空二维矩阵。

在第二方面的一些可实现方式中,装置还包括:获取模块,还用于在按照第一空间粒度对待识别区域进行切片之前,获取IMSI的轨迹信令数据所涉及的空间范围;获取模块,还用于获取与空间范围匹配的空间粒度,得到IMSI对应的第一空间粒度。

在第二方面的一些可实现方式中,编码子模块包括:筛选单元,用于对于n2个时间切片中的每个时间切片,基于IMSI的轨迹信令数据,从n1个网格切片中筛选时间切片关联的P个目标网格切片,其中,目标网格切片为IMSI的轨迹信令数据在时间切片所属的网格切片;编码单元,用于将时间切片关联的P个目标网格切片对应的矩阵值设置为1,将时间切片未关联的n1-P个网格切片对应的矩阵值设置为零,得到时间切片对应的n1个矩阵值;构建单元,用于组合n2个时间切片对应的n1*n2个矩阵值,得到IMSI在n1个网格切片和n2个时间切片下的时空二维矩阵。

在第二方面的一些可实现方式中,时间切片包括n2个,确定模块包括:计算单元,用于基于两个IMSI的时空二维矩阵,计算两个IMSI在每个时间切片上的轨迹相似度;计算单元,还用于基于两个IMSI在n2个时间切片上的n2个轨迹相似度,计算两个IMSI的轨迹相似度。

在第二方面的一些可实现方式中,装置还包括:获取模块,用于在获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值之前,获取多个用户的正样本数据集,其中,正样本数据集包括属于同一用户的多个IMSI的轨迹信令数据;确定模块,用于基于每个IMSI的轨迹信令数据,确定每个IMSI在多个时空粒度组合下的多个时空二维矩阵,时空粒度组合包括时间粒度及其对应的空间粒度;确定模块,还用于对于同一用户,确定每两个IMSI在同一时空粒度组合下的两个时空二维矩阵的轨迹相似度,得到同一用户在同一时空粒度组合下的至少一个轨迹相似度;确定模块,还用于基于多个用户在同一时空粒度组合下对应的多个轨迹相似度,确定同一时空粒度组合下的相似度阈值;获取模块具体用于:确定第一时间粒度和第一空间粒度所在的时空粒度组合,以及所在的时空粒度组合下的相似度阈值为第一相似度阈值。

第三方面,本申请实施例提供一种电子设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面的一机多号识别方法的步骤。

第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的一机多号识别方法的步骤。

第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品被存储在非易失的存储介质中,所述计算机程序产品被至少一个处理器执行以实现如第一方面的一机多号识别方法的步骤。

第六方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的一机多号识别方法的步骤。

本申请提供一种一机多号识别方法、装置、设备及介质,在需要对待识别区域内存在的M个IMSI进行一机多号识别的场景下,获取M个IMSI的轨迹信令数据,并基于M个IMSI的轨迹信令数据,将在预设时间段内的轨迹信令数据对应相同网格区间的两个IMSI划分至同一分组,如此,可以初步筛选出可能属于同一用户的IMSI对。在此基础上,对于同一分组,基于每个IMSI的轨迹信令数据,可以构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵。由于同一分组的两个时空二维矩阵均是相同时间粒度和相同空间粒度下的,因此能够表征两个IMSI在相同维度下的轨迹情况。因此,基于两个IMSI的时空二维矩阵,可以结合两个IMSI在相同维度下的轨迹情况,准确确定出两个IMSI的轨迹相似度。基于此,获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值,该第一相似度阈值能够更好地反映属于同一用户的两个IMSI在第一时间粒度和第一空间粒度下的相似度,因此结合该第一相似度阈值对上述两个IMSI的时空二维矩阵进行一机多号判定,能够提升判定的准确性,进而提升一机多号识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍。

图1是本申请一实施例提供的一机多号识别方法的流程示意图;

图2是本申请另一实施例提供的一机多号识别方法的流程示意图;

图3是本申请再一实施例提供的一机多号识别方法的流程示意图;

图4是本申请再一实施例提供的一机多号识别方法的流程示意图;

图5是本申请一实施例提供的时空二维矩阵的示例性示意图;

图6是本申请再一实施例提供的一机多号识别方法的流程示意图;

图7是本申请实施例提供的一种一机多号识别装置的结构示意图;

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

国际移动用户识别码(IMSI,International Mobile Subscriber Identity),是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。相关技术中,为了满足用户在日常生活中的通讯需求,一个用户可以具有多个号码,也即一机多号,而在人口统计等场景下,能够识别一机多号是尤为重要的。

基于此,如何准确识别出一机多号,成为当前亟需解决的问题。

针对相关技术中出现的问题,本申请实施例提供了一种一机多号识别方法、装置、设备及介质,在需要对待识别区域内存在的M个IMSI进行一机多号识别的场景下,获取M个IMSI的轨迹信令数据,并基于M个IMSI的轨迹信令数据,将在预设时间段内的轨迹信令数据对应相同网格区间的两个IMSI划分至同一分组,如此,可以初步筛选出可能属于同一用户的IMSI对。在此基础上,对于同一分组,基于每个IMSI的轨迹信令数据,可以构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵。由于同一分组的两个时空二维矩阵均是相同时间粒度和相同空间粒度下的,因此能够表征两个IMSI在相同维度下的轨迹情况。因此,基于两个IMSI的时空二维矩阵,可以结合两个IMSI在相同维度下的轨迹情况,准确确定出两个IMSI的轨迹相似度。基于此,获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值,该第一相似度阈值能够更好地反映属于同一用户的两个IMSI在第一时间粒度和第一空间粒度下的相似度,因此结合该第一相似度阈值对上述两个IMSI的时空二维矩阵进行一机多号判定,能够提升判定的准确性,进而提升一机多号识别结果的准确性。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一机多号识别方法进行详细地说明。

图1是本申请一实施例提供的一机多号识别方法的流程示意图,该一机多号识别方法的执行主体可以为电子设备,该一机多号识别方法可以应用于人口统计等需要对同一用户下的所有号码进行识别的场景,该人口统计场景例如可以是常住人口、工作人口、旅游人口等口径的人口统计。

下面以一机多号识别方法的执行主体为电子设备为例,说明本申请的一机多号识别方法。需要说明的是,上述执行主体和应用场景并不构成对本申请的限定。

如图1所示,本申请实施例提供的一机多号识别方法可以包括步骤110-步骤160。

步骤110,获取待识别区域内M个IMSI的轨迹信令数据;

步骤120,基于M个IMSI的轨迹信令数据,将M个IMSI划分至N个分组,其中,每个分组中包括两个IMSI,分组中的两个IMSI在预设时间段内的轨迹信令数据对应相同网格区间;

步骤130,对于同一分组,基于每个IMSI的轨迹信令数据,构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵;

步骤140,基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度;

步骤150,获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值;

步骤160,在两个IMSI的轨迹相似度大于第一相似度阈值的情况下,识别分组中的两个IMSI属于同一用户。

本申请实施例的一机多号识别方法,在需要对待识别区域内存在的M个IMSI进行一机多号识别的场景下,获取M个IMSI的轨迹信令数据,并基于M个IMSI的轨迹信令数据,将在预设时间段内的轨迹信令数据对应相同网格区间的两个IMSI划分至同一分组,如此,可以初步筛选出可能属于同一用户的IMSI对。在此基础上,对于同一分组,基于每个IMSI的轨迹信令数据,可以构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵。由于同一分组的两个时空二维矩阵均是相同时间粒度和相同空间粒度下的,因此能够表征两个IMSI在相同维度下的轨迹情况。因此,基于两个IMSI的时空二维矩阵,可以结合两个IMSI在相同维度下的轨迹情况,准确确定出两个IMSI的轨迹相似度。基于此,获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值,该第一相似度阈值能够更好地反映属于同一用户的两个IMSI在第一时间粒度和第一空间粒度下的相似度,因此结合该第一相似度阈值对上述两个IMSI的时空二维矩阵进行一机多号判定,能够提升判定的准确性,进而提升一机多号识别结果的准确性。

下面结合具体的实施例,详细介绍上述步骤的具体实现方式。

涉及步骤110,获取待识别区域内M个IMSI的轨迹信令数据。

在步骤110中,待识别区域为某个城市、某个区或者某个村镇等,M为正整数,IMSI的轨迹信令数据可以包括IMSI与基站连接进行信息交换所产生的数据,例如基站的坐标数据、IMSI与基站之间的连接时间数据等。

在本申请的一些实施例中,在步骤110之后,该方法还可以包括:剔除轨迹信令数据中的物联网卡数据。

在本申请实施例中,由于物联网卡为设备,不是自然人,物联网卡产生的数据会影响计算的准确性,因此通过剔除,可以在后续利用轨迹信令数据时提升计算的准确性,进而提升一机多号识别的准确性。

涉及步骤120,基于M个IMSI的轨迹信令数据,将M个IMSI划分至N个分组。

在步骤120中,当两个IMSI在预设时间段内的轨迹信令数据对应相同网格区间时,说明在预设时间段内,两个IMSI与位于同一网格区间内的基站进行信息交互,由此可以判定两个IMSI在预设时间段内所处的地理位置均为同一网格区间,初步判定两个IMSI属于同一用户。

预设时间段可以包括预设工作时间段和预设休息时间段,该预设工作时间段可以为工作日的工作时间段,预设休息时间段可以包括非工作日以及工作日的非工作时间段。

在本申请的一些实施例中,预设时间段包括预设工作时间段和预设休息时间段,图2是本申请另一实施例提供的一机多号识别方法的流程示意图,上述步骤120可以包括图2所示的步骤210-步骤230。

步骤210,将待识别区域划分为多个网格区间;

步骤220,基于每个IMSI的轨迹信令数据,确定每个IMSI对应的第一网格标识和第二网格标识;

步骤230,将第一网格标识和第二网格标识均相同的一对IMSI划分至同一分组,得到N个分组。

具体地,第一网格标识为IMSI在预设工作时间段内的轨迹信令数据对应网格区间的标识,第二网格标识为IMSI在预设休息时间段内的轨迹信令数据对应网格区间的标识。

在步骤210中,可以基于待识别区域的边界(Area of Interest,AOI)信息,对待识别区域进行网格化处理,此处可根据待识别区域的类型选择对应的网格边长,例如待识别区域是市区,则网格区间的网格边长可以为200m,也可以选择边长为5km、2km、1km、500m、200m等多种规格的网格区间。

在本申请的一些实施例中,在步骤220之前,该方法还可以包括:对每个基站,基于基站的坐标数据将其归至相应的网格区间;步骤220可以具体包括:从每个IMSI的轨迹信令数据中,确定在预设工作时间段内与IMSI进行信息交互的基站所在的所有网格区间中,IMSI的停留时长最长的第一网格区间;从每个IMSI的轨迹信令数据中,确定在预设休息时间段内与IMSI进行信息交互的基站所在的所有网格区间中,IMSI的停留时长最长的第二网格区间;获取第一网格区间的标识,得到第一网格标识;获取第二网格区间的标识,得到第二网格标识。

示例性地,IMSI A对应的第一网格标识为grid_1,第二网格标识为grid_2;IMSI B对应的第一网格标识为grid_1,第二网格标识为grid_2;IMSI C对应的第一网格标识为grid_3,第二网格标识为grid_4;IMSID对应的第一网格标识为grid_3,第二网格标识为grid_4;IMSI E对应的第一网格标识为grid_3,第二网格标识为grid_4。则依据上述分组规则,可以将{IMSI A、IMSI B}划分为同一分组,IMSI C、IMSID、IMSI E划分为同一组,由于同一分组仅有两个IMSI,因此将IMSI C、IMSID、IMSI E具体划分为{IMSI C、IMSID}、{IMSI C、IMSI E}、{IMSID、IMSI E}三个分组。

在本申请实施例中,第一网格标识为IMSI在预设工作时间段内停留时间最久的网格区间的标识,第二网格标识为IMSI在预设休息时间段内停留时间最久的网格区间的标识,因此若第一网格标识和第二网格标识一致,则可以说明两个IMSI上班和休息时所在的网格区间相同,即同职同住,从而可以将两个IMSI分组归类至同一分组,实现待识别区域内所有IMSI的初步分类。如此,在识别出同职同住的IMSI并将其归类后,仅需计算同一分组内两个IMSI的轨迹相似度即可,无需计算所有IMSI的轨迹相似度,以此来降低计算量,提升一机多号识别效率。

涉及步骤130,对于同一分组,基于每个IMSI的轨迹信令数据,构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵。

在步骤130中,第一时间粒度和第一空间粒度可以为预先设置的,或者从多个时间粒度和多个空间粒度中选取的,对于同一分组内的两个IMSI,构建其在相同时间粒度和相同空间粒度下的时空二维矩阵。

在本申请的一些实施例中,轨迹信令数据对应第一时间段,第一时间粒度与第一空间粒度相对应,上述步骤130可以具体包括:

按照第一时间粒度对第一时间段进行切片,得到n2个时间切片;

获取与第一时间粒度匹配的第一空间粒度;

按照第一空间粒度对待识别区域进行切片,得到n1个网格切片;

基于n1个网格切片、n2个时间切片和IMSI的轨迹信令数据进行时空编码,得到IMSI的时空二维矩阵。

其中,n1、n2均为正整数。

在本申请的另一些实施例中,轨迹信令数据对应第一时间段,第一时间粒度与第一空间粒度相对应,图3是本申请再一实施例提供的一机多号识别方法的流程示意图,上述步骤130可以包括图3所示的步骤310-步骤340。

步骤310,按照第一空间粒度对待识别区域进行切片,得到n1个网格切片;

步骤320,获取与第一空间粒度匹配的第一时间粒度;

步骤330,按照第一时间粒度对第一时间段进行切片,得到n2个时间切片;

步骤340,基于n1个网格切片、n2个时间切片和IMSI的轨迹信令数据进行时空编码,得到IMSI的时空二维矩阵。

具体地,基于IMSI的轨迹信令数据,获取IMSI在n1个网格切片和n2个时间切片的出现情况,并基于该出现情况,以01组合进行时空编码。

示例性地,第一空间粒度可以为1km,利用1km对待识别区域进行切片,得到n1个网格切片g1、g2、g3…gn1;与1km匹配的第一时间粒度可以为15min,则可以利用15min对第一时间段进行切片,得到n2个时间切片t1、t2、t3…tn2。

在本申请实施例中,通过时空切片、采用01组合的时空编码元素,来大幅度提高模型计算的准确率,根据用户在对应时间和空间的出现情况,以01组合进行矩阵时空编码后进行轨迹相似度计算,大幅提高轨迹相似度的计算效率。

在本申请的一些实施例中,在步骤310按照第一空间粒度对待识别区域进行切片之前,该方法还可以包括下述步骤:

获取IMSI的轨迹信令数据所涉及的空间范围;

获取与空间范围匹配的空间粒度,得到IMSI对应的第一空间粒度。

具体地,空间粒度与空间范围呈正相关,空间范围越大,空间粒度越大。

示例性地,IMSI的轨迹信令数据所涉及的空间范围为城市区域,则可以选取与城市区域匹配的空间粒度5km作为第一空间粒度,并选取与5km匹配的时间粒度1h作为第一时间粒度。

在本申请实施例中,由于可以采用多种不同粒度进行时间/空间的切片细分,时空切片具有很强的灵活性,如此可针对用户实际活动范围(时间和空间)采用对应粒度的时空切片进行计算,可提高数据分析的处理性能,更加高效地进行数据分析。

在本申请的一些实施例中,图4是本申请再一实施例提供的一机多号识别方法的流程示意图,上述步骤340可以包括图4所示的步骤410-步骤430。

步骤410,对于n2个时间切片中的每个时间切片,基于IMSI的轨迹信令数据,从n1个网格切片中筛选时间切片关联的P个目标网格切片;

步骤420,将时间切片关联的P个目标网格切片对应的矩阵值设置为1,将时间切片未关联的n1-P个网格切片对应的矩阵值设置为零,得到时间切片对应的n1个矩阵值;

步骤430,组合n2个时间切片对应的n1*n2个矩阵值,得到IMSI在n1个网格切片和n2个时间切片下的时空二维矩阵。

具体地,目标网格切片为IMSI的轨迹信令数据在时间切片所属的网格切片,也即在时间切片内与IMSI进行信息交互的基站所属的网格切片。对于每个IMSI的轨迹信令数据构造的n2*n1维度的矩阵,横坐标为时间,纵坐标为空间,若IMSI在某一时间切片t内出现在网格g,则对应的值为1,否则为0,从而实现01时空编码。

示例性地,IMSI包括u1,若u1在时间切片t1内的位置在网格g1和gn1,则可以表示为u

在本申请实施例中,基于用户时空切片的二维矩阵数据集中以0/1组合的方式进行时空编码,可大幅减少模型计算量以提高计算效率,同时可提高轨迹相似度的计算准确率。

涉及步骤140,基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度。

在本申请的一些实施例中,时间切片包括n2个,基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度,包括:基于两个IMSI的时空二维矩阵,计算两个IMSI在每个时间切片上的轨迹相似度;基于两个IMSI在n2个时间切片上的n2个轨迹相似度,计算两个IMSI的轨迹相似度。

具体地,可以计算两个IMSI在n2个时间切片上的n2个轨迹相似度均值,作为两个IMSI的轨迹相似度。

作为一个示例,可以采用公式(1)所示的余弦相似度算法计算两个IMSI在每个时间切片上的轨迹相似度。

其中,x

若u

即u1、u2在时间切片t1上的轨迹相似度为1;

即u1、u2在时间切片t2上的轨迹相似度为0。

在本申请实施例中,基于移动用户的基站级职住数据,结合用户轨迹数据,采用轨迹伴随相似度进行多层次的融合计算,识别出一人多号。

涉及步骤150,获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值。

在步骤150中,每个时间粒度及其对应空间粒度可以组成一个时空粒度组合,每个时空粒度组合对应一个与其相匹配的相似度阈值,在基于相同时空粒度组合下的两个时空二维矩阵计算出轨迹相似度之后,可以利用与该时空粒度组合相匹配的相似度阈值进行一机多号判定。第一时间粒度和第一空间粒度组成第一时空粒度组合,则第一相似度阈值即为与该第一时空粒度组合相匹配的相似度阈值。

在本申请的一些实施例中,图6是本申请再一实施例提供的一机多号识别方法的流程示意图,在步骤160之前,该方法还可以包括图6所示的步骤610-步骤640,步骤160可以具体包括步骤660。

步骤610,获取多个用户的正样本数据集,其中,正样本数据集包括属于同一用户的多个IMSI的轨迹信令数据;

步骤620,基于每个IMSI的轨迹信令数据,确定每个IMSI在多个时空粒度组合下的多个时空二维矩阵,时空粒度组合包括时间粒度及其对应的空间粒度;

步骤630,对于同一用户,确定每两个IMSI在同一时空粒度组合下的两个时空二维矩阵的轨迹相似度,得到同一用户在同一时空粒度组合下的至少一个轨迹相似度;

步骤640,基于多个用户在同一时空粒度组合下对应的多个轨迹相似度,确定同一时空粒度组合下的相似度阈值;

步骤660,确定第一时间粒度和第一空间粒度所在的时空粒度组合,以及所在的时空粒度组合下的相似度阈值为第一相似度阈值。

具体地,多个用户为已知的一机多号用户,也即正样本用户,对于每个用户,已知该用户所属的IMSI,因此可以利用同一用户的两个IMSI的轨迹信令数据,针对每个时空粒度组合,构建得到两个时空二维矩阵,通过计算两个时空二维矩阵在该时空粒度组合下的轨迹相似度,得到该时空粒度组合下的相似度阈值。

示例性地,时空粒度组合可以包括(1h,5km)、(30min,2km)、(15min,1km)、(5min,500m)、(1min,200m),最后可以计算得到相似度阈值集合S={(1h,5km,S1),(30min,2km,S2),(15min,1km,S3),(5min,500m,S4),(1min,200m,S5)},其中S1-S5为与不同时空粒度组合相匹配的相似度阈值。

在一些实施例中,步骤640可以具体包括:计算同一时空粒度组合下对应的多个轨迹相似度的均值,得到同一时空粒度组合下的相似度阈值。

具体地,可以将时间切片作为横坐标,通过欧式定理计算每个坐标与原点的距离,再将这些距离求和再除以切片的个数,即获取均值,此时将均值作为相似度阈值。

涉及步骤160,在两个IMSI的轨迹相似度大于第一相似度阈值的情况下,识别分组中的两个IMSI属于同一用户。

具体地,在同一分组中两个IMSI的轨迹相似度大于第一相似度阈值的情况下,识别该分组中的两个IMSI属于同一用户,也即该分组中的两个IMSI为一机多号;在两个IMSI的轨迹相似度小于或等于第一相似度阈值的情况下,识别分组中的两个IMSI属于不同用户,也即该分组中的两个IMSI不属于一机多号。

可以理解的是,本申请实施例提供的一机多号识别方法,执行主体可以为电子设备,或者一机多号识别装置中用于执行一机多号识别方法的装置。下面对一机多号识别装置进行详细介绍。

图7是本申请实施例提供的一种一机多号识别装置的结构示意图。如图7所示,该一机多号识别装置700可以包括:获取模块710、划分模块720、构建模块730、确定模块740和识别模块750。

其中,获取模块710,用于获取待识别区域内M个IMSI的轨迹信令数据,M为正整数;划分模块720,用于基于M个IMSI的轨迹信令数据,将M个IMSI划分至N个分组,其中,N为正整数,每个分组中包括两个IMSI,分组中的两个IMSI在预设时间段内的轨迹信令数据对应相同网格区间;构建模块730,用于对于同一分组,基于每个IMSI的轨迹信令数据,构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵;确定模块740,用于基于两个IMSI的时空二维矩阵,确定两个IMSI的轨迹相似度;获取模块710,还用于获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值;识别模块750750,用于在两个IMSI的轨迹相似度大于第一相似度阈值的情况下,识别分组中的两个IMSI属于同一用户。

在本申请的一些实施例中,预设时间段包括预设工作时间段和预设休息时间段,划分模块720包括:划分单元,用于将待识别区域划分为多个网格区间;确定单元,用于基于每个IMSI的轨迹信令数据,确定每个IMSI对应的第一网格标识和第二网格标识,其中,第一网格标识为IMSI在预设工作时间段内的轨迹信令数据对应网格区间的标识,第二网格标识为IMSI在预设休息时间段内的轨迹信令数据对应网格区间的标识;划分单元,用于将第一网格标识和第二网格标识均相同的一对IMSI划分至同一分组,得到N个分组。

在本申请的一些实施例中,轨迹信令数据对应第一时间段,第一时间粒度与第一空间粒度相对应,构建模块730包括:切片子模块,用于按照第一空间粒度对待识别区域进行切片,得到n1个网格切片,n1为正整数;获取子模块,用于获取与第一空间粒度匹配的第一时间粒度;切片子模块,还用于按照第一时间粒度对第一时间段进行切片,得到n2个时间切片,n2为正整数;编码子模块,用于基于n1个网格切片、n2个时间切片和IMSI的轨迹信令数据进行时空编码,得到IMSI的时空二维矩阵。

在本申请的一些实施例中,装置还包括:获取模块710,还用于在按照第一空间粒度对待识别区域进行切片之前,获取IMSI的轨迹信令数据所涉及的空间范围;获取模块710,还用于获取与空间范围匹配的空间粒度,得到IMSI对应的第一空间粒度。

在本申请的一些实施例中,编码子模块包括:筛选单元,用于对于n2个时间切片中的每个时间切片,基于IMSI的轨迹信令数据,从n1个网格切片中筛选时间切片关联的P个目标网格切片,其中,目标网格切片为IMSI的轨迹信令数据在时间切片所属的网格切片;编码单元,用于将时间切片关联的P个目标网格切片对应的矩阵值设置为1,将时间切片未关联的n1-P个网格切片对应的矩阵值设置为零,得到时间切片对应的n1个矩阵值;构建单元,用于组合n2个时间切片对应的n1*n2个矩阵值,得到IMSI在n1个网格切片和n2个时间切片下的时空二维矩阵。

在本申请的一些实施例中,时间切片包括n2个,确定模块740包括:计算单元,用于基于两个IMSI的时空二维矩阵,计算两个IMSI在每个时间切片上的轨迹相似度;计算单元,还用于基于两个IMSI在n2个时间切片上的n2个轨迹相似度,计算两个IMSI的轨迹相似度。

在本申请的一些实施例中,装置还包括:获取模块710,用于在获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值之前,获取多个用户的正样本数据集,其中,正样本数据集包括属于同一用户的多个IMSI的轨迹信令数据;确定模块740,用于基于每个IMSI的轨迹信令数据,确定每个IMSI在多个时空粒度组合下的多个时空二维矩阵,时空粒度组合包括时间粒度及其对应的空间粒度;确定模块740,还用于对于同一用户,确定每两个IMSI在同一时空粒度组合下的两个时空二维矩阵的轨迹相似度,得到同一用户在同一时空粒度组合下的至少一个轨迹相似度;确定模块740,还用于基于多个用户在同一时空粒度组合下对应的多个轨迹相似度,确定同一时空粒度组合下的相似度阈值;获取模块710具体用于:确定第一时间粒度和第一空间粒度所在的时空粒度组合,以及所在的时空粒度组合下的相似度阈值为第一相似度阈值。

本申请实施例的一机多号识别装置,在需要对待识别区域内存在的M个IMSI进行一机多号识别的场景下,获取M个IMSI的轨迹信令数据,并基于M个IMSI的轨迹信令数据,将在预设时间段内的轨迹信令数据对应相同网格区间的两个IMSI划分至同一分组,如此,可以初步筛选出可能属于同一用户的IMSI对。在此基础上,对于同一分组,基于每个IMSI的轨迹信令数据,可以构建每个IMSI在第一时间粒度和第一空间粒度下的时空二维矩阵,得到分组中两个IMSI的时空二维矩阵。由于同一分组的两个时空二维矩阵均是相同时间粒度和相同空间粒度下的,因此能够表征两个IMSI在相同维度下的轨迹情况。因此,基于两个IMSI的时空二维矩阵,可以结合两个IMSI在相同维度下的轨迹情况,准确确定出两个IMSI的轨迹相似度。基于此,获取与第一时间粒度和第一空间粒度匹配的第一相似度阈值,该第一相似度阈值能够更好地反映属于同一用户的两个IMSI在第一时间粒度和第一空间粒度下的相似度,因此结合该第一相似度阈值对上述两个IMSI的时空二维矩阵进行一机多号判定,能够提升判定的准确性,进而提升一机多号识别结果的准确性。

本申请实施例提供的一机多号识别装置,能够实现图1-图6的方法实施例中电子设备所实现的各个过程,并能实现相同的技术效果,为避免重复,在此不再赘述。

图8是本申请实施例提供的一种电子设备的硬件结构示意图。

如图8所示,本实施例中的电子设备800可以包括处理器801以及存储有计算机程序指令的存储器802。

具体地,上述处理器801可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器802可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器802可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器802可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器802可在综合网关容灾设备的内部或外部。在特定实施例中,存储器802是非易失性固态存储器。存储器可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个数据有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请实施例的方法所描述的操作。

处理器801通过读取并执行存储器802中存储的计算机程序指令,以实现上述实施例中的任意一种一机多号识别方法。

在一个示例中,电子设备800还可以包括通信接口803和总线810。其中,如图8所示,处理器801、存储器802、通信接口803通过总线810连接并完成相互间的通信。

通信接口803,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线810包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线810可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

本申请实施例提供的电子设备,能够实现图1-图6的方法实施例中电子设备所实现的各个过程,并能实现相同的技术效果,为避免重复,在此不再赘述。

结合上述实施例中的一机多号识别方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种一机多号识别方法的步骤。

结合上述实施例中的一机多号识别方法,本申请实施例可提供一种计算机程序产品来实现。该(计算机)程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行时实现上述实施例中的任意一种一机多号识别方法的步骤。

本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述一机多号识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为装置级芯片、装置芯片、芯片装置或片上装置芯片等。

需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或装置。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(装置)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。

以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

相关技术
  • 一种美容方案确定方法、装置、服务器、用户终端、美容仪及存储介质
  • 一种美容仪及使用该美容仪进行皮肤美容的方法
  • 一种美容仪前端总成及美容仪
技术分类

06120116540181