掌桥专利:专业的专利平台
掌桥专利
首页

基于关系数据的移动终端伴随分析方法、装置及存储介质

文献发布时间:2023-06-19 09:30:39


基于关系数据的移动终端伴随分析方法、装置及存储介质

技术领域

本发明涉及数据安全技术领域,具体涉及一种基于关系数据的移动终端伴随分析方法、装置及存储介质。

背景技术

目前对于手机伴随情况的分析多局限于对指定的若干手机进行轨迹对比,其涉及的分析算法诸多。比如,“经典伴随模式挖掘方法中的相似度量方式和聚类方式”的不断迭代完成“聚类和取交集”的操作,即可得到满足条件的时空轨迹伴随模式。其中涉及到的“时空轨迹数据”是基于GPS终端、智能手机终端等设备产生的数据,主要记录了移动对象的位置、时间、方向和速度等移动特征属性。时空轨迹本质上是“空间”数据随着“时间”数据的动态变化。由于智能手机的普及,随之产生了许多“时空轨迹数据”,值得相关领域人员进行挖掘分析。其中,有诸多研究人员对于“时空轨迹的伴随模式”进行挖掘,主要包括算法研究、车牌识别和可疑车辆识别等领域。

目前关于手机时空伴随状态研究主要是通过对特定手机号码的追踪进行分析,这种方法不适用于对单个对象拥有的未知的多个手机的时空轨迹追踪。此外,这种通过读取指定时间段指定手机的所有位置信息进行比对,有十分严重的缺陷:1)比对的数据量过大,且重复数据较多;2)由于数据的冗余严重,需要大量的轨迹数据存储空间。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷,设计专门的方法以解决上述技术问题,并提出了如下技术方案。

一种基于关系数据的移动终端伴随分析方法,该方法包括:

构建步骤,在数据库中构建一数据表,所述数据表包括一个手机号码字段、多个轨迹字段和读个与轨迹字段相应的时间字段,所述数据表中的记录数为全量手机数,所述手机号码作为主字段;

更新步骤,在到达一定触发条件时,获取产生流量数据的手机对应的轨迹点来更新相应时间字段的轨迹字段;

分析步骤,基于所述数据表查找相同时间点对应的轨迹一致或类似的手机进行伴随分析得到分析结果。

更进一步地,所述时间字段共24个,每个整点设为一个时间字段,所述轨迹字段也为24个,分别与24个时间字段进行对应。

更进一步地,所述触发条件为达到或接近时间点。

更进一步地,所述更新相应时间字段的轨迹字段的方式为:获取所述时间点通信线路上的手机的原始数据,从所述原始数据中提取轨迹数据,使用所述轨迹数据更新与所述时间点对应的时间字段相应的轨迹字段的数据;

或者,

根据时间字段选取每个时间点的每个手机的原始数据,从所述原始数据中提取轨迹数据,基于所述主字段将所述轨迹数据插入到所述数据表表中。

更进一步地,所述数据库为内存数据库。

本发明还提出了一种基于关系数据的移动终端伴随分析装置,该装置包括:

构建单元,在数据库中构建一数据表,所述数据表包括一个手机号码字段、多个轨迹字段和读个与轨迹字段相应的时间字段,所述数据表中的记录数为全量手机数,所述手机号码作为主字段;

更新单元,在到达一定触发条件时,获取产生流量数据的手机对应的轨迹点来更新相应时间字段的轨迹字段;

分析单元,基于所述数据表查找相同时间点对应的轨迹一致或类似的手机进行伴随分析得到分析结果。

更进一步地,所述时间字段共24个,每个整点设为一个时间字段,所述轨迹字段也为24个,分别与24个时间字段进行对应。

更进一步地,所述触发条件为达到或接近时间点。

更进一步地,所述更新相应时间字段的轨迹字段的方式为:获取所述时间点通信线路上的手机的原始数据,从所述原始数据中提取轨迹数据,使用所述轨迹数据更新与所述时间点对应的时间字段相应的轨迹字段的数据;

或者,

根据时间字段选取每个时间点的每个手机的原始数据,从所述原始数据中提取轨迹数据,基于所述主字段将所述轨迹数据插入到所述数据表表中。

更进一步地,所述数据库为内存数据库。

本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于:本发明提出了一种基于关系数据的移动终端伴随分析方法、装置及存储介质,该方法包括:构建步骤,在数据库中构建一数据表,所述数据表包括一个手机号码字段、多个轨迹字段和读个与轨迹字段相应的时间字段,所述数据表中的记录数为全量手机数,所述手机号码作为主字段;更新步骤,在到达一定触发条件时,获取产生流量数据的手机对应的轨迹点来更新相应时间字段的轨迹字段;分析步骤,基于所述数据表查找相同时间点对应的轨迹一致或类似的手机进行伴随分析得到分析结果。其可以利用少量的数据对于特定对象未知的多个手机进行时空轨迹伴随状态进行分析,可以避免耗时的聚类操作,使得工作流程更高效。同时,该方法能够避免无用的数据冗余问题,解决对单个对象拥有的未知的多个手机的时空轨迹追踪,提升查找效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于关系数据的移动终端伴随分析方法的流程图。

图2是根据本发明的实施例的一种基于关系数据的移动终端伴随分析装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于关系数据的移动终端伴随分析方法,该方法包括:

构建步骤S101,在数据库中构建一数据表,所述数据表包括一个手机号码字段、多个轨迹字段和读个与轨迹字段相应的时间字段,所述数据表中的记录数为全量手机数,所述手机号码作为主字段。

一种数据表的示例如下表所示:

如上表所示,一天中每个整点时间和轨迹为一个取值组,共48个字段,加上主字段共49个字段。即,所述时间字段共24个,每个整点设为一个时间字段,所述轨迹字段也为24个,分别与24个时间字段进行对应。

更新步骤S102,在到达一定触发条件时,获取产生流量数据的手机对应的轨迹点来更新相应时间字段的轨迹字段;在一个实施例,所述触发条件为达到或接近时间点,比如到达整的时间点,如12点等等,也可以是接近12点,如12点前后的10分钟内。

在一个实施例中,所述更新相应时间字段的轨迹字段的方式为:获取所述时间点通信线路上的手机的原始数据,从所述原始数据中提取轨迹数据,使用所述轨迹数据更新与所述时间点对应的时间字段相应的轨迹字段的数据。即按时间段(24个时点)查询线路上取到的手机的原始数据,性能可以达到每个时间点1000W条数据,查询耗时平均10秒左右,然后更新到所述数据表,更新每个时间段1000W条数据,更新耗时较长,原因是频繁的更新IO写操作,大部分在读取更新Mysql库上。该方案的优点是:数据占用存储空间稳定;缺点是:更新字段消耗性能较大。

鉴于此,本发明还提出了另外一种更新方式,即,根据时间字段选取每个时间点的每个手机的原始数据,从所述原始数据中提取轨迹数据,基于所述主字段将所述轨迹数据插入到所述数据表表中。预处理按时间段(24个时点)选取每个时间整点(误差10分钟左右)的每个手机数据插入到数据表中,就是一个手机号,一个时间点一条记录。合计下来,1000W手机,一天24个点就是2.4亿条数据被存储于内存数据库中,这种方案效率更高。并且,随着数据点越多,伴随趋势就越明显。更进一步地,数据只存如3天采用先进先出的策略,新增的同时自动删除数据,系统保持3天7.2亿条的数据量。

该方案的优点是:数据占用存储空间较上一方案大但占用空间也较稳定;线上数据生成后按要求查询后直接插入数据表,性能较好。

分析步骤S103,基于所述数据表查找相同时间点对应的轨迹一致或类似的手机进行伴随分析得到分析结果。

本发明是通过记录手机号字段、轨迹字段和时间字段组成的数据库中数据表,之后对该表涉及的多次时空轨迹一致的多个手机号进行分析,并标记判断为同一对象的多个手机。其解决了现有技术中对手机时空轨迹伴随分析技术中存在的不足之处,实现了:1)存储于表的数据较少重复冗余,减少数据存储压力;2)由于数据的简洁有效性,故分析过程简单,分析时长较短,消耗性能较少,满足批量分析需求,这是本发明的重要发明点。

本发明的方法可以利用少量的数据对于特定对象未知的多个手机进行时空轨迹伴随状态进行分析,可以避免耗时的聚类操作,使得工作流程更高效。同时,该方法能够避免无用的数据冗余问题,解决对单个对象拥有的未知的多个手机的时空轨迹追踪,提升查找效率。

图2示出了本发明的一种基于关系数据的移动终端伴随分析装置,该装置包括:

构建单元201,在数据库中构建一数据表,所述数据表包括一个手机号码字段、多个轨迹字段和读个与轨迹字段相应的时间字段,所述数据表中的记录数为全量手机数,所述手机号码作为主字段。

一种数据表的示例如下表所示:

如上表所示,一天中每个整点时间和轨迹为一个取值组,共48个字段,加上主字段共49个字段。即,所述时间字段共24个,每个整点设为一个时间字段,所述轨迹字段也为24个,分别与24个时间字段进行对应。

更新单元202,在到达一定触发条件时,获取产生流量数据的手机对应的轨迹点来更新相应时间字段的轨迹字段;在一个实施例,所述触发条件为达到或接近时间点,比如到达整的时间点,如12点等等,也可以是接近12点,如12点前后的10分钟内。

在一个实施例中,所述更新相应时间字段的轨迹字段的方式为:获取所述时间点通信线路上的手机的原始数据,从所述原始数据中提取轨迹数据,使用所述轨迹数据更新与所述时间点对应的时间字段相应的轨迹字段的数据。即按时间段(24个时点)查询线路上取到的手机的原始数据,性能可以达到每个时间点1000W条数据,查询耗时平均10秒左右,然后更新到所述数据表,更新每个时间段1000W条数据,更新耗时较长,原因是频繁的更新IO写操作,大部分在读取更新Mysql库上。该方案的优点是:数据占用存储空间稳定;缺点是:更新字段消耗性能较大。

鉴于此,本发明还提出了另外一种更新方式,即,根据时间字段选取每个时间点的每个手机的原始数据,从所述原始数据中提取轨迹数据,基于所述主字段将所述轨迹数据插入到所述数据表表中。预处理按时间段(24个时点)选取每个时间整点(误差10分钟左右)的每个手机数据插入到数据表中,就是一个手机号,一个时间点一条记录。合计下来,1000W手机,一天24个点就是2.4亿条数据被存储于内存数据库中,这种方案效率更高。并且,随着数据点越多,伴随趋势就越明显。更进一步地,数据只存如3天采用先进先出的策略,新增的同时自动删除数据,系统保持3天7.2亿条的数据量。

该方案的优点是:数据占用存储空间较上一方案大但占用空间也较稳定;线上数据生成后按要求查询后直接插入数据表,性能较好。

分析单元203,基于所述数据表查找相同时间点对应的轨迹一致或类似的手机进行伴随分析得到分析结果。

本发明是通过记录手机号字段、轨迹字段和时间字段组成的数据库中数据表,之后对该表涉及的多次时空轨迹一致的多个手机号进行分析,并标记判断为同一对象的多个手机。其解决了现有技术中对手机时空轨迹伴随分析技术中存在的不足之处,实现了:1)存储于表的数据较少重复冗余,减少数据存储压力;2)由于数据的简洁有效性,故分析过程简单,分析时长较短,消耗性能较少,满足批量分析需求,这是本发明的重要发明点。

本发明的装置可以利用少量的数据对于特定对象未知的多个手机进行时空轨迹伴随状态进行分析,可以避免耗时的聚类操作,使得工作流程更高效。同时,该装置能够避免无用的数据冗余问题,解决对单个对象拥有的未知的多个手机的时空轨迹追踪,提升查找效率。

本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 基于关系数据的移动终端伴随分析方法、装置及存储介质
  • 伴随关系的分析方法、装置和存储介质
技术分类

06120112195290