掌桥专利:专业的专利平台
掌桥专利
首页

一种基于潜客挖掘系统的数据清洗方法

文献发布时间:2024-04-18 20:02:18


一种基于潜客挖掘系统的数据清洗方法

技术领域

本发明属于大数据领域,尤其涉及一种基于潜客挖掘系统的数据清洗方法。

背景技术

商场商圈潜客挖掘模型应用于商业房产平台项目。为平台提供基础的用户数据。同行业内的算法适用的数据量小,效率不高,数据质量不理想等,该算法模型基于电信位置类大量数据进行挖掘分析,多维度分析用户与商场商圈的关系。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供一种基于潜客挖掘系统的数据清洗方法,。商场商圈潜客挖掘模型应用于商业房产平台项目。为平台提供基础的用户数据。同行业内的算法适用的数据量小,效率不高,数据质量不理想等,该算法模型基于电信位置类大量数据进行挖掘分析,多维度分析用户与商场商圈的关系。

本发明为解决上述技术问题采用以下技术方案:

一种基于潜客挖掘系统的数据清洗方法,应用于房地产平台商场商圈顾客判定上,具体包含超速数据清洗算法、乒乓切换清洗算法、顾客识别算法三种算法:

其中,超速数据清洗算法,具体包含如下步骤;

步骤A1,针对同一用户,顺次选取两条记录即第n条、第n+1条,根据第n条记录的停留时间TSn,以及与第n+1条记录的距离Dn,计算第n条记录的穿越速度,如果该穿越速度大于350km/h,则第n条记录的坐标修改为第n-1条记录的坐标,否则不作修改;

其中,TSn为两停留点时间差;Dn为两记录点经纬度距离;

步骤A2,如果为首条记录不合格,则继续计算第2条记录的速度,第2条记录与第3条记录的距离D2,直到找到速度合格的记录,将其坐标赋予首条记录;

步骤A3,最后一条记录始终保留;

步骤A4,重复步骤A2;

步骤A5,删除重复记录。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤A1中,第n条记录的穿越速度具体计算如下:Dn/TSn。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,所述乒乓切换清洗算法,具体包含如下步骤:

步骤B1,针对同一用户Mdn,顺次选取三条记录包含第n-1条、第n条、第n+1条;

步骤B2,对于只有一条乒乓记录的重复组,考虑两点间的距离和事件发生的时间;

步骤B3,对于大于等于两条乒乓记录的重复组(CABABD、CABABAD、CABABABD),将第一个乒乓记录坐标替换为其相邻的记录坐标,一个重复组内沿用相同规则进行替换,不再依次进行判断;

步骤B4,遍历结束后重复步骤B2;

步骤B5,重复步骤B2、步骤B3和步骤B4,直到所有记录均合格;

步骤B6,删除重复记录。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤B3中,CABABD替换为CAABBD、CABABAD替换为CAABAAD。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤B1中,如果第n-1条记录与第n+1条记录相同,第n条记录和第n-1条两条记录时间小于5分钟且与第n条记录不同,则标记第n条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤B2中,计算第n条记录的穿越速度,当第n条记录与第n+1条记录距离小于1km时,穿越速度如果大于步行平均速度6km/h,则第n条记录坐标修改为第n-1条记录的坐标;否则不作修改。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤B2中,步行平均速度为6km/h。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,所述顾客识别算法,具体包含如下步骤:

步骤C1,判断目标区域的范围;

步骤C2,使用居住地工作地最近的地点与目标区域的距离,判断是否为顾客。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤C2中,按下面条件进行筛选:设D为距离,其中,当D<1公里则停留时长>10min;

当1公里30min;

当D>2公里,则停留时长>45min;

满足以上条件即为非顾客。

作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,使用进入前、里面和离开后三组速度计算方差,大于1的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于10km/h为非顾客则去掉,否则是顾客。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1、本发明一种基于潜客挖掘系统的数据清洗方法,通过使用数据去超速算法、数据去乒乓算法、顾客识别算法对数据进行处理,更贴近于实际的应用场景,应用于中国电信云计算公司大数据事业部房地产项目平台,是该平台的核心算法模型,为平台系统提供了基础的数据;

2、利用用户基站位置异常数据进行算法分析、判断、清洗,对因信号强弱、地形变化导致的用户位置不稳定、位置变化异常进行无监督学习,清洗效率快、粒度细;

3、结合数据清洗对用户位置重定位,在顾客识别过程中,提高位置精度、结合商场商圈位置数据提升识别精度;

4、不同于车辆等物体数据飘移算法,本算法应用场景广泛,应用成本低,识别精度高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一种基于潜客挖掘系统的数据清洗方法的原理图;

图2是本发明乒乓切换清洗算法的排列图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

商场商圈潜客挖掘模型使用多种算法模型进行融合,如图1所示,包括下层数据的清洗用去乒乓算法、去超速算法,应用算法有顾客识别算法等。

依靠基站位置信息定位受信号强弱、地形变化等多因素的影响,在中国电信原有的基于位置相关的信令数据、无线详单等数据基础上,进行数据处理和分析,解决了基站数据飘移问题、人流超速问题、人口流动不确定问题,从而分析真正在指定区域内有顾客行为的用户

潜客挖掘模型应用于商业房产平台项目。为平台提供基础的用户数据。同行业内的算法适用的数据量小,效率低,数据质量不理想等,该算法模型基于电信位置类大量数据进行挖掘分析,通过多维清洗算法和顾客模型算法,挖掘用户与商场关系。

本专利挖掘模型主要应用于房地产平台商场商圈顾客判定上,主要有以下算法:

超速数据清洗算法、乒乓切换清洗算法、顾客识别算法;本专利适用于天翼云大数据应用房地产行业的数据分析挖掘算法。

超速数据清洗算法:如图2所示,具体如下:

1)针对同一用户,顺次选取两条记录(第n条、第n+1条),根据第n条记录的停留时间TSn(两停留点时间差),以及与第n+1条记录的距离Dn(两记录点经纬度距离),计算第n条记录的穿越速度(Dn/TSn),如果该速度大于350km/h,则第n条记录的坐标修改为第n-1条记录的坐标,否则不作修改;

2)如果为首条记录不合格,则继续计算第2条记录的速度,第2条记录与第3条记录的距离D2,直到找到速度合格的记录,将其坐标赋予首条记录。

3)最后一条记录始终保留。

4)重复步骤2

5)删除重复记录

乒乓切换清洗算法,具体如下:

1)针对同一用户(Mdn),顺次选取三条记录(第n-1条、第n条、第n+1条),如果第n-1条记录与第n+1条记录BSID相同,第n条记录和第n-1条两条记录时间小于5分钟且与第n条记录不同,则标记第n条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组;例如:CABABABAD标黄的部分为一个乒乓重复组,红字表示乒乓记录,这个情况属于具有5条乒乓记录的重复组。

2)对于只有一条乒乓记录的重复组(CABAD),考虑两点间的距离和事件发生的时间。首先,计算第n条记录的穿越速度(Dn/TSn),当第n条记录与第n+1条记录距离小于1km时,穿越速度如果大于步行平均速度(6km/h),则第n条记录坐标修改为第n-1条记录的坐标;否则不作修改。

3)对于大于等于两条乒乓记录的重复组(CABABD、CABABAD、CABABABD),将第一个乒乓记录坐标替换为其相邻的记录坐标,一个重复组内沿用相同规则进行替换,不再依次进行判断。比如CABABD替换为CAABBD、CABABAD替换为CAABAAD。

4)遍历结束后重复步骤2)。

5)重复2)3)4),直到所有记录均合格。

6)删除重复记录。

顾客识别算法:

1)判断目标区域的范围。

2)使用居住地工作地最近的地点与目标区域的距离。按下面条件进行筛选:(D为距离)

D<1公里停留时长>10min

1公里30min

D>2公里停留时长>45min

满足以上条件即为商场顾客

使用三组速度(进入前,里面,离开后)计算方差,大于1的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于10km/h为非顾客则去掉,否则是顾客。

商场商圈潜客挖掘算法模型不同于已有的一些算法模型,比如前向后向算法,本算法更贴近于实际的应用场景,应用于中国电信云计算公司大数据事业部房地产项目平台,是该平台的核心算法模型。为平台系统提供了基础的数据。

商场商圈潜客挖掘算法模型不同于已有的算法模型,比如前向后向算法,本专利通过使用数据去超速算法、数据去乒乓算法、顾客识别算法对数据进行处理,更贴近于实际的应用场景,应用于中国电信云计算公司大数据事业部房地产项目平台,是该平台的核心算法模型,为平台系统提供了基础的数据。

利用用户基站位置异常数据进行算法分析、判断、清洗,对因信号强弱、地形变化导致的用户位置不稳定、位置变化异常进行无监督学习,清洗效率快、粒度细。

结合数据清洗对用户位置重定位,在顾客识别过程中,提高位置精度、结合商场商圈位置数据提升识别精度。

不同于车辆等物体数据飘移算法,本算法应用场景广泛,应用成本低,识别精度高。

本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内本实施例中的所有技术特征均可根据实际需要而进行自由组合。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116581226