掌桥专利:专业的专利平台
掌桥专利
首页

兴趣点数据处理方法及装置

文献发布时间:2023-06-19 11:35:49


兴趣点数据处理方法及装置

技术领域

本发明实施例涉及数据处理技术领域,具体涉及一种兴趣点数据处理方法、装置、计算设备及计算机存储介质。

背景技术

兴趣点(POI,Point of Interest)是地理信息系统中可以抽象为点的地理对象。例如,兴趣点可以为商铺、学校、银行、以及楼栋等。准确的兴趣点数据能够为基于地理信息的服务(如订单配送服务及导航服务等)提供有效辅助。

然而,现有技术在挖掘出兴趣点数据后,并不对兴趣点数据的准确性进行校验,从而出现了依据错误兴趣点数据进行服务的情况,继而降低了服务质量,影响用户体验。

发明内容

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的兴趣点数据处理方法、装置、计算设备及计算机存储介质。

根据本发明实施例的一个方面,提供了一种兴趣点数据处理方法,包括:

从兴趣点集合中筛选出目标兴趣点;其中,所述目标兴趣点为绑定于兴趣点的订单地址与所述兴趣点的地址之间的距离大于第一预设距离的兴趣点;

对绑定于所述目标兴趣点的目标订单地址进行聚类处理,以生成多个候选类簇;

根据所述候选类簇之间的道路关联性,对所述多个候选类簇进行整合以生成目标类簇;

将所述目标类簇的簇心与所述目标兴趣点的地址进行比对,根据比对结果判断所述目标兴趣点是否为错误兴趣点。

在一种可选的实施方式中,所述根据所述候选类簇之间的道路关联性,对所述多个候选类簇进行整合以生成目标类簇进一步包括:

针对于任意两个候选类簇,若该两个候选类簇中一个候选类簇包含的目标订单地址所对应的道路信息与另一个候选类簇包含的目标订单地址所对应的道路信息相同,则将该两个候选类簇整合为一个目标类簇;

若任意一个候选类簇包含的目标订单地址所对应的道路信息与其他候选类簇包含的目标订单地址所对应的道路信息均不相同,则将该候选类簇作为目标类簇。

在一种可选的实施方式中,所述将该两个候选类簇整合为一个目标类簇进一步包括:

将该两个候选类簇中包含的目标订单地址数量最多的候选类簇作为目标类簇。

在一种可选的实施方式中,所述将该两个候选类簇整合为一个目标类簇进一步包括:

将该两个候选类簇聚合为一个目标类簇。

在一种可选的实施方式中,所述对绑定于所述目标兴趣点的目标订单地址进行聚类处理,以生成多个候选类簇进一步包括:

对所述目标订单地址进行一次聚类,以生成候选类簇;

遍历目标订单地址,判断当前遍历的目标订单地址是否为预设目标订单地址;其中,所述预设目标订单地址为未被任何候选类簇包含的目标订单地址;

若是,则将该预设目标订单地址以及该预设目标订单地址的联通订单地址进行二次聚类,以生成候选类簇。

在一种可选的实施方式中,所述该预设目标订单地址的联通订单地址具体为:与该预设目标订单地址的距离小于第二预设距离的目标订单地址。

在一种可选的实施方式中,所述将所述目标类簇的簇心与所述目标兴趣点的地址进行比对,根据比对结果判断所述目标兴趣点是否为错误兴趣点进一步包括:

计算所述目标类簇的簇心与所述目标兴趣点的地址之间的距离;

若所述目标类簇的簇心与所述目标兴趣点的地址之间的距离大于第三预设距离,则确定所述目标兴趣点为错误兴趣点。

在一种可选的实施方式中,所述方法还包括:

针对所述兴趣点集合中的任一兴趣点,根据该兴趣点的属性信息提取该兴趣点的第一类特征;

根据绑定于该兴趣点的订单的订单信息提取该兴趣点的第二类特征;

将该兴趣点的第一类特征及第二类特征输入至预先训练好的兴趣点状态识别模型中;

获取所述兴趣点识别模型输出的该兴趣点的状态信息。

在一种可选的实施方式中,所述第一类特征包括以下特征中的至少一种:数据来源特征、状态变化概率特征以及关联的兴趣面特征;

和/或,所述第二类特征包括以下特征中的至少一种:绑定的订单数量特征、绑定的用户数量特征、被用户选择作为新地址的次数特征、热度特征、以及覆盖范围特征。

根据本发明实施例的一个方面,提供了一种兴趣点数据处理装置,包括:

筛选模块,用于从兴趣点集合中筛选出目标兴趣点;其中,所述目标兴趣点为绑定于兴趣点的订单地址与所述兴趣点的地址之间的距离大于第一预设距离的兴趣点;

聚类模块,用于对绑定于所述目标兴趣点的目标订单地址进行聚类处理,以生成多个候选类簇;

整合模块,用于根据所述候选类簇之间的道路关联性,对所述多个候选类簇进行整合以生成目标类簇;

识别模块,用于将所述目标类簇的簇心与所述目标兴趣点的地址进行比对,根据比对结果判断所述目标兴趣点是否为错误兴趣点。

在一种可选的实施方式中,所述整合模块进一步用于:针对于任意两个候选类簇,若该两个候选类簇中一个候选类簇包含的目标订单地址所对应的道路信息与另一个候选类簇包含的目标订单地址所对应的道路信息相同,则将该两个候选类簇整合为一个目标类簇;

若任意一个候选类簇包含的目标订单地址所对应的道路信息与其他候选类簇包含的目标订单地址所对应的道路信息均不相同,则将该候选类簇作为目标类簇。

在一种可选的实施方式中,所述整合模块进一步用于:将该两个候选类簇中包含的目标订单地址数量最多的候选类簇作为目标类簇。

在一种可选的实施方式中,所述整合模块进一步用于:将该两个候选类簇聚合为一个目标类簇。

在一种可选的实施方式中,所述聚类模块进一步用于:对所述目标订单地址进行一次聚类,以生成候选类簇;

遍历目标订单地址,判断当前遍历的目标订单地址是否为预设目标订单地址;其中,所述预设目标订单地址为未被任何候选类簇包含的目标订单地址;

若是,则将该预设目标订单地址以及该预设目标订单地址的联通订单地址进行二次聚类,以生成候选类簇。

在一种可选的实施方式中,所述该预设目标订单地址的联通订单地址具体为:与该预设目标订单地址的距离小于第二预设距离的目标订单地址。

在一种可选的实施方式中,所述识别模块进一步用于:

计算所述目标类簇的簇心与所述目标兴趣点的地址之间的距离;

若所述目标类簇的簇心与所述目标兴趣点的地址之间的距离大于第三预设距离,则确定所述目标兴趣点为错误兴趣点。

在一种可选的实施方式中,所述装置还包括:

状态识别模块,用于针对所述兴趣点集合中的任一兴趣点,根据该兴趣点的属性信息提取该兴趣点的第一类特征;

根据绑定于该兴趣点的订单的订单信息提取该兴趣点的第二类特征;

将该兴趣点的第一类特征及第二类特征输入至预先训练好的兴趣点状态识别模型中;

获取所述兴趣点识别模型输出的该兴趣点的状态信息。

在一种可选的实施方式中,所述第一类特征包括以下特征中的至少一种:数据来源特征、状态变化概率特征以及关联的兴趣面特征;

和/或,所述第二类特征包括以下特征中的至少一种:绑定的订单数量特征、绑定的用户数量特征、被用户选择作为新地址的次数特征、热度特征、以及覆盖范围特征。

根据本发明实施例的再一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述兴趣点数据处理方法对应的操作。

根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述兴趣点数据处理方法对应的操作。

本发明实施例公开了一种兴趣点数据处理方法、装置、计算设备及计算机存储介质,本发明实施例先从兴趣点集合中筛选出目标兴趣点;目标兴趣点为绑定于兴趣点的订单地址与兴趣点的地址之间的距离大于第一预设距离的兴趣点;进一步对目标订单地址进行聚类处理,以生成多个候选类簇;根据候选类簇之间的道路关联性,对多个候选类簇进行整合以生成目标类簇;最终将目标类簇的簇心与目标兴趣点的地址进行比对,根据比对结果判断目标兴趣点是否为错误兴趣点。采用本方案能够准确地识别出错误兴趣点,并且本方案简单易行,适于大规模应用与实施。

上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例提供的一种兴趣点数据处理方法的流程示意图;

图2示出了根据本发明另一个实施例提供的一种兴趣点数据处理方法的流程示意图;

图3示出了根据本发明又一个实施例提供的一种兴趣点数据处理方法的流程示意图;

图4示出了根据本发明一个实施例提供的一种兴趣点数据处理装置的结构示意图;

图5示出了根据本发明一个实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例提供的一种兴趣点数据处理方法的流程示意图。如图1所示,该方法包括以下步骤:

步骤S110,从兴趣点集合中筛选出目标兴趣点;其中,目标兴趣点为绑定于兴趣点的订单地址与兴趣点的地址之间的距离大于第一预设距离的兴趣点。

兴趣点集合中包含有预先挖掘出的至少一个兴趣点,与现有技术不同的是,本发明实施例在挖掘出兴趣点之后,进一步对挖掘出的兴趣点进行校验,从而确定挖掘出的兴趣点是否为错误兴趣点。

在具体的实施过程中,为了提升错误兴趣点的筛选效率,本发明实施例先从兴趣点集合中筛选出疑似错误兴趣点,该疑似错误兴趣点为目标兴趣点。采用该种方式,能够避免对所有兴趣点进行错误验证而带来的计算资源的浪费,并有效提升错误兴趣点的筛选效率。

在从兴趣点集合筛选目标兴趣点过程中,针对于兴趣点集合中的任意一个兴趣点,确定出与该兴趣点建立有绑定关系的订单地址。可选的,为了避免计算资源的浪费,可确定出在预设时间窗口内与该兴趣点建立有绑定关系的订单地址。例如,可筛选最近一个月内与该兴趣点建立有绑定关系的订单地址。

其中,与该兴趣点建立有绑定关系的订单地址通常为多个。计算每个绑定于该兴趣点的订单地址与该兴趣点的地址的距离,并从计算出的距离中筛选出最小距离,若该最小距离大于第一预设距离,则确定该兴趣点为目标兴趣点。从中可看出,所有绑定于目标兴趣点的订单地址与目标兴趣点的地址均大于第一预设距离。其中,本发明实施例中,地址包含地址名称及地址坐标这两类属性信息,订单地址与兴趣点的地址之间的距离具体是指订单地址的地址坐标与兴趣点的地址坐标之间的距离。本发明实施例通过订单地址与兴趣点的地址间的距离能够快速地确定出目标兴趣点,有利于提升本方案整体的实施效率。

从兴趣点集合中筛选出的目标兴趣点可以为一个或多个,则针对于任意一个目标兴趣点,通过执行后续步骤S120及S130确定该目标兴趣点是否为真正的错误兴趣点。

步骤S120,对绑定于目标兴趣点的目标订单地址进行聚类处理,以生成多个候选类簇。

绑定于目标兴趣点的订单地址为该目标兴趣点对应的目标订单地址。将绑定于同一目标兴趣点的目标订单地址进行聚类,从而生成与该目标兴趣点对应的多个候选类簇。其中,每个候选类簇内的目标订单地址紧密关联,通过候选类簇的相关信息能够准确地反映该候选类簇包含的目标订单地址的整体特性。又由于本发明实施例是以本步骤生成的候选类簇为基础,通过后续步骤S130及步骤S140实现对错误兴趣点的识别,所以本发明实施例在识别错误兴趣点时,充分依据了目标订单地址的整体特性,从而提升了错误兴趣点的识别精度以及提高了识别结果的稳定性。

本发明实施例对具体的聚类方式不作限定,例如可以为基于密度的聚类,也可以为基于距离的聚类等等。

步骤S130,根据候选类簇之间的道路关联性,对多个候选类簇进行整合以生成目标类簇。

通过步骤S120能够对目标订单地址进行细粒度的聚合,从而生成的候选类簇较多,并且生成的多个候选类簇中会有部分候选类簇的整体特性较为接近。基于此,本步骤根据候选类簇之间的道路关联性,对多个候选类簇进行整合从而生成目标类簇,其中,目标类簇的数量小于候选类簇的数量。

通过本步骤,可以减少后续与目标兴趣点的地址比对的类簇的数目,从而节约计算资源,提升错误兴趣点的识别效率;而且,本步骤通过道路关联性来对候选类簇进行整合,能够使得整合出的目标类簇的相关信息更准确地反映该目标类簇包含的目标订单地址的整体特性,从而提升错误兴趣点的识别精度。

步骤S140,将目标类簇的簇心与目标兴趣点的地址进行比对,根据比对结果判断目标兴趣点是否为错误兴趣点。

类簇的簇心能够更加准确地代表类簇包含的目标订单地址的整体特性,所以本步骤针对于目标类簇,确定出该目标类簇的簇心。其中,目标类簇的簇心根据该目标类簇包含的目标订单地址来确定,确定出的簇心仍为地址,从而目标类簇的簇心包括簇心名称和/或簇心坐标。

进一步将目标类簇的簇心与目标兴趣点的地址进行比对,根据比对结果判断目标兴趣点是否为错误兴趣点。具体地,若目标类簇的簇心与目标兴趣点的地址不匹配,则确定目标兴趣点为错误兴趣点。其中,目标类簇的簇心可以为一个或多个,针对于每个目标类簇,可通过以下方式判断该目标类簇是否与目标兴趣点的地址相匹配:

在一种可选的实施方式中,将目标类簇的簇心坐标与目标兴趣点的地址坐标进行比对。具体地,计算目标类簇的簇心与目标兴趣点的地址之间的距离,若目标类簇的簇心与目标兴趣点的地址之间的距离大于第三预设距离,则表明该目标类簇的簇心坐标与目标兴趣点的地址坐标不匹配,继而确定该目标类簇与目标兴趣点的地址不匹配。采用该种方式,能够确定出目标兴趣点的坐标是否存在错误。

在又一种可选的实施方式中,将目标类簇的簇心名称与目标兴趣点的地址名称进行比对。具体地,计算目标类簇的簇心名称与目标兴趣点的地址名称的相似度,若目标类簇的簇心名称与目标兴趣点的地址名称的相似度小于预设相似度,则表明该目标类簇的簇心名称与目标兴趣点的地址名称不匹配,继而确定该目标类簇与目标兴趣点的地址不匹配。采用该种方式,能够确定出目标兴趣点的名称是否存在错误。

在再一种可选的实施方式中,将目标类簇的簇心坐标与目标兴趣点的地址坐标进行比对,以及将目标类簇的簇心名称与目标兴趣点的地址名称进行比对。具体的比对方式可参照上述两种实施方式。若目标类簇的簇心坐标与目标兴趣点的地址坐标不匹配,和/或目标类簇的簇心名称与目标兴趣点的地址不匹配,则确定目标类簇的簇心与目标兴趣点的地址不匹配。采用该种方式,能够全面地识别错误兴趣点,提高错误兴趣点的识别精度。

若目标类簇的数量为一个,在确定出该目标类簇与目标兴趣点的地址不匹配的情况下,将该兴趣点确定为错误兴趣点;若目标类簇的数量为多个,则统计与目标兴趣点的地址不匹配的目标类簇的比例,若该比例超出预设比例,则确定该目标兴趣点为错误兴趣点。通过该种方式能够降低错误兴趣点的误判率,提高错误兴趣点的识别精度。

进一步可选的,在配送场景下,订单地址通常包含两个地址坐标,其一为用户下单时的下单定位坐标,其二为配送端送达物品时的配送端定位坐标。由于配送端送达物品时的配送端定位坐标能够更加准确地反映订单地址的实际坐标,从而本发明实施例在步骤S110中订单地址与兴趣点的地址之间的距离具体为订单地址的配送端定位坐标与兴趣点的地址坐标之间的距离;步骤S140中在确定目标类簇的簇心的簇心坐标时,具体是依据目标类簇包含的目标订单地址的配送端定位坐标获得。

由此可见,本发明实施例对已经挖掘出的兴趣点进行校验,从而确定挖掘出的兴趣点是否为错误兴趣点,避免直接依据错误兴趣点提供相关服务;本发明实施例在识别错误兴趣点过程中,预先根据兴趣点与绑定订单地址之间的距离来筛选出疑似错误的兴趣点(即目标兴趣点),避免对所有兴趣点进行错误验证而带来的计算资源的浪费,提升错误兴趣点的筛选效率;进一步对绑定于目标兴趣点的目标订单地址进行聚类处理以生成候选类簇,从而便于依据目标订单地址的整体特性来识别错误兴趣点;再者,本发明实施例根据候选类簇之间的道路关联性,对多个候选类簇进行整合以生成目标类簇,不仅减少了后续与目标兴趣点的地址比对的类簇的数目,节约了计算资源,提升了错误兴趣点的识别效率,还进一步对目标订单特征的整体特征进行再次提炼,再次提升了错误兴趣点的识别精度。

图2示出了根据本发明另一个实施例提供的一种兴趣点数据处理方法的流程示意图。如图2所示,该方法包括以下步骤:

步骤S210,从兴趣点集合中筛选出目标兴趣点。

本步骤参照步骤S110中描述,在此不作赘述。

步骤S220,对目标订单地址进行一次聚类,以生成候选类簇。

在一种可选的实施方式中,采用基于密度的聚类算法对目标订单地址进行一次聚类。例如,可采用DBSCAN聚类算法对目标订单地址进行一次聚类。DBSCAN聚类算法能够将一组密度相连的目标订单地址聚合为一个候选类簇。

在另一种可选的实施方式中,采用基于距离的聚类算法对目标订单地址进行一次聚类。例如,可采用K-Means聚类算法对目标订单地址进行一次聚类。K-Means聚类算法能够将一组距离相近的目标订单地址聚合为一个候选类簇。

在又一种可选的实施方式中,根据目标订单地址的分布特性来确定所采用的一次聚类算法。例如,若目标订单地址以带状或环状分布,则采用基于密度的聚类算法;若目标订单地址以球状或扇形分布,则采用基于距离的聚类算法等等。

步骤S230,遍历目标订单地址。

目标订单地址为多个,每遍历一个目标订单地址便执行后续步骤S240。

步骤S240,判断当前遍历的目标订单地址是否为预设目标订单地址;若是,则执行步骤S250;若否,则执行步骤S230。

通过步骤S220的一次聚类,会存在某些离散点无法聚合为候选类簇的情况,为了能够依据所有目标订单地址的特性来识别错误兴趣点,提高错误兴趣点的识别精度。在一次聚类之后,从目标订单地址中识别出预设目标订单地址。该预设目标订单地址为当前未被任何候选类簇包含的目标订单地址,针对于预设目标订单地址执行后续步骤S250。

若当前遍历的目标订单地址被已经生成的候选类簇包含,则确定该当前遍历的目标订单地址不是预设目标订单地址,并进一步执行步骤S230,以遍历下一目标订单地址。

步骤S250,将该预设目标订单地址以及该预设目标订单地址的联通订单地址进行二次聚类,以生成候选类簇。

在确定当前遍历的目标订单地址为预设目标订单地址时,查找当前遍历的预设目标订单地址的联通订单地址。其中,与该预设目标订单地址的距离小于第二预设距离的目标订单地址为该预设目标订单地址的联通订单地址。

将当前遍历的预设目标订单地址以及该预设目标订单地址的联通订单地址进行二次聚类,生成新的候选类簇。其中,二次聚类具体可以为基于距离的聚类。

在一种可选的实施方式中,为了保障生成的候选类簇的统一性,一次聚类及二次聚类均可以采用基于距离的聚类算法。其中,基于距离的聚类算法中包含聚类邻域半径参数,则一次聚类及二次聚类的聚类邻域半径参数取值可以相同,并且该聚类邻域半径参数取值与第二预设距离一致。

完成本次二次聚类之后,进一步执行步骤S230,以遍历下一目标订单地址。

步骤S260,判断当前是否存在未被遍历的目标订单地址;若是,则执行步骤S230;若否,则执行步骤S270。

步骤S270,根据候选类簇之间的道路关联性,对多个候选类簇进行整合以生成目标类簇。

当所有候选类簇生成之后,对任意两个候选类簇进行道路关联性判定。具体地,首先解析每个候选类簇包含的目标订单地址的地址名称,通过对地址名称的解析可以确定目标订单地址所对应的道路信息。

进一步针对于任意两个候选类簇,根据该两个候选类簇包含的目标订单地址所对应的道路信息的一致性,确定该两个候选类簇的道路关联性。

在一种可选的实施方式中,若该两个候选类簇中一个候选类簇包含的目标订单地址所对应的道路信息与另一个候选类簇包含的目标订单地址所对应的道路信息相同,则表明该两个候选类簇的道路关联性强,从而将该两个候选类簇整合为一个目标类簇。采用该种方式,能够快速地确定候选类簇间的道路关联强度。

在又一种可选的实施方式中,针对该两个候选类簇中的任一候选类簇,若该候选类簇包含的某目标订单地址所对应的道路信息与另一个候选类簇包含的任意一个目标订单地址所对应的道路信息相同,则确定某目标订单地址为道路关联地址;统计该两个候选类簇中包含的道路关联地址的数目或比例,若该两个候选类簇中包含的道路关联地址的数目或比例超出预设数据或预设比例,则表明该两个候选类簇的道路关联性强,从而将该两个候选类簇整合为一个目标类簇。采用该种方式,能够准确地确定出候选类簇间的道路关联强度。

此外,若任意一个候选类簇包含的目标订单地址所对应的道路信息与其他候选类簇包含的目标订单地址所对应的道路均不相同,则表明该候选类簇与其他候选类簇之间的道路关联性弱,则直接将该候选类簇作为目标类簇。

进一步地,在将道路关联性强的两个候选类簇整合为一个目标类簇时,具体可采用以下两种方式中的至少一种:方式一,将该两个候选类簇中包含的目标订单地址数量最多的候选类簇作为目标类簇。在该种方式中,若两个候选类簇的道路关联性强,则舍弃其中包含的订单地址数量较少的候选类簇,从而简化计算逻辑,提升本方案的整体执行效率;方式二,将该两个候选类簇聚合为一个目标类簇。在该种方式中,能够使得在后续错误兴趣点识别过程中依据的数据更加全面及准确,进一步提升错误兴趣点的识别精度。

步骤S280,将目标类簇的簇心与目标兴趣点的地址进行比对,根据比对结果判断目标兴趣点是否为错误兴趣点。

本步骤的具体执行过程可参照步骤S140中内容,在此不作赘述。

由此可见,本发明实施例在筛选出目标兴趣点之后,对绑定于该目标兴趣点的目标订单地址先进行一次聚类,并针对于当前未被任何候选类簇包含的预设目标订单地址进行再次聚类,从而能够依据所有目标订单地址的特性来识别错误兴趣点,提高错误兴趣点的识别精度;再者,在所有候选类簇生成之后,根据候选类簇包含的目标订单地址所对应的道路信息来确定候选类簇之间的道路关联性强度,针对道路关联性强的候选类簇进行整合生成目标类簇,并依据目标类簇的簇心与目标兴趣点的地址的比对来识别错误兴趣点,从而节约计算资源以及进一步提升错误兴趣点的识别精度。

图3示出了根据本发明又一个实施例提供的一种兴趣点数据处理方法的流程示意图。

现有技术在挖掘出兴趣点之后,并不对兴趣点的状态进行校验。然而兴趣点会存在倒闭、搬迁等情形,从而容易导致基于该兴趣点的服务出现异常。基于此,本发明实施例提供了一种能够准确识别兴趣点状态的兴趣点数据处理方法。

如图3所示,该方法包括以下步骤:

步骤S310,针对兴趣点集合中的任一兴趣点,根据该兴趣点的属性信息提取该兴趣点的第一类特征。

第一类特征包括以下特征中的至少一种:数据来源特征、状态变化概率特征、以及关联的兴趣面特征等等。

其中,兴趣点的数据来源对兴趣点的准确性具有一定影响,在实际的实施过程中,可针对于每个数据来源,统计从该数据来源挖掘出的兴趣点的报错率,继而根据数据来源对应的报错率确定数据来源的置信等级等,其中对应的报错率越高则数据来源的置信等级越低。

状态变化概率特征表示兴趣点发生状态变化的可能性,状态变化概率特征可以根据兴趣点的类型来确定。例如,餐饮类兴趣点状态变化概率较高,而工厂类兴趣点状态变化概率较低等等。

关联的兴趣面特征包括兴趣点所属的兴趣面特征以及该兴趣点所关联的兴趣面特征等等。通过兴趣点所属的兴趣面特征以及该兴趣点所关联的兴趣面特征能够侧面表示出兴趣点的局部热度及与其他兴趣点的关联性,而兴趣点的局部热度及与其他兴趣点的关联性会影响该兴趣点的状态。

步骤S320,根据绑定于该兴趣点的订单的订单信息提取该兴趣点的第二类特征。

第二类特征包括以下特征中的至少一种:绑定的订单数量特征、绑定的用户数量特征、被用户选择作为新地址的次数特征、热度特征、以及覆盖范围特征。

其中,绑定的订单数量特征具体为预设时间窗口内绑定于该兴趣点的订单的数量等等。例如,绑定的订单数量特征可以为最近2个月内每周绑定于该兴趣点的订单数量的平均值。

绑定的用户数量特征具体为预设时间窗口内绑定于该兴趣点的用户的数量等等。例如,绑定的用户数量特征可以为最近2个月内每周绑定于该兴趣点的订单所对应的用户的数量的平均值。

被用户选择作为新地址的次数特征具体为在预设时间窗口内被用户选择作为创建的新地址的次数。例如,用户在新建地址时,会为用户推荐相应的兴趣点,若该兴趣点被用户选择,则将该兴趣点作为被用户选择作为新地址的兴趣点。则被用户选择作为新地址的次数特征可以为最近2个月内每周被用户选择作为新地址的次数的平均值。

热度特征具体为在预设时间窗口内的被搜索次数、用户下单次数、以及评价次数等等。

覆盖范围特征具体指的时该兴趣点覆盖的范围,其又可以称为兼容距离特征。例如,覆盖范围特征为1公里时,表示在距离兴趣点坐标的1公里的范围内均对应于该兴趣点。

步骤S330,将该兴趣点的第一类特征及第二类特征输入至预先训练好的兴趣点状态识别模型中。

本发明实施例中预先构建有兴趣点状态识别模型。该兴趣点状态模型可以基于神经网络算法构建。本发明实施例对兴趣点状态识别模型的具体结构不作限定。

进一步获取数据库中存储的兴趣点的属性信息及绑定于该兴趣点的订单的订单信息,并根据获取到的数据提取出每个兴趣点所对应的样本数据,并为每个兴趣点对应的样本数据进行标注。

在标注过程中,针对于任意兴趣点,分别获取该兴趣点在第一时刻及第二时刻的地址坐标及地址名称,其中,第一时刻早于第二时刻。继而根据该兴趣点在第一时刻及第二时刻的地址坐标和/或地址名称确定该兴趣点所对应的样本数据的标签。例如,若某兴趣点在第一时刻具有对应的地址坐标,而在第二时刻无对应的地址坐标,则确定该兴趣点状态为倒闭状态,继而为该兴趣点对应的样本数据添加倒闭状态的标签;若某兴趣点在第一时刻及第二时刻均具有对应的地址坐标,但第一时刻及第二时刻均对应的地址坐标不同,则该兴趣点对应的样本数据添加搬迁状态的标签;若某兴趣点在第一时刻及第二时刻均具有对应的地址坐标,且第一时刻及第二时刻均对应的地址坐标相同,但第一时刻及第二时刻对应的地址名称不同,则为该兴趣点对应的样本数据添加更名状态的标签;若某兴趣点在第一时刻及第二时刻均具有对应的地址坐标,且第一时刻及第二时刻对应的地址坐标及地址名称均相同,则为该兴趣点对应的样本数据添加正常状态的标签。

基于生成的样本数据及样本数据对应的标注对兴趣点状态识别模型进行模型训练。当该兴趣点状态识别模型的损失函数满足预设收敛条件时,得到预先训练好的兴趣点状态识别模型。并利用预先训练好的兴趣点状态识别模型对步骤S310及步骤S320中的特征数据进行预测。

步骤S340,获取兴趣点识别模型输出的该兴趣点的状态信息。

其中,兴趣点的状态信息包括以下信息中的至少一种:倒闭状态、更名状态、搬迁状态以及正常状态等等。

在一种可选的实施方式中,兴趣点识别模型除了输出有该兴趣点的状态信息之外,还输出有兴趣点的状态信息对应的置信度。若输出的兴趣点的状态信息的置信度处于第一置信范围,且兴趣点的状态信息为倒闭状态、更名状态、或搬迁状态,则对该兴趣点进行服务下线处理,从而及时下线过期兴趣点,避免依据该过期兴趣点进行服务而导致的服务质量下降的弊端;若输出的兴趣点的状态信息的置信度处于第二置信范围,且兴趣点的状态信息为倒闭状态、更名状态、或搬迁状态,则进一步对该兴趣点的状态进行二次判断,若二次判断结果确定兴趣点的状态信息仍为倒闭状态、更名状态、或搬迁状态,则对该兴趣点进行服务下线处理;若输出的兴趣点的状态信息的置信度处于第三置信范围,且兴趣点的状态信息为倒闭状态、更名状态、或搬迁状态,则不对该兴趣点进行下线处理。

由此可见,本发明实施例对挖掘出的兴趣点进行状态识别,以及时识别出处于过期的兴趣点,避免依据该过期兴趣点进行服务而导致的服务质量下降的弊端;而且本发明实施例在识别兴趣点状态过程中,具体采用的是基于机器学习算法构建的兴趣点状态识别模型,从而提升了兴趣点状态的识别精度;再者,本发明实施例依据从兴趣点的属性信息提取出的兴趣点的第一类特征以及从绑定于该兴趣点的订单的订单信息提取出的第二类特征这两个维度对兴趣点状态进行预测,使得得到的兴趣点的状态信息更加准确。

图4示出了根据本发明一个实施例提供的一种兴趣点数据处理装置的结构示意图。如图4所示,该装置包括:筛选模块410、聚类模块420、整合模块430、以及识别模块440。

筛选模块410,用于从兴趣点集合中筛选出目标兴趣点;其中,目标兴趣点为绑定于兴趣点的订单地址与兴趣点的地址之间的距离大于第一预设距离的兴趣点;

聚类模块420,用于对绑定于目标兴趣点的目标订单地址进行聚类处理,以生成多个候选类簇;

整合模块430,用于根据所述候选类簇之间的道路关联性,对所述多个候选类簇进行整合以生成目标类簇;

识别模块440,用于将目标类簇的簇心与目标兴趣点的地址进行比对,根据比对结果判断目标兴趣点是否为错误兴趣点。

在一种可选的实施方式中,整合模块430进一步用于:

针对于任意两个候选类簇,若该两个候选类簇中一个候选类簇包含的目标订单地址所对应的道路信息与另一个候选类簇包含的目标订单地址所对应的道路信息相同,则将该两个候选类簇整合为一个目标类簇;

若任意一个候选类簇包含的目标订单地址所对应的道路信息与其他候选类簇包含的目标订单地址所对应的道路信息均不相同,则将该候选类簇作为目标类簇。

在一种可选的实施方式中,整合模块430进一步用于:

将该两个候选类簇中包含的目标订单地址数量最多的候选类簇作为目标类簇。

在一种可选的实施方式中,整合模块430进一步用于:

将该两个候选类簇聚合为一个目标类簇。

在一种可选的实施方式中,聚类模块420进一步用于:

对所述目标订单地址进行一次聚类,以生成候选类簇;

遍历目标订单地址,判断当前遍历的目标订单地址是否为预设目标订单地址;其中,所述预设目标订单地址为未被任何候选类簇包含的目标订单地址;

若是,则将该预设目标订单地址以及该预设目标订单地址的联通订单地址进行二次聚类,以生成候选类簇。

在一种可选的实施方式中,所述该预设目标订单地址的联通订单地址具体为:与该预设目标订单地址的距离小于第二预设距离的目标订单地址。

在一种可选的实施方式中,识别模块440进一步包括:

计算所述目标类簇的簇心与所述目标兴趣点的地址之间的距离;

若所述目标类簇的簇心与所述目标兴趣点的地址之间的距离大于第三预设距离,则确定所述目标兴趣点为错误兴趣点。

在一种可选的实施方式中,该装置还包括:状态识别模块,用于针对所述兴趣点集合中的任一兴趣点,根据该兴趣点的属性信息提取该兴趣点的第一类特征;

根据绑定于该兴趣点的订单的订单信息提取该兴趣点的第二类特征;

将该兴趣点的第一类特征及第二类特征输入至预先训练好的兴趣点状态识别模型中;

获取所述兴趣点识别模型输出的该兴趣点的状态信息。

在一种可选的实施方式中,所述第一类特征包括以下特征中的至少一种:数据来源特征、状态变化概率特征以及关联的兴趣面特征;

和/或,所述第二类特征包括以下特征中的至少一种:绑定的订单数量特征、绑定的用户数量特征、被用户选择作为新地址的次数特征、热度特征、以及覆盖范围特征。

其中,本装置中各模块的具体实施过程可参照相应方法实施例中的描述,在此不作赘述。

由此可见,本发明实施例对已经挖掘出的兴趣点进行校验,从而确定挖掘出的兴趣点是否为错误兴趣点,避免直接依据错误兴趣点提供相关服务;本发明实施例在识别错误兴趣点过程中,预先根据兴趣点与绑定订单地址之间的距离来筛选出疑似错误的兴趣点(即目标兴趣点),避免对所有兴趣点进行错误验证而带来的计算资源的浪费,提升错误兴趣点的筛选效率;进一步对目标兴趣点进行聚类处理生成候选类簇,从而便于依据目标订单地址的整体特性来识别错误兴趣点;再者,本发明实施例根据候选类簇之间的道路关联性,对多个候选类簇进行整合以生成目标类簇,不仅减少了后续与目标兴趣点的地址比对的类簇的数目,节约了计算资源,提升了错误兴趣点的识别效率,还进一步对目标订单特征的整体特征进行再次提炼,再次提升了错误兴趣点的识别精度。

本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的兴趣点数据处理方法。

图5示出了根据本发明实施例提供的一种计算设备的结构示意图,本发明实施例的具体实施例并不对计算设备的具体实现做限定。

如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502,用于执行程序510,具体可以执行上述兴趣点数据处理方法实施例中的相关步骤。

具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行上述任意方法实施例中的兴趣点数据处理方法。

程序510中各步骤的具体实现可以参见上述兴趣点数据处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的较佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

相关技术
  • 电子地图兴趣点POI的数据处理方法、装置及设备
  • 一种兴趣点地址数据处理方法、装置、服务器和介质
技术分类

06120112986215