掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:00:50


数据处理方法、装置、设备及存储介质

技术领域

本申请涉及通信技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

获取企业的员工数量对于就业情况分析至关重要。由于企业上报存在不及时且不准确的情况,导致无法准确获取企业的员工数量。现有技术通常根据企业所在位置确定区域边界,并根据落入区域边界内的采样点确定企业员工数量。

但是,由于采样点存在定位误差,导致确定到的企业员工数量不准确。

发明内容

本申请提供一种数据处理方法、装置、设备及存储介质,以至少解决现有技术中由于采样点存在定位误差,导致确定到的企业员工数量不准确的问题。本申请的技术方案如下:

第一方面,提供一种数据处理方法,该方法包括:根据多个第一采样点和第一区域边界,确定多个第二采样点;第一采样点为第一用户终端在第一预设时间段内的采样点;第一用户终端对应的用户为企业的正式员工;第一区域边界为企业所在区域范围对应的边界;第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离;根据多个第二采样点,确定第二区域边界;获取多个第三采样点,并根据多个第三采样点,确定第二用户终端;第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内;第二用户终端对应的用户为企业的实习员工;将第一用户终端的数量与第二用户终端的数量之和,确定为企业的员工数量。

在一种可能的实施方式中,上述根据多个第二采样点,确定第二区域边界,包括:根据多个第二采样点和预设聚类算法,确定目标簇;预设聚类算法包括:具有噪声的基于密度的聚类(density based spatial clustering of application with noise,DBSCAN)算法,或者,孤立森林(isolation forest)算法;根据目标簇,确定经度最大值、纬度最大值、经度最小值和纬度最小值;根据经度最大值、纬度最大值、经度最小值和纬度最小值,构建四边形,并将四边形确定为第二区域边界。

在一种可能的实施方式中,在预设聚类算法为具有噪声的基于密度的聚类算法的情况下,上述根据多个第二采样点和预设聚类算法,确定目标簇,包括:将多个第二采样点输入具有噪声的基于密度的聚类算法,得到至少一个聚类簇;在聚类簇的数量为多个的情况下,确定每个聚类簇的分布信息;分布信息包括:密度或者采样点数量;将多个聚类簇中分布信息满足预设条件的聚类簇,确定为目标簇;预设条件包括:密度大于预设密度,或者,采样点数量大于第一预设数量。

在一种可能的实施方式中,上述根据多个第三采样点,确定第二用户终端,包括:根据多个第三采样点,确定多个第三用户终端;第三用户终端对应的用户不为正式员工;针对每个第三用户终端,获取第四采样点的数量;第四采样点为第三用户终端在第二预设时间段内位于第二区域边界内的采样点;第二预设时间段大于第一预设时间段;在第四采样点的数量大于第二预设数量的情况下,将第三用户终端确定为第二用户终端。

在一种可能的实施方式中,上述根据多个第一采样点和第一区域边界,确定多个第二采样点,包括:针对每个第一采样点,判断第一采样点是否位于第一区域边界内;在第一采样点位于第一区域边界内的情况下,将第一采样点确定为第二采样点;在第一采样点不位于第一区域边界内的情况下,确定第一采样点与第一区域边界之间的距离,并在第一采样点与第一区域边界之间的距离小于预设距离的情况下,将第一采样点确定为第二采样点。

第二方面,提供一种数据处理装置,该数据处理装置包括:确定单元和获取单元;确定单元,用于根据多个第一采样点和第一区域边界,确定多个第二采样点;第一采样点为第一用户终端在第一预设时间段内的采样点;第一用户终端对应的用户为企业的正式员工;第一区域边界为企业所在区域范围对应的边界;第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离;确定单元,还用于根据多个第二采样点,确定第二区域边界;获取单元,用于获取多个第三采样点;第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内;确定单元,还用于根据多个第三采样点,确定第二用户终端;第二用户终端对应的用户为企业的实习员工;确定单元,还用于将第一用户终端的数量与第二用户终端的数量之和,确定为企业的员工数量。

在一种可能的实施方式中,上述确定单元,具体用于:根据多个第二采样点和预设聚类算法,确定目标簇;预设聚类算法包括:具有噪声的基于密度的聚类算法,或者,孤立森林算法;根据目标簇,确定经度最大值、纬度最大值、经度最小值和纬度最小值;根据经度最大值、纬度最大值、经度最小值和纬度最小值,构建四边形,并将四边形确定为第二区域边界。

在一种可能的实施方式中,在预设聚类算法为具有噪声的基于密度的聚类算法的情况下,上述确定单元,具体用于:将多个第二采样点输入具有噪声的基于密度的聚类算法,得到至少一个聚类簇;在聚类簇的数量为多个的情况下,确定每个聚类簇的分布信息;分布信息包括:密度或者采样点数量;将多个聚类簇中分布信息满足预设条件的聚类簇,确定为目标簇;预设条件包括:密度大于预设密度,或者,采样点数量大于第一预设数量。

在一种可能的实施方式中,上述确定单元,具体用于:根据多个第三采样点,确定多个第三用户终端;第三用户终端对应的用户不为正式员工;针对每个第三用户终端,获取第四采样点的数量;第四采样点为第三用户终端在第二预设时间段内位于第二区域边界内的采样点;第二预设时间段大于第一预设时间段;在第四采样点的数量大于第二预设数量的情况下,将第三用户终端确定为第二用户终端。

在一种可能的实施方式中,上述确定单元,具体用于:针对每个第一采样点,判断第一采样点是否位于第一区域边界内;在第一采样点位于第一区域边界内的情况下,将第一采样点确定为第二采样点;在第一采样点不位于第一区域边界内的情况下,确定第一采样点与第一区域边界之间的距离,并在第一采样点与第一区域边界之间的距离小于预设距离的情况下,将第一采样点确定为第二采样点。

第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面及其任一种可能的实施方式的方法。

第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中及其任一种可能的实施方式的方法。

第五方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述第一方面及其任一种可能的实施方式的方法。

本申请提供的第一方面的技术方案至少带来以下有益效果:现有技术中由于采样点存在定位误差,导致确定到的企业员工数量不准确。本申请根据多个第一采样点和第一区域边界,确定多个第二采样点。其中,第一采样点为第一用户终端在第一预设时间段内的采样点。第一用户终端对应的用户为企业的正式员工。第一区域边界为企业所在区域范围对应的边界。第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离。之后,根据多个第二采样点,确定第二区域边界。这样,通过多个第二采样点可以对第一区域边界进行修正,得到准确的第二区域边界。接着,获取多个第三采样点,并根据多个第三采样点,确定第二用户终端。其中,第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内。第二用户终端对应的用户为企业的实习员工。这样,通过对多个第三采样点中的每个第三采样点进行筛选,可以准确确定实习员工的数量,从而可以准确确定企业的员工数量。

需要说明的是,第二方面至第五方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果,此处不再赘述。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。

图1是根据一示例性实施例示出的一种数据处理系统的结构示意图;

图2是根据一示例性实施例示出的一种数据处理方法的流程图;

图3是根据一示例性实施例示出的第一区域边界的示意图;

图4是根据一示例性实施例示出的多个第一采样点的示意图;

图5是根据一示例性实施例示出的又一种数据处理方法的流程图;

图6是根据一示例性实施例示出的多个离散点和目标簇的示意图;

图7是根据一示例性实施例示出的多个离散点和目标簇在电子地图上的示意图;

图8是根据一示例性实施例示出的四边形的示意图;

图9是根据一示例性实施例示出的又一种数据处理方法的流程图;

图10是根据一示例性实施例示出的多个聚类簇和多个离散点的示意图;

图11是根据一示例性实施例示出的多个聚类簇和多个离散点在电子地图上的示意图;

图12是根据一示例性实施例示出的又一种数据处理方法的流程图;

图13是根据一示例性实施例示出的又一种数据处理方法的流程图;

图14是根据一示例性实施例示出的一种数据处理装置的框图;

图15是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请提供的数据处理方法进行详细介绍之前,先对本申请涉及的技术背景进行简单介绍。

获取企业的员工数量对于就业情况分析至关重要。由于企业上报存在不及时且不准确的情况,导致无法准确获取企业的员工数量。现有技术通常通过以下三种方式获取企业的员工数量:一、通过运营商的测量报告(measurement report,MR)中的定位信息,获取企业的员工数量。但是,MR存在定位误差,导致确定到的企业员工数量不准确。其中,第四代移动通信技术(the 4th generat ion mobi le commun icat ion techno logy,4G)网络的误差为100米,第五代移动通信技术(the 5th generat ion mobi le commun icat iontechno logy,5G)的误差大于200米。二、根据企业所在位置确定区域边界,并根据落入区域边界内的采样点确定企业员工数量。三、在企业布置室内分布系统的情况下,获取多个用户终端中每个用户终端在一周内在室内分布系统中的驻留时长,并将驻留时长大于或等于预设门限的用户终端对应的用户确定为企业的员工,从而得到企业的员工数量。

四、在企业未布置室内分布系统的情况下,获取企业所在区域范围对应的边界,以及覆盖企业所在区域范围的小区。之后,获取一周内落入企业所在区域范围的采样点,并确定采样点对应的用户终端。进一步的,获取每个用户终端在覆盖企业所在区域范围的小区的驻留时长,并将驻留时长大于或等于预设门限的用户终端确定为企业的员工,从而得到企业的员工数量。五、确定企业所在区域范围对应的小区,并将小区对应的驻留用户确定为企业的员工。但是,在小区覆盖范围较大的情况下,确定到的企业员工数量不准确。

在对本申请提供的数据处理方法进行详细介绍之前,先对本申请涉及的实施环境(实施架构)进行简单介绍。

本申请实施例提供的数据处理方法可以适用于数据处理系统。图1示出了该数据处理系统的一种结构示意图。如图1所示,该数据处理系统10包括数据处理装置11以及电子设备12。数据处理装置11与电子设备12连接,数据处理装置11与电子设备12之间可以采用有线方式连接,也可以采用无线方式连接,本申请实施例对此不作限定。

数据处理装置11可以用于与电子设备12进行数据交互,例如,接收电子设备12中发送的多个第一采样点。向电子设备12发送企业的员工数量。

数据处理装置11还可以用于对获取到的多个第一采样点进行处理,例如,根据多个第一采样点和第一区域边界,确定多个第二采样点。第一采样点为第一用户终端在第一预设时间段内的采样点。第一用户终端对应的用户为企业的正式员工。第一区域边界为企业所在区域范围对应的边界。第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离。

数据处理装置11还可以用于根据多个第二采样点,确定第二区域边界。获取多个第三采样点,并根据多个第三采样点,确定第二用户终端。第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内。第二用户终端对应的用户为企业的实习员工。将第一用户终端的数量与第二用户终端的数量之和,确定为企业的员工数量。

电子设备12可以用于与数据处理装置11进行数据交互,例如,向数据处理装置11发送多个第一采样点。接收数据处理装置11发送的企业的员工数量。

可选的,该电子设备可以是物理机,例如:台式电脑,又称台式机或桌面机(desktop computer)、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备,该电子设备还可以为服务器,也可以为多个服务器组成的服务器群。

可选的,上述数据处理装置11也可以通过部署在物理机上的虚拟机(virtualmachine,VM),实现上述数据处理装置11所要实现的功能。

需要说明的,数据处理装置11和电子设备12可以为相互独立的设备,也可以集成于同一设备中,本申请对此不作具体限定。

当数据处理装置11和电子设备12集成于同一设备时,数据处理装置11和电子设备12之间的通信方式为该设备内部模块之间的通信。这种情况下,二者之间的通信流程与“数据处理装置11和电子设备12之间相互独立的情况下,二者之间的通信流程”相同。

在本申请提供的以下实施例中,本申请以数据处理装置11和电子设备12相互独立设置为例进行说明。

为了便于理解,以下结合附图对本申请提供的数据处理方法进行具体介绍。

图2是根据一示例性实施例示出的一种数据处理方法的流程图,该方法可以应用于电子设备,也可以应用于与电子设备连接的数据处理装置。同时,该方法也可以应用于与电子设备或者数据处理装置类似的设备。以下,以该方法应用于电子设备为例,对该方法进行说明,如图2所示,该数据处理方法包括以下步骤:

S201、电子设备根据多个第一采样点和第一区域边界,确定多个第二采样点。

其中,第一采样点为第一用户终端在第一预设时间段内的采样点。第一用户终端对应的用户为企业的正式员工。第一区域边界为企业所在区域范围对应的边界。第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离。

作为一种可能的实现方式,电子设备根据企业的员工号码清单,确定多个正式员工一一对应的多个第一用户终端。之后,电子设备获取每个第一用户终端在第一预设时间段内的采样点,得到多个第一采样点。接着,电子设备根据电子地图获取企业所在区域范围,并将企业所在区域范围对应的边界确定为第一区域边界。

进一步的,电子设备根据每个第一采样点包括的位置信息以及第一区域边界,将位于第一区域边界内,或者,与区域边界的距离小于预设距离的第一采样点确定为第二采样点,得到多个第二采样点。

示例性的,第一区域边界可以如图3所示。多个第一采样点可以如图4所示。

示例性的,第一区域边界可以根据电子地图上企业所在区域范围确定。

此步骤的具体实现方式,可以参照本申请实施例的后续描述,此处不再进行赘述。

S202、电子设备根据多个第二采样点,确定第二区域边界。

作为一种可能的实现方式,电子设备根据多个第二采样点和预设聚类算法,确定目标簇。接着,电子设备根据目标簇,确定经度最大值、纬度最大值、经度最小值和纬度最小值。进一步的,电子设备根据经度最大值、纬度最大值、经度最小值和纬度最小值,确定第二区域边界。

此步骤的具体实现方式,可以参照本申请实施例的后续描述,此处不再进行赘述。

S203、电子设备获取多个第三采样点。

其中,第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内。

作为一种可能的实现方式,电子设备获取在第一预设时间段内的多个采样点,并根据多个采样点中每个采样点的位置信息,将位于第二区域边界内的采样点确定为第三采样点。

S204、电子设备根据多个第三采样点,确定第二用户终端。

其中,第二用户终端对应的用户为企业的实习员工。

作为一种可能的实现方式,电子设备根据多个第三采样点确定多个第三用户终端。之后,电子设备针对每个第三用户终端,获取第四采样点的数量。进一步的,电子设备在第四采样点的数量大于第二预设数量的情况下,将第三用户终端确定为第二用户终端。

此步骤的具体实现方式,可以参照本申请实施例的后续描述,此处不再进行赘述。

S205、电子设备将第一用户终端的数量与第二用户终端的数量之和,确定为企业的员工数量。

可以理解的是,现有技术中由于采样点存在定位误差,导致确定到的企业员工数量不准确。本申请根据多个第一采样点和第一区域边界,确定多个第二采样点。其中,第一采样点为第一用户终端在第一预设时间段内的采样点。第一用户终端对应的用户为企业的正式员工。第一区域边界为企业所在区域范围对应的边界。第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离。之后,根据多个第二采样点,确定第二区域边界。这样,通过多个第二采样点可以对第一区域边界进行修正,得到准确的第二区域边界。接着,获取多个第三采样点,并根据多个第三采样点,确定第二用户终端。其中,第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内。第二用户终端对应的用户为企业的实习员工。这样,通过对多个第三采样点中的每个第三采样点进行筛选,可以准确确定实习员工的数量,从而可以准确确定企业的员工数量。

在一些实施例中,为了准确确定第二区域边界,如图5所示,上述S202可以以如下方式实现:

S301、电子设备根据多个第二采样点和预设聚类算法,确定目标簇。

其中,预设聚类算法包括:具有噪声的基于密度的聚类算法,或者,孤立森林算法。

作为一种可能的实现方式,电子设备将多个第二采样点输入孤立森林算法,得到多个离散点和目标簇。

示例性的,可以采用如下代码展示多个离散点和目标簇:

dfnew[‘离群标签’]=labels

plt.scatter(dfnew[‘b.longitude’],dfnew[‘b.latitude’],c=dfnew[‘离群标签’])

plt.xlabel(‘经度’)

plt.ylabel(‘纬度’)

plt.title(‘离散点检测结果’)

plt.show()

示例性的,图6为多个离散点和目标簇的示意图。其中,白点为多个离散点,黑点为目标簇。图7为多个离散点和目标簇在电子地图上的示意图。其中,白点为多个离散点,黑点为目标簇。

作为另一种可能的实现方式,电子设备将多个第二采样点输入具有噪声的基于密度的聚类算法,得到多个离散点和至少一个聚类簇。接着,电子设备在聚类簇的数量为多个的情况下,根据聚类簇的分布信息,确定目标簇。

此步骤的具体实现方式,可以参照本申请实施例的后续描述,此处不再进行赘述。

S302、电子设备根据目标簇,确定经度最大值、纬度最大值、经度最小值和纬度最小值。

作为一种可能的实现方式,电子设备根据目标簇中包括的多个第二采样点中每个第二采样点包括的位置信息,确定经度最大值、纬度最大值、经度最小值和纬度最小值。

示例性的,位置信息包括经度、纬度。

S303、电子设备根据经度最大值、纬度最大值、经度最小值和纬度最小值,构建四边形。

作为一种可能的实现方式,电子设备将经度最大值所在的竖直线、纬度最大值所在的水平线、经度最小值所在的竖直线、纬度最小值所在的水平线组成的封闭图形确定为四边形。

示例性的,电子设备可以使用po lygon算法根据经度最大值所在的竖直线、纬度最大值所在的水平线、经度最小值所在的竖直线、纬度最小值所在的水平线,绘制四边形。

示例性的,四边形可以如图8所示。

S304、电子设备将四边形确定为第二区域边界。

可以理解的是,由于第一区域边界为根据企业所在区域范围确定的,可能使得第一区域边界不准确。这样,通过多个第二采样点和预设聚类算法,可以使得确定到的第二区域边界更准确,进一步使得后续根据第二区域边界确定到的企业员工数量更准确。

在一些实施例中,在预设聚类算法为具有噪声的基于密度的聚类算法的情况下,为了准确确定目标簇,如图9所示,上述S301可以以如下方式实现:

S401、电子设备将多个第二采样点输入具有噪声的基于密度的聚类算法,得到至少一个聚类簇。

S402、电子设备在聚类簇的数量为多个的情况下,确定每个聚类簇的分布信息。

其中,分布信息包括:密度或者采样点数量。

示例性的,多个聚类簇和多个离散点可以如图10所示,其中,白点为离散点,黑点组成了两个聚类簇。图11为多个聚类簇和多个离散点在电子地图上的示意图。其中,白点为离散点,黑点组成了两个聚类簇。

S403、电子设备将多个聚类簇中分布信息满足预设条件的聚类簇,确定为目标簇。

其中,预设条件包括:密度大于预设密度,或者,采样点数量大于第一预设数量。

作为一种可能的实现方式,电子设备将多个聚类簇中密度大于预设密度的聚类簇,确定为目标簇。或者,电子设备将多个聚类簇中采样点数量大于第一预设数量的聚类簇,确定为目标簇。

示例性的,以得到的聚类簇的数量为2,一个聚类簇中的采样点数量为1698,另一个聚类簇的采样点数量为23827,第一预设数量为20000为例,电子设备将采样点数量为23827对应的聚类簇确定为目标簇。

可以理解的是,由于具有噪声的基于密度的聚类算法可以得到多个聚类簇和多个离散点,具有噪声的基于密度的聚类算法可以适用于企业的办公区域为多个的情况。这样,可以准确确定目标簇,从而使得后续根据目标簇确定的第二区域边界更准确,进一步使得后续根据第二区域边界确定到的企业员工数量更准确。

在一些实施例中,为了确定第二用户终端,如图12所示,上述S204可以以如下方式实现:

S501、电子设备根据多个第三采样点,确定多个第三用户终端。

其中,第三用户终端对应的用户不为正式员工。

作为一种可能的实现方式,电子设备获取多个第三采样点一一对应的多个第四用户终端,并将不为第一用户终端的第四用户终端确定为第三用户终端,得到多个第三用户终端。

S502、电子设备针对每个第三用户终端,获取第四采样点的数量。

其中,第四采样点为第三用户终端在第二预设时间段内位于第二区域边界内的采样点。第二预设时间段大于第一预设时间段。

作为一种可能的实现方式,电子设备获取第三用户终端在第二预设时间段内的采样点,并根据多个采样点中每个采样点的位置信息,将位于第二区域边界内的采样点确定为第四采样点。之后,电子设备获取第四采样点的数量。

需要说明的是,第二预设时间段可以为一周。

示例性的,第四采样点的数量可以用于表征第三用户终端在第二预设时间段内的驻留时长。

S503、电子设备在第四采样点的数量大于第二预设数量的情况下,将第三用户终端确定为第二用户终端。

可以理解的是,第三用户终端对应的用户不为正式员工,这样,通过第四采样点的数量可以准确判断第三用户终端是否为企业的实现员工。进一步的,通过准确确定第二用户终端,可以准确确定企业的员工数量。

在一些实施例中,为了准确确定多个第二采样点,如图13所示,上述S201可以以如下方式实现:

S601、电子设备针对每个第一采样点,判断第一采样点是否位于第一区域边界内。

作为一种可能的实现方式,电子设备获取多个第一采样点中每个第一采样点的位置信息。之后,电子设备针对每个第一采样点,根据第一采样点的位置信息,判断第一采样点是否位于第一区域边界内。

示例性的,第一采样点的位置信息可以根据MR得到,第一采样点的位置信息也可以根据最小化路测(min imizat ion of dr ive-tests,MDT)得到。位置信息可以为采样点的经度、纬度。

S602、电子设备在第一采样点位于第一区域边界内的情况下,将第一采样点确定为第二采样点。

S603、电子设备在第一采样点不位于第一区域边界内的情况下,确定第一采样点与第一区域边界之间的距离。

S604、电子设备在第一采样点与第一区域边界之间的距离小于预设距离的情况下,将第一采样点确定为第二采样点。

示例性的,预设距离可以为200米。

可以理解的是,由于采样点存在定位误差,可以通过采样点与第一区域边界之间的距离,将定位误差大的采样点去除,可以准确确定多个第二采样点。进一步的,使得后续根据多个第二采样点确定到的第二区域边界更准确,进一步提高确定企业员工数量的准确性。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,数据处理装置或电子设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法,示例性的对数据处理装置或电子设备进行功能模块的划分,例如,数据处理装置或电子设备可以包括对应各个功能划分的各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

图14是根据一示例性实施例示出的一种数据处理装置700的框图。如图14所示,该数据处理装置700包括确定单元701、获取单元702。

确定单元701,用于根据多个第一采样点和第一区域边界,确定多个第二采样点。第一采样点为第一用户终端在第一预设时间段内的采样点。第一用户终端对应的用户为企业的正式员工。第一区域边界为企业所在区域范围对应的边界。第二采样点位于第一区域边界内,或者,与区域边界的距离小于预设距离。

确定单元701,还用于根据多个第二采样点,确定第二区域边界。

获取单元702,用于获取多个第三采样点。第三采样点的采样时刻位于第一预设时间段内,且第三采样点位于第二区域边界内。

确定单元701,还用于根据多个第三采样点,确定第二用户终端。第二用户终端对应的用户为企业的实习员工。

确定单元701,还用于将第一用户终端的数量与第二用户终端的数量之和,确定为企业的员工数量。

可选的,为了准确确定第二区域边界,如图14所示,上述确定单元701,具体用于:

根据多个第二采样点和预设聚类算法,确定目标簇。预设聚类算法包括:具有噪声的基于密度的聚类算法,或者,孤立森林算法。

根据目标簇,确定经度最大值、纬度最大值、经度最小值和纬度最小值。

根据经度最大值、纬度最大值、经度最小值和纬度最小值,构建四边形,并将四边形确定为第二区域边界。

可选的,在预设聚类算法为具有噪声的基于密度的聚类算法的情况下,为了准确确定目标簇,如图14所示,确定单元701,具体用于:

将多个第二采样点输入具有噪声的基于密度的聚类算法,得到至少一个聚类簇。

在聚类簇的数量为多个的情况下,确定每个聚类簇的分布信息。分布信息包括:密度或者采样点数量。

将多个聚类簇中分布信息满足预设条件的聚类簇,确定为目标簇。预设条件包括:密度大于预设密度,或者,采样点数量大于第一预设数量。

可选的,为了确定第二用户终端,如图14所示,上述确定单元701,具体用于:

根据多个第三采样点,确定多个第三用户终端。第三用户终端对应的用户不为正式员工。

针对每个第三用户终端,获取第四采样点的数量。第四采样点为第三用户终端在第二预设时间段内位于第二区域边界内的采样点。第二预设时间段大于第一预设时间段。

在第四采样点的数量大于第二预设数量的情况下,将第三用户终端确定为第二用户终端。

可选的,为了准确确定多个第二采样点,如图14所示,上述确定单元701,具体用于:

针对每个第一采样点,判断第一采样点是否位于第一区域边界内。

在第一采样点位于第一区域边界内的情况下,将第一采样点确定为第二采样点。

在第一采样点不位于第一区域边界内的情况下,确定第一采样点与第一区域边界之间的距离,并在第一采样点与第一区域边界之间的距离小于预设距离的情况下,将第一采样点确定为第二采样点。

图15是根据一示例性实施例示出的一种电子设备的框图。如图15所示,电子设备800包括但不限于:处理器801和存储器802。

其中,上述的存储器802,用于存储上述处理器801的可执行指令。可以理解的是,上述处理器801被配置为执行指令,以实现上述实施例中的数据处理方法。

需要说明的是,本领域技术人员可以理解,图15中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图15所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

处理器801是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器801可包括一个或多个处理单元。可选的,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及各种数据。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能模块所需的应用程序等(比如确定单元、获取单元)。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以实现上述实施例中的数据处理方法。

在实际实现时,确定单元701、获取单元702的功能均可以由图15中的处理器801调用存储器802中存储的计算机程序实现。其具体的执行过程可参考上述实施例中的数据处理方法部分的描述,这里不再赘述。

可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以是只读存储器(read-on ly memory,ROM)、随机存储存储器(random access memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中,本申请实施例还提供了一种包括一条或多条指令的计算机程序产品,该一条或多条指令可以由电子设备的处理器执行以完成上述实施例中的方法。

需要说明的是,上述计算机可读存储介质中的指令或计算机程序产品中的一条或多条指令被电子设备的处理器执行时实现上述方法实施例的各个过程,且能达到与上述方法相同的技术效果,为避免重复,这里不再赘述。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

技术分类

06120116541287