掌桥专利:专业的专利平台
掌桥专利
首页

MAC地址的识别方法和装置、存储介质及电子设备

文献发布时间:2023-06-19 10:22:47


MAC地址的识别方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域,具体而言,涉及一种MAC地址的识别方法和装置、存储介质及电子设备。

背景技术

目前的相关技术中,Wi-Fi设备一般安装在固定地点,所以,扫描到该Wi-Fi的位置数据的分布一般呈现为聚集形状,利用聚集的定位点可以估计出一个该Wi-Fi的位置(例如,聚集形状的中心),生成位置信息库,进而用于提供定位服务。

在Wi-Fi位置数据存在错误的位置数据的情况下,会产生相当大的定位误差,造成定位误差的位置数据称为异常定位数据,因此,使用上述异常定位数据进行后续处理,会导致定位数据不准确,难以有效实现与定位相关的业务,严重影响用户体验。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种MAC地址的识别方法和装置、存储介质及电子设备,以至少解决相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

根据本发明实施例的一个方面,提供了一种MAC地址的识别方法,包括:

根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征,其中,所述第一组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述第二组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述Wi-Fi列表包括所述一个终端扫描到的MAC地址,所述基站列表包括所述一个终端扫描到的基站标识,所述每条定位日志包括的Wi-Fi列表均包括所述目标MAC地址;

根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量;

根据第三组定位日志确定所述目标MAC地址的异常特征向量,其中,所述第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及所述一个终端扫描到的Wi-Fi列表;

根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址。

可选地,所述方法还包括:

在所述第一识别结果还包括所述目标MAC地址为迁移MAC地址的第五概率值、所述第二识别结果还包括所述目标MAC地址为迁移MAC地址的第六概率值、所述第三识别结果还包括所述目标MAC地址为迁移MAC地址的第七概率值、以及所述第四识别结果还包括所述目标MAC地址为迁移MAC地址的第八概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址。

可选地,所述根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址,包括:

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于预设的第三概率阈值的数量大于2的情况下,确定所述目标MAC地址为迁移MAC地址;和/或

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于所述第三概率阈值的数量小于或等于2的情况下,获取所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值的概率均值;在所述概率均值大于预设的第四概率阈值的情况下,确定所述目标MAC地址为迁移MAC地址。

可选地,所述方法还包括:

在确定出所述目标MAC地址为迁移MAC地址的情况下,根据所述目标MAC地址的共现数据在空间上的分布特征,确定所述目标MAC地址的预估地理位置;

在预设的第一数据库中将与所述目标MAC地址具有对应关系的地理位置更新为所述预估地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置。

可选地,所述方法还包括:

在所述第一识别结果还包括所述目标MAC地址为移动MAC地址的第九概率值、所述第二识别结果还包括所述目标MAC地址为移动MAC地址的第十概率值、所述第三识别结果还包括所述目标MAC地址为移动MAC地址的第十一概率值、以及所述第四识别结果还包括所述目标MAC地址为移动MAC地址的第十二概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址。

可选地,所述根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址,包括:

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于预设的第五概率阈值的数量大于2的情况下,确定所述目标MAC地址为移动MAC地址;和/或

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于所述第五概率阈值的数量小于或等于2的情况下,获取所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值的概率均值;在所述概率均值大于预设的第六概率阈值的情况下,确定所述目标MAC地址为移动MAC地址。

可选地,所述方法还包括:

在确定出所述目标MAC地址为移动MAC地址的情况下,在预设的第一数据库中删除所述目标MAC地址的记录,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置,所述目标MAC地址的记录包括具有对应关系的所述目标MAC地址和所述目标MAC地址的地理位置。

根据本发明实施例的另一方面,还提供了一种MAC地址的识别装置,包括:

第一确定模块,用于根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征,其中,所述第一组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述第二组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述Wi-Fi列表包括所述一个终端扫描到的MAC地址,所述基站列表包括所述一个终端扫描到的基站标识,所述每条定位日志包括的Wi-Fi列表均包括所述目标MAC地址;

第二确定模块,用于根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量;

第三确定模块,用于根据第三组定位日志确定所述目标MAC地址的异常特征向量,其中,所述第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及所述一个终端扫描到的Wi-Fi列表;

第四确定模块,用于根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址。

可选地,所述第一确定模块用于通过如下方式根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征:

获取所述第一组定位日志中所述目标MAC地址的第一共现数据的地理位置,其中,所述目标MAC地址的第一共现数据包括所述第一组定位日志中的每条定位日志包括的所述Wi-Fi列表中除所述目标MAC地址之外的MAC地址,以及所述第一组定位日志中的每条定位日志包括的所述基站列表;

根据所述第一共现数据的地理位置,对所述第一共现数据进行聚类,得到一组聚类簇;

根据所述一组聚类簇中的每个聚类簇的簇信息,确定所述目标MAC地址的共现数据在空间上的分布特征。

可选地,所述第一确定模块用于通过如下方式根据所述一组聚类簇中的每个聚类簇的簇信息,确定所述目标MAC地址的共现数据在空间上的分布特征:

将所述目标MAC地址的共现数据在空间上的分布特征确定为包括以下至少之一:所述一组聚类簇中的聚类簇的数量、所述一组聚类簇中的每个聚类簇的半径、所述一组聚类簇的分布半径、所述一组聚类簇中的每个聚类簇包括的MAC地址的数量和基站标识的数量。

可选地,所述第一确定模块用于通过如下方式获取所述第一组定位日志中所述目标MAC地址的第一共现数据的地理位置:

获取所述第一组定位日志中作为所述第一共现数据的一组MAC地址和一组基站标识;

在预设的第一数据库中获取与所述一组MAC地址具有一一对应关系的一组MAC地址的地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置;

在预设的第二数据库中获取与所述一组基站标识具有一一对应关系的一组基站标识的地理位置,其中,所述第二数据库中存储了一组具有对应关系的基站标识和基站标识的地理位置;

其中,所述第一共现数据的地理位置包括所述一组MAC地址的地理位置和所述一组基站标识的地理位置。

可选地,所述第一确定模块用于通过如下方式根据所述第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征:

在所述第二组定位日志包括第1个时间单位上获取到的第一子组定位日志和第2个时间单位上获取到的第二子组定位日志的情况下,获取所述第一子组定位日志中不同的MAC地址和基站标识的总数量N1、所述第二子组定位日志中不同的MAC地址和基站标识的总数量N2、以及所述第一子组定位日志和所述第二子组定位日志中不同的MAC地址和基站标识的总数量N3;

根据所述第一子组定位日志和所述总数量N3,确定所述第一子组定位日志的第一特征向量,其中,所述第一特征向量具有N3个特征,所述第一特征向量中的所述N3个特征分别对应于所述第一子组定位日志和所述第二子组定位日志中N3个不同的MAC地址和基站标识,所述第一特征向量中的所述N3个特征的取值分别表示所述N3个不同的MAC地址和基站标识在所述第一子组定位日志中出现的次数;

根据所述第二子组定位日志和所述总数量N3,确定所述第二子组定位日志的第二特征向量,其中,所述第二特征向量具有N3个特征,所述第二特征向量中的所述N3个特征分别对应于所述第一子组定位日志和所述第二子组定位日志中N3个不同的MAC地址和基站标识,所述第二特征向量中的所述N3个特征的取值分别表示所述N3个不同的MAC地址和基站标识在所述第二子组定位日志中出现的次数;

根据所述第一特征向量和所述第二特征向量,确定所述目标MAC地址的共现数据在时间上的变化特征。

可选地,所述第一确定模块用于通过如下方式根据所述第一特征向量和所述第二特征向量,确定所述目标MAC地址的共现数据在时间上的变化特征:

将所述目标MAC地址的共现数据在时间上的变化特征确定为等于所述第一特征向量与所述第二特征向量的余弦距离;或者

将所述目标MAC地址的共现数据在时间上的变化特征确定为等于所述第一特征向量与所述第二特征向量的K-L散度。

可选地,所述第二确定模块用于通过如下方式根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量:

将所述分布特征和所述变化特征拼接为所述目标MAC地址的共现特征向量。

可选地,所述第三确定模块用于通过如下方式根据第三组定位日志确定所述目标MAC地址的异常特征向量:

在所述第三组定位日志中包括M个不同的终端标识的情况下,获取所述第三组定位日志中每个终端标识的一组定位位置,共得到M组定位位置,其中,M为1或大于1的自然数;

根据所述M组定位位置,分别形成M条移动轨迹,其中,所述M条移动轨迹与所述M个不同的终端标识具有一一对应关系,所述M条移动轨迹中的每条移动轨迹为对应的一个终端标识的移动轨迹;

在所述M组定位位置中的每组定位位置中,确定偏离所述M条移动轨迹中与所述每组定位位置对应的一条移动轨迹的异常定位位置,共得到P个异常定位位置,其中,所述P个异常定位位置分别包含在所述第三组定位日志中的P条定位日志中,其中,P为1或大于1的自然数;

在所述P条定位日志中确定包括所述目标MAC地址的Q条定位日志,其中,1≤Q≤P;

根据所述Q条定位日志中包括的所述目标MAC地址的地理位置以及所述Q条定位日志中包括的所述定位位置,确定所述目标MAC地址的异常特征向量。

可选地,所述第三确定模块用于通过如下方式根据所述Q条定位日志中包括的所述目标MAC地址的地理位置以及所述Q条定位日志中包括的所述定位位置,确定所述目标MAC地址的异常特征向量:

在预设的第一数据库中获取与所述目标MAC地址具有对应关系的目标地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置;

分别获取所述目标地理位置与所述Q条定位日志中的每条定位日志中包括的所述定位位置之间的距离,共得到Q个距离;

根据所述Q个距离,确定所述目标MAC地址的异常特征向量。

可选地,所述第三确定模块用于通过如下方式根据所述Q个距离,确定所述目标MAC地址的异常特征向量:

将所述目标MAC地址的异常特征向量确定为包括以下至少之一:所述Q个距离的平均距离、所述Q个距离的距离方差、所述Q个距离的距离分位数。

可选地,所述第四确定模块用于通过如下方式根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址:

将所述共现特征向量输入到第一决策模型,得到所述第一决策模型输出的第一识别结果,其中,所述第一决策模型用于根据所述共现特征向量中的部分或全部特征确定所述第一识别结果,所述第一识别结果包括所述目标MAC地址为异常MAC地址的第一概率值;

将所述共现特征向量输入到第一目标识别神经网络,得到所述第一识别神经网络输出的第二识别结果,其中,所述第二识别结果包括所述目标MAC地址为异常MAC地址的第二概率值;

将所述异常特征向量输入到第二决策模型,得到所述第二决策模型输出的第三识别结果,其中,所述第二决策模型用于根据所述异常特征向量中的部分或全部特征确定所述第三识别结果,所述第三识别结果包括所述目标MAC地址为异常MAC地址的第三概率值;

将所述异常特征向量输入到第二目标识别神经网络,得到所述第二识别神经网络输出的第四识别结果,其中,所述第四识别结果包括所述目标MAC地址为异常MAC地址的第四概率值;

根据所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值,确定所述目标MAC地址是否为异常MAC地址。

可选地,所述第四确定模块用于通过如下方式根据所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值,确定所述目标MAC地址是否为异常MAC地址:

在所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值中大于预设的第一概率阈值的数量大于2的情况下,确定所述目标MAC地址为异常MAC地址;和/或

在所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值中大于所述第一概率阈值的数量小于或等于2的情况下,获取所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值的概率均值;在所述概率均值大于预设的第二概率阈值的情况下,确定所述目标MAC地址为异常MAC地址。

可选地,所述装置还用于:

在所述第一识别结果还包括所述目标MAC地址为迁移MAC地址的第五概率值、所述第二识别结果还包括所述目标MAC地址为迁移MAC地址的第六概率值、所述第三识别结果还包括所述目标MAC地址为迁移MAC地址的第七概率值、以及所述第四识别结果还包括所述目标MAC地址为迁移MAC地址的第八概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址。

可选地,所述装置还用于通过如下方式根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址:

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于预设的第三概率阈值的数量大于2的情况下,确定所述目标MAC地址为迁移MAC地址;和/或

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于所述第三概率阈值的数量小于或等于2的情况下,获取所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值的概率均值;在所述概率均值大于预设的第四概率阈值的情况下,确定所述目标MAC地址为迁移MAC地址。

可选地,所述装置还用于:

在确定出所述目标MAC地址为迁移MAC地址的情况下,根据所述目标MAC地址的共现数据在空间上的分布特征,确定所述目标MAC地址的预估地理位置;

在预设的第一数据库中将与所述目标MAC地址具有对应关系的地理位置更新为所述预估地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置。

可选地,所述装置还用于:

在所述第一识别结果还包括所述目标MAC地址为移动MAC地址的第九概率值、所述第二识别结果还包括所述目标MAC地址为移动MAC地址的第十概率值、所述第三识别结果还包括所述目标MAC地址为移动MAC地址的第十一概率值、以及所述第四识别结果还包括所述目标MAC地址为移动MAC地址的第十二概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址。

可选地,所述装置还用于通过如下方式根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址:

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于预设的第五概率阈值的数量大于2的情况下,确定所述目标MAC地址为移动MAC地址;和/或

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于所述第五概率阈值的数量小于或等于2的情况下,获取所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值的概率均值;在所述概率均值大于预设的第六概率阈值的情况下,确定所述目标MAC地址为移动MAC地址。

可选地,所述装置还用于:

在确定出所述目标MAC地址为移动MAC地址的情况下,在预设的第一数据库中删除所述目标MAC地址的记录,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置,所述目标MAC地址的记录包括具有对应关系的所述目标MAC地址和所述目标MAC地址的地理位置。

根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述MAC地址的识别方法。

根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的MAC地址的识别方法。

在本发明实施例中,采用根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定目标MAC地址的共现数据在时间上的变化特征,根据分布特征和变化特征,确定目标MAC地址的共现特征向量;根据第三组定位日志确定目标MAC地址的异常特征向量,根据共现特征向量和异常特征向量,确定目标MAC地址是否为异常MAC地址的方式,通过根据目标MAC地址的共现数据在时间上和空间上的分布特征,以确定共现特征向量,再根据共现特征向量和异常特征向量以确定目标MAC地址是否为异常MAC地址,达到了有效识别异常定位数据的目的,从而实现了提高定位数据的准确率,修复误差定位数据的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的MAC地址的识别方法的应用环境的示意图;

图2是根据本发明实施例的一种可选的MAC地址的识别方法的流程示意图;

图3是根据本发明实施例的一种可选的MAC地址的识别方法的示意图;

图4是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图5是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图6是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图7是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图8是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图9是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图10是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图11是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图12是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图13是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图14是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图;

图15是根据本发明实施例的一种可选的MAC地址的识别装置的结构示意图;

图16是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:

定位日志:用户上报的定位请求,包含时间戳,设备扫描/连接到的MAC地址、基站ID、对应的信号强度等信息。

基站(Cell)ID:用来确定基站设备的唯一标识。

MAC地址:用来确认网络设备位置的地址,Wi-Fi设备中记录有该信息作为设备的唯一标识。本申请中MAC和Wi-Fi的表述是等价的。

固定MAC:长时间安装在固定地点的MAC设备。

移动MAC:位置不固定,跟随载具进行移动的MAC设备,包括车载Wi-Fi,行车记录仪,火车Wi-Fi,手机移动热点等。

迁移MAC: MAC从一个位置迁移到新位置。比如家用Wi-Fi搬家造成的位置变化。

MAC/基站位置:通过数据挖掘算法离线计算,估计出的固定MAC/基站地理位置。用户上报定位请求时,后台召回请求中对应MAC/基站的位置,计算用户位置并返回。

共现:在一条定位日志中,同时出现的多个MAC/基站,互相称为共现。

训练数据:以MAC地址为Key,从定位日志中挖掘出的带有有用信息的海量基础数据,可应用于MAC位置计算,其中包含训练数据的经纬度值(训练数据的地理位置信息),上报量,最新上报时间,上报平均信号强度,平均速度等特征信息。

网络定位:在GPS信号缺失/不可靠的情况下,利用离线挖掘好的MAC,Cell等信息,计算用户位置,提供定位服务。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

下面结合实施例对本发明进行说明:

根据本发明实施例的一个方面,提供了一种MAC地址的识别方法,可选地,在本实施例中,上述MAC地址的识别方法可以应用于如图1所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为用户终端或用户终端上安装的客户端提供服务,客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端、游戏客户端等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,例如,基站或Wi-Fi设备的位置数据存储服务器,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,用户终端103可以是配置应用程序的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等计算机设备,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器,使用上述MAC地址的识别方法的应用程序107通过用户终端103或服务器101上的显示设备进行显示。

结合图1所示,上述MAC地址的识别方法可以包括但不限于在用户终端103通过如下步骤实现:

S1,在用户终端103中启动应用程序107,在应用程序107中根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定目标MAC地址的共现数据在时间上的变化特征;

S2,在应用程序107中根据分布特征和变化特征,确定目标MAC地址的共现特征向量;

S3,在应用程序107中根据第三组定位日志确定目标MAC地址的异常特征向量,其中,第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及一个终端扫描到的Wi-Fi列表;

S4,在应用程序107中根据共现特征向量和异常特征向量,确定目标MAC地址是否为异常MAC地址。

可选地,在本实施例中,上述MAC地址的识别方法还可以通过包括但不限于配置于服务器101的客户端使用。

可选地,在本实施例中,上述MAC地址的识别方法可以包括但不限于由配置于用户终端的应用程序107和配置与服务器101的客户端进行异步使用。

上述仅是一种示例,本实施例不做具体的限定。

可选地,作为一种可选的实施方式,如图2所示,上述MAC地址的识别方法包括:

S202,根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征,其中,所述第一组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述第二组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述Wi-Fi列表包括所述一个终端扫描到的MAC地址,所述基站列表包括所述一个终端扫描到的基站标识,所述每条定位日志包括的Wi-Fi列表均包括所述目标MAC地址;

可选地,在本实施例中,上述MAC地址的识别方法可以包括但不限于应用于自动驾驶应用场景、快递物流应用场景、手机地图应用场景等需要获取定位数据的业务场景中,在GPS不可用的情况下,可以通过网络定位获取定位数据。当设备进行网络定位时,可以包括但不限于依赖于Wi-Fi位置数据库,可靠精准的Wi-Fi位置数据直接影响定位精度的高低,Wi-Fi位置数据库越可靠,定位体验就越能得到保障,定位失败率也可以得到有效地降低。

上述仅是一种示例,本实施例不做任何具体的限定。

可选地,在本实施例中,上述第一组定位日志以及上述第二组定位日志可以包括但不限于由用户终端、网关、路由等Wi-Fi设备收集得到的定位日志,可以包括但不限于定位过程中涉及到的MAC信息、Cell信息、位置信息、终端标识等信息。

可选地,在本实施例中,上述目标MAC地址可以包括但不限于由工作人员人工选择的MAC地址,或者,基于预定的筛选规则得到的MAC地址,上述MAC地址的识别方法用于识别上述目标MAC地址,以确定上述目标MAC地址是否为异常MAC地址。

可选地,在本实施例中,上述共现数据包括但不限于在同一条定位日志中,同时出现的多个MAC/基站,上述多个MAC/基站互称为共现,则上述多个MAC/基站即为上述共现数据中包括的MAC/基站。

例如,图3是根据本发明实施例的一种MAC地址的识别方法的示意图,如图3所示,上述共现数据可以包括但不限于如下内容:

以第一组定位日志中包括用于确定目标MAC地址在空间上的分布特征的共现数据对应的第一定位日志302为例,上述第一定位日志302包括对应于一个位置信息的Wi-Fi列表304和基站列表306,其中,Wi-Fi列表304包括MAC-0、MAC-1、MAC-2,基站列表306包括Cell-0、Cell-1,则以MAC-0为上述目标MAC地址为例,上述共现数据中包括上述MAC-1、MAC-2、Cell-0、Cell-1。

以第二组定位日志中包括用于确定目标MAC地址在时间上的分布特征的共现数据对应的第二定位日志308为例,上述第二定位日志308包括第i天的定位日志,其中,第i天的定位日志包括Wi-Fi列表310和基站列表312,其中,Wi-Fi列表310包括MAC-0、MAC-2、MAC-3,基站列表312包括Cell-0、Cell-2,则以MAC-0为上述目标MAC地址为例,上述共现数据中包括上述MAC-2、MAC-3、Cell-0、Cell-2。

上述仅是一种示例,本实施例不做任何具体的限定。

S204,根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量;

可选地,在本实施例中,上述根据分布特征和变化特征,确定目标MAC地址的共现特征向量可以包括但不限于根据分布特征确定空间的分布特征向量,根据变化特征确定时间的变化特征向量,再将上述分布特征向量和变化特征向量进行拼接,得到上述共现特征向量。

例如,上述分布特征可以包括但不限于对共现数据进行聚类,以得到多个聚类簇,将聚类簇的个数,簇的半径,簇的分布范围,簇内共现MAC/Cell的个数等,以作为上述分布特征中的特征。

例如,上述变化特征可以包括但不限于对从共现数据中提取出一个时间单位中不同共现的MAC/基站地址出现的次数作为一组特征向量中的一个特征向量,再基于每一个时间单位对应的特征向量之间的距离,以作为上述变化特征中的特征。

S206,根据第三组定位日志确定所述目标MAC地址的异常特征向量,其中,所述第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及所述一个终端扫描到的Wi-Fi列表;

可选地,在本实施例中,上述一个终端的终端标识和定位位置可以通过由终端上传的定位日志所存储的数据库中获取。上述根据第三组定位日志确定上述目标MAC地址的异常特征向量可以包括但不限于根据从上述数据库中获取到的记录有终端标识、定位位置以及终端扫描到的Wi-Fi列表以确定终端的移动轨迹信息,通过将不符合移动轨迹信息的点作为异常点,将异常点的位置与目标MAC地址对应的位置之间的距离作为上述异常特征向量。

可选地,在本实施例中,上述第三组定位日志可以包括但不限于由用户终端、网关、路由等Wi-Fi设备收集得到的定位日志,可以包括但不限于定位过程中涉及到的MAC信息、Cell信息、位置信息、终端标识等信息。

S208,根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址。

可选地,在本实施例中,可以包括但不限于将上述共现特征向量和异常特征向量输入神经网络模型中,确定上述目标MAC地址是否为异常地址,还可以包括但不限于将上述共现特征向量和异常特征向量输入决策器或分类器中,确定上述目标MAC地址是否为异常地址。

上述仅是一种示例,本实施例不做任何具体的限定。

通过本实施例,采用根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定目标MAC地址的共现数据在时间上的变化特征,根据分布特征和变化特征,确定目标MAC地址的共现特征向量;根据第三组定位日志确定目标MAC地址的异常特征向量,根据共现特征向量和异常特征向量,确定目标MAC地址是否为异常MAC地址的方式,通过根据目标MAC地址的共现数据在时间上和空间上的分布特征,以确定共现特征向量,再根据共现特征向量和异常特征向量以确定目标MAC地址是否为异常MAC地址,达到了有效识别异常定位数据的目的,从而实现了提高定位数据的准确率,修复误差定位数据的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,包括:

S1,获取所述第一组定位日志中所述目标MAC地址的第一共现数据的地理位置,其中,所述目标MAC地址的第一共现数据包括所述第一组定位日志中的每条定位日志包括的所述Wi-Fi列表中除所述目标MAC地址之外的MAC地址,以及所述第一组定位日志中的每条定位日志包括的所述基站列表;

S2,根据所述第一共现数据的地理位置,对所述第一共现数据进行聚类,得到一组聚类簇;

S3,根据所述一组聚类簇中的每个聚类簇的簇信息,确定所述目标MAC地址的共现数据在空间上的分布特征。

可选地,在本实施例中,上述第一共现数据的地理位置包括但不限于第一组定位日志中每条定位日志包括的Wi-Fi列表中除目标MAC地址之外的其他MAC地址,以及其他MAC地址中每个MAC地址在第一组定位日志中出现的次数,还可以包括但不限于第一组定位日志中每条定位日志包括的基站列表、上述基站列表中每个基站在第一组定位日志中出现的次数以及每条定位日志中基站列表中的基站所处的位置。

例如,以上述第一组定位日志中包括定位日志1(Log1)和定位日志2(Log2),目标MAC为MAC-0为例。图4是根据本发明实施例的另一种可选的MAC地址的识别方法的示意图,如图4所示,该方法包括但不限于如下内容:

Log1包括Wi-Fi列表402和基站列表404,Log2包括Wi-Fi列表406和基站列表408,其中,Wi-Fi列表402中包括MAC-0、MAC-1、MAC-2;基站列表404中包括Cell-0、Cell-1,Wi-Fi列表406中包括MAC-0、MAC-2、MAC-3,基站列表408中包括Cell-0、Cell-2。

则上述第一共现数据包括图4中表410中示出的内容,其中,MAC-1、MAC-2、MAC-3为MAC标识,Cell-0、Cell-1为Cell标识,通过从MAC位置数据库以及Cell位置数据库中获取上述所有MAC地址中除MAC-0的地址以外的其他MAC地址,以及所有Cell地址后,则能对上述第一共现数据进行聚类,得到一组聚类簇。

可选地,在本实施例中,上述簇信息可以包括但不限于一组聚类簇中的聚类簇的数量、一组聚类簇中的每个聚类簇的半径、一组聚类簇的分布半径、一组聚类簇中的每个聚类簇包括的MAC地址的数量和基站标识的数量等,上述仅是一种示例,本实施例不做任何具体限定。

通过本实施例,采用获取第一组定位日志中目标MAC地址的第一共现数据的地理位置,根据第一共现数据的地理位置,对第一共现数据进行聚类,得到一组聚类簇,根据一组聚类簇中的每个聚类簇的簇信息,确定目标MAC地址的共现数据在空间上的分布特征的方式,通过获取第一共现数据的地理位置,以得到一组聚类簇,进而确定目标MAC地址的共现数据在空间上的分布特征,以确定目标MAC地址是否为异常MAC地址,达到了有效识别异常定位数据的目的,从而实现了提高定位数据的准确率,修复误差定位数据的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述一组聚类簇中的每个聚类簇的簇信息,确定所述目标MAC地址的共现数据在空间上的分布特征,包括:

将所述目标MAC地址的共现数据在空间上的分布特征确定为包括以下至少之一:所述一组聚类簇中的聚类簇的数量、所述一组聚类簇中的每个聚类簇的半径、所述一组聚类簇的分布半径、所述一组聚类簇中的每个聚类簇包括的MAC地址的数量和基站标识的数量。

可选地,在本实施例中,上述对第一共现数据进行聚类,可以包括但不限于按照预设的半径进行聚类,以上述一组聚类簇中包括聚类簇1和聚类簇2为例。

图5是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图,如图5所示,上述聚类簇1可以表示为聚类簇502,上述聚类簇2可以表示为聚类簇504,其中,聚类簇502中包括MAC-1、MAC-2以及Cell-0,聚类簇504中包括MAC-3、Cell-1、Cell-3,则图5中示出的圆形区域506的半径即为上述聚类簇502的半径,圆形区域508的半径即为上述聚类簇504的半径,圆形区域510的半径即为上述一组聚类簇的分布半径。

可选地,在本实施例中,上述每个聚类簇包括的MAC地址的数量和基站标识的数量可以包括但不限于以上述聚类簇502和聚类簇504为例,其中,聚类簇502包括MAC地址的数量为2,基站标识的数量为1,聚类簇504包括MAC地址的数量为1,基站标识的数量为2,还可以包括但不限于每个MAC标识所对应的数量(对应于前述图4示出的表410中每个MAC标识出现的次数),以及每个基站标识所对应的数量(对应于前述图4示出的表410中每个基站标识出现的次数)。

上述仅是一种示例,本实施例不做任何具体的限定。

通过本实施例,采用将目标MAC地址的共现数据在空间上的分布特征确定为包括以下至少之一:一组聚类簇中的聚类簇的数量、一组聚类簇中的每个聚类簇的半径、一组聚类簇的分布半径、一组聚类簇中的每个聚类簇包括的MAC地址的数量和基站标识的数量的方式,能够有效确定目标MAC地址在空间上的分布特征,进而,便于修复误差定位数据,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述获取所述第一组定位日志中所述目标MAC地址的第一共现数据的地理位置,包括:

S1,获取所述第一组定位日志中作为所述第一共现数据的一组MAC地址和一组基站标识;

S2,在预设的第一数据库中获取与所述一组MAC地址具有一一对应关系的一组MAC地址的地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置;

S3,在预设的第二数据库中获取与所述一组基站标识具有一一对应关系的一组基站标识的地理位置,其中,所述第二数据库中存储了一组具有对应关系的基站标识和基站标识的地理位置;

其中,所述第一共现数据的地理位置包括所述一组MAC地址的地理位置和所述一组基站标识的地理位置。

可选地,在本实施例中,上述一组MAC地址和一组基站标识可以包括但不限于如图4所示的表410中的内容。

可选地,在本实施例中,图6是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图,上述在预设的第一数据库中获取与所述一组MAC地址具有一一对应关系的一组MAC地址的地理位置以及上述在预设的第二数据库中获取与一组基站标识具有一一对应关系的一组基站标识的地理位置可以包括但不限于如图6所示,具体而言,一组MAC地址可以包括但不限于如图6所示Wi-Fi List中记载的MAC地址以及Cell List中记载的基站标识,其中,MAC-0至MAC-N表示一条定位日志中包括N+1个MAC地址,Cell-0至Cell-M表示一条定位日志中包括M+1个基站标识。

其中,MAC-0至MAC-K即为上述目标MAC地址,Vect-0至Vect-k即为表示上述分布特征的向量。

可选地,在本实施例中,上述在预设的第一数据库中获取与一组MAC地址具有一一对应关系的一组MAC地址的地理位置可以包括但不限于根据MAC地址的标识从MAC位置数据库中获取对应的位置信息,例如,图6中示出的MAC地址对应pos信息。

可选地,在本实施例中,上述在预设的第二数据库中获取与一组基站标识具有一一对应关系的一组基站标识的地理位置可以包括但不限于根据基站标识从基站位置数据库中获取对应的位置信息,例如,图6中示出的基站标识对应的pos信息。

可选地,以目标MAC地址包括MAC-0为例,则上述一组MAC地址对应的位置信息包括图6示出的pos 602,与上述一组基站标识的地理位置包括图6示出的pos 604。

也即,上述第一数据库可以包括但不限于MAC位置数据库,上述第二数据库可以包括但不限于基站位置数据库。

通过本实施例,采用获取第一组定位日志中作为第一共现数据的一组MAC地址和一组基站标识,在预设的第一数据库中获取与一组MAC地址具有一一对应关系的一组MAC地址的地理位置,在预设的第二数据库中获取与一组基站标识具有一一对应关系的一组基站标识的地理位置的方式,能够快速准确的获取到需要的MAC地址以及基站的地理位置,进而,便于修复误差定位数据,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征,包括:

S1,在所述第二组定位日志包括第1个时间单位上获取到的第一子组定位日志和第2个时间单位上获取到的第二子组定位日志的情况下,获取所述第一子组定位日志中不同的MAC地址和基站标识的总数量N1、所述第二子组定位日志中不同的MAC地址和基站标识的总数量N2、以及所述第一子组定位日志和所述第二子组定位日志中不同的MAC地址和基站标识的总数量N3;

S2,根据所述第一子组定位日志和所述总数量N3,确定所述第一子组定位日志的第一特征向量,其中,所述第一特征向量具有N3个特征,所述第一特征向量中的所述N3个特征分别对应于所述第一子组定位日志和所述第二子组定位日志中N3个不同的MAC地址和基站标识,所述第一特征向量中的所述N3个特征的取值分别表示所述N3个不同的MAC地址和基站标识在所述第一子组定位日志中出现的次数;

S3,根据所述第二子组定位日志和所述总数量N3,确定所述第二子组定位日志的第二特征向量,其中,所述第二特征向量具有N3个特征,所述第二特征向量中的所述N3个特征分别对应于所述第一子组定位日志和所述第二子组定位日志中N3个不同的MAC地址和基站标识,所述第二特征向量中的所述N3个特征的取值分别表示所述N3个不同的MAC地址和基站标识在所述第二子组定位日志中出现的次数;

S4,根据所述第一特征向量和所述第二特征向量,确定所述目标MAC地址的共现数据在时间上的变化特征。

可选地,在本实施例中,上述时间单位可以包括但不限于由系统或者服务器配置,也可以由用户终端进行配置,例如,可以包括但不限于每小时、每半天、每一天等。上述第1个时间单位以及上述第2个时间单位可以包括但不限于为相邻的时间单位,也可以包括但不限于相隔预定区间的时间单位。

可选地,在本实施例中,上述获取所述第一子组定位日志中不同的MAC地址和基站标识的总数量N1可以包括但不限于通过如下方式获取:

图7是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图,如图7所示,以上述第1个时间单位为第1天,第2个时间单位为第2天为例,上述第一子组定位日志包括Log1-1以及Log1-2,其中,Log1-1以及Log1-2分别记录有一组MAC地址和一组基站标识,上述一组MAC地址中包括MAC-0,也即,包括上述目标MAC地址。上述第二子组定位日志包括Log2-1以及Log2-2,其中,Log2-1以及Log2-2分别记录有一组MAC地址和一组基站标识,上述一组MAC地址中包括MAC-0,也即,包括上述目标MAC地址。

通过统计第一子组定位日志中包括的不同的MAC地址和基站标识,确定每一个MAC地址和基站标识在第1个时间单位中的出现次数。

例如,MAC-1出现2次,MAC-2出现3次,MAC-3出现5次,Cell-0出现1次、Cell-1出现2次,则可以通过如图7所记载的表702所示,确定上述N1为上述MAC地址和基站标识的总数量,也即,5个。

通过统计第二子组定位日志中包括的不同的MAC地址和基站标识,确定每一个MAC地址和基站标识在第2个时间单位中的出现次数。

例如,MAC-2出现1次,MAC-3出现2次,MAC-4出现5次,MAC-5出现2次,Cell-1出现2次、Cell-2出现3次,Cell-3出现4次,则可以通过如图7所记载的表704所示,确定上述N1为上述MAC地址和基站标识的总数量,也即,7个。

通过将上述表702和表704合并为表706,则可以通过表706所示,确定上述N3为上述MAC地址和基站标识的总数量,也即,9个。

上述仅是一种示例,本实施例不做任何具体的限定。

可选地,在本实施例中,上述第一特征向量即为图7所示的向量708,上述第二特征向量即为图7所示的向量710,其中,上述第一特征向量和上述第二特征向量中每个元素的值用于表示该位置对应的MAC地址或基站标识的出现次数,上述第一特征向量和上述第二特征向量的维度为上述N3,例如,以向量708为例,则第一列取值2表示MAC-1在第1个时间单位中的出现次数为2,第4列取值0表示MAC-4在第1个时间单位中的出现次数为0。

可选地,在本实施例中,上述根据第一特征向量和第二特征向量,确定目标MAC地址的共现数据在时间上的变化特征可以包括但不限于根据第一特征向量和第二特征向量之间的相似度确定。例如,余弦距离,K-L散度。

通过本实施例,采用在第二组定位日志包括第1个时间单位上获取到的第一子组定位日志和第2个时间单位上获取到的第二子组定位日志的情况下,获取第一子组定位日志中不同的MAC地址和基站标识的总数量N1、第二子组定位日志中不同的MAC地址和基站标识的总数量N2、以及第一子组定位日志和第二子组定位日志中不同的MAC地址和基站标识的总数量N3,根据第一子组定位日志和总数量N3,确定第一子组定位日志的第一特征向量,根据第二子组定位日志和总数量N3,确定第二子组定位日志的第二特征向量,根据第一特征向量和第二特征向量,确定目标MAC地址的共现数据在时间上的变化特征的方式,以确定在不同时间单位的定位日志之间的变化情况,进而,获取目标MAC地址的共现数据在时间上的变化特征,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述第一特征向量和所述第二特征向量,确定所述目标MAC地址的共现数据在时间上的变化特征,包括:

S1,将所述目标MAC地址的共现数据在时间上的变化特征确定为等于所述第一特征向量与所述第二特征向量的余弦距离;或者

S2,将所述目标MAC地址的共现数据在时间上的变化特征确定为等于所述第一特征向量与所述第二特征向量的K-L散度。

可选地,在本实施例中,上述余弦距离或者K-L散度用于表示上述第1个时间单位和第2个时间单位之间的变化情况。

通过本实施例,采用将目标MAC地址的共现数据在时间上的变化特征确定为等于第一特征向量与第二特征向量的余弦距离,或者将目标MAC地址的共现数据在时间上的变化特征确定为等于第一特征向量与第二特征向量的K-L散度的方式,以确定不同时间单位之间的变化情况下,进而获取目标MAC地址的共现数据在时间上的变化特征,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量,包括:

将所述分布特征和所述变化特征拼接为所述目标MAC地址的共现特征向量。

可选地,在本实施例中,上述分布特征和上述变化特征的拼接方式可以包括但不限于直接将特征向量合并等方式。

通过本实施例,采用将分布特征和变化特征拼接为目标MAC地址的共现特征向量的方式,以确定共现特征向量,进而,便于后续对目标MAC地址是否为异常MAC地址进行判断,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据第三组定位日志确定所述目标MAC地址的异常特征向量,包括:

S1,在所述第三组定位日志中包括M个不同的终端标识的情况下,获取所述第三组定位日志中每个终端标识的一组定位位置,共得到M组定位位置,其中,M为1或大于1的自然数;

S2,根据所述M组定位位置,分别形成M条移动轨迹,其中,所述M条移动轨迹与所述M个不同的终端标识具有一一对应关系,所述M条移动轨迹中的每条移动轨迹为对应的一个终端标识的移动轨迹;

S3,在所述M组定位位置中的每组定位位置中,确定偏离所述M条移动轨迹中与所述每组定位位置对应的一条移动轨迹的异常定位位置,共得到P个异常定位位置,其中,所述P个异常定位位置分别包含在所述第三组定位日志中的P条定位日志中,其中,P为1或大于1的自然数;

S4,在所述P条定位日志中确定包括所述目标MAC地址的Q条定位日志,其中,

S5,根据所述Q条定位日志中包括的所述目标MAC地址的地理位置以及所述Q条定位日志中包括的所述定位位置,确定所述目标MAC地址的异常特征向量。

可选地,在本实施例中,上述获取第三组定位日志中每个终端标识的一组定位位置可以包括但不限于获取对应于上述终端标识的定位日志,其中,每个定位日志中记录有该终端扫描或检测到MAC地址。

图8是根据本发明实施例的又一种可选的MAC地址的识别方法的示意图,如图8所示,其中,Log1-1、log1-2为ID为1的终端对应的定位日志,每个日志中包括有该终端的位置信息pos1-1以及pos1-2,log2-1以及log2-2为ID为2的终端对应的定位日志,每个日志中包括有该终端的位置信息pos2-1以及pos2-2。

可选地,在本实施例中,上述根据M组定位位置,分别形成M条移动轨迹可以包括但不限于在预定的坐标系中标注出上述M组定位位置,形成M条移动轨迹,并在M组定位位置中的每组定位位置中,确定偏离M条移动轨迹中与每组定位位置对应的一条移动轨迹的异常定位位置。

例如,图9是根据本发明实施例的又一种MAC地址的识别方法的示意图,如图9所示,轨迹分布子图902表示ID为1的终端移动轨迹,ID为1的终端移动轨迹包括pos1-1、pos1-2、pos1-3以及pos1-4,其中,pos1-1、pos1-3以及pos1-4对应的一条移动轨迹的正常定位位置,而上述pos-1-2即为上述异常位置,轨迹分布子图904表示ID为2的终端移动轨迹,ID为2的终端移动轨迹包括pos2-1、pos2-2、pos2-3、pos2-4以及pos2-5,其中,pos2-2、pos2-3、pos2-4以及pos2-5对应的一条移动轨迹的正常定位位置,而上述pos-2-1即为上述异常位置。

换言之,确定上述一条移动轨迹的异常定位位置可以包括但不限于确定其他定位位置的移动轨迹,将偏离该移动轨迹的定位位置确定为上述异常定位位置,具体而言,可以通过包括但不限于滑动窗口、孤立森林等时线方式确定上述异常定位位置。

上述仅是一种示例,本实施例不做任何具体的限定。

可选地,在本实施例中,上述P个异常定位位置分别包含在第三组定位日志中的P条定位日志中可以包括但不限于在确定P个异常定位位置后,将包括上述P个异常定位位置的定位日志从第三组定位日志中确定或筛选出。

可选地,在本实施例中,由于P条定位日志中还记录有终端所扫描或检测到的MAC地址,将包括上述目标MAC地址的Q条定位日志从P条定位日志中确定出来。

可选地,在本实施例中,上述异常特征向量即为根据异常定位位置与MAC地址的地理位置之间的关系确定得到的特征向量。

图10是根据本发明实施例的又一种MAC地址的识别方法的示意图,如图10所示,上述异常特征向量的确定可以包括但不限于如下步骤:

S1002,获取第三组定位日志中的用户轨迹;

S1004,挖掘上述异常定位位置,也即,挖掘异常点;

S1006,生成异常MAC序列;

S1008,确定异常MAC地址;

S1010,生成异常特征向量(vect,也即,Ve)。

通过本实施例,采用在第三组定位日志中包括M个不同的终端标识的情况下,获取第三组定位日志中每个终端标识的一组定位位置,共得到M组定位位置,根据M组定位位置,分别形成M条移动轨迹,在M组定位位置中的每组定位位置中,确定偏离M条移动轨迹中与每组定位位置对应的一条移动轨迹的异常定位位置,共得到P个异常定位位置,在P条定位日志中确定包括目标MAC地址的Q条定位日志,根据Q条定位日志中包括的目标MAC地址的地理位置以及Q条定位日志中包括的定位位置,确定目标MAC地址的异常特征向量的方式,以确定异常特征向量,进而,便于后续对目标MAC地址是否为异常MAC地址进行判断,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述Q条定位日志中包括的所述目标MAC地址的地理位置以及所述Q条定位日志中包括的所述定位位置,确定所述目标MAC地址的异常特征向量,包括:

S1,在预设的第一数据库中获取与所述目标MAC地址具有对应关系的目标地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置;

S2,分别获取所述目标地理位置与所述Q条定位日志中的每条定位日志中包括的所述定位位置之间的距离,共得到Q个距离;

S3,根据所述Q个距离,确定所述目标MAC地址的异常特征向量。

可选地,在本实施例中,上述第一数据库可以包括但不限于用于存储MAC地址的MAC位置数据库,上述目标地理位置即为上述MAC位置数据库中与目标MAC标识相同的地理位置。

可选地,在本实施例中,上述目标地理位置与Q条定位日志中的每条定位日志中包括的定位位置之间的距离可以包括但不限于估计的距离值,或统计得到的平均距离、距离方差、距离分位数等。

以Q条定位日志中包含2个定位位置为例,Q

则上述异常特征向量表示为V

上述仅是一种示例,本实施例不做任何具体的限定。

通过本实施例,采用在预设的第一数据库中获取与目标MAC地址具有对应关系的目标地理位置,分别获取目标地理位置与Q条定位日志中的每条定位日志中包括的定位位置之间的距离,共得到Q个距离,根据Q个距离,确定目标MAC地址的异常特征向量的方式,以根据异常定位位置与MAC地址的地理位置之间的关系确定得到的特征向量,进而,便于后续对目标MAC地址是否为异常MAC地址进行判断,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述Q个距离,确定所述目标MAC地址的异常特征向量,包括:

将所述目标MAC地址的异常特征向量确定为包括以下至少之一:所述Q个距离的平均距离、所述Q个距离的距离方差、所述Q个距离的距离分位数。

可选地,在本实施例中,上述Q个距离的平均距离可以包括但不限于为D

可选地,在本实施例中,上述距离方差和距离分位数是基于上述Q个距离确定的,以作为上述异常特征向量中的元素。

通过本实施例,采用将目标MAC地址的异常特征向量确定为包括以下至少之一:Q个距离的平均距离、Q个距离的距离方差、Q个距离的距离分位数的方式,以根据异常定位位置与MAC地址的地理位置之间的关系确定得到的特征向量,进而,便于后续对目标MAC地址是否为异常MAC地址进行判断,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址,包括:

S1,将所述共现特征向量输入到第一决策模型,得到所述第一决策模型输出的第一识别结果,其中,所述第一决策模型用于根据所述共现特征向量中的部分或全部特征确定所述第一识别结果,所述第一识别结果包括所述目标MAC地址为异常MAC地址的第一概率值;

S2,将所述共现特征向量输入到第一目标识别神经网络,得到所述第一识别神经网络输出的第二识别结果,其中,所述第二识别结果包括所述目标MAC地址为异常MAC地址的第二概率值;

S3,将所述异常特征向量输入到第二决策模型,得到所述第二决策模型输出的第三识别结果,其中,所述第二决策模型用于根据所述异常特征向量中的部分或全部特征确定所述第三识别结果,所述第三识别结果包括所述目标MAC地址为异常MAC地址的第三概率值;

S4,将所述异常特征向量输入到第二目标识别神经网络,得到所述第二识别神经网络输出的第四识别结果,其中,所述第四识别结果包括所述目标MAC地址为异常MAC地址的第四概率值;

S5,根据所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值,确定所述目标MAC地址是否为异常MAC地址。

可选地,在本实施例中,上述第一决策模型以及第二决策模型可以包括但不限于决策树模型、基于ResNet深度学习算法的人工智能决策模型等,还可以包括但不限于其他能够进行决策,并得到决策结果的决策模型。

可选地,在本实施例中,上述目标识别神经网络可以包括但不限于循环神经网络、卷积神经网络等能够基于特征向量进行识别的识别神经网络,例如,生成式对抗神经网络等。

可选地,在本实施例中,上述决策模型可以通过博阿凯单不限于根据输入的共现特征向量或异常特征向量中的一个或多个特征确定。

例如,以上述一个特征为平均距离为例,在上述平均距离大于第一距离阈值的情况下,将目标MAC地址确定为异常MAC地址,在上述平均距离大于第二距离阈值的情况下,将目标MAC地址确定为迁移MAC地址,在平均距离大于等于第一距离阈值、且小于等于第二距离阈值的情况下,将目标MAC地址确定为移动MAC地址,上述第二距离阈值大于上述第一距离阈值。

可选地,在本实施例中,图11是根据本发明实施例的又一种MAC地址的识别方法的示意图,如图11所示,上述目标识别神经网络可以包括但不限于通过如下方式进行训练:

S1102,获取一组样本特征向量(包括Ve和Vc);

S1104,将上述一组样本特征向量输入决策模型,得到决策标签(label);

S1106,将上述一组样本特征向量以及上述决策标签输入待训练的识别神经网络,得到第一训练概率;

例如,上述待训练的识别神经网络的输入可以包括但不限于如图11中的矩阵1102所示。Ve’

S1108,在上述第一训练概率达到预设训练条件的情况下,确定上述待训练的识别神经网络为目标识别神经网络。

可选地,在本实施例中,上述第一概率值、第二概率值、第三概率值以及第四概率值可以包括但不限于指示识别结果为异常MAC地址的概率,或者,为正常MAC地址的概率。

上述仅是一种示例,本实施例不做任何具体的限定。

通过本实施例,能够分别将共现特征向量和异常特征向量分别输入决策模型和目标识别神经网络,以得到四个概率值,并基于上述第一概率值、第二概率值、第三概率值以及第四概率值来确定目标MAC地址是否为异常MAC地址,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值,确定所述目标MAC地址是否为异常MAC地址,包括:

在所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值中大于预设的第一概率阈值的数量大于2的情况下,确定所述目标MAC地址为异常MAC地址;和/或

在所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值中大于所述第一概率阈值的数量小于或等于2的情况下,获取所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值的概率均值;在所述概率均值大于预设的第二概率阈值的情况下,确定所述目标MAC地址为异常MAC地址。

可选地,在本实施例中,上述第一概率阈值由系统预设,可以包括但不限于设置为50%,具体而言,可以根据实际业务需求进行灵活调整。

图12是根据本发明实施例的又一种MAC地址的识别方法的示意图,如图12所示,以上述共现特征向量为Ve、异常特征向量为Vc,第一决策模型为Te,第一目标识别神经网络为Me,第二决策模型为Tc,第二目标识别神经网络Mc为例,可以包括但不限于如下内容:

S1202,将Ve输入Te以得到P

S1204,将Ve输入Me以得到P

S1206,将Vc输入Tc以得到P

S1208,将Vc输入Mc以得到P

在获取到上述第一概率值、第二概率值、第三概率值和第四概率值之后,将上述第一概率值、第二概率值、第三概率值和第四概率值分别与预设的第一概率阈值比较,得到比较结果。

其中,以上述第一概率阈值为50%,第二概率阈值为51%为例,在p

通过本实施例,采用在第一概率值、第二概率值、第三概率值和第四概率值中大于预设的第一概率阈值的数量大于2的情况下,确定目标MAC地址为异常MAC地址;和/或在第一概率值、第二概率值、第三概率值和第四概率值中大于第一概率阈值的数量小于或等于2的情况下,获取第一概率值、第二概率值、第三概率值和第四概率值的概率均值;在概率均值大于预设的第二概率阈值的情况下,确定目标MAC地址为异常MAC地址的方式,以实现将目标MAC地址确定为异常MAC地址,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述方法还包括:

在所述第一识别结果还包括所述目标MAC地址为迁移MAC地址的第五概率值、所述第二识别结果还包括所述目标MAC地址为迁移MAC地址的第六概率值、所述第三识别结果还包括所述目标MAC地址为迁移MAC地址的第七概率值、以及所述第四识别结果还包括所述目标MAC地址为迁移MAC地址的第八概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址。

可选地,在本实施例中,上述第一决策模型以及第二决策模型可以包括但不限于决策树模型、基于ResNet深度学习算法的人工智能决策模型等,还可以包括但不限于其他能够进行决策,并得到决策结果的决策模型。

可选地,在本实施例中,上述目标识别神经网络可以包括但不限于循环神经网络、卷积神经网络等能够基于特征向量进行识别的识别神经网络,例如,生成式对抗神经网络等。

可选地,在本实施例中,上述第五概率值、第六概率值、第七概率值以及第八概率值可以包括但不限于指示识别结果为迁移MAC地址的概率,或者,为未迁移MAC地址的概率。

上述仅是一种示例,本实施例不做任何具体的限定。

通过本实施例,能够分别将共现特征向量和迁移特征向量分别输入决策模型和目标识别神经网络,以得到四个概率值,并基于上述第五概率值、第六概率值、第七概率值以及第八概率值来确定目标MAC地址是否为迁移MAC地址,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址,包括:

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于预设的第三概率阈值的数量大于2的情况下,确定所述目标MAC地址为迁移MAC地址;和/或

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于所述第三概率阈值的数量小于或等于2的情况下,获取所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值的概率均值;在所述概率均值大于预设的第四概率阈值的情况下,确定所述目标MAC地址为迁移MAC地址。

可选地,在本实施例中,上述第三概率阈值由系统预设,可以包括但不限于设置为50%,具体而言,可以根据实际业务需求进行灵活调整。

图13是根据本发明实施例的又一种MAC地址的识别方法的示意图,如图13所示,以上述共现特征向量为Ve、迁移特征向量为Vc,第一决策模型为Te,第一目标识别神经网络为Me,第二决策模型为Tc,第二目标识别神经网络Mc为例,可以包括但不限于如下内容:

S1302,将Ve输入Te以得到P

S1304,将Ve输入Me以得到P

S1306,将Vc输入Tc以得到P

S1308,将Vc输入Mc以得到P

在获取到上述第五概率值、第六概率值、第七概率值和第八概率值之后,将上述第五概率值、第六概率值、第七概率值和第八概率值分别与预设的第三概率阈值比较,得到比较结果。

其中,以上述第三概率阈值为50%,第四概率阈值为51%为例,在p

通过本实施例,采用在第五概率值、第六概率值、第七概率值和第八概率值中大于预设的第三概率阈值的数量大于2的情况下,确定目标MAC地址为迁移MAC地址;和/或在第五概率值、第六概率值、第七概率值和第八概率值中大于第三概率阈值的数量小于或等于2的情况下,获取第五概率值、第六概率值、第七概率值和第八概率值的概率均值;在概率均值大于预设的第四概率阈值的情况下,确定目标MAC地址为迁移MAC地址的方式,以实现将目标MAC地址确定为迁移MAC地址,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述方法还包括:

在确定出所述目标MAC地址为迁移MAC地址的情况下,根据所述目标MAC地址的共现数据在空间上的分布特征,确定所述目标MAC地址的预估地理位置;

在预设的第一数据库中将与所述目标MAC地址具有对应关系的地理位置更新为所述预估地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置。

可选地,在本实施例中,在上述目标MAC地址为异常且迁移的MAC地址的情况下,获取上述共现数据中记录的聚类簇中时间最新的聚类簇,基于该聚类簇的定位日志,确定共现数据中的轨迹,进而,预估目标MAC地址迁移后的位置,以更新目标MAC地址在第一数据库中存储的地理位置。

通过本实施例,采用在确定出目标MAC地址为迁移MAC地址的情况下,根据目标MAC地址的共现数据在空间上的分布特征,确定目标MAC地址的预估地理位置,在预设的第一数据库中将与目标MAC地址具有对应关系的地理位置更新为预估地理位置的方式,以实现将目标MAC地址确定为迁移MAC地址,完成修复更新定位误差,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述方法还包括:

在所述第一识别结果还包括所述目标MAC地址为移动MAC地址的第九概率值、所述第二识别结果还包括所述目标MAC地址为移动MAC地址的第十概率值、所述第三识别结果还包括所述目标MAC地址为移动MAC地址的第十一概率值、以及所述第四识别结果还包括所述目标MAC地址为移动MAC地址的第十二概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址。

可选地,在本实施例中,上述第一决策模型以及第二决策模型可以包括但不限于决策树模型、基于ResNet深度学习算法的人工智能决策模型等,还可以包括但不限于其他能够进行决策,并得到决策结果的决策模型。

可选地,在本实施例中,上述目标识别神经网络可以包括但不限于循环神经网络、卷积神经网络等能够基于特征向量进行识别的识别神经网络,例如,生成式对抗神经网络等。

可选地,在本实施例中,上述第九概率值、第十概率值、第十一概率值以及第十二概率值可以包括但不限于指示识别结果为移动MAC地址的概率,或者,为未移动MAC地址的概率。

上述仅是一种示例,本实施例不做任何具体的限定。

通过本实施例,能够分别将共现特征向量和移动特征向量分别输入决策模型和目标识别神经网络,以得到四个概率值,并基于上述第九概率值、第十概率值、第十一概率值以及第十二概率值来确定目标MAC地址是否为移动MAC地址,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址,包括:

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于预设的第九概率阈值的数量大于2的情况下,确定所述目标MAC地址为移动MAC地址;和/或

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于所述第九概率阈值的数量小于或等于2的情况下,获取所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值的概率均值;在所述概率均值大于预设的第十概率阈值的情况下,确定所述目标MAC地址为移动MAC地址。

可选地,在本实施例中,上述第三概率阈值由系统预设,可以包括但不限于设置为50%,具体而言,可以根据实际业务需求进行灵活调整。

图14是根据本发明实施例的又一种MAC地址的识别方法的示意图,如图14所示,以上述共现特征向量为Ve、移动特征向量为Vc,第一决策模型为Te,第一目标识别神经网络为Me,第二决策模型为Tc,第二目标识别神经网络Mc为例,可以包括但不限于如下内容:

S1402,将Ve输入Te以得到P

S1404,将Ve输入Me以得到P

S1406,将Vc输入Tc以得到P

S1408,将Vc输入Mc以得到P

在获取到上述第九概率值、第十概率值、第十一概率值和第十二概率值之后,将上述第九概率值、第十概率值、第十一概率值和第十二概率值分别与预设的第三概率阈值比较,得到比较结果。

其中,以上述第三概率阈值为50%,第四概率阈值为51%为例,在p

通过本实施例,采用在第九概率值、第十概率值、第十一概率值和第十二概率值中大于预设的第三概率阈值的数量大于2的情况下,确定目标MAC地址为移动MAC地址;和/或在第九概率值、第十概率值、第十一概率值和第十二概率值中大于第三概率阈值的数量小于或等于2的情况下,获取第九概率值、第十概率值、第十一概率值和第十二概率值的概率均值;在概率均值大于预设的第四概率阈值的情况下,确定目标MAC地址为移动MAC地址的方式,以实现将目标MAC地址确定为移动MAC地址,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

作为一种可选的方案,所述方法还包括:

在确定出所述目标MAC地址为移动MAC地址的情况下,在预设的第一数据库中删除所述目标MAC地址的记录,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置,所述目标MAC地址的记录包括具有对应关系的所述目标MAC地址和所述目标MAC地址的地理位置。

可选地,在本实施例中,在确定上述目标MAC地址为移动MAC地址的情况下,将目标MAC地址从上述第一数据库中删除,以避免错误定位数据的冗余。

通过本实施例,采用在确定出目标MAC地址为移动MAC地址的情况下,在预设的第一数据库中删除目标MAC地址的记录的方式,以实现将目标MAC地址确定为移动MAC地址,完成对移动MAC地址的修复,进而,达到提高定位数据的准确率的技术效果,进而解决了相关技术中存在的移动定位数据难以被有效识别,地图的定位数据准确率较低的技术问题。

下面结合具体的示例,对本实施例进行进一步的解释说明:

本方法的具体流程可以包括但不限于分为三个模块:

1. 基于共现Wi-Fi的badcase(对应于前述的目标MAC地址为异常MAC地址所确定的地理位置)挖掘模块;2. 基于用户轨迹的异常点(对应于前述的异常MAC地址的地理位置)挖掘模块;3. 判别修复模块。

基于共现Wi-Fi的badcase挖掘模块:对于要计算是否迁移的MAC-0,抽取所有包含MAC-0的用户定位日志,挖掘与MAC-0共现的MAC/基站,并计算如共现频率,共现时间,共现MAC/Cell位置等基础特征。通过特征对共现MAC和基站进行预处理,如数据清洗,归一化等。在基础特征的基础上,通过对共现MAC/Cell位置进行聚类,可以获得共现MAC/Cell的空间分布特征,如聚类簇的个数,簇的半径,簇的分布范围,簇内共现MAC/Cell的个数等,组合成共现数据在空间上的分布特征;

通过对MAC/Cell在时间上切片,已知共现MAC/Cell和对应的共现时间,T为对应的时间,以Tk为切分点,可以将所有共现MAC/Cell切分为两部分,比较两部分MAC/Cell的变化情况(对应于前述的第1个时间节点和第2个时间节点),如K-L散度,余弦距离等,可以获取共现数据在时间上的变化特征;

将共现数据的时空特征结合起来,共现模块可以输出对应MAC的共现特征向量,标记为Vc;

基于用户轨迹的异常点挖掘模块:利用定位日志,以用户ID为key,抽取用户轨迹,并挖掘其中的异常点(滑动窗口和孤立森林的方式,偏离轨迹很远,偏离轨迹线,或者,聚类簇之外的跳点),遍历所有用户轨迹,整合所有异常点,可以获取一系列异常MAC序列,每个异常MAC序列对应该异常点中的MAC列表,遍历所有异常MAC序列中的MAC,标记为异常MAC,统计它们的特征,如MAC对应的异常次数,异常定位点和该MAC估计位置的距离的统计值(如平均距离,距离方差,距离分位数等),可以获取异常特征向量,标记为Ve;

判别修复模块:对于每一个MAC,可以分为三个类别,分别是固定MAC(非异常),移动MAC,迁移MAC。可以获取共现特征向量Vc和异常特征向量Ve,通过线上调试,分别得到策略模型Te和Tc,对Te和Tc的结果进行人工标注,获取一批确定异常的MAC作为训练集,标注为label,混合后输入机器学习模型Me与Mc,训练模型。预测阶段,获取Te,Me,Tc,Mc的结果,投票判别MAC是否为异常点,如果是异常Mac,判断属于迁移还是移动,获取对应标签后,对线上数据进行修复。具体地,如果是移动MAC,删除离线数据库中的对应MAC信息,如果是迁移MAC,对共现MAC/Cell聚类获取的共现数据在空间上的分布特征中,已经包含了对应聚类簇的时间信息,选取时间最新的簇,用共现数据位置估计MAC迁移后的位置,以修正目标MAC的错误地理位置。

通过本实施例,能够综合MAC的共现信息和用户的轨迹信息,提取异常MAC,并对其进行分类,修复线上大误差badcase,利用策略模型,用较少的人工标注更快地获取机器学习模型所需数据集,综合策略模型与机器学习模型,判断异常MAC分类,达到增加系统可靠性的技术效果。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面,还提供了一种用于实施上述MAC地址的识别方法的MAC地址的识别装置。如图15所示,该装置包括:

第一确定模块1502,用于根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征,其中,所述第一组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述第二组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,所述Wi-Fi列表包括所述一个终端扫描到的MAC地址,所述基站列表包括所述一个终端扫描到的基站标识,所述每条定位日志包括的Wi-Fi列表均包括所述目标MAC地址;

第二确定模块1504,用于根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量;

第三确定模块1506,用于根据第三组定位日志确定所述目标MAC地址的异常特征向量,其中,所述第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及所述一个终端扫描到的Wi-Fi列表;

第四确定模块1508,用于根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址。

作为一种可选的方案,所述第一确定模块1502用于通过如下方式根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征:

获取所述第一组定位日志中所述目标MAC地址的第一共现数据的地理位置,其中,所述目标MAC地址的第一共现数据包括所述第一组定位日志中的每条定位日志包括的所述Wi-Fi列表中除所述目标MAC地址之外的MAC地址,以及所述第一组定位日志中的每条定位日志包括的所述基站列表;

根据所述第一共现数据的地理位置,对所述第一共现数据进行聚类,得到一组聚类簇;

根据所述一组聚类簇中的每个聚类簇的簇信息,确定所述目标MAC地址的共现数据在空间上的分布特征。

作为一种可选的方案,所述第一确定模块1502用于通过如下方式根据所述一组聚类簇中的每个聚类簇的簇信息,确定所述目标MAC地址的共现数据在空间上的分布特征:

将所述目标MAC地址的共现数据在空间上的分布特征确定为包括以下至少之一:所述一组聚类簇中的聚类簇的数量、所述一组聚类簇中的每个聚类簇的半径、所述一组聚类簇的分布半径、所述一组聚类簇中的每个聚类簇包括的MAC地址的数量和基站标识的数量。

作为一种可选的方案,所述第一确定模块1502用于通过如下方式获取所述第一组定位日志中所述目标MAC地址的第一共现数据的地理位置:

获取所述第一组定位日志中作为所述第一共现数据的一组MAC地址和一组基站标识;

在预设的第一数据库中获取与所述一组MAC地址具有一一对应关系的一组MAC地址的地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置;

在预设的第二数据库中获取与所述一组基站标识具有一一对应关系的一组基站标识的地理位置,其中,所述第二数据库中存储了一组具有对应关系的基站标识和基站标识的地理位置;

其中,所述第一共现数据的地理位置包括所述一组MAC地址的地理位置和所述一组基站标识的地理位置。

作为一种可选的方案,所述第一确定模块1502用于通过如下方式根据所述第二组定位日志确定所述目标MAC地址的共现数据在时间上的变化特征:

在所述第二组定位日志包括第1个时间单位上获取到的第一子组定位日志和第2个时间单位上获取到的第二子组定位日志的情况下,获取所述第一子组定位日志中不同的MAC地址和基站标识的总数量N1、所述第二子组定位日志中不同的MAC地址和基站标识的总数量N2、以及所述第一子组定位日志和所述第二子组定位日志中不同的MAC地址和基站标识的总数量N3;

根据所述第一子组定位日志和所述总数量N3,确定所述第一子组定位日志的第一特征向量,其中,所述第一特征向量具有N3个特征,所述第一特征向量中的所述N3个特征分别对应于所述第一子组定位日志和所述第二子组定位日志中N3个不同的MAC地址和基站标识,所述第一特征向量中的所述N3个特征的取值分别表示所述N3个不同的MAC地址和基站标识在所述第一子组定位日志中出现的次数;

根据所述第二子组定位日志和所述总数量N3,确定所述第二子组定位日志的第二特征向量,其中,所述第二特征向量具有N3个特征,所述第二特征向量中的所述N3个特征分别对应于所述第一子组定位日志和所述第二子组定位日志中N3个不同的MAC地址和基站标识,所述第二特征向量中的所述N3个特征的取值分别表示所述N3个不同的MAC地址和基站标识在所述第二子组定位日志中出现的次数;

根据所述第一特征向量和所述第二特征向量,确定所述目标MAC地址的共现数据在时间上的变化特征。

作为一种可选的方案,所述第一确定模块1502用于通过如下方式根据所述第一特征向量和所述第二特征向量,确定所述目标MAC地址的共现数据在时间上的变化特征:

将所述目标MAC地址的共现数据在时间上的变化特征确定为等于所述第一特征向量与所述第二特征向量的余弦距离;或者

将所述目标MAC地址的共现数据在时间上的变化特征确定为等于所述第一特征向量与所述第二特征向量的K-L散度。

作为一种可选的方案,所述第二确定模块1504用于通过如下方式根据所述分布特征和所述变化特征,确定所述目标MAC地址的共现特征向量:

将所述分布特征和所述变化特征拼接为所述目标MAC地址的共现特征向量。

作为一种可选的方案,所述第三确定模块1506用于通过如下方式根据第三组定位日志确定所述目标MAC地址的异常特征向量:

在所述第三组定位日志中包括M个不同的终端标识的情况下,获取所述第三组定位日志中每个终端标识的一组定位位置,共得到M组定位位置,其中,M为1或大于1的自然数;

根据所述M组定位位置,分别形成M条移动轨迹,其中,所述M条移动轨迹与所述M个不同的终端标识具有一一对应关系,所述M条移动轨迹中的每条移动轨迹为对应的一个终端标识的移动轨迹;

在所述M组定位位置中的每组定位位置中,确定偏离所述M条移动轨迹中与所述每组定位位置对应的一条移动轨迹的异常定位位置,共得到P个异常定位位置,其中,所述P个异常定位位置分别包含在所述第三组定位日志中的P条定位日志中,其中,P为1或大于1的自然数;

在所述P条定位日志中确定包括所述目标MAC地址的Q条定位日志,其中,1≤Q≤P;

根据所述Q条定位日志中包括的所述目标MAC地址的地理位置以及所述Q条定位日志中包括的所述定位位置,确定所述目标MAC地址的异常特征向量。

作为一种可选的方案,所述第三确定模块1506用于通过如下方式根据所述Q条定位日志中包括的所述目标MAC地址的地理位置以及所述Q条定位日志中包括的所述定位位置,确定所述目标MAC地址的异常特征向量:

在预设的第一数据库中获取与所述目标MAC地址具有对应关系的目标地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置;

分别获取所述目标地理位置与所述Q条定位日志中的每条定位日志中包括的所述定位位置之间的距离,共得到Q个距离;

根据所述Q个距离,确定所述目标MAC地址的异常特征向量。

作为一种可选的方案,所述第三确定模块1506用于通过如下方式根据所述Q个距离,确定所述目标MAC地址的异常特征向量:

将所述目标MAC地址的异常特征向量确定为包括以下至少之一:所述Q个距离的平均距离、所述Q个距离的距离方差、所述Q个距离的距离分位数。

作为一种可选的方案,所述第四确定模块1508用于通过如下方式根据所述共现特征向量和所述异常特征向量,确定所述目标MAC地址是否为异常MAC地址:

将所述共现特征向量输入到第一决策模型,得到所述第一决策模型输出的第一识别结果,其中,所述第一决策模型用于根据所述共现特征向量中的部分或全部特征确定所述第一识别结果,所述第一识别结果包括所述目标MAC地址为异常MAC地址的第一概率值;

将所述共现特征向量输入到第一目标识别神经网络,得到所述第一识别神经网络输出的第二识别结果,其中,所述第二识别结果包括所述目标MAC地址为异常MAC地址的第二概率值;

将所述异常特征向量输入到第二决策模型,得到所述第二决策模型输出的第三识别结果,其中,所述第二决策模型用于根据所述异常特征向量中的部分或全部特征确定所述第三识别结果,所述第三识别结果包括所述目标MAC地址为异常MAC地址的第三概率值;

将所述异常特征向量输入到第二目标识别神经网络,得到所述第二识别神经网络输出的第四识别结果,其中,所述第四识别结果包括所述目标MAC地址为异常MAC地址的第四概率值;

根据所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值,确定所述目标MAC地址是否为异常MAC地址。

作为一种可选的方案,所述第四确定模块1508用于通过如下方式根据所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值,确定所述目标MAC地址是否为异常MAC地址:

在所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值中大于预设的第一概率阈值的数量大于2的情况下,确定所述目标MAC地址为异常MAC地址;和/或

在所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值中大于所述第一概率阈值的数量小于或等于2的情况下,获取所述第一概率值、所述第二概率值、所述第三概率值和所述第四概率值的概率均值;在所述概率均值大于预设的第二概率阈值的情况下,确定所述目标MAC地址为异常MAC地址。

作为一种可选的方案,所述装置还用于:

在所述第一识别结果还包括所述目标MAC地址为迁移MAC地址的第五概率值、所述第二识别结果还包括所述目标MAC地址为迁移MAC地址的第六概率值、所述第三识别结果还包括所述目标MAC地址为迁移MAC地址的第七概率值、以及所述第四识别结果还包括所述目标MAC地址为迁移MAC地址的第八概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址。

作为一种可选的方案,所述装置还用于通过如下方式根据所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值,确定所述目标MAC地址是否为迁移MAC地址:

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于预设的第三概率阈值的数量大于2的情况下,确定所述目标MAC地址为迁移MAC地址;和/或

在所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值中大于所述第三概率阈值的数量小于或等于2的情况下,获取所述第五概率值、所述第六概率值、所述第七概率值和所述第八概率值的概率均值;在所述概率均值大于预设的第四概率阈值的情况下,确定所述目标MAC地址为迁移MAC地址。

作为一种可选的方案,所述装置还用于:

在确定出所述目标MAC地址为迁移MAC地址的情况下,根据所述目标MAC地址的共现数据在空间上的分布特征,确定所述目标MAC地址的预估地理位置;

在预设的第一数据库中将与所述目标MAC地址具有对应关系的地理位置更新为所述预估地理位置,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置。

作为一种可选的方案,所述装置还用于:

在所述第一识别结果还包括所述目标MAC地址为移动MAC地址的第九概率值、所述第二识别结果还包括所述目标MAC地址为移动MAC地址的第十概率值、所述第三识别结果还包括所述目标MAC地址为移动MAC地址的第十一概率值、以及所述第四识别结果还包括所述目标MAC地址为移动MAC地址的第十二概率值的情况下、以及在确定出所述目标MAC地址为异常MAC地址的情况下,根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址。

作为一种可选的方案,所述装置还用于通过如下方式根据所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值,确定所述目标MAC地址是否为移动MAC地址:

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于预设的第五概率阈值的数量大于2的情况下,确定所述目标MAC地址为移动MAC地址;和/或

在所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值中大于所述第五概率阈值的数量小于或等于2的情况下,获取所述第九概率值、所述第十概率值、所述第十一概率值和所述第十二概率值的概率均值;在所述概率均值大于预设的第六概率阈值的情况下,确定所述目标MAC地址为移动MAC地址。

作为一种可选的方案,所述装置还用于:

在确定出所述目标MAC地址为移动MAC地址的情况下,在预设的第一数据库中删除所述目标MAC地址的记录,其中,所述第一数据库中存储了一组具有对应关系的MAC地址和MAC地址的地理位置,所述目标MAC地址的记录包括具有对应关系的所述目标MAC地址和所述目标MAC地址的地理位置。

根据本发明实施例的又一个方面,还提供了一种用于实施上述MAC地址的识别方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图16所示,该电子设备包括存储器1602和处理器1604,该存储器1602中存储有计算机程序,该处理器1604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定目标MAC地址的共现数据在时间上的变化特征,其中,第一组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,第二组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,Wi-Fi列表包括一个终端扫描到的MAC地址,基站列表包括一个终端扫描到的基站标识,每条定位日志包括的Wi-Fi列表均包括目标MAC地址;

S2,根据分布特征和变化特征,确定目标MAC地址的共现特征向量;

S3,根据第三组定位日志确定目标MAC地址的异常特征向量,其中,第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及一个终端扫描到的Wi-Fi列表;

S4,根据共现特征向量和异常特征向量,确定目标MAC地址是否为异常MAC地址。

可选地,本领域普通技术人员可以理解,图16所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图16其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图16中所示更多或者更少的组件(如网络接口等),或者具有与图16所示不同的配置。

其中,存储器1602可用于存储软件程序以及模块,如本发明实施例中的MAC地址的识别方法和装置对应的程序指令/模块,处理器1604通过运行存储在存储器1602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的MAC地址的识别方法。存储器1602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1602可进一步包括相对于处理器1604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1602具体可以但不限于用于存储定位日志或地理位置等信息。作为一种示例,如图16所示,上述存储器1602中可以但不限于包括上述MAC地址的识别装置中的第一确定模块1502、第二确定模块1504、第三确定模块1506以及第四确定模块1508。此外,还可以包括但不限于上述MAC地址的识别装置中的其他模块单元,本示例中不再赘述。

可选地,上述的传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。

此外,上述电子设备还包括:显示器1608,用于显示目标MAC地址对应的地理位置或基站标识对应的地理位置;和连接总线1610,用于连接上述电子设备中的各个模块部件。

在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述MAC地址的识别方面的各种可选实现方式中提供的方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,根据第一组定位日志确定目标MAC地址的共现数据在空间上的分布特征,根据第二组定位日志确定目标MAC地址的共现数据在时间上的变化特征,其中,第一组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,第二组定位日志中的每条定位日志包括一个终端扫描到的Wi-Fi列表和基站列表,Wi-Fi列表包括一个终端扫描到的MAC地址,基站列表包括一个终端扫描到的基站标识,每条定位日志包括的Wi-Fi列表均包括目标MAC地址;

S2,根据分布特征和变化特征,确定目标MAC地址的共现特征向量;

S3,根据第三组定位日志确定目标MAC地址的异常特征向量,其中,第三组定位日志中的每条定位日志包括一个终端的终端标识和定位位置、以及一个终端扫描到的Wi-Fi列表;

S4,根据共现特征向量和异常特征向量,确定目标MAC地址是否为异常MAC地址。

可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • MAC地址的识别方法和装置、存储介质及电子设备
  • 电子设备的全屏指纹识别方法、装置和电子设备以及可读存储介质
技术分类

06120112526782