一种基于FP tree-Clique演进算法的多维数据融合方法
文献发布时间:2023-06-19 10:54:12
技术领域
本发明公开了一种基于FP tree-Clique演进算法的多维数据融合方法,涉及安防数据处理技术领域。
背景技术
当今社会正在从工业文明向信息文明变革,并瞄准智能化前进。一个基于万物互联与融合的数字化、网络化、智能化、云化的崭新时代正在到来,数据孤岛的问题日益显著,物理上表现为采集设备功能单一、逻辑上表现为平台数据关联性差,无法满足业务应用对智能化的需求。
融合卡口设备的手机侦码(IMSI)模块,基于无线通信基站原理让进入其采集覆盖范围内的手机上报IMSI(IMSI是区别移动用户的标识,存储在SIM卡中)。采用灵敏度高、基带处理能力强的主流芯片解决方案,通过使用先进的空口同步、用户重定向策略,以及不同cause消息加速回网等手段,减少用户干扰。
融合卡口设备的WIFI探针模块实际是“WIFI信道扫描工具”。目前市面上的WiFi有2.4G、5G两个频段,每个频段有不同的信道划分,Wi-Fi探针设备通过在各个信道被动监测,采集周边手机的数据帧内容包括MAC地址、信号强度、包类型、时间戳等。
融合卡口设备的智能摄像机模块,可实现人脸、车牌识别与抓拍。人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。通过摄像头采集含有人脸的图像或者视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。车牌识别指通过计算机视觉、图像处理与模式识别等方法从车辆图像中提取车牌字符信息,从而确定车辆身份的技术。
然而,现有技术中仍然普遍存在着下述缺陷:
1.采集数据形式单一,一般只能采集手机侦码(IMSI)、MAC数据、人脸数据、车牌数据中的一种,无法给安防领域提供有效支撑。
2.各数据之间比较独立,没有形成互通互联,无法实现多数据的融合关联,形成虚实结合的个人信息档案。
3.设备比较分散,功能单一,集成度不高,应用场景有限,增加了大量成本,给部署实施带来不便。
4.抓取率较低、公网干扰较大。
5.制式组合不够灵活,产品杂乱没有形成系列化。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于FP tree-Clique演进算法的多维数据融合方法,通过融合卡口设备获取人脸、车牌、侦码、MAC等数据,逐步建立起人脸、车牌、侦码、MAC的关联匹配关系,形成多维信息档案。
本发明为解决上述技术问题采用以下技术方案:
一种基于FP tree-Clique演进算法的多维数据融合方法,所述方法包括如下步骤:
步骤一、对数据进行预处理操作,并进行数据集的提取。述数据集提取步骤包括:数据采集、数据预处理、数据并归以及数据集输出;所述数据预处理操作包括去重、去空;数据预处理及并归后,生成以时间T、地点L为组合的同时同地点源数据形成输入数据。
步骤二、从数据集中挖掘频繁项集。所述从数据集中挖掘频繁项集包括:获取布尔离散时态矩阵、生成频繁1项集集合、生成频繁2项集集合、初始化频繁项集树;在多元时间序列数据集降维离散化的基础上,将所得离散时态事务集转换为布尔离散时态矩阵;根据布尔离散时态矩阵和向量运算得到时态频繁1项集和频繁2项集;所述频繁2项集集合包括频繁2项集的实体关系和频繁2项集的关联关系;根据构建的频繁项集和频繁项集树,根据强关联关系筛出包含点位的两两关系对作为频繁2项集知识库。
由所得时态频繁项集构建初始频繁项集树,包含任意两个频繁1项集间的关联关系。
步骤三、由频繁项集合频繁项集树,根据强关联关系筛出包含点位的两两关系对作为频繁2项集知识库,并整理出关联强度概率。
步骤四、以两两关系对构建网络,以复杂网络中的clique算法结合边的权重,搜索生成业务中的各项联系,生成各项数据的属性融合知识库。所述属性融合知识库的建立包括:输入数据集、渗透关联和节点融合;以两两关系对,构建网络,以复杂网络中的clique算法,结合边的权重,搜索生成一个个的社区,即在业务中的各项联系,生成融合各项属性数据的知识库。
步骤五、基于属性融合知识库,对生成的网络以设定的阈值进行剪枝,生产关联知识库。所述关联知识库包括人-车-Mac IMSI表、同行伴随表、实体轨迹信息表。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:目前市场上还未见到融合卡口设备的同类型产品。本发明的技术方案通过产品整合,提出新的智能感知前端,产品使用稳定性高、优良采集率高、研发定制能力强。具体体现在:
1.抓取率高,手机侦码(IMSI)、MAC数据、人脸、车牌抓取率可达95%以上。
2.具备较丰富的数据采集能力,不仅能采集手机侦码(IMSI)、MAC数据,还能够采集人脸、车牌等信息,能够给安防领域提供更有效的支撑。
3.设备集成智能摄像机模组,能够拍摄高清晰度的视频流,并对视频中的人脸、车牌进行结构化分析,提供更精准的信息数据。
4.可实现手机侦码(IMSI)、MAC数据、人脸、车牌等多数据的融合关联,形成虚实结合的个人信息档案。
5.设备集成度高,功能丰富,适合更多的应用场景使用,降低了大量成本,且部署实施更方便。
附图说明
图1是数据集提取步骤的流程示意图;
图2是从数据集中挖掘频繁项集的流程示意图;
图3是频繁2项集知识库建立的流程示意图;
图4是属性融合知识库建立的流程示意图;
图5是关联知识库建立的流程示意图;
图6是本发明的流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的流程示意图如图6所示,所述一种基于FP tree-Clique演进算法的多维数据融合方法包括如下步骤:
步骤一、对数据进行预处理操作,并进行数据集的提取;
步骤二、从数据集中挖掘频繁项集;
步骤三、由频繁项集合频繁项集树,根据强关联关系筛出包含点位的两两关系对作为频繁2项集知识库,并整理出关联强度概率;
步骤四、以两两关系对构建网络,以复杂网络中的clique算法结合边的权重,搜索生成业务中的各项联系,生成各项数据的属性融合知识库;
步骤五、基于属性融合知识库,对生成的网络以设定的阈值进行剪枝,生产关联知识库。
所述数据集提取步骤的流程示意图如图1所示,包括:数据采集、数据预处理、数据并归以及数据集输出。数据进行预处理操作,包括一些常规的数据预处理操作包括去重、去空等。数据预处理及并归后,生成以时间T、地点L为组合的同时同地点出现的人、车、Mac、IMSI等源数据形成输入数据。
从数据集中挖掘频繁项集的流程示意图如图2所示,包括:获取布尔离散时态矩阵、生成频繁1项集集合、生成频繁2项集集合、初始化频繁项集树。
考虑树结构在规则挖掘中无需产生候选项集等优势,提出一种新的基于频繁项集树的时态关联规则挖掘算法,在结构构建的同时进行频繁项集的挖掘,提高了规则挖掘效率。该算法的关键是获取模式序列的频繁模式。为了挖掘更广泛的时态关联,不仅需要知道具有相同时间的不同时间序列对象发生的频繁程度,而其需要知道某个时间序列对象某一状态发生后紧接着另一时间序列对象某个状态发生得是否频繁,发现不同的变化趋势。
整个算法的核心仍然是寻找频集,基本思想如下:在多元时间序列数据集降维离散化的基础上,将所得离散时态事务集转换为布尔离散时态矩阵;根据布尔离散时态矩阵和向量运算得到时态频繁1项集和频繁2项集;由所得时态频繁项集构建初始频繁项集树,包含任意两个频繁1项集间的关联关系。
由布尔离散时态矩阵 XB
将 F1 中不同属性的项集两两连接,以项集{ I
构建初始频繁项集树。首先创建根节点Root,其包含1个数据域,离散时态事务集Dz
频繁2项集知识库建立的流程示意图如图3所示,包括频繁2项集的实体关系和频繁2项集的关联关系。根据构建的频繁项集和频繁项集树,根据强关联关系筛出包含点位的两两关系对作为频繁2项集知识库,并整理出关联强度概率。用以后续分析。
属性融合知识库建立的流程示意图如图4所示,经过输入数据集、渗透关联、节点融合得到属性融合数据库。
以两两关系对,构建网络,以复杂网络中的clique算法,结合边的权重,搜索生成一个个的社区,即在业务中的各项联系,生成融合各项属性数据的知识库。
关联知识库建立的流程示意图如图5所示,基于建成的属性融合知识库,对生成的网络,以一定的阈值进行剪枝,最终形成“人-车-Mac IMSI表”、“同行伴随表”、“实体轨迹信息表”等。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
- 一种基于FP tree-Clique演进算法的多维数据融合方法
- 一种基于多维数据融合的设备状态预测方法及系统