掌桥专利:专业的专利平台
掌桥专利
首页

一种基于位图的GIS位置聚集特征提取系统及方法

文献发布时间:2023-06-19 18:25:54


一种基于位图的GIS位置聚集特征提取系统及方法

技术领域

本发明涉及基于GIS位置信息管理技术领域,尤其涉及一种基于位图的GIS位置聚集特征提取系统及方法。

背景技术

在各类地理信息管理系统中,GIS位置信息是核心的业务数据,相当多的管理、指挥工作都有赖于GIS位置来开展。以指挥调度应用场景为例,基于GIS位置的指挥业务有两个关键的业务要求,一个是在特定时刻被指挥目标的GIS位置聚集情况的判定;一个是在一个时间区间段上对预设或突发目标区的GIS位置聚集状态的判定。

当前实现这两个关键业务的GIS数据处理普遍采用以下几种方法。

预设需管理的聚集点,按照这些点的坐标对数据库中的GIS信息进行SQL查询获得统计结果。这种方法的缺点一是灵活性差,只能对预设地点进行判定,二是数据库查询压力大,GIS信息时效性要求下其存储频率普遍较高,比如:1-5秒存储一次,入库数据量巨大,查询效率很低,服务器算力占用很高。

采用基于划分的聚类算法,这类算法能有效地计算出聚集簇质心。这种方法的缺点是必须预设代表聚集质心的K值,且只能对已分类的数据集的类型进行聚类计算,对稀疏度过大的数据集很难快速收敛到一个合适的值域。

采用基于密度的聚类算法,这类算法可以发现任意形状的聚类。它可以有效地在数据集中寻找被低密度区域分割的高密度区域,并标识这些高密度区域作为独立的分类。但它得到的聚集分类是算法自定义的分类与实际业务的被指挥对象分类对应困难,而且它得到的聚集是一个任意形状分布的数据集其与实际管控区域匹配也存在难度。

以上三种被普遍采用的方式还都存在共同的缺点:计算量大和与业务管理类型匹配的聚集、离群数据集的筛选能力差。

综合上面的现有方案来看,现有方案普遍都有以下问题:

难以同时满足预设地点和非预设地点聚集检查的需要。

数据没有进行有效的压缩,计算量大,特别是在原始数据大的情况下计算量巨大。

对聚集、离群数据集的筛选以及与业务管理类型间的匹配能力低。

发明内容

为解决上述问题,本发明提出了一种基于位图的GIS位置聚集特征提取系统及方法。

本发明是通过以下技术方案实现的:

第一方面,一种基于位图的GIS位置聚集特征提取系统,包括:

数据操作单元:以RoaringBitmap(压缩位图)为底层的数据结构,提供:数据映射、压缩、归一化、去重、逆去重操作功能封装;

聚类过滤单元:以业务数据为参数,使用DBSCAN算法求解聚类分类并与业务分类形成映射关系;

质心求解单元:以K-means算法求得各聚类镞的质心,并依据管理配置数据形成业务所需的聚集偏移基准;

聚集和离群过滤单元:以预设或按照质心求解单元结果形成聚集基准点或聚集基准带过滤器,以RoaringBitmap底层数据进行逆去重操作获得聚集度数据,同时排除离群噪音数据;

特征数据集输出单元:对应用业务接口输出特征数据。

进一步,所述DBSCAN算法还包括:提供业务数据分类dataType作为DBSCAN算法minPts聚类邻域样本数阈值参数输入;提供管理半径mgtR作为DBSCAN算法eps聚类邻域半径参数。

进一步,所述质心求解单元还包括:对计算出来的非预设地点的质心,形成新观察点和临时热点进入GIS业务的候选管理地点清单,为系统提供可关联的GIS特征数据;所述聚集偏移基准根据业务所需的预定管理地点形成管理半径mgtR范围内的聚集基准点或根据业务所需的预定管理地点集合形成聚集基准带。

进一步,所述聚集和离群过滤单元的基础操作由数据操作单元基于RoaringBitmap进行功能封装并提供接口。

另一方面,一种基于位图的GIS位置聚集特征提取方法,包括以下步骤:

步骤S1:数据操作单元对原始数据进行处理前的清洗、压缩;

步骤S2:聚类过滤单元以业务数据分类为索引,以DBSCAN算法求解聚类分类,聚类镞数据集与业务分类形成映射关系;求解后根据带入分析对象的业务数据分类得到特定的业务分类的聚类分类,得到以业务分类为索引的聚类分类映射关系,为后续业务处理提供数据输出;

步骤S3:质心求解单元以K-means算法求得各聚类分类的质心,得到业务所需的聚类偏移基准;

步骤S4:聚集和离群过滤单元建立聚集和离群过滤器,以预设或按照根据步骤S3质心求解单元结果形成聚集基准点或基准带过滤器;

步骤S5:特征数据输出单元使用S4生成的聚集和离群过滤过滤器产生和输出特征数据。

进一步,所述步骤S1还包括以下子步骤:

步骤S11:将坐标数据二元组映射为单一数值,并保存该坐标数据对应的管理属性;

步骤S12:建立起RoaringBitmap数据结构并将S11产生的单一数值压入。

进一步,所述步骤S3还包括以下子步骤:

步骤S31:用K-means算法求解步骤S2所获得的聚类分类数据的质心值,映射到质心坐标;

步骤S32:按照配置数据要求以步骤S31获得的质心值获得一个质心基准点,也可按需求提供多个质心点集合,即形成一个质心基准带。

进一步,所述步骤S4还包括以下子步骤:

步骤S41:将目标数据用数据操作单元进行归一化操作,即将处于待处理的基准点或基准带的数据归一化;

步骤S42:建立过滤器,利用RoaringBitmap高效去重特性与操作建立聚集过滤器,利用逆去重特性或操作建立离群过滤器。

本发明的有益效果:本发明提出了一种基于位图的GIS位置聚集特征提取系统及方法,以一个位图数据结构为中心设计的一套数据压缩和分类容器并提供映射、压缩、归一化、去重、逆去重功能封装,然后以DBSCAN和K-means的混合算法再结合GIS位置管理的特性参数形成聚集和离群过滤器完成对原始数据的处理输出GIS指挥业务所需的特征数据,具有以下优点:高效的RoaringBitmap数据压缩方法特别适合大量原始数据的计算,同时位图操作计算量小,计算效率高,DBSCAN和K-means的混合算法能有效收敛数据,并能很好满足预设地点和突发非预设地点的聚类数据集输出和过滤离群噪音数据。

附图说明

图1是本发明基于位图的GIS位置聚集特征提取系统架构图;

图2是本发明基于位图的GIS位置聚集特征提取方法流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。

本发明提出了一种基于位图的GIS位置聚集特征提取系统及方法,基于位图的GIS位置聚集特征提取系统如图1所示,包括:

数据操作单元:鉴于GIS数据量非常的大,GIS指挥系统涉及到的会与GIS信息关联的数据分类也很多,要高效的处理这样大量的数据,必须使用有效的数据处理算法。基础数据结构需要满足大数据量下存储空间利用效率、密集数据和稀疏数据的并行处理、后续过滤操作效率的要求,而bitmap位图存储方式是以一个bit位存储一个数据,能够大幅度地压缩数据存储空间,本系统选取了以RoaringBitmap为底层的数据结构的功能封装提供:映射、压缩、归一化、去重、逆去重操作功能。

聚类过滤单元:以业务数据分类为索引,使用DBSCAN算法求解聚类分类镞,聚类镞数据集与业务分类形成映射关系。在算法实现上本单元提供了业务数据分类dataType作为DBSCAN算法minPts聚类邻域样本数阈值参数输入、提供管理半径mgtR作为DBSCAN算法eps聚类邻域半径参数。

质心求解单元:以K-means算法求得各聚类镞的质心,并依据管理配置形成业务所需的聚集偏移基准,该基准对照业务所需的预定管理地点形成管理半径mgtR范围内的聚集基准点或基准带,以此完成聚集基准点或基准带与管理业务类型的关联;同时对计算出来的非预设地点的质心,形成新观察点和临时热点进入GIS调度指挥业务的候选管理地点清单,为业务系统采取下一步行动提供可关联的GIS特征数据。

聚集和离群过滤单元:以预设或按照根据质心求解单元结果形成聚集基准点或基准带过滤器。具体的做法是首先进行数据归一化,将RoaringBitmap保存的数据的一份拷贝按照当前聚集基准点或基准带归一为统一数值标记的数据,这些被纳入归一化的数据即为聚集特性数据,上述归一化数据可以通过RoaringBitmap“去重操作”(即按位与操作)快速地获得聚集数据集,以上即形成了聚集过滤器的具体实现;然后利用RoaringBitmap位图操作的便利性,利用以“逆去重操作”(即按位或操作)获得离散点数据,上述操作形成了离群过滤器的具体实现。本单元所使用的基础操作如数据归一化、去重、逆去重都由数据操作单元基于RoaringBitmap进行功能封装并提供接口。

特征数据集输出单元:对聚集和离群过滤单元的输出数据进行整理得到特征数据集,然后向应用业务接口输出特征数据。

在本实施例中,利用基于位图的GIS位置聚集特征提取系统进行特征提取如图2所示,包括以下步骤:

第一步:数据操作单元对原始数据进行处理前的清洗、压缩工作,该工作包括了两个分步骤:

S11:为方便数据处理,将坐标数据二元组映射为单一数值。并保存该坐标数据对应的管理属性,如产生该坐标的设备类型。

S12:建立起RoaringBitmap数据结构并将S11产生的单一数值压入。

此步骤完成了数据进入下一步处理前的清洗工作,并建立其基础的数据结构,同时随着RoaringBitmap数据结构的填充也完成了数据的压缩工作。

第二步:聚类过滤单元以DBSCAN算法求解聚类分类。

以业务数据分类为索引,使用DBSCAN算法求解聚类分类镞,聚类镞数据集与业务分类形成映射关系。DBSCAN是基于密度的聚类算法,算法实现上本单元提供了业务数据分类dataType作为minPts聚类邻域样本数阈值参数输入、提供管理半径mgtR作为eps聚类邻域半径参数。

聚类求解后根据带入分析对象的业务数据分类从而得到特定的业务分类的聚类分类,得到以业务分类为索引的聚类分类映射关系,此类映射为后续业务处理提供了有用的数据输出。

第三步:质心求解单元以K-means算法求的各聚类分类的质心。

从S2的聚集分类结果计算出各聚类分类的质心,再对照业务所需的预定管理地点形成管理半径mgtR范围内的聚集基准点或基准带;同时对计算出来的非预设地点的质心,形成新观察点和临时热点进入GIS业务的候选管理地点清单,为业务系统采取下一步行动提供GIS特征数据。该工作有两个分步骤:

S31:用K-means算法求解S2所获得的聚类分类数据的质心值(映射到质心坐标)。

S32:按照配置数据要求以S31获得的质心值获得一个质心基准点,也可按需求提供多个质心点集合,即可形成一个质心基准带。

第四步:聚集和离群过滤单元建立聚集和离群过滤器。

以预设或按照根据S3质心求解单元结果形成聚集基准点或基准带过滤器。具体的做法是首先进行数据归一化,将RoaringBitmap保存的数据的一份拷贝按照当前聚集基准点或基准带归一为统一数值标记的数据(比如:以1标记所有使用移动设备的GIS用户,以2标记所有使用车载设备的GIS用户),这些被纳入归一化的数据即为聚集特性数据,上述归一化数据可以通过RoaringBitmap“去重”即按bit位与操作快速地获得聚集数据集,以上即形成了聚集过滤器的具体实现;然后利用RoaringBitmap位图操作的便利性,利用以“逆去重”即按bit位或操作获得离群的离散点数据,上述操作形成了离群过滤器的具体实现。该工作有两个分步骤:

S41:将目标数据用数据操作单元进行归一化操作,即将处于待处理的基准点/基准带的数据归一化。

S42:建立过滤器:利用RoaringBitmap高效去重特性(位与操作)建立聚集过滤器;利用逆去重特性(位或操作)建立离群过滤器。

第五步:特征数据输出单元使用S4生成的聚集和离群过滤过滤器产生和输出特征数据。

本发明提出了一种基于位图的GIS位置聚集特征提取系统及方法,以一个位图数据结构为中心设计的一套数据压缩和分类容器并提供映射、压缩、归一化、去重、逆去重功能封装,然后以DBSCAN和K-means的混合算法再结合GIS位置管理的特性参数形成聚集和离群过滤器完成对原始数据的处理输出GIS指挥业务所需的特征数据,具有以下优点:高效的Bitmap数据压缩方法特别适合大量原始数据的计算,同时位图操作计算量小,计算效率高,DBSCAN和K-means的混合算法能有效收敛数据,并能很好满足预设地点和突发非预设地点的聚类数据集输出和过滤离群噪音数据。

本发明以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

相关技术
  • 一种基于Hilbert变换的GIS局部放电信号特征提取方法
  • 一种基于振动信息的GIS特征提取及机械缺陷诊断方法
技术分类

06120115566409