掌桥专利:专业的专利平台
掌桥专利
首页

物联网缺失数据的填充方法及系统

文献发布时间:2023-06-19 11:29:13


物联网缺失数据的填充方法及系统

技术领域

本申请涉及数据填充技术领域,尤其涉及一种物联网缺失数据的填充方法及系统。

背景技术

随着物联网技术的逐步发展完善,几乎所有的智能设备都可以通过网络实现互联,形成一张巨大的物联网。根据测算,2020年的已联网物联网设备高达100亿台,其中包括汽车、工业自动化设备、植入式医疗器械、可穿戴设备和智能家居等新一代产品,并且下一代5G网络已经开始在某些地区部署并有望承担上述设备产生的大部分流量。

然而,这些物联网设备并不总是能够完美运行的,因此,它们所产生的物联网数据往往会存在异常。一旦设备出现故障,物联网设备内的应用程序就会限制传输时间、地点及内容,很容易造成丢失数据或异常值。如何利用人工智能和其他传感器数据进行处理,纠正错误和不完整的数据,从而提高物联网效用,是一个亟待解决的技术问题。

发明内容

本说明书一个或多个实施例提供了一种物联网缺失数据的填充方法,其特征在于,包括:

步骤S1,聚类节点从物联网数据库中获取物联网设备的节点信息集,并根据所述物联网设备的节点信息集对设备进行聚类,得到设备聚类结果,并发送给填充节点;

步骤S2,填充节点接收设备聚类结果,并从物联网数据库中读取待填充的缺失数据,遍历每一条缺失数据,分析提取出所述缺失数据记录所对应的节点信息,并得到物联网设备聚类结果中的同簇节点集;

步骤S3.填充节点根据同簇节点集,获取物联网数据库中同簇节点对应的完整数据,并对缺失数据和完整数据进行聚类,得到数据聚类结果,并根据聚类结果对缺失数据进行填充。

其中,物联网数据库中存储有当前系统的网络内的所有物联网设备的节点信息和数据信息,所述节点信息包括以下信息中的一种或多种:设备ID、设备类型、设备型号、IP地址和地理位置信息;所述数据信息为物联网设备上报的待处理的物联网数据。

其中,设备聚类结果和数据聚类结果均为得到多个类的簇,每个簇下包括多个节点或数据,同簇的节点或数据为同一类别。

其中,在对缺失数据和完整数据进行聚类时,具体包括:对缺失数据和完整数据进行格式预处理,采用K-means,提取同簇下最近的N个近邻所对应的完整数据对缺失数据进行填充。

其中,对N个近邻所对应的完整数据进行维度拆分,得到拆分项集,统计待填充数据的未缺失数据项与拆分项集中对应数据项的方差,根据所述方差和所述拆分项集,对待填充数据的缺失数据项进行缺失数据填充。

本说明书一个或多个实施例还提供了一种物联网缺失数据的填充系统,包括聚类节点、物联网数据库和填充节点,其特征在于,包括:

聚类节点从物联网数据库中获取物联网设备的节点信息集,并根据所述物联网设备的节点信息集对设备进行聚类,得到设备聚类结果,并发送给填充节点;

填充节点接收设备聚类结果,并从物联网数据库中读取待填充的缺失数据,遍历每一条缺失数据,分析提取出所述缺失数据记录所对应的节点信息,并得到物联网设备聚类结果中的同簇节点集;填充节点根据同簇节点集,获取物联网数据库中同簇节点对应的完整数据,并对缺失数据和完整数据进行聚类,得到数据聚类结果,并根据聚类结果对缺失数据进行填充。

其中,物联网数据库中存储有当前系统的网络内的所有物联网设备的节点信息和数据信息,所述节点信息包括以下信息中的一种或多种:设备ID、设备类型、设备型号、IP地址和地理位置信息;所述数据信息为物联网设备上报的待处理的物联网数据。

其中,设备聚类结果和数据聚类结果均为得到多个类的簇,每个簇下包括多个节点或数据,同簇的节点或数据为同一类别。

其中,在对缺失数据和完整数据进行聚类时,具体包括:对缺失数据和完整数据进行格式预处理,采用K-means,提取同簇下最近的N个近邻所对应的完整数据对缺失数据进行填充。

其中,还包括,对N个近邻所对应的完整数据进行维度拆分,得到拆分项集,统计待填充数据的未缺失数据项与拆分项集中对应数据项的方差,根据所述方差和所述拆分项集,对待填充数据的缺失数据项进行缺失数据填充。

本发明的有益效果包括:(1)本发明在解决缺失数据填充时,提出独创的两次聚类,即通过物联网设备聚类和数据聚类,能够有效锁定相似物联网设备和相似数据,经测试证明能够有效提高物联网数据填充的准确度。(2)在具体进行数据填充时,本发明对N个近邻所对应的完整数据进行维度拆分,得到拆分项集,统计待填充数据的未缺失数据项与拆分项集中对应数据项的方差,根据所述方差和所述拆分项集,对待填充数据的缺失数据项进行缺失数据填充,这样的精细化数据填充,能够避免同簇数据中的噪声对填充结果的影响。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案, 下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为物联网缺失数据的填充方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,本说明书所描述的实施例仅仅是本说明书的一部分实施例,而非全部的实施例。基于本说明书一个或多个 实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本案的保护范围。

一种物联网缺失数据的填充方法,包括:

步骤S1,聚类节点从物联网数据库中获取物联网设备的节点信息集,并根据所述物联网设备的节点信息集对设备进行聚类,得到设备聚类结果,并发送给填充节点;

聚类节点和填充节点可以分别是一台或多台服务器或计算机,也可以分别是一个或多个计算集群,聚类节点和填充节点分开独立设置,可以有效降低处理负载,避免某个服务器或计算机或集群负载过高,从而达到负载均衡的效果。

物联网数据库单独IP部署,以局域网或互联网的网络通信的方式与聚类节点和集群节点连接,物联网数据库可以采用关系型或非关系型数据库。

物联网数据库与所在物联网网络内的所有物联网设通信,物联网设备以心跳包的形式,周期性的将所采集的物联网数据发送至物联网数据库进行存储。由于物联网设备和网络状况不稳定,因此,发送至物联网数据库的存储数据有可能或出现数据项缺失的情况,例如,一条发送至物联网数据库的数据为(A,B,NULL,D),即第三个维度的数据项出现缺失的情况。

物联网数据库预设有关于物联网设备的节点信息表,节点信息表存储了物联网设备的属性信息,例如

至少包括设备ID、设备类型、设备型号、IP地址和地理位置信息中的一项或多项,这些属性信息可以表明物联网设备的设备特性,通过属性信息可以标识出设备的硬件特性,实践中可以发现,具有相同或相近硬件特性的物联网设备,其物联网数据具有更高相似性。

通过聚类算法,例如kmeans等,可以将节点信息表中的节点信息聚为多个类簇,每个簇下的节点代表同一类物联网设备,将所有类簇下的节点信息分类汇总统计,作为聚类结果。

步骤S2,填充节点接收设备聚类结果,并从物联网数据库中读取待填充的缺失数据,遍历每一条缺失数据,分析提取出所述缺失数据记录所对应的节点信息,并得到物联网设备聚类结果中的同簇节点集;

物联网数据库中包含了待填充的缺失数据和完整数据,周期性地,物联网数据库对存储的物联网数据进行分析整理,提取出含有缺失项的数据作为待填充缺失数据,预存至待填充数据表,缓存至缺失数据接口。

填充节点周期性地从物联网数据库中读取待填充的缺失数据,按照多线程全表遍历的方式,遍历每一条缺失数据,分析提取出所述缺失数据记录所对应的节点信息,通过与设备聚类结果中的节点信息进行匹配对比,并得到物联网设备聚类结果中的同簇节点集。

步骤S3.填充节点根据同簇节点集,获取物联网数据库中同簇节点对应的完整数据,并对缺失数据和完整数据进行聚类,得到数据聚类结果,并根据聚类结果对缺失数据进行填充。

填充节点在获取到同一类簇下的节点信息后,可以从同簇节点集中选择预设数量的节点,例如选择距离最近的若干个节点,根据节点信息从物联网数据库中读取完整的物联网数据。

其中,物联网数据库中存储有当前系统的网络内的所有物联网设备的节点信息和数据信息,所述节点信息包括以下信息中的一种或多种:设备ID、设备类型、设备型号、IP地址和地理位置信息;所述数据信息为物联网设备上报的待处理的物联网数据。

其中,设备聚类结果和数据聚类结果均为得到多个类的簇,每个簇下包括多个节点或数据,同簇的节点或数据为同一类别。

其中,在对缺失数据和完整数据进行聚类时,具体包括:对缺失数据和完整数据进行格式预处理,采用K-means,提取同簇下最近的N个近邻所对应的完整数据对缺失数据进行填充。

其中,对N个近邻所对应的完整数据进行维度拆分,得到拆分项集,统计待填充数据的未缺失数据项方差,根据所述方差和所述拆分项集,对待填充数据的缺失数据项进行缺失数据填充。

例如,待填充数据为(L1,L2,L3...Li...Lk),完整数据为(W1,W2,W3...Wi...Wk),缺失数据项为第i项,其余项为未缺失数据项。

如果缺失数据项是数值项,则对未缺失数据项进行筛选,过滤掉非数值项,统计每一数值项的方差,计算得到所有数值项的平均方差。根据平均方差对缺失数据项进行计算,估算出待填充缺失数据项的数值大小作为填充值。

如果缺失数据项是非数值项,则对未缺失数据项进行筛选,过滤掉数值项,统计每一非数值项的方差,计算得到所有非数值项的平均方差。根据平均方差对缺失数据项进行计算,估算出待填充缺失数据项的非数值数据,并对估算出的非数值数据进行校验调整,使其满足预设数据格式规则,并作为填充值。

本说明书一个或多个实施例还提供了一种物联网缺失数据的填充系统,包括聚类节点、物联网数据库和填充节点,包括:

聚类节点从物联网数据库中获取物联网设备的节点信息集,并根据所述物联网设备的节点信息集对设备进行聚类,得到设备聚类结果,并发送给填充节点;

聚类节点和填充节点可以分别是一台或多台服务器或计算机,也可以分别是一个或多个计算集群,聚类节点和填充节点分开独立设置,可以有效降低处理负载,避免某个服务器或计算机或集群负载过高,从而达到负载均衡的效果。

物联网数据库单独IP部署,以局域网或互联网的网络通信的方式与聚类节点和集群节点连接,物联网数据库可以采用关系型或非关系型数据库。

物联网数据库与所在物联网网络内的所有物联网设通信,物联网设备以心跳包的形式,周期性的将所采集的物联网数据发送至物联网数据库进行存储。由于物联网设备和网络状况不稳定,因此,发送至物联网数据库的存储数据有可能或出现数据项缺失的情况,例如,一条发送至物联网数据库的数据为(A,B,NULL,D),即第三个维度的数据项出现缺失的情况。

物联网数据库预设有关于物联网设备的节点信息表,节点信息表存储了物联网设备的属性信息,例如

至少包括设备ID、设备类型、设备型号、IP地址和地理位置信息中的一项或多项,这些属性信息可以表明物联网设备的设备特性,通过属性信息可以标识出设备的硬件特性,实践中可以发现,具有相同或相近硬件特性的物联网设备,其物联网数据具有更高相似性。

填充节点周期性地从物联网数据库中读取待填充的缺失数据,按照多线程全表遍历的方式,遍历每一条缺失数据,分析提取出所述缺失数据记录所对应的节点信息,通过与设备聚类结果中的节点信息进行匹配对比,并得到物联网设备聚类结果中的同簇节点集。

通过聚类算法,例如kmeans等,可以将节点信息表中的节点信息聚为多个类簇,每个簇下的节点代表同一类物联网设备,将所有类簇下的节点信息分类汇总统计,作为聚类结果。

填充节点接收设备聚类结果,并从物联网数据库中读取待填充的缺失数据,遍历每一条缺失数据,分析提取出所述缺失数据记录所对应的节点信息,并得到物联网设备聚类结果中的同簇节点集;填充节点根据同簇节点集,获取物联网数据库中同簇节点对应的完整数据,并对缺失数据和完整数据进行聚类,得到数据聚类结果,并根据聚类结果对缺失数据进行填充。

其中,物联网数据库中存储有当前系统的网络内的所有物联网设备的节点信息和数据信息,所述节点信息包括以下信息中的一种或多种:设备ID、设备类型、设备型号、IP地址和地理位置信息;所述数据信息为物联网设备上报的待处理的物联网数据。

其中,设备聚类结果和数据聚类结果均为得到多个类的簇,每个簇下包括多个节点或数据,同簇的节点或数据为同一类别。

其中,在对缺失数据和完整数据进行聚类时,具体包括:对缺失数据和完整数据进行格式预处理,采用K-means,提取同簇下最近的N个近邻所对应的完整数据对缺失数据进行填充。

其中,还包括,对N个近邻所对应的完整数据进行维度拆分,得到拆分项集,统计待填充数据的未缺失数据项与拆分项集中对应数据项的方差,根据所述方差和所述拆分项集,对待填充数据的缺失数据项进行缺失数据填充。

例如,待填充数据为(L1,L2,L3...Li...Lk),完整数据为(W1,W2,W3...Wi...Wk),缺失数据项为第i项,其余项为未缺失数据项。

如果缺失数据项是数值项,则对未缺失数据项进行筛选,过滤掉非数值项,统计每一数值项的方差,计算得到所有数值项的平均方差。根据平均方差对缺失数据项进行计算,估算出待填充缺失数据项的数值大小作为填充值。

如果缺失数据项是非数值项,则对未缺失数据项进行筛选,过滤掉数值项,统计每一非数值项的方差,计算得到所有非数值项的平均方差。根据平均方差对缺失数据项进行计算,估算出待填充缺失数据项的非数值数据,并对估算出的非数值数据进行校验调整,使其满足预设数据格式规则,并作为填充值。

以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技 术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

相关技术
  • 物联网缺失数据的填充方法及系统
  • 一种基于决策树的缺失数据填充方法及系统
技术分类

06120112940169