掌桥专利:专业的专利平台
掌桥专利
首页

多能源品种数据清洗采集方法

文献发布时间:2024-01-17 01:26:37


多能源品种数据清洗采集方法

技术领域

本发明属于数据清洗的技术领域,具体地涉及一种多能源品种数据清洗采集方法。

背景技术

大数据分析的性能取决于数据的质量,高质量数据的正确使用可以帮助做出更好的预测和决策,以及更可靠的数据分析。大数据分析的成功在很大程度上取决于数据是如何被清洗、变换和集成的。随着社会的发展,各行各业的数据量也逐渐呈指数级的增长,数据的来源也越来越复杂繁多,实际应用中数据往往含有不完整、不正确或不相关的数据,数据不准确是由多方面的原因造成的。特别是当不同来源的大规模数据(诸如多能源品种数据)集成时,质量尤其令人担忧;这些数据源通常是来源于同构或者异构的数据库、文件系统和服务接口,因而降低了数据的可靠性。数据清洗采集是一种用于提高数据的质量和改善数据查询结果的重要方法,通常被用来确保大数据分析以及评估结果的精准性和价值性,因此数据清洗采集在大数据研究领域得到越来越多的关注和重视。

目前,针对海量不同源的数据处理方法,诸如数据的清洗、数据的变换、数据的融合、数据的消减,此类数据处理方法多单独出现,并且单独出现的各数据处理方法大多采用繁琐、复杂的处理算法及规则,往往导致数据处理的质量并不理想,不利于数据的挖掘。

因此,如何将数据的清洗、变换、融合及消减处理方法进行高效地串接,实现对海量不同源的数据的清洗及采集处理的同时,且可提高各阶段数据处理的高效性,确保数据的相似性及高质量,对于本领域技术人员来说显得尤为重要。

发明内容

为了解决上述技术问题,本发明提供了一种多能源品种数据清洗采集方法,可以实现对海量不同源的数据的清洗及采集处理的同时,且可提高各阶段数据处理的高效性,确保数据的相似性及高质量。

第一方面,本申请提供了一种多能源品种数据清洗采集方法,其包括:

获取多能源品种数据;其中,所述多能源品种数据包括煤炭消费总量、石油消费总量、天然气消费总量及清洁能源消费总量;

基于分布式平台数据清洗方法针对所述多能源品种数据中的异常数据进行清洗预处理;其中所述异常数据包括缺失数据、错误数据和重复数据;

将清洗预处理后的所述多能源品种数据通过基于映射关系的数据变换规则进行变换得到待处理数据;

基于距离类别的POI融合算法针对所述待处理数据进行集成融合得到融合数据;

基于非线性数据降维算法针对所述融合数据进行数据消减处理得到降维数据;

针对所述降维数据采用基于预制评估指标的质量评估法则进行过滤得到所述多能源品种数据对应的目标数据。

较佳地,所述基于分布式平台数据清洗方法针对所述多能源品种数据中的异常数据进行清洗预处理的步骤具体包括:

结合分布式平台及聚类填充式算法将所述多能源品种数据中的缺失数据进行匹配填充处理;

结合分布式平台及关联规则将所述多能源品种数据中的错误数据进行更正修复处理;

结合分布式平台及聚类分区式算法将所述多能源品种数据中的重复数据进行整合处理。

较佳地,所述结合分布式平台及聚类填充式算法将所述多能源品种数据中的缺失数据进行匹配填充处理的步骤具体包括:

加载具有多能源品种数据的Hive仓库,以及多能源本体知识库;

针对所述Hive仓库执行Map函数以识别其所包含的缺失数据;

将所述缺失数据与所述多能源本体知识库进行匹配,判断所述缺失数据与所述多能源本体知识库中的规则是否具有对应关联关系;

若是,则直接填充;

若否,则以所述缺失数据为聚类核心寻找相似的完整数据填充。

较佳地,所述将清洗预处理后的所述多能源品种数据通过基于映射关系的数据变换规则进行变换得到待处理数据的步骤具体包括:

基于XML数据模板构建变换前、后两数据模型转换规则;

确认所述XML数据模板与所述变换前数据模型的源数据适配;其中,所述源数据为清洗预处理后的所述多能源品种数据;

将所述源数据通过XML数据模板进行数据的抽取变换处理,得到待处理数据。

较佳地,所述XML数据模板中将全部需读取文件中的开始行和最终列,以及所述文件中数据导入数据库中的行名和列名进行规定处理。

较佳地,所述基于距离类别的POI融合算法针对所述待处理数据进行集成融合得到融合数据的步骤具体包括:

将所述待处理数据采用最邻近算法进行位置聚类得到初步融合集;

采用Jaro-Winkler算法在所述初步融合集中计算融合对象之间的名称相似度,并将符合所述名称相似度及所述融合对象的类别排查要求的所述融合对象汇集到单集中;

采用Jaro-Winkler算法对所述单集中的对象计算名称相似度,并基于球面距离计算位置相似度,将距离低于距离阈值的对象和名称相似度高于相识度阈值且类别一致的对象汇集到融合集中;

将所述融合集和所述单集进行合并得到融合数据。

较佳地,所述名称相似度及所述融合对象的类别排查要求具体为:将融合对象类别一致且名称相似度低于第一阈值和类别不一致且名称相似度低于第二阈值的融合对象排查,且所述第一阈值小于所述第二阈值。

较佳地,所述基于非线性数据降维算法针对所述融合数据进行数据消减处理得到降维数据的步骤具体包括:

基于非线性映射函数将所述融合数据从低维子空间变换到高维特征空间得到映射数据;其中,所述非线性映射函数为高斯核函数;

将所述映射数据沿其对应特征向量方向上投影得到非线性主成分向量;

在高维特征空间中,基于所述非线性主成分向量组建协方差矩阵;

求解所述协方差矩阵的特征值及特征向量;

基于所述特征值及所述特征向量通过施密特正交化和单元化得到新特征向量;

从所述新特征向量中通过累积贡献率提取预设个数的新特征向量得到降维数据。

较佳地,所述预制评估指标包括可信指标及可用指标。

第二方面,本申请提供了一种多能源品种数据清洗采集系统,包括:

获取模块,用于获取多能源品种数据;其中,所述多能源品种数据包括煤炭消费总量、石油消费总量、天然气消费总量及清洁能源消费总量;

清洗模块,用于基于分布式平台数据清洗方法针对所述多能源品种数据中的异常数据进行清洗预处理;其中所述异常数据包括缺失数据、错误数据和重复数据;

变换模块,用于将清洗预处理后的所述多能源品种数据通过基于映射关系的数据变换规则进行变换得到待处理数据;

集成模块,用于基于距离类别的POI融合算法针对所述待处理数据进行集成融合得到融合数据;

消减模块,用于基于非线性数据降维算法针对所述融合数据进行数据消减处理得到降维数据;

过滤模块,用于针对所述降维数据采用基于预制评估指标的质量评估法则进行过滤得到所述多能源品种数据对应的目标数据。

第三方面,本申请提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的多能源品种数据清洗采集方法。

第四方面,本申请提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的多能源品种数据清洗采集方法。

相比于现有技术,本申请提供的一种多能源品种数据清洗采集方法,具有以下有益效果:

1.借助分布式平台的高效、分布式处理的优势,利用聚类填充式算法对已识别的缺失数据进行关联填充;利用关联规则对以识别的错误数据进行更正修复;以及利用聚类分区式算法对识别的重复数据进行整合处理;从而实现数据的高识别率以及数据处理的高效率,为后续数据的采集及挖掘提供高质量的数据。

2.通过对数据变换框架内的变换规则进行定义,采用XML数据模板对数据进行导入,使得数据被提取的更加顺利,保证数据变换的准确性和高效率。

3.采用基于最邻近算法及Jaro-Winkler算法的基于距离类别的POI融合算法针对数据进行集成融合,实现把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中的同时,简化了融合的流程提高了数据融合的效率。

4.利用非线性数据降维算法将复杂的非线性问题转化为线性特征空间问题,去除不相关的特征,有效地处理大量的数据,即考虑到节省边缘服务器的资源空间,也考虑到复杂的非线性系统而导致一些降维算法的精确性下降的问题;不仅可以保持结果稳定,而且可以保持数据的相似性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的多能源品种数据清洗采集方法的流程图;

图2为本发明实施例1提供的数据变换框架的模型结构;

图3为本发明实施例1提供的基于距离类别的POI融合算法的流程图;

图4是本发明实施例2提供的与实施例1方法对应的多能源品种数据清洗采集系统结构框图;

图5是本发明实施例3提供的电子设备的硬件结构示意图。

附图标记说明:

10-获取模块;

20-清洗模块、21-填充单元、22-修复单元、23-整合单元;

30-变换模块、31-构建单元、32-确认单元、33-变换单元;

40-集成模块、41-聚类单元、42-排查单元、43-汇集单元、44-合并单元;

50-消减模块、51-映射单元、52-投影单元、53-组建单元、54-求解单元、55-正交单元、56-提取单元;

60-过滤模块;

70-总线、71-处理器、72-存储器、73-通信接口。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

实施例1

具体而言,图1所示为本实施例所提供的一种多能源品种数据清洗采集方法的流程示意图。

如图1所示,本实施例的多能源品种数据清洗采集方法包括以下步骤:

S101,获取多能源品种数据。

其中,所述多能源品种数据包括煤炭消费总量、石油消费总量、天然气消费总量及清洁能源消费总量。

具体地,本实施例的多能源品种数据主要为各能源品种能耗在线采集数据。但能耗采集数据存在数据范围(全厂、生产工序、生产工序单元、重点耗能设备)及数据采集频率(15分钟实时、每日、月度、年度)方面的不同。虽然实时在线采集类数据不存在更新需求,对于数据校正可以采用时间戳进行版本控制,但是实时在线采集类数据更新频度极高,数据规模极大,且需要进行大量汇总计算,采用传统关系型数据库在数据存储规模和计算效率上都无法满足要求。本实施例可以采用非关系型数据库进行存储,来达到上述要求。但由于非关系型数据库对于数据质量的约束性不高,需要在中间计算过程前进行数据质量治理,再进入到中间计算数据存储中。在选择合适存储方式的同时,需要考虑存储的数据结构是否能够支撑大规模数据JOIN关联和GROUP聚合所带来的资源消耗。

S102,基于分布式平台数据清洗方法针对所述多能源品种数据中的异常数据进行清洗预处理。

其中,所述异常数据包括缺失数据、错误数据和重复数据。

具体地,本实施例借助分布式平台的高效、分布式处理的优势,利用聚类填充式算法对已识别的缺失数据进行关联填充;利用关联规则对已识别的错误数据进行更正修复;以及利用聚类分区式算法对识别的重复数据进行整合处理;从而实现数据的高识别率以及数据处理的高效率,为后续数据的采集及挖掘提供高质量的数据。

进一步地,步骤S102的具体步骤包括:

S1021,结合分布式平台及聚类填充式算法将所述多能源品种数据中的缺失数据进行匹配填充处理。

具体地,缺失数据的清洗方式可以概括为三种,第一种方式为无动作,保留原样;第二种方式为直接删除整条数据;第三种为对缺失值进行填充。第一种方式简单,无需进行任何动作,适用于对后期数据挖掘工作没有影响的属性。第二种方式适用于该属性并非无影响属性,但整条数据对后期数据挖掘工作影响不大的情况,不建议使用该方式。第三种清洗方式是缺失数据清洗中的核心方式。其中,结合分布式平台及聚类填充式算法将缺失数据进行匹配填充处理具体如下:

步骤一、加载具有多能源品种数据的Hive仓库,以及多能源本体知识库;

步骤二、针对所述Hive仓库执行Map函数以识别其所包含的缺失数据;

步骤三、将所述缺失数据与所述多能源本体知识库进行匹配,判断所述缺失数据与所述多能源本体知识库中的规则是否具有对应关联关系;

步骤四、若是,则直接填充。或者,其他实施例中,若否,则以所述缺失数据为聚类核心寻找相似的完整数据填充。

S1022,结合分布式平台及关联规则将所述多能源品种数据中的错误数据进行更正修复处理。

具体地,针对来自多个不同结构的多能源品种数据,这样庞大且复杂的数据集合,如果直接进行聚类得到的效果不是很理想,且需要很大的空间复杂度,所以直接使用聚类方法进行处理很低效。因此,本实施例结合分布式平台及关联规则将错误数据进行更正修复处理,具体如下:

步骤一、以Hive仓库存储多能源品种数据,并导入多能源本体知识库;

步骤二、根据所述多能源本体知识库给各个属性赋予权重;

步骤三、执行Map函数,以SNM算法对数据进行聚类分区;

步骤四、确定需要进行异常值检测的区域,在需要进行异常值检测的区域进行检测;

步骤五、运用关联规则对异常值进行修正。

需要说明的是,为了减少数据与关联规则的对比次数,大幅度地提高效率,在与本体知识库中规则对比之前,先对数据先进行分块,排除一些不存在异常值的板块,则只需要对可能存在异常值的板块的数据进行操作,虽然这样会多了一个步骤,但是相对于在海量数据中一个个排查以确定少量错误数据的做法,这样操作能够大大提高效率。

S1023,结合分布式平台及聚类分区式算法将所述多能源品种数据中的重复数据进行整合处理。

具体地,借助了分布式平台的高效、分布式处理的优势,再利用聚类分区式算法可以有效减少记录间相似度的计算次数的特点,可以高效率、高识别率地完成海量多能源品种数据间相似重复数据的工作。其中,结合分布式平台及聚类分区式算法将重复数据进行整合处理的步骤具体包括:

步骤一、以Hive仓库存储多能源品种数据,并导入多能源本体知识库;

步骤二、根据所述多能源本体知识库给各个属性赋予权重;

步骤三、执行Map函数,以SNM算法对数据进行聚类分区;

步骤四、用权重系数乘以属性间的相似度得到每两条记录间的相似度;

步骤五、计算每个分区里记录间的相似度,整合相似度高的记录。

需要说明的是,数值型数据间的相似度计算是通过计算数值的差异度来衡量。举例说明:设数据集合有n条记录,S={S1,S2,…,Sn,},每个记录有m个属性,根据属性的重要性给不同属性赋予不同的权值,分别是Q={Q1,Q2,…,Qm},若第k个属性的数据类型为数值型,则记录S

S103,将清洗预处理后的所述多能源品种数据通过基于映射关系的数据变换规则进行变换得到待处理数据。

具体地,通过对数据变换框架内的变换规则进行定义,采用XML数据模板对数据进行导入,使得数据被提取的更加顺利,保证数据变换的准确性和高效率。本实施例中,数据变换框架的模型结构如图2所示,该模型结构分为三层,分别是规则识别层、模型识别层和数据转换层。变换规则的定义如下公式:

式中,

进一步地,步骤S103的具体步骤包括:

S1031,基于XML数据模板构建变换前、后两数据模型转换规则。

其中,所述XML数据模板中将全部需读取文件中的开始行和最终列,以及所述文件数中据导入数据库中的行名和列名进行规定处理。

S1032,确认所述XML数据模板与所述变换前数据模型的源数据适配;其中,所述源数据为清洗预处理后的所述多能源品种数据。

S1033,将所述源数据通过XML数据模板进行数据的抽取变换处理,得到待处理数据。

结合S1031至S1033,在存储一份文件中的数据时,首先将检查文件内的非结构化数据与结构化数据,分开存储。同时扫描文件内的数据是否存在行名,以及判定一下行名是否已经存在,若不存在,则将根据XML中规定的行名和列名来新建表用于存储数据,若存在,则会根据行名获取对应的连接,将新导入的数据存储进HBase。当HBase中已经存在创建成功的表,后续在对异构数据进行提取时,会根据已经创建完成的数据映射规则快速加载从而高效提取新的数据。

S104,基于距离类别的POI融合算法针对所述待处理数据进行集成融合得到融合数据。

具体地,采用基于最邻近算法及Jaro-Winkler算法的基于距离类别的POI融合算法针对数据进行集成融合,实现把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中的同时,简化了融合的流程提高了数据融合的效率。本实施例中,基于距离类别的POI融合算法的流程图如图3所示。

进一步地,步骤S104的具体步骤包括:

S1041,将所述待处理数据采用最邻近算法进行位置聚类得到初步融合集。

具体地,最近邻算法又称为KNN算法(K-NearestNeightbor),是一种基本的分类与回归方法,这种方法没有训练阶段,对新样本直接与训练集做分类或者回归预测。

S1042,采用Jaro-Winkler算法在所述初步融合集中计算融合对象之间的名称相似度,并将符合所述名称相似度及所述融合对象的类别排查要求的所述融合对象汇集到单集中。

其中,所述名称相似度及所述融合对象的类别排查要求具体为:将融合对象类别一致且名称相似度低于第一阈值和类别不一致且名称相似度低于第二阈值的融合对象排查,且所述第一阈值小于所述第二阈值。

具体地,Jaro-Winkler算法是计算2个字符串之间相似度的一种算法,用于recordlinkage/数据连接(duplicate detection/重复记录)方面的领域,Jaro-Winkler算法最后得分越高说明相似度越大。其中,Jaro-Winkler算法最后得分的公式如下:

式中:d_j表示最后得分,s1、s2表示要比对的两个字符,m表示匹配的字符数,t表示换位的数目。

S1043,采用Jaro-Winkler算法对所述单集中的对象计算名称相似度,并基于球面距离计算位置相似度,将距离低于距离阈值的对象和名称相似度高于相识度阈值且类别一致的对象汇集到融合集中。

具体地,球面距离计算方法根据三角推导原理定义如下:

式中:

S1044,将所述融合集和所述单集进行合并得到融合数据。

S105,基于非线性数据降维算法针对所述融合数据进行数据消减处理得到降维数据。

具体地,利用非线性数据降维算法将复杂的非线性问题转化为线性特征空间问题,去除不相关的特征,有效地处理大量的数据,即考虑到节省边缘服务器的资源空间,也考虑到复杂的非线性系统而导致一些降维算法的精确性下降的问题;不仅可以保持结果稳定,而且可以保持数据的相似性。

进一步地,步骤S105的具体步骤包括:

S1051,基于非线性映射函数将所述融合数据从低维子空间变换到高维特征空间得到映射数据。

其中,所述非线性映射函数为高斯核函数,高斯核函数比其他核函数具有很好的灵活性。采用高斯核函数,通过选择合适的σ值,高斯核主成分分析将有一个合适的捕获范围,这将增强原始特征空间中相互接近的数据点之间的联系。

具体地,高斯核函数是以核函数的主成分分析方法,该方法是PCA算法的非线性提升。PCA是一种线性的算法,对于非线性工业数据处理效果不是很好,而以核函数的主成分分析方法能够挖掘到工业数据集中隐藏的非线性特征。

S1052,将所述映射数据沿其对应特征向量方向上投影得到非线性主成分向量。

具体地,由于所涉及的映射数据具有高维特征,为获取其对应的非线性主成分向量,需要将所涉及的映射数据进行某一维度方向上的投影,该维度方向优选为映射数据对应的特征向量方向。

S1053,在高维特征空间中,基于所述非线性主成分向量组建协方差矩阵。

具体地,协方差矩阵具体如下:

式中:C表示协方差矩阵,

S1054,求解所述协方差矩阵的特征值及特征向量。

具体地,特征值及特征向量的求解具体如下:

式中,

S1055,基于所述特征值及所述特征向量通过施密特正交化和单元化得到新特征向量。

S1056,从所述新特征向量中通过累积贡献率提取预设个数的新特征向量得到降维数据。

结合上述步骤,现有线性主成分分析只能提取两个可见的聚类,核函数是线性到非线性之间的转换媒介,以核函数的主成分分析可以更好地在二维子空间中可视化,除了通过特征提取来减少数据集的维度之外,还可以达到增加样本的密度和达到去噪的目的。

S106,针对所述降维数据采用基于预制评估指标的质量评估法则进行过滤得到所述多能源品种数据对应的目标数据。

具体地,质量评估法则实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量的评价指标等。数据质量评估至少应该包含以下两方面的基本评估指标:

1.数据对用户必须是可信的。可信性包括精确性、完整性、一致性、有效性、唯一性等指标。精确性:描述数据是否与其对应的客观实体的特征相一致。完整性:描述数据是否存在缺失记录或缺失字段。一致性:描述同一实体的同一属性的值在不同的系统是否一致。有效性:描述数据是否满足用户定义的条件或在一定的阈值范围内。唯一性:描述数据是否存在重复记录。

2.数据对用户必须是可用的。包括时间性、稳定性等指标。时间性:描述数据是当前数据还是历史数据。稳定性:描述数据是否是稳定的,是否在其有效期内。

综上所述,通过在线获取包括煤炭消费总量、石油消费总量、天然气消费总量及清洁能源消费总量的多能源品种数据。借助分布式平台的高效、分布式处理的优势,利用聚类填充式算法、关联规则、聚类分区式算法分别对缺失数据、错误数据、重复数据进行处理,为后续数据的采集及挖掘提供高质量的数据。通过对数据变换框架内的变换规则进行定义,采用XML数据模板对数据进行导入,保证数据变换的准确性和高效率。采用基于最邻近算法及Jaro-Winkler算法的基于距离类别的POI融合算法针对数据进行高效集成融合。利用非线性数据降维算法将复杂的非线性问题转化为线性特征空间问题,去除不相关的特征,有效地处理大量的数据,不仅可以保持结果稳定,而且可以保持数据的相似性。

实施例2

本实施例提供了与实施例1所述方法相对应的系统的结构框图。图4是根据本实施例的多能源品种数据清洗采集系统的结构框图,如图4所示,该系统包括:

获取模块10,用于获取多能源品种数据;其中,所述多能源品种数据包括煤炭消费总量、石油消费总量、天然气消费总量及清洁能源消费总量;

清洗模块20,用于基于分布式平台数据清洗方法针对所述多能源品种数据中的异常数据进行清洗预处理;其中所述异常数据包括缺失数据、错误数据和重复数据;

变换模块30,用于将清洗预处理后的所述多能源品种数据通过基于映射关系的数据变换规则进行变换得到待处理数据;

集成模块40,用于基于距离类别的POI融合算法针对所述待处理数据进行集成融合得到融合数据;

消减模块50,用于基于非线性数据降维算法针对所述融合数据进行数据消减处理得到降维数据;

过滤模块60,用于针对所述降维数据采用基于预制评估指标的质量评估法则进行过滤得到所述多能源品种数据对应的目标数据;其中,所述预制评估指标包括可信指标及可用指标。

进一步地,所述清洗模块20具体包括:

填充单元21,用于结合分布式平台及聚类填充式算法将所述多能源品种数据中的缺失数据进行匹配填充处理。其中,该填充单元用于:

加载具有多能源品种数据的Hive仓库,以及多能源本体知识库;

针对所述Hive仓库执行Map函数以识别其所包含的缺失数据;

将所述缺失数据与所述多能源本体知识库进行匹配,判断所述缺失数据与所述多能源本体知识库中的规则是否具有对应关联关系;

若是,则直接填充;

若否,则以所述缺失数据为聚类核心寻找相似的完整数据填充。

修复单元22,用于结合分布式平台及关联规则将所述多能源品种数据中的错误数据进行更正修复处理。

整合单元23,用于结合分布式平台及聚类分区式算法将所述多能源品种数据中的重复数据进行整合处理。

进一步地,所述变换模块30具体包括:

构建单元31,用于基于XML数据模板构建变换前、后两数据模型转换规则;其中,所述XML数据模板中将全部需读取文件中的开始行和最终列,以及所述文件中数据导入数据库中的行名和列名进行规定处理。

确认单元32,用于确认所述XML数据模板与所述变换前数据模型的源数据适配;其中,所述源数据为清洗预处理后的所述多能源品种数据。

变换单元33,用于将所述源数据通过XML数据模板进行数据的抽取变换处理,得到待处理数据。

进一步地,所述集成模块40具体包括:

聚类单元41,用于将所述待处理数据采用最邻近算法进行位置聚类得到初步融合集。

排查单元42,用于采用Jaro-Winkler算法在所述初步融合集中计算融合对象之间的名称相似度,并将符合所述名称相似度及所述融合对象的类别排查要求的所述融合对象汇集到单集中。其中,所述名称相似度及所述融合对象的类别排查要求具体为:将融合对象类别一致且名称相似度低于第一阈值和类别不一致且名称相似度低于第二阈值的融合对象排查,且所述第一阈值小于所述第二阈值。

汇集单元43,用于采用Jaro-Winkler算法对所述单集中的对象计算名称相似度,并基于球面距离计算位置相似度,将距离低于距离阈值的对象和名称相似度高于相识度阈值且类别一致的对象汇集到融合集中。

合并单元44,用于将所述融合集和所述单集进行合并得到融合数据。

进一步地,所述消减模块50具体包括:

映射单元51,用于基于非线性映射函数将所述融合数据从低维子空间变换到高维特征空间得到映射数据;其中,所述非线性映射函数为高斯核函数。

投影单元52,用于将所述映射数据沿其对应特征向量方向上投影得到非线性主成分向量;

组建单元53,用于在高维特征空间中,基于所述非线性主成分向量组建协方差矩阵;

求解单元54,用于求解所述协方差矩阵的特征值及特征向量;

正交单元55,用于基于所述特征值及所述特征向量通过施密特正交化和单元化得到新特征向量;

提取单元56,用于从所述新特征向量中通过累积贡献率提取预设个数的新特征向量得到降维数据。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

实施例3

结合图1所描述的多能源品种数据清洗采集方法可以由电子设备来实现。图5为根据本实施例的电子设备的硬件结构示意图。

电子设备可以包括处理器71以及存储有计算机程序指令的存储器72。

具体地,上述处理器71可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请的一个或多个集成电路。

其中,存储器72可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器72可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器72可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器72可在数据处理装置的内部或外部。在特定实施例中,存储器72是非易失性(Non-Volatile)存储器。在特定实施例中,存储器72包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器72可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器71所执行的可能的计算机程序指令。

处理器71通过读取并执行存储器72中存储的计算机程序指令,以实现上述实施例1的多能源品种数据清洗采集方法。

在其中一些实施例中,电子设备还可包括通信接口73和总线70。其中,如图5所示,处理器71、存储器72、通信接口73通过总线70连接并完成相互间的通信。

通信接口73用于实现本申请中各模块、装置、单元和/或设备之间的通信。通信接口73还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线70包括硬件、软件或两者,将设备的部件彼此耦接在一起。总线70包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线70可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线70可包括一个或多个总线。尽管本申请描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

该电子设备可以获取到多能源品种数据清洗采集系统,执行本实施例1的多能源品种数据清洗采集方法。

另外,结合上述实施例1中的多能源品种数据清洗采集方法,本申请可提供一种存储介质来实现。该存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例1的多能源品种数据清洗采集方法。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于能源网络拓扑关系的能源数据清洗方法及系统
  • 一种能源管理系统及其能源数据清洗方法
技术分类

06120116212200