掌桥专利:专业的专利平台
掌桥专利
首页

基于ETL技术的时空大数据人工智能分析方法及系统

文献发布时间:2023-06-19 10:57:17


基于ETL技术的时空大数据人工智能分析方法及系统

技术领域

本发明涉及大数据分析的技术领域,具体涉及基于ETL技术的时空大数据人工智能分析方法及系统。

背景技术

时空大数据兼具大数据与时空数据的特性,通常来说,大数据具有:Volume数据量大(计量单位是PB、EB、甚至ZB级)、Variety种类来源多样化、Value数据价值密度相对较低、Velocity数据处理时效性要求高、Veracity数据质量要求高五大特点,即5V特性。

时空大数据包括时空基准(时间和空间基准)数据、GNSS和位置轨迹数据、空间大地测量和物理大地测量数据、海洋测绘数据、地图(集)数据、遥感影像数据、与位置相关联的空间媒体数据、地名数据及时空数据与大数据融合产生的数据等等。

时空数据挖掘具有额外的特殊性和复杂性,因此,寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析具有重要意义。

发明内容

本发明提供基于ETL技术的时空大数据人工智能分析方法,用以解决寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析的技术问题。

本发明提供基于ETL技术的时空大数据人工智能分析方法,该方法包括:

采集数据;

将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;

将所述分析结果输出;

将所述分析结果记录在所述数据分析模型的存储数据库中;

所述数据分析模型的构建方式如下:

确定数据分析模型的需求参数;

根据所述需求参数,从若干个源数据库中获得源数据;

对所述源数据采用ETL技术处理,获得目标数据;

将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。

可选的,所述确定数据分析模型的需求参数之后,执行以下步骤:

根据所述需求参数进行需求分类;

相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:

在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;

相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:

对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;

相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:

将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。

可选的,所述为每个类别设定对应的标记之后,执行以下步骤:

为所述标记设置索引;

将所述标记及索引按照类别记录在所述存储数据库中;

根据所述标记及索引以及存储数据库中的数据构建数据分析模型。

可选的,所述采集数据之后,执行以下步骤:

对所述数据进行预处理,获得所述数据的类别特征;

相应的,所述将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果,包括:

根据所述类别特征确定索引目标;

通过所述数据分析模型对数据进行分析,获得分析结果;

根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;

在相应的位置的存储数据库中存储所述数据及数据分析结果。

可选的,所述对所述数据进行预处理,获得所述数据的类别特征,包括:

步骤A1:提取所述数据的若干个特征;

步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;

步骤A3:确定若干个类似特征的概率均值:

N=n

其中,n

步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:

其中,K

当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;

步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。

本发明还提供基于ETL技术的时空大数据人工智能分析系统,包括:

采集模块,用于采集数据;

分析模块,用于将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;

输出模块,用于将所述分析结果输出;

记录模块,用于将所述分析结果记录在所述数据分析模型的存储数据库中;

所述数据分析模型的构建方式如下:

确定数据分析模型的需求参数;

根据所述需求参数,从若干个源数据库中获得源数据;

对所述源数据采用ETL技术处理,获得目标数据;

将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。

可选的,所述确定数据分析模型的需求参数之后,还包括:

根据所述需求参数进行需求分类;

相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:

在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;

相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:

对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;

相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:

将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。

可选的,所述为每个类别设定对应的标记之后,还包括:

为所述标记设置索引;

将所述标记及索引按照类别记录在所述存储数据库中;

根据所述标记及索引以及存储数据库中的数据构建数据分析模型。

可选的,还包括:

类别特征获取模块,用于所述采集数据之后,对所述数据进行预处理,获得所述数据的类别特征;

相应的,所述分析模块包括:

索引目标确定子模块,用于根据所述类别特征获取模块获得的所述类别特征确定索引目标;

结果子模块,用于通过所述数据分析模型对数据进行分析,获得分析结果;

位置确定子模块,用于根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;

存储子模块,用于在相应的位置的存储数据库中存储所述数据及数据分析结果。

可选的,所述对所述数据进行预处理,获得所述数据的类别特征,包括:

步骤A1:提取所述数据的若干个特征;

步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;

步骤A3:确定若干个类似特征的概率均值:

N=n

其中,n

步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:

其中,K

当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;

步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。

本发明提供的基于ETL技术的时空大数据人工智能分析方法,不同数据库中的数据由于没有统一的标准,给数据库的建立带来了麻烦。ETL工具作为数据提取,转换和加载的工具,能够为数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,本实施例提供的方法能够建立统一的、完整的、高质量的数据库及人工智能分析模型。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中基于ETL技术的时空大数据人工智能分析方法的流程图;

图2为本发明实施例中数据分析模型的构建方法的流程图;

图3为本发明实施例中基于ETL技术的时空大数据人工智能分析系统的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例1:

本发明实施例提供了基于ETL技术的时空大数据人工智能分析方法,图1为本发明实施例中基于ETL技术的时空大数据人工智能分析方法的流程图,请参照图1,该方法包括:

S101,采集数据;

S102,将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;

S103,将所述分析结果输出;

S104,将所述分析结果记录在所述数据分析模型的存储数据库中。

图2为本发明实施例中数据分析模型的构建方法的流程图,请参照图2,所述数据分析模型的构建方式如下:

S201,确定数据分析模型的需求参数;

S202,根据所述需求参数,从若干个源数据库中获得源数据;

S203,对所述源数据采用ETL技术处理,获得目标数据;

S204,将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。

上述技术方案的工作原理为:本实施例采用的方法是基于ETL技术对时空大数据的人工智能分析,其中,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且可混合使用。通常大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。

所述时空大数据除了包括大数据的一般特征外,还包括:时间特征,位置特征,属性特征,分辨率特征,多源异构特征以及多维动态可视化特征。

上述时空大数据特征,有助于时空大数据的分析,揭示大数据的时间变化趋势和空间分布规律。但同时也证明了时空大数据在组织、存储、管理和分析计算等方面对数据引擎有着极高的要求。

上述技术方案的有益效果为:不同数据库中的数据由于没有统一的标准,给数据库的建立带来了麻烦。ETL工具作为数据提取,转换和加载的工具,能够为数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,本实施例提供的方法能够建立统一的、完整的、高质量的数据库及数据分析模型。

实施例2:

在实施例1的基础上,所述确定数据分析模型的需求参数之后,执行以下步骤:

根据所述需求参数进行需求分类;

相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:

在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;

相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:

对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;

相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:

将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。

上述技术方案的有益效果为:通过根据需求参数进行需求分类,相应的,在存储数据库中记录的是分类过的数据,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。

实施例3:

在实施例2的基础上,所述为每个类别设定对应的标记之后,执行以下步骤:

为所述标记设置索引;

将所述标记及索引按照类别记录在所述存储数据库中;

根据所述标记及索引以及存储数据库中的数据构建数据分析模型。

上述技术方案的有益效果为:通过设置索引,为数据查找及分析提供更快速的通道,方便数据的搜索及分析应用,提高数据处理的效率及准确性。

实施例4:

在实施例3的基础上,所述采集数据之后,执行以下步骤:

对所述数据进行预处理,获得所述数据的类别特征;

相应的,所述将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果,包括:

根据所述类别特征确定索引目标;

通过所述数据分析模型对数据进行分析,获得分析结果;

根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;

在相应的位置的存储数据库中存储所述数据及数据分析结果。

上述技术方案的有益效果为:通过对所述数据进行预处理,确定所述数据的类别特征,根据该类别特征进行相应索引,并根据索引结果确定出数据的分析结果,在根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置,并将该位置记录于存储数据库中。通过本实施例可以方便数据的搜索及分析应用,提高数据处理的效率及准确性。

实施例5:

在实施例4的基础上,所述对所述数据进行预处理,获得所述数据的类别特征,包括:

步骤A1:提取所述数据的若干个特征;

步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;

步骤A3:确定若干个类似特征的概率均值:

N=n

其中,n

步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:

其中,K

当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;

步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。

上述技术方案的有益效果为:本实施例通过提取若干个特征,并根据每个特征查找相类似的特征,将所有类似特征进行概率的均值计算,通过计算获得概率均值,再根据概率均值与哪个相类似的特征的概率值接近,则判定为该数据的特征分属于该类似特征。通过采用概率均值进行判定,参考历史数据中某一数据分属某个类别特征时的概率,概率接近的认定为同类的特征。通过概率计算的方式可保证类别特征划分的可靠性,进而,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。

实施例6:

本实施例提供基于ETL技术的时空大数据人工智能分析系统,图3为本发明实施例中基于ETL技术的时空大数据人工智能分析系统的结构示意图,请参照图3,该系统包括:

采集模块301,用于采集数据;

分析模块302,用于将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;

输出模块303,用于将所述分析结果输出;

记录模块304,用于将所述分析结果记录在所述数据分析模型的存储数据库中;

所述数据分析模型的构建方式如下:

确定数据分析模型的需求参数;

根据所述需求参数,从若干个源数据库中获得源数据;

对所述源数据采用ETL技术处理,获得目标数据;

将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。

上述技术方案的有益效果为:不同数据库中的数据由于没有统一的标准,给数据库的建立带来了麻烦。ETL工具作为数据提取,转换和加载的工具,能够为数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,本实施例提供的方法能够建立统一的、完整的、高质量的数据库及数据分析模型。

实施例7:

在实施例6的基础上,所述确定数据分析模型的需求参数之后,还包括:

根据所述需求参数进行需求分类;

相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:

在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;

相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:

对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;

相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:

将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。

上述技术方案的有益效果为:通过根据需求参数进行需求分类,相应的,在存储数据库中记录的是分类过的数据,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。

实施例8:

在实施例7的基础上,所述为每个类别设定对应的标记之后,还包括:

为所述标记设置索引;

将所述标记及索引按照类别记录在所述存储数据库中;

根据所述标记及索引以及存储数据库中的数据构建数据分析模型。

上述技术方案的有益效果为:通过设置索引,为数据查找及分析提供更快速的通道,方便数据的搜索及分析应用,提高数据处理的效率及准确性。

实施例9:

在实施例8的基础上,还包括:

类别特征获取模块,用于所述采集数据之后,对所述数据进行预处理,获得所述数据的类别特征;

相应的,所述分析模块包括:

索引目标确定子模块,用于根据所述类别特征获取模块获得的所述类别特征确定索引目标;

结果子模块,用于通过所述数据分析模型对数据进行分析,获得分析结果;

位置确定子模块,用于根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;

存储子模块,用于在相应的位置的存储数据库中存储所述数据及数据分析结果。

上述技术方案的有益效果为:通过对所述数据进行预处理,确定所述数据的类别特征,根据该类别特征进行相应索引,并根据索引结果确定出数据的分析结果,在根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置,并将该位置记录于存储数据库中。通过本实施例可以方便数据的搜索及分析应用,提高数据处理的效率及准确性。

实施例10:

在实施例9的基础上,所述对所述数据进行预处理,获得所述数据的类别特征,包括:

步骤A1:提取所述数据的若干个特征;

步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;

步骤A3:确定若干个类似特征的概率均值:

N=n

其中,n

步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:

其中,K

当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;

步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。

上述技术方案的有益效果为:本实施例通过提取若干个特征,并根据每个特征查找相类似的特征,将所有类似特征进行概率的均值计算,通过计算获得概率均值,再根据概率均值与哪个相类似的特征的概率值接近,则判定为该数据的特征分属于该类似特征。通过采用概率均值进行判定,参考历史数据中某一数据分属某个类别特征时的概率,概率接近的认定为同类的特征。通过概率计算的方式可保证类别特征划分的可靠性,进而,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 基于ETL技术的时空大数据人工智能分析方法及系统
  • 基于人工智能技术的电网作业数据多维度分析方法及系统
技术分类

06120112740617