掌桥专利:专业的专利平台
掌桥专利
首页

一种数据仓库的处理方法、装置、设备及介质

文献发布时间:2023-06-19 18:37:28


一种数据仓库的处理方法、装置、设备及介质

技术领域

本说明书涉及计算机技术领域,尤其涉及一种数据仓库的处理方法、装置、设备及介质。

背景技术

数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。数据仓库出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的数据是从原有的分散的数据库数据抽取来的。数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起。数据仓库中的综合数据不能从原有的数据库系统直接得到。基于数据仓库的复杂性,现有的数据仓库大都存在处理效率低的问题。

发明内容

本说明书一个或多个实施例提供了一种数据仓库的处理方法、装置、设备及介质,用于解决背景技术提出的技术问题。

本说明书一个或多个实施例采用下述技术方案:

本说明书一个或多个实施例提供的一种数据仓库的处理方法,包括:

在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

本说明书一个或多个实施例提供的一种数据仓库的处理装置,所述装置包括:

内存管理单元,在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

自适应伸缩单元,通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

数据传输调配单元,通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

本说明书一个或多个实施例提供的一种数据仓库的处理设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:

本说明书实施例通过主动内存管理机制,组件之间通过内存进行数据交换,同时支持在数据量变大时可自动将数据缓冲至其他存储中以防止内存溢出本说明书实施例。自适应伸缩机制,组件在运行时,可根据用户设定的处理效率参数,在当前处理效率较低时,自行复制组件实例,可以有效提高处理效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本说明书一个或多个实施例提供的一种数据仓库的处理方法的流程示意图;

图2为本说明书一个或多个实施例提供的一种数据仓库的处理装置的结构示意图;

图3为本说明书一个或多个实施例提供的一种数据仓库的处理设备的结构示意图。

具体实施方式

本说明书实施例提供一种数据仓库的处理方法、装置、设备及介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

图1为本说明书一个或多个实施例提供的一种数据仓库的处理方法的流程示意图,该流程可以由数据仓库处理系统执行。流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。

本说明书实施例的方法流程步骤如下:

S102,在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出。

在本说明书实施例中,所述内存管理机制可以包括多种形式的缓冲存储接口。所述集群组件运行前,可以通过所述内存管理机制确定缓冲存储的类型和存储位置以及数据存储格式,当所述内存管理机制运行时,若达到预先设定的内存警戒线,将数据主动缓存至缓冲存储接口指定的存储系统中,若内存占用下降时,由所述集群组件自动将数据从缓冲存储中读出。

S104,通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理。

在本说明书实施例中,所述集群组件运行时,可以通过所述自适应伸缩机制对所述集群组件处理效率进行监控,若所述处理效率下降,对所述集群组件进行收缩处理。

进一步的,在本说明书实施例中,所述对所述集群组件处理效率进行监控,若所述处理效率下降,对所述集群组件进行收缩处理时,可以监控当前处理任务的资源使用情况,得到当前数据处理的数据量;再将所述当前数据处理的处理量与历史数据处理的处理量进行比较;若所述当前数据处理的处理量低于所述历史数据处理的处理量,将对应的集群组件进行收缩;通知待收缩集群组件的上下游集群组件,上游集群组件将当前处理数据发送后,下游集群组件一直运行,直到待收缩集群组件不再发送数据到来时;所述待收缩集群组件不再处理数据,没有数据到来且存量数据已经发送完毕,销毁所述待收缩集群组件。

S106,通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

在本说明书实施例中,若数据导入所述数据仓库平台时,将所述数据从应用数据库导入到hadoop数据仓库的hive数据库中,并配置关系数据库和hive数据库进行连接,选择关系库中的表并进行传输到hive数据仓库中指定的表中。

在本说明书实施例中,若数据导出所述数据仓库平台时,将所述数据从hadoop数据仓库的hive数据库中导入到dw层关系数据库中,并配置关系数据库和hive数据库在hdfs中的存储路径进行连接,选择路径中的数据并写到关系数据库中指定的表中。

在本说明书实施例中,所述数据仓库平台进行Sql编辑时,配置hive数据库连接,可遵循ANSI-SQL92标准进行sql编辑执行,将Spark任务提交到hadoop集群上执行,进行数据处理,将MapReduce任务提交到hadoop集群上执行,进行数据处理,将离线作业进行定时任务,可通过查看调度日志,获取定时任务执行情况,对全流程数据流进行监控。

需要说明的是,随着数据量飙升,信息化数字化转型需求迫切。搭建数据仓库作为数字化转型第一步,其重要程度不言而喻,直接影响后续数据分析质量。对于大数据平台,在数据仓库搭建进程中起到十分重要的平台作用,而且效果也是很不错的,但是门槛要求较高,操作比较繁琐,需要大量的技术人员协助,这无疑对于大数据平台的使用普及化十分不利。本说明书实施例可以对大数据模块集群的操作进行了简化,既保存了常用的功能,又降低了使用门槛,为非技术人员使用大数据产品提供了可能,对数据仓库的搭建起到了极大的促进作用。

针对上述的数据仓库平台,下面具体对数据仓库平台进行说明:

本说明书实施例的数据仓库平台对组件及作业的存储模式主要以两种标准实现,一种为数据库存储,一种为文件存储。数据库存储是即开即用模式,将组件数字化格式存入数据库,每个id代表一个组件,组件之间的连线也可以转为代号存储,组件中需要填写的参数等以不同的模型存入。大数据模块集群组件的存储方法不一,有些以分字段的形式,有些以集成字段的形式,即字段中允许整合多参数。文件存储需要导入,转为数据库存储。文件存储的优点是在平台之间转移。

数据导入,把数据从应用数据库(rds)导入到hadoop数据仓库的hive数据库中。该任务需要配置关系数据库和hive数据库进行连接,选择关系库中的表并进行传输到hive数据仓库中指定的表中。

数据导出,把数据从hadoop数据仓库的hive数据库中导入到dw层关系数据库中。该任务需要配置关系数据库和hive数据库在hdfs中的存储路径进行连接,选择路径中的数据并写到关系数据库中指定的表中。

Sql编辑,配置好hive数据库连接,可遵循ANSI-SQL92标准进行sql编辑执行。

将Spark任务提交到hadoop集群上执行,进行数据处理。

将MapReduce任务提交到hadoop集群上执行,进行数据处理。

将离线作业进行定时任务,可通过查看调度日志,获取定时任务执行情况,对全流程数据流进行了监控。

存储了所有组件的声明信息,同时对用户提供可见性,用户可以直接使用装配注册中心中注册的组件。该中心允许在本工具运行期间随时注册新组件,用户使用时本工具会先查询该注册中心信息并对用户展示新组件的输入输出特性。

Sql任务组件可在hadoop集群内置hive源创建表,建表后由RDS2Hive组件从关系型数据库导入到hive库。由Spark任务、Mr任务组件对输入数据完成数据分析后,经Hive2RDS组件从hive库导入到关系库中。

一、主动内存管理机制

组件之间通过内存进行数据交换,同时支持在数据量变大时可自动将数据缓冲至其他存储中以防止内存溢出。

本工具提供多种形式的缓冲存储接口,用户在运行前指定缓冲存储的类型和存储位置以及数据存储格式,当本工具运行时,如果达到内存警戒线,将会把数据主动缓存至缓存接口指定的存储系统中,待内存占用下降时,再由组件自动把数据从缓冲存储中读出。

主动内存管理机制有效避免了常规大数据处理工具容易出现的内存溢出,提高了工具的可用性和可靠性,有效降低了常规大数据集群使用的垃圾收集机制对工具运行的影响。

实现机制如下:

1、提供接口,接口中需要使用数据存储类型、数据存储节点、数据存储格式等信息,任何缓冲存储均需要遵循这些接口,并在任务运行前,注册到本工具上。

2、用户设置数据处理任务时,指定内存警戒线以及相应的缓冲存储。

3、任务运行时,如果内存占用超过用户设定警戒线,则启动缓存数据任务,该任务将数据缓存至用户指定好的存储中,该任务并不识别具体存储类型,只将数据发送至缓存接口即可。

二、自适应伸缩机制

组件在运行时,可根据用户设定的处理效率参数,在当前处理效率较低时,自行复制组件实例,实例之间并行分布于不同计算节点上,进而在用户对时效性较高的计算时,可以有效提高处理效率,同时在任务较少的时,又可以减少组件实例数量,进而实现了集群的弹性伸缩机制。

弹性扩展其实现逻辑如下:

1、资源管理中心存放了本工具涉及的所有节点的资源使用信息、空闲资源信息

2、组件运行时,工具监控其运行速度和用户设定的预期速度,并根据资源管理中心中的空闲资源情况确定是否需要伸缩

3、确定需要伸缩,复制组件运行实例并建立复制出的组件实例和上下游组件之间的依赖通道

4、运行新组件实例。

弹性收缩实现逻辑如下:

1、系统监控当前处理任务的资源使用情况及其运行负荷

2、监控当前数据处理的数据量并根据历史数据处理的量做比较,如果数据处理量在下降,则进行收缩。

3、通知待收缩组件的上下游组件,上游组件将当前是数据发送后,即不在发送数据至待收缩节点,下游组件一直运行,知道待收缩组件不再发送数据到来时,上述两种情况均会关闭数据传送通道。

4、待收缩组件不再处理数据,没有数据到来且存量数据已经发送完毕,销毁当前组件实例。

三、粗粒度位置敏感型计算

本工具还可以根据数据存储的位置将以应用程序为主的计算逻辑发送至相应的存储节点,进而将存储节点之间的数据传输降到最低,有效提高系统吞吐率。需要说明的是,粗粒度位置敏感型计算即为上述提到的数据传输调配机制。

其处理逻辑如下:

1、元数据存储中心存放了数据的各存放位置以及数据的特征,如人口数据、气象数据、本地医疗系统数据、工业生产数据等。

2、用户请求到来时,可以根据数据处理逻辑类型以及数据特征,自动将该计算逻辑发送至对应的节点集合中计算。

3、计算后返回。

四、数据处理流程:

(1)配置大数据集群

需要准备的参数有:HDFS地址、HDFS端口号、HDFS用户名、Zookeeper地址、Zookeeper端口号、Hbase配置文件、JobTracker地址、JobTracker端口号、OOZIE_URL等。

(2)配置数据源

需要准备的参数有:hive数据库主机地址、端口号、数据库名称、用户名、密码等参数。关系型数据源主机地址、端口号、数据库名称、用户名、密码等参数。

(3)对应关系

建立数据仓库主题域或主题,选择准备好的数据源与数据仓库一一对应。大数据组件选择时输入输出源时从此处获取对应关系。

(4)组件配置

进入离线开发菜单,新建作业后,左边侧边栏可看到各种任务分组,通过鼠标点击拖动,可将相应任务拖到右边画布进行设计。

连线代表依次执行顺序;点击连线,可依次更改标识,‘正确’表示上一步执行成功后执行下一步,‘错误’表示上一步执行失败后执行下一步,没有符号标识,表示无条件执行下一步。

(5)运行服务

运行后,数据转移、数据处理、数据分析等业务完成。

需要说明的是,本说明书实施例通过上述技术方案解决了配置复杂的问题。整合了配置项,将固定参数脚本化,简化了操作,人机交互较友好,避免了配置过程中易出错等问题。解决了数据流转过程中,对数据的实时监测难的问题,本说明书实施例提供了步骤度量、任务调度等一键启动及监测的服务。此外,本说明书实施例解决了数据仓库建设数字化的问题,将之前的单模块化的数据仓库与公司组织建立关联,将数据仓库分组与管理人、管理部门等一一对应,实现了作业到数据仓库的数据直达。

具体的,本说明书实施例具有以下优点:

1.简化配置,配置点少,使用人员在初始化过程中阻力较小。多模块高效整合,降低了技术复杂度,如:多种数据输入源可供分类选择。人机交互友好,增加了可视化界面、实时监控等,加强了使用人员全过程信息反馈时效性。封装大数据组件构建了离线数据处理引擎,引擎可充分利用大数据集群扩容,支持超大规模数据量。

2.提出了组件模型接口标准,指定了数据处理组件应当符合的处理规范和接口、方法及语义。基于组件模型标准封装了RDS2Hive、Hive2RDS、Sql任务、Spark任务、MR任务等组件并预留了相关接口供新类型的大数据处理组件使用,以可视、灵活配置的方式供用户使用。作业调度。提供了调度功能,设置固定时间抽取数据,可查看历史日志。执行功能组件化,一键运行,数据传输量可实时监控。模型管理。将数据仓库与公司组织的对应关系以表格的形式体现,将数据仓库的建立、审批、权限等一系列功能流程化。可以灵活装配,按需使用。实现了组件注册中心,在集群运行时,可以灵活根据需要临时注册新的组件并向用户提供实时可见性,实现注册即可用。

3.主动内存管理机制,组件之间通过内存进行数据交换,同时支持在数据量变大时可自动将数据缓冲至其他存储中以防止内存溢出。

4.自适应伸缩机制,组件在运行时,可根据用户设定的处理效率参数,在当前处理效率较低时,自行复制组件实例,可以有效提高处理效率。

5.粗粒度位置敏感型,计算本工具还可以根据数据存储的位置将以应用程序为主的计算逻辑发送至相应的存储节点,进而将存储节点之间的数据传输降到最低,有效提高系统吞吐率。

图2为本说明书一个或多个实施例提供的一种数据仓库的处理装置的结构示意图,所述装置包括:内存管理单元202、自适应伸缩单元204与数据传输调配单元206。

内存管理单元202,在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

自适应伸缩单元204,通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

数据传输调配单元206,通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

图3为本说明书一个或多个实施例提供的一种数据仓库的处理设备的结构示意图,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

在数据仓库平台中,通过预先设定的内存管理机制对集群组件进行存储管理,所述集群组件之间通过内存进行数据交换,在数据量变大时自动将数据缓冲至其他存储中以防止内存溢出;

通过预先设定的自适应伸缩机制对所述集群组件进行弹性管理;

通过预先设定的数据传输调配机制将数据传输方式发送至所述集群组件的各存储节点,以调节所述各存储节点的数据传输。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

技术分类

06120115632257