掌桥专利:专业的专利平台
掌桥专利
首页

一种基于KETTLE脚本生成工具的数据处理方法、设备及介质

文献发布时间:2024-04-18 19:58:30


一种基于KETTLE脚本生成工具的数据处理方法、设备及介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种基于KETTLE脚本生成工具的数据处理方法、设备及介质。

背景技术

目前,数据作为生产资料已成为社会共识。数据的集中采集、开发和利用能够有效形成产业聚集效应,带来巨大的经济价值和社会效应。

但是近年来,由于企业、机构对各种数据的需求越来越大,传统的数据库系统无法将大量数据转换成有用的信息,为人们生活和社会发展的各方面提供正确的决策。各种数据分散于不同的系统中,彼此之间无法形成联结,且由于不同数据的来源不同,数据格式不同,相应的数据处理方法也不同。仅仅依靠人力来生成数据处理的采集脚本,会存在数据采集效率低下,数据即时性减弱的问题。

发明内容

本申请实施例提供了一种基于KETTLE脚本生成工具的数据处理方法、设备及介质,用以解决现有技术通过人力生成数据处理的采集脚本,存在数据采集效率低下,数据即时性减弱的技术问题。

一方面,本申请实施例提供了一种基于KETTLE脚本生成工具的数据处理方法,包括:

确定出数据需求方对应的数据需求,并编写所述数据需求对应的数据字典,以及确定所述数据需求对应的数据库信息;

将所述数据字典中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于所述KETTLE脚本生成工具,生成对应的数据采集脚本;

通过所述KETTLE脚本生成工具对所述数据采集脚本进行验证,并在验证报错的情况下,对所述数据采集脚本进行调整,以得到验证通过的数据采集脚本;

基于验证通过的所述数据采集脚本进行数据采集,并对采集到的数据进行核验校正,实现数据的自动化处理。

在本申请的一种实现方式中,所述确定出数据需求方对应的数据需求,并编写所述数据需求对应的数据字典,以及确定所述数据需求对应的数据库信息,具体包括:

获取数据需求方的若干个历史数据请求,并根据所述若干个历史数据请求,确定出所述数据需求方对应的数据需求;

根据所述数据需求,将对应的待采集数据进行分析,并得到所述待采集数据对应的数据分析结果;

根据所述数据分析结果,编写所述待采集数据对应的数据字典,并确定出所述待采集数据对应的数据库信息。

在本申请的一种实现方式中,所述将所述数据字段中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于所述KETTLE脚本生成工具,生成对应的数据采集脚本,具体包括:

在所述数据字典中根据所述数据需求,确定所述数据需求方待采集的字段,并确定出所述待采集的字段对应的数据库信息;

将所述待采集的字段以及所述待采集的字段对应的数据库信息输入至KETTLE脚本生成工具中,并基于所述KETTLE脚本生成工具中脚本生成按钮的触发,生成所述数据需求对应的数据采集脚本。

在本申请的一种实现方式中,所述通过所述KETTLE脚本生成工具对所述数据采集脚本进行验证,并在验证报错的情况下,对所述数据采集脚本进行调整,以得到验证通过的数据采集脚本,具体包括:

将所述数据采集脚本输入至所述KETTLE脚本生成工具中,并基于脚本运行按钮的触发,运行所述数据采集脚本,以进行数据采集;

确定所述数据需求对应数据库中的表数据是否采集至对应的数据表中,并在所述数据表中存储有采集的表数据的情况下,确定所述数据采集脚本校验通过;

在所述数据表中未存储有所述表数据的情况下,在所述数据采集脚本中确定未采集到表数据对应的错误原因,并根据所述错误原因对所述数据采集脚本进行调整;

在调整后的数据采集脚本将表数据采集至对应的数据表中的情况下,确定调整后的数据采集脚本校验通过。

在本申请的一种实现方式中,所述在所述数据表中未存储有所述表数据的情况下,所述方法还包括:

根据所述数据采集脚本未采集到所述数据需求对应数据库中表数据的错误原因,确定所述KETTLE脚本生成工具生成所述数据采集脚本对应的异常原因;

根据所述异常原因,确定所述KETTLE脚本生成工具中的待优化位置,并对所述待优化位置进行修改,得到优化后的KETTLE脚本生成工具。

在本申请的一种实现方式中,所述将所述数据字典中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于所述KETTLE脚本生成工具,生成对应的数据采集脚本之后,所述方法还包括:

在数据需求方具有新增业务需求的情况下,接收所述新增业务需求,并确定出所述新增业务需求对应的新增数据需求;

根据所述新增数据需求,对所述KETTLE脚本生成工具进行调整,以在所述KETTLE脚本生成工具中配置所述新增数据需求对应的新增功能模块;

确定出所述新增数据需求对应的新增待采集的字段,以及所述新增待采集的字段对应的数据库信息,并将所述新增待采集的字段以及对应的数据库信息输入至调整后的所述KETTLE脚本生成工具的新增功能模块中;

通过所述KETTLE脚本生成工具的新增功能模块,生成所述新增业务需求对应的新增脚本,并将所述新增脚本添加至所述数据采集脚本中,以得到所述数据需求方对应的目标数据采集脚本。

在本申请的一种实现方式中,所述基于验证通过的所述数据采集脚本进行数据采集,具体包括:

将验证通过的所述数据需求方对应的目标数据采集脚本进行脚本上线,并对相应的采集程序进行启动;

基于所述采集程序的启动,接收所述KETTLE脚本生成工具中所述目标数据采集脚本的触发,并对所述目标数据采集脚本进行运行,以进行相应的数据采集。

在本申请的一种实现方式中,所述对采集到的数据进行核验校正,实现数据的自动化处理,具体包括:

确定采集到的目标数据,并对所述目标数据进行巡检,以确定所述目标数据是否存在数据异常;所述数据异常至少包括:冗余数据、乱码数据以及无效数据;

针对存在冗余数据的目标数据进行去除冗余操作,以及针对存在乱码数据的目标数据进行丢弃,并对存在乱码数据的目标数据重新进行采集;

将不符合有效值的目标数据作为无效数据进行丢弃,并对存在无效数据的目标数据重新进行采集。

另一方面,本申请实施例还提供了一种基于KETTLE脚本生成工具的数据处理设备,所述设备包括:

至少一个处理器;

以及,与所述至少一个处理器通信连接的存储器;

其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种基于KETTLE脚本生成工具的数据处理方法。

另一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

如上述的一种基于KETTLE脚本生成工具的数据处理方法。

本申请实施例提供了一种基于KETTLE脚本生成工具的数据处理方法、设备及介质,至少包括以下有益效果:

通过编写数据需求方的数据需求对应的数据字典,以及确定数据需求方的数据需求的数据存储的数据库信息,能够对不同数据源的数据统一进行处理,提高了数据的利用效率和数据获取便利性;根据数据字典得出待采集的字段,进而将待采集的字段以及数据库信息输入至KETTLE脚本生成工具中,从而自动生成对应的数据采集脚本,避免了人工生成数据采集脚本的资源浪费,大大提升了数据采集的处理效率;通过对数据采集脚本进行验证,能够避免因数据采集脚本报错,而导致采集到的数据与数据需求方的数据需求不相符;在采集到相应的数据之后,还需进一步对采集到的数据进行验证,校正异常数据,从而实现数据的自动化采集处理。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的一种基于KETTLE脚本生成工具的数据处理方法的流程示意图;

图2为本申请实施例提供的一种基于KETTLE脚本生成工具的数据处理设备的内部结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供了一种基于KETTLE脚本生成工具的数据处理方法、设备及介质,通过编写数据需求方的数据需求对应的数据字典,以及确定数据需求方的数据需求的数据存储的数据库信息,能够对不同数据源的数据统一进行处理,提高了数据的利用效率和数据获取便利性;根据数据字典得出待采集的字段,进而将待采集的字段以及数据库信息输入至KETTLE脚本生成工具中,从而自动生成对应的数据采集脚本,避免了人工生成数据采集脚本的资源浪费,大大提升了数据采集的处理效率;通过对数据采集脚本进行验证,能够避免因数据采集脚本报错,而导致采集到的数据与数据需求方的数据需求不相符;在采集到相应的数据之后,还需进一步对采集到的数据进行验证,校正异常数据,从而实现数据的自动化采集处理。解决了现有技术通过人力生成数据处理的采集脚本,存在数据采集效率低下,数据即时性减弱的技术问题。

以下结合附图,详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的一种基于KETTLE脚本生成工具的数据处理方法的流程示意图。如图1所示,本申请实施例提供的一种基于KETTLE脚本生成工具的数据处理方法,包括:

101、确定出数据需求方对应的数据需求,并编写数据需求对应的数据字典,以及确定数据需求对应的数据库信息。

为了节约成本,解放人力,高效工作,不影响应用人员使用数据,保证数据能够及时从生产库采集到分析库,服务器首先根据数据需求方提出的数据请求相关信息,确定出数据需求方对应的数据需求,进而根据数据需求,编写数据需求方所需获取数据对应的数据字典,以及数据需求对应的数据库信息。

具体地,在本申请的一个实施例中,服务器获取数据需求方的若干个历史数据请求,并根据若干个历史数据请求,确定出数据需求方对应的数据需求,进而根据数据需求,将对应的待采集数据进行分析,并得到待采集数据对应的数据分析结果,然后,服务器根据数据分析结果,编写待采集数据对应的数据字典,并确定出待采集数据对应的数据库信息。

102、将数据字典中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于KETTLE脚本生成工具,生成对应的数据采集脚本。

为了实现数据采集脚本的自动生成,服务器将数据字典中的待采集的字段以及待采集的字段对应的数据库信息输入至KETTLE脚本生成工具中,从而通过KETTLE脚本生成工具中根据所输入的待采集的字段以及数据库信息,自动生成对应的数据采集脚本,能够解决因为数据源和系统不同造成的数据分散问题,从而根据需求将需要的数据集中在一处,提高了数据的利用效率和数据获取便利性。

在本申请的一个实施例中,服务器在数据字典中根据数据需求,确定数据需求方待采集的字段,并确定出待采集的字段对应的数据库信息,进而将待采集的字段以及待采集的字段对应的数据库信息输入至KETTLE脚本生成工具中,并基于KETTLE脚本生成工具中脚本生成按钮的触发,生成数据需求对应的数据采集脚本,通过KETTLE脚本生成工具,大大提升了数据采集的效率。

在本申请的一个实施例中,服务器在将数据字典中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于KETTLE脚本生成工具,生成对应的数据采集脚本之后,在数据需求方具有新增业务需求的情况下,接收新增业务需求,并确定出新增业务需求对应的新增数据需求,进而根据新增数据需求,对KETTLE脚本生成工具进行调整,以在KETTLE脚本生成工具中配置新增数据需求对应的新增功能模块。然后,服务器确定出新增数据需求对应的新增待采集的字段,以及新增待采集的字段对应的数据库信息,并将新增待采集的字段以及对应的数据库信息输入至调整后的KETTLE脚本生成工具的新增功能模块中,通过KETTLE脚本生成工具的新增功能模块,生成新增业务需求对应的新增脚本,并将新增脚本添加至数据采集脚本中,以得到数据需求方对应的目标数据采集脚本。

103、通过KETTLE脚本生成工具对数据采集脚本进行验证,并在验证报错的情况下,对数据采集脚本进行调整,以得到验证通过的数据采集脚本。

在开发环境中,在所需获取数据对应的数据库中执行建表脚本,并通过KETTLE脚本生成工具运行数据采集脚本,以对其进行验证,在验证结果为存在错误的情况下,需要对数据采集脚本进行调整,从而得到验证通过的数据采集脚本。

在本申请的一个实施例中,服务器将数据采集脚本输入至KETTLE脚本生成工具中,并基于脚本运行按钮的触发,对数据采集脚本进行运行,从而基于运行的数据采集脚本进行数据采集,然后,服务器确定数据需求对应数据库中的表数据是否采集至对应的数据表中,并在数据表中存储有采集的表数据的情况下,确定数据采集脚本校验通过。在数据表中未存储有表数据的情况下,服务器需在数据采集脚本中确定未采集到表数据对应的错误原因,并根据错误原因对数据采集脚本进行调整,而在调整后的数据采集脚本将表数据采集至对应的数据表中的情况下,确定调整后的数据采集脚本校验通过。

在本申请的一个实施例中,服务器在数据表中未存储有表数据的情况下,根据数据采集脚本未采集到数据需求对应数据库中表数据的错误原因,确定KETTLE脚本生成工具生成数据采集脚本对应的异常原因,进而根据异常原因,确定出KETTLE脚本生成工具中的待优化位置,并对待优化位置进行修改,得到优化后的KETTLE脚本生成工具。

104、基于验证通过的数据采集脚本进行数据采集,并对采集到的数据进行核验校正,实现数据的自动化处理。

在本申请的一个实施例中,服务器将验证通过的数据需求方对应的目标数据采集脚本进行脚本上线,并对相应的采集程序进行启动,然后,基于采集程序的启动,接收KETTLE脚本生成工具中目标数据采集脚本的触发,并对目标数据采集脚本进行运行,以进行相应的数据采集。

在本申请的一个实施例中,服务器需确定出采集到的目标数据,并对目标数据进行巡检,从而能够确定出目标数据是否存在数据异常。需要说明的是,本申请实施例中的数据异常至少包括:冗余数据、乱码数据以及无效数据。

服务器针对存在冗余数据的目标数据进行去除冗余操作,以及针对存在乱码数据的目标数据进行丢弃,并对存在乱码数据的目标数据重新进行采集,还需将不符合有效值的目标数据作为无效数据进行丢弃,并对存在无效数据的目标数据重新进行采集。

以上为本申请提出的方法实施例。基于同样的发明构思,本申请实施例还提供了一种基于KETTLE脚本生成工具的数据处理设备,其结构如图2所示。

图2为本申请实施例提供的一种基于KETTLE脚本生成工具的数据处理设备的内部结构示意图。如图2所示,设备包括:

至少一个处理器;

以及,与至少一个处理器通信连接的存储器;

其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

确定出数据需求方对应的数据需求,并编写数据需求对应的数据字典,以及确定数据需求对应的数据库信息;

将数据字典中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于KETTLE脚本生成工具,生成对应的数据采集脚本;

通过KETTLE脚本生成工具对数据采集脚本进行验证,并在验证报错的情况下,对数据采集脚本进行调整,以得到验证通过的数据采集脚本;

基于验证通过的数据采集脚本进行数据采集,并对采集到的数据进行核验校正,实现数据的自动化处理。

本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:

确定出数据需求方对应的数据需求,并编写数据需求对应的数据字典,以及确定数据需求对应的数据库信息;

将数据字典中待采集的字段及对应的数据库信息输入至KETTLE脚本生成工具中,并基于KETTLE脚本生成工具,生成对应的数据采集脚本;

通过KETTLE脚本生成工具对数据采集脚本进行验证,并在验证报错的情况下,对数据采集脚本进行调整,以得到验证通过的数据采集脚本;

基于验证通过的数据采集脚本进行数据采集,并对采集到的数据进行核验校正,实现数据的自动化处理。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 数据库脚本生成方法、装置、计算机设备及存储介质
  • 数据库脚本生成方法、装置、介质及电子设备
  • 一种基于FPGA的数据处理方法、装置、设备及介质
  • 一种数据处理方法及装置、一种计算设备及存储介质
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 一种基于Kettle工具的数据处理方法、装置、介质及电子设备
  • 基于kettle的web数据处理方法、装置、系统和电子设备
技术分类

06120116498658