掌桥专利:专业的专利平台
掌桥专利
首页

多数据源数据清理方法及装置

文献发布时间:2023-06-19 18:46:07


多数据源数据清理方法及装置

技术领域

本发明涉及大数据技术领域,尤其涉及多数据源数据清理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

计算机系统,以金融行业为例,每天会产生大量的业务和日志数据,需要定期清理以释放空间、避免对系统性能带来影响。随着计算机技术的发展,较为复杂的系统中的数据往往会有多个数据源。现有技术通常针对每种数据源实现各自的数据清理机制,花费大量的时间和人力成本,且可维护性差、可扩展性差。

发明内容

本发明实施例提供一种多数据源数据清理方法,用以提高多数据源数据清理的效率,改善多数据源数据清理的可维护性和可扩展性,该方法包括:

扫描数据清理配置表,从数据清理配置表获取数据清理任务;所述数据清理配置表预先配置有多个数据源中每一数据源的数据清理任务;

将获取的数据清理任务加载至数据清理任务列表;

根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列;

对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理。

本发明实施例还提供一种多数据源数据清理装置,用以提高多数据源数据清理的效率,改善多数据源数据清理的可维护性和可扩展性,该装置包括:

任务获取模块,用于扫描数据清理配置表,从数据清理配置表获取数据清理任务;所述数据清理配置表预先配置有多个数据源中每一数据源的数据清理任务;

任务加载模块,用于将获取的数据清理任务加载至数据清理任务列表;

队列处理模块,用于根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列;

数据清理模块,用于对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多数据源数据清理方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多数据源数据清理方法。

本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述多数据源数据清理方法。

本发明实施例中,扫描数据清理配置表,从数据清理配置表获取数据清理任务;所述数据清理配置表预先配置有多个数据源中每一数据源的数据清理任务;将获取的数据清理任务加载至数据清理任务列表;根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列;对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理,与现有技术中针对每种数据源实现各自的数据清理机制的技术方案相比,本发明实施例通过数据清理配置表获取并加载数据清理任务,将不同数据源的数据清理任务分别放入不同队列进行处理,以此实现多数据源数据清理的统一管理,提升数据清理中应对多数据源的可维护性和可扩展性,提高了数据源数据清理的效率,降低了维护成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中多数据源数据清理方法的流程图;

图2为本发明实施例中加载数据清理任务的流程图;

图3为本发明实施例中各数据源数据清理的流程图;

图4为本发明实施例中多数据源数据清理装置的示意图;

图5为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。

为了解决现有技术存在的技术问题,本发明提出了一种多数据源数据清理方法,用以实现通过统一配置,完成多数据源系统数据清理的统一管理,提高开发效率。图1为本发明实施例中多数据源数据清理方法的流程图,如图1所示,该方法包括如下步骤:

步骤101,扫描数据清理配置表,从数据清理配置表获取数据清理任务;

步骤102,将获取的数据清理任务加载至数据清理任务列表,根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列;

步骤103,对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理。

由图1流程可以得知,本发明实施例通过数据清理配置表获取并加载数据清理任务,将不同数据源的数据清理任务分别放入不同队列进行处理,以此实现多数据源数据清理的统一管理,提升数据清理中应对多数据源的可维护性和可扩展性,提高了数据源数据清理的效率,降低了维护成本。

具体实施时,扫描数据清理配置表,从数据清理配置表获取数据清理任务;配置表中数据清理任务可配置为来自多数据源,实现对不同数据源数据清理的统一管理。

具体实施时,数据清理配置表预先配置有:每一数据清理任务的数据源,如MySQL、mongo等;操作类型信息,如常见的清理历史重复数据、转历史、清原表以及组合操作等;清理数据留存的时长以及清理数据的备份信息。

表1给出了数据清理配置表的一具体实例:

表1

表1中,BAKMV_TYPE字段用来存储数据清理任务的数据源,如mysql、mongo等,也可根据系统特点配置其他数据来源。

FLAG字段用来存储操作类型信息,如常见的清历史重复数据、转历史、清原表以及组合操作等。

KEEP_DAY用来存储清理数据留存的天数。

COLUMN_LIST用来存储事实表的各字段,使用COLUMN_SEPARATOR存储的分隔符进行连接。

DATE_COLUMN用来存储清理数据时判断天数所使用的事实表字段名。BAK_DATE_COLUMN用来存储备份时的日期字段名,BAK_DATE_VALUE用来存储备份时的日期取值。

在一实施例中,用户对系统中各数据源的数据清理任务做统一的配置,根据每项业务场景对每一项数据清理任务配置一条数据清理记录。

在一实施例中,将获取的数据清理任务加载至数据清理任务列表,包括:将数据清理任务列表中数据清理任务的执行状态置为初始化状态;根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列,包括:将数据清理队列中数据清理任务的执行状态置为处理中状态;对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理,包括:在每执行完一条数据清理任务后,将相应数据清理任务的执行状态置为处理成功状态。

实施例中可以定时将获取的数据清理任务加载至数据清理任务列表,例如可以每日将获取的数据清理任务加载至数据清理任务列表,数据清理任务列表例如可以是数据清理运行日志表,将数据清理任务加载至数据清理运行日志表时,数据清理任务的执行状态置为初始化状态。

表2给出了数据清理任务列表,例如数据清理运行日志表的一具体实例:

表2

按照当日数据清理运行日志表中数据来源的不同,可以将当日清理任务分别加载到相应的处理队列中,如mysql数据清理队列、mongo数据清理队列等,数据清理任务状态置为“处理中”。

图2为本发明实施例中加载数据清理任务的流程图,如图2所示,本发明实施例中,加载数据清理任务,包括:

步骤201,将预先配置的清理任务加载到当日数据清理运行日志表中,数据清理任务状态置为“初始化”;

步骤202,将当日数据清理任务分别加载到相应数据源的处理队列中,数据清理任务状态置为“处理中”。

在一实施例中,将数据清理任务列表中数据清理任务的执行状态置为初始化状态;根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列,包括:将数据清理队列中数据清理任务的执行状态置为处理中状态。

在一实施例中,根据数据清理任务的操作类型,调用相应的实现函数执行数据清理,其中,实现函数根据数据清理任务的操作类型预先配置。

图3为本发明实施例中各数据源数据清理的流程图,如图3所示,各数据源数据清理,包括:

步骤301,针对每一种数据源的数据清理,分别启动定时任务;

步骤302,获取数据清理任务的操作类型,对不同操作类型,分别调用相应的实现函数,完成该条任务的数据清理;

步骤303,根据各函数实现结果标注对应数据清理任务状态;

步骤304,循环读取处理队列,直至队列中所有数据清理任务完成。

在一实施例中,在每执行完一条数据清理任务后,将相应数据清理任务的执行状态置为处理成功状态。

在一实施例中,在执行数据清理任务出错时,将相应数据清理任务的执行状态置为处理失败状态。

具体实施时,针对每一种数据源的数据清理,分别启动定时任务,从相应数据源的队列中读取一条状态为“处理中”的数据清理任务;获取数据清理任务的操作类型,对不同的操作类型,分别调用相应的实现函数,完成该条任务的数据清理。实现函数中相应信息均从当前数据清理任务中动态获取;调用实现函数成功后将该数据清理任务状态置为“成功”;若调用实现函数时出现错误,则将该数据清理任务状态置为“失败”并记录错误信息;循环读取处理队列,直至队列中所有数据清理任务完成,当前数据源的数据清理定时任务则成功结束。

具体实施时,实现函数中相应信息均从当前数据清理任务中动态获取;调用实现函数成功后将该数据清理任务状态置为“成功”;若调用实现函数时出现错误,则将该数据清理任务状态置为“失败”并记录错误信息。

本发明实施例中还提供了一种多数据源数据清理装置,如下面的实施例所述。由于该装置解决问题的原理与多数据源数据清理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。

图4为本发明实施例中多数据源数据清理装置的示意图,如图4所示,该装置包括:

任务获取模块401,用于扫描数据清理配置表,从数据清理配置表获取数据清理任务;所述数据清理配置表预先配置有多个数据源中每一数据源的数据清理任务;

任务加载模块402,用于将获取的数据清理任务加载至数据清理任务列表;

队列处理模块403,用于根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列;

数据清理模块404,用于对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理。

在一实施例中,数据清理配置表预先配置有:

每一数据清理任务的数据源、操作类型信息、清理数据留存的时长、清理数据的备份信息。

在一实施例中,任务加载模块402具体可以用于:将数据清理任务列表中数据清理任务的执行状态置为初始化状态。

在一实施例中,队列处理模块403具体可以用于:将数据清理队列中数据清理任务的执行状态置为处理中状态;

在一实施例中,数据清理模块404具体可以用于:在执行数据清理任务出错时,将相应数据清理任务的执行状态置为处理失败状态。

在一实施例中,数据清理模块404具体可以用于:根据数据清理任务的操作类型,调用相应的实现函数执行数据清理,其中,实现函数根据数据清理任务的操作类型预先配置。

本发明实施例还提供一种计算机设备,图5为本发明实施例中计算机设备的示意图,所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530,所述处理器520执行所述计算机程序530时实现上述多数据源数据清理方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多数据源数据清理方法。

本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述多数据源数据清理方法。

综上所述,本发明实施例中,扫描数据清理配置表,从数据清理配置表获取数据清理任务;所述数据清理配置表预先配置有多个数据源中每一数据源的数据清理任务;将获取的数据清理任务加载至数据清理任务列表;根据数据源的不同,将数据清理任务列表中数据清理任务分别放入相应数据源的数据清理队列;对每一数据源的数据清理任务分别启动定时任务,从相应数据源的数据清理队列中依次读取每条数据清理任务,执行数据清理,与现有技术中针对每种数据源实现各自的数据清理机制的技术方案相比,本发明实施例通过数据清理配置表获取并加载数据清理任务,将不同数据源的数据清理任务分别放入不同队列进行处理,以此实现多数据源数据清理的统一管理,提升数据清理中应对多数据源的可维护性和可扩展性,提高了数据源数据清理的效率,降低了维护成本。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115687058