掌桥专利:专业的专利平台
掌桥专利
首页

一种针对数据仓库的数据处理方法及装置

文献发布时间:2023-06-19 16:06:26



技术领域

本申请涉及数据处理领域,具体涉及一种针对数据仓库的数据处理方法及装置。

背景技术

在大数据时代的今天,银行的各个系统都会产生大量的数据,由于银行处理业务时通常需要多个系统的数据,不能让各个系统各自建设数据系统,因此需要建立数据仓库来集中管理各个系统内的庞大的数据。因为数据仓库在运行过程中需要处理大量的业务,处理一个业务通常需要经历多个工作流,工作流也被称为作业,所以数据仓库在运行过程中会产生大量的作业,这些作业关系复杂且运行时间长短不一,当作业运行时间过长时,对应的业务处理时间也会过长,这会影响客户的体验,甚至导致业务失败。

银行目前主要通过人工来对数据仓库进行处理,数据仓库作业运行数据庞大且复杂,数据仓库人员面对庞大的作业运行数据,难以处理作业运行时间长的作业,即难以处理耗时过长的业务,耗时过长的业务会影响客户的体验,甚至会导致业务失败,影响银行业务的正常运行。

发明内容

本申请实施例提供了一种针对数据仓库的数据处理方法及装置,能处理耗时长的业务。

有鉴于此,本申请第一方面提供了一种针对数据仓库的数据处理方法,所述方法包括:

读取数据仓库中存储的工作周期内产生的作业运行数据;所述作业运行数据包括作业的开始时间和作业的结束时间;

根据所述作业运行数据对待识别业务进行血缘分析,得到所述待识别业务的作业血缘链路;所述作业血缘链路包括所述待识别业务中作业的作业执行顺序;

通过所述作业执行顺序,得到所述作业血缘链路的头部作业的目标开始时间和尾部作业的目标结束时间;

根据所述目标开始时间和所述目标结束时间,计算所述作业血缘链路的整体作业加工时长;

若所述整体作业加工时长大于所述待识别业务对应的预设整体时长阈值,确定所述待识别业务为时间异常业务。

可选的,所述通过所述作业执行顺序,得到所述作业血缘链路的头部作业的目标开始时间和尾部作业的目标结束时间,包括:

通过所述作业执行顺序,得到所述作业血缘链路中每个作业的开始时间和结束时间;

在所述确定所述待识别业务为时间异常业务之后,所述方法还包括:

根据所述每个作业的开始时间和结束时间,计算所述每个作业的作业加工时长;

基于所述作业加工时长对所述作业进行处理优先级排序;

根据优先级处理对应的作业血缘链路的作业加工时长。

可选的,所述方法还包括:

把所述作业血缘链路的全部作业的作业加工时长之和确定为所述作业血缘链路的绝对整体作业加工时长;

相应的,当所述整体作业加工时长小于所述预设整体时长阈值时,若所述绝对整体作业加工时长大于预设绝对整体时长阈值,确定所述待识别业务为时间异常业务。

可选的,通过如下方式获得所述预设整体时长阈值:

预先设置作业血缘链路层级和整体时长阈值的对应关系;所述作业血缘链路层级表示作业血缘链路全部作业数量;

根据所述待识别业务对应的作业血缘链路层级和所述对应关系确定所述预设整体时长阈值。

可选的,所述根据所述作业运行数据对待识别业务进行血缘分析,得到所述待识别业务的作业血缘链路,包括:

根据所述作业运行数据对待识别业务进行血缘分析,得到所述待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路。

可选的,所述方法还包括:

根据前端页面的输入的业务查询信息,获取所述业务查询信息对应的业务数据血缘链路;所述业务血缘链路包括所述作业血缘链路、所述表血缘链路或所述字段血缘链路;

把所述对应的业务数据血缘链路发送所述前端页面,以便所述前端页面进行展示。

可选的,所述方法还包括:

处理业务血缘链路,所述业务血缘链路包括所述作业血缘链路、所述表血缘链路或所述字段血缘链路;

若所述业务血缘链路产生异常信息,处理所述异常信息;所述异常信息包括血缘链路信息闭环、血缘链路信息缺失或血缘链路信息断裂,所述血缘链路闭环包括所述血缘链路中节点信息不能从本节点发出,所述血缘链路信息缺失包括所述血缘链路中节点所需的上游节点信息缺失,所述血缘链路信息断裂包括所述血缘链路中信息生成中断。

本申请第二方面提供了一种针对数据仓库的数据处理装置,所述装置包括:

数据读取模块,用于读取数据仓库中存储的工作周期内产生的作业运行数据;所述作业运行数据包括作业的开始时间和作业的结束时间;

数据血缘分析模块,用于根据所述作业运行数据对待识别业务进行血缘分析,得到所述待识别业务的作业血缘链路;所述作业血缘链路包括所述待识别业务中作业的作业执行顺序;

作业时间确定单元,用于通过所述作业执行顺序,得到所述作业血缘链路的头部作业的目标开始时间和尾部作业的目标结束时间;

整体作业加工时长计算单元,用于根据所述目标开始时间和所述目标结束时间,计算所述作业血缘链路的整体作业加工时长;

整体作业加工时长判断单元,用于若所述整体作业加工时长大于所述待识别业务对应的预设整体时长阈值,确定所述待识别业务为时间异常业务。

可选的,所述数据血缘分析模块,用于根据所述作业运行数据对待识别业务进行血缘分析,得到所述待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路,所述装置还包括:

血缘链路展示模块,用于根据前端页面的输入的业务查询信息,获取所述业务查询信息对应的业务数据血缘链路;所述业务血缘链路包括所述作业血缘链路、所述表血缘链路或所述字段血缘链路;把所述对应的业务数据血缘链路发送所述前端页面,以便所述前端页面进行展示。

可选的,所述数据血缘分析模块,用于根据所述作业运行数据对待识别业务进行血缘分析,得到所述待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路,所述装置还包括:

异常分析模块,用于处理业务血缘链路,所述业务血缘链路包括所述作业血缘链路、所述表血缘链路或所述字段血缘链路;若所述业务血缘链路产生异常信息,处理所述异常信息;所述异常信息包括血缘链路信息闭环、血缘链路信息缺失或血缘链路信息断裂,所述血缘链路闭环包括所述血缘链路中节点信息不能从本节点发出,所述血缘链路信息缺失包括所述血缘链路中节点所需的上游节点信息缺失,所述血缘链路信息断裂包括所述血缘链路中信息生成中断。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请实施例提供了一种针对数据仓库的数据分析方法,该方法包括:首先,读取数据仓库中的工作周期内产生的作业运行数据,其中,作业运行数据包括作业的开始时间和结束时间;然后,根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,血缘分析可以对关系复杂的作业运行数据进行一个整理,把完成待识别业务所需的全部作业作为作业血缘链路整理出来;接着,通过待识别业务的作业血缘链路的作业执行顺序,确定头部作业的目标开始时间和尾部作业的目标结束时间;最后,根据目标开始时间和目标结束时间得到整体作业加工时长,整体作业时长能反映完成待识别业务所需的全部时长,当整体作业加工时长大于待识别业务对应的预设整体时长阈值时,确定待识别业务为时间异常业务。上述方法通过对数据仓库中的作业运行数据进行血缘分析的处理,得到需要完成的待识别业务对应的全部作业的整体作业时长,确定整体作业时长大于预设时长阈值为时间异常业务,进而可以准确处理耗时较长的业务,提升客户的体验,减少业务的失败率,有利于银行业务的正常运行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种针对数据仓库的数据处理方法的流程图;

图2为本申请实施例提供的业务数据血缘链路之间逻辑关系网络图;

图3为本申请实施例提供的图数据库展示业务数据血缘链路关系图;

图4为本申请另一实施例提供的另一种针对数据仓库的数据处理方法的流程图;

图5为本申请另一实施例提供的一种针对数据仓库的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

银行的数据仓库在运行时需要处理大量的业务,进而产生大量的作业,这些作业关系复杂,数据仓库人员面对这些复杂的作业难以整理得到业务对应的全部作业,也就是说难以得到完成全部作业所需的时长,进而难以确定耗时长的业务为异常业务。

为了解决上述现有技术存在的问题,本申请实施例提供了一种针对数据仓库的数据处理方法,该方法能够得到业务对应的全部作业所需的时长,进而确定耗时长的业务为异常业务。

具体的,在本申请实施例提供的针对数据仓库的数据处理方法中,先读取数据仓库中的工作周期内产生的作业运行数据,其中,作业运行数据包括作业的开始时间和结束时间;然后,根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,血缘分析可以对关系复杂的作业运行数据进行一个整理,把完成待识别业务所需的全部作业作为作业血缘链路整理出来;接着,通过待识别业务的作业血缘链路的作业执行顺序,确定头部作业的目标开始时间和尾部作业的目标结束时间;最后,根据目标开始时间和目标结束时间得到整体作业加工时长,整体作业时长能反映完成待识别业务所需的全部时长,当整体作业加工时长大于待识别业务对应的预设整体时长阈值时,确定待识别业务为时间异常业务。上述方法通过对数据仓库中的作业运行数据进行血缘分析的处理,得到需要完成的待识别业务对应的全部作业的整体作业时长,确定整体作业时长大于预设时长阈值为时间异常业务,进而可以准确处理耗时较长的业务,提升客户的体验,减少业务的失败率,有利于银行业务的正常运行。

下面通过方法实施例对本申请提供的针对数据仓库的数据处理方法进行详细介绍。

针对前文所述的数据仓库,本申请实施例提供了一种数据处理方法,来对数据仓库中的数据进行分析处理。如图1所示,本申请实施例提供的针对数据仓库的数据处理方法,包括以下步骤:

S101、读取数据仓库中存储的工作周期内产生的作业运行数据;作业运行数据包括作业的开始时间和作业的结束时间。

具体的,数据仓库中存储有在工作周期内已经产生的作业运行数据,可以从数据仓库中读取上述作业运行数据。

需要说明的是,首先,工作周期可以根据数据仓库实际产生的作业运行数据来确定,也可以根据所需的作业运行数据的时间周期来确定,在此不做限定,例如,可以选用一天作为一个工作周期,那么就可以通过数据仓库中的日志文件读取作业运行数据。

然后,作业运行数据可以是存储在数据仓库中作业运行时所产生的数据,作业运行数据除了包括作业的开始时间和结束时间以外,还包括作业对应的表名等作业运行时产生的数据信息,其中作业对应的表名是指该作业运行所需的表名和该作业生成的表名。

S102、根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路;作业血缘链路包括待识别业务中作业的作业执行顺序。

具体来说,由于作业运行数据包括作业之间的上下游关系,即作业之间的处理逻辑,例如,作业1可以为调用数据A进行处理,得到数据B,作业2可以为调用数据B进行处理,得到数据C,由此可见作业1和作业2之间存在关联,作业1为作业2的上游作业,作业2为作业1的下游作业,因此根据作业运行数据可以对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,作业血缘链路能体现与待识别业务对应的全部作业以及这些作业之间的执行顺序。

通过血缘分析可以对关系复杂的作业运行数据进行一个整理,把完成待识别业务所需的全部作业以及这些作业之间的执行顺序作为作业血缘链路整理出来。

需要注意的是,首先,数据的血缘分析属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。

然后,血缘链路是指数据产生的链路,大致理解为是一个数据的生成过程,这个生成过程是指该数据依赖了哪些数据,怎么生成的,同时它依赖的数据又是怎么生成的。直白点说,就是这个数据是怎么来的,经过了哪些过程和阶段。

可选的,根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路。

具体来说,由于作业运行数据中包括了作业对应的表名,也就是说包括了作业运行所需的表名和该作业生成的表名,因此作业运行数据不仅反映了作业与作业之间的处理逻辑,也反映了作业对表的调用关系,例如,作业3可以为调用表A进行处理,得到表B,可见表A和表B之间存在关联。根据作业运行数据,分析作业对表的调用关系,得到待识别业务的表血缘链路。

由于作业运行数据反映了作业对表的调用关系,进一步来说,也就反映了作业对表中字段的调用关系,字段是指表中的具体信息,那么根据作业运行数据,分析作业对表中字段调用关系,得到待识别业务的字段血缘链路。

得到的待识别业务的作业血缘链路、表血缘链路和字段血缘链路之间的逻辑关系网络图可以如图2所示。

通过作业运行数据得到作业血缘链路、表血缘链路以及字段血缘链路有利于数据仓库人员梳理作业与作业之间、表与表之间、字段与字段之间的关联关系,有利于数据仓库人员管理数据仓库。

可选的,本申请实施例在根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路之后,可以把各种类别业务数据血缘链路和相关数据信息导入图数据库中,其中,各种类别业务数据包括上述的作业血缘链路、表血缘链路和字段血缘链路,图数据库包括根据各种类别业务数据血缘链路关系形成的图,展示结果可以见图3。

图数据库中还可以存储业务数据类别为节点,存储业务数据血缘链路之间的血缘关系为连线,存储节点对应的相关业务数据信息为属性,也就是说图数据库可以构成业务血缘关系网络图展示业务数据血缘链路。

通过把各种类别业务数据血缘链路导入到图数据库中,可以实现对各种类别业务数据血缘链路以关系网络图的形式存储,有利于后续对业务数据血缘链路的可视化展示。

可选的,本申请实施例在根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路之后,可以根据前端页面的输入的业务查询信息,获取业务查询信息对应的业务数据血缘链路,业务血缘链路包括作业血缘链路、表血缘链路或字段血缘链路,把对应的业务数据血缘链路发送前端页面,以便前端页面进行展示。

具体来说,可以根据在前端页面输入的业务查询信息和业务数据血缘链路来获取与业务查询信息对应的业务数据血缘链路,再可以把业务数据血缘链路相关信息输出给前端页面。这样可以让数据仓库处理人员通过输入业务查询信息就可以得到和它相关的业务数据血缘链路,业务数据血缘链路能体现业务之间的逻辑关系,有利于数据仓库处理人员迅速找到关联数据。

可选的,本申请实施例在根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路之后,可以处理业务血缘链路,业务血缘链路包括作业血缘链路、表血缘链路或字段血缘链路。若业务血缘链路产生异常信息,处理所述异常信息;其中,异常信息包括血缘链路信息闭环、血缘链路信息缺失或血缘链路信息断裂,血缘链路闭环包括血缘链路中节点信息不能从本节点发出,血缘链路信息缺失包括血缘链路中节点所需的上游节点信息缺失,血缘链路信息断裂包括血缘链路中信息生成中断。这样可以让数据仓库处理人员通过业务数据血缘链路处理数据仓库运行过程中产生的异常信息,进而分析异常信息的产生原因、影响范围等,有利于数据仓库处理人员管理数据仓库。

S103、通过作业执行顺序,得到作业血缘链路的头部作业的目标开始时间和尾部作业的目标结束时间。

具体来说,作业血缘链路能体现与待识别业务对应的全部作业以及这些作业之间的执行顺序,通过作业的执行顺序,可以确定作业血缘链路的头部作业和尾部作业,也就可以确定作业血缘链路头部作业的目标开始时间和尾部作业的目标结束时间。

需要注意的是,头部作业的目标开始时间是指头部作业何时开始运行的,可以是头部作业中头部文件最早的到齐时间,尾部作业的目标结束时间是指尾部作业何时运行完成,可以是尾部作业跑批结束时间。

S104、根据目标开始时间和目标结束时间,计算作业血缘链路的整体作业加工时长。

具体来说,目标开始时间是作业血缘链路头部作业的目标开始时间,能表示作业血缘链路何时开始,目标结束时间是作业血缘链路尾部作业的目标结束时间,能表示作业血缘链路何时结束,通过目标开始时间和目标结束时间,可以确定作业血缘链路何时开始以及何时结束,通过计算就可以得到作业血缘链路的整体作业加工时长。

因为待识别业务对应的作业血缘链路能反映待识别业务所需的全部作业以及作业的执行顺序,那么实现作业血缘链路所需的整体作业时长就能反映完成待识别业务所需的全部时长。

S105、若整体作业加工时长大于待识别业务对应的预设整体时长阈值,确定待识别业务为时间异常业务。

具体来说,可以把整体作业时长与预设整体时长阈值作比较,由于整体作业时长能反映完成待识别业务所需的全部时长,所以当整体作业时长大于预设整体时长阈值时,可以确定待识别业务为时间异常业务。

其中,预设整体时长阈值可以表示对待识别业务所需时长的一个预设最大值。

可选的,可以是根据待识别业务的业务类型来设定预设整体时长阈值,不同类型业务所需的时长可能是不一样的,可以根据业务类型来设定预设整体时长阈值。例如,对于普通转账业务,预设整体时长阈值可以为5分钟,对于跨国跨境转账业务,预设整体时长阈值可以为7个工作日。

可选的,可以先预先设置作业血缘链路层级和整体时长阈值的对应关系,作业血缘链路层级表示作业血缘链路全部作业数量;再根据待识别业务对应的作业血缘链路层级和上述对应关系确定预设整体时长阈值。

具体来说,作业血缘链路层级可以表示完成该血缘链路所需的全部作业数量,一般来说,作业血缘链路层级较高的整体作业时长较长,那么预先设置作业血缘链路西鞥及和整体时长阈值的对应关系,在根据所需的待识别业务对应的作业血缘链路层级来确定该作业血缘链路的预设整体时长阈值。

根据作业血缘链路层级来确定预设整体时长阈值较为简单,通过确定待识别业务的作业血缘链路层级就可以确定预设整体时长阈值,不需要对待识别业务进行其他分析,并且确定的预设整体时长阈值可以反映待识别业务所需时长的一个预设最大值。

本申请实施例提供了一种针对数据仓库的数据处理方法,先读取数据仓库中的工作周期内产生的作业运行数据,其中,作业运行数据包括作业的开始时间和结束时间;然后,根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,血缘分析可以对关系复杂的作业运行数据进行一个整理,把完成待识别业务所需的全部作业作为作业血缘链路整理出来;接着,通过待识别业务的作业血缘链路的作业执行顺序,确定头部作业的目标开始时间和尾部作业的目标结束时间;最后,根据目标开始时间和目标结束时间得到整体作业加工时长,整体作业时长能反映完成待识别业务所需的全部时长,当整体作业加工时长大于待识别业务对应的预设整体时长阈值时,确定待识别业务为时间异常业务。上述方法通过对数据仓库中的作业运行数据进行血缘分析的处理,得到需要完成的待识别业务对应的全部作业的整体作业时长,确定整体作业时长大于预设时长阈值为时间异常业务,进而可以准确处理耗时较长的业务,提升客户的体验,减少业务的失败率,有利于银行业务的正常运行。

本申请另一实施例提供了另一种针对数据仓库的数据处理方法,如图4所述,包括以下步骤:

S401、读取数据仓库中存储的工作周期内产生的作业运行数据;作业运行数据包括作业的开始时间和作业的结束时间。

需要说明的是,步骤S401的具体实施方式,可相应地参考上述方法实施例中的步骤S101,此处不再赘述。

S402、根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路;作业血缘链路包括待识别业务中作业的作业执行顺序。

需要说明的是,步骤S402的具体实施方式,可相应地参考上述方法实施例中的步骤S102,此处不再赘述。

S403、通过作业执行顺序,得到作业血缘链路中每个作业的开始时间和结束时间。

具体来说,S403是本申请实施例中S103的一种可能的具体实现方式,作业血缘链路能体现与待识别业务对应的全部作业以及这些作业的执行顺序,可以根据作业血缘链路来确定作业血缘链路中每个作业的开始时间和结束时间,作业的开始时间可以是作业文件最早的到齐时间,作业的结束时间可以是作业跑批结束时间,确定了每个作业的开始时间和结束时间,自然也就确定了头部作业的开始时间和头部作业的结束时间。

S404、根据头部作业的开始时间和尾部作业的结束时间,计算作业血缘链路的整体作业加工时长。

具体来说,S403得到了作业血缘链路中每个作业的开始时间和结束时间,在其中根据头部作业的开始时间和尾部作业的结束时间,就可以得到作业血缘链路的整体作业加工时长。

S405、若整体作业加工时长大于待识别业务对应的预设整体时长阈值,确定待识别业务为时间异常业务。

需要说明的是,步骤S405的具体实施方式,可相应地参考上述方法实施例中的步骤S105,此处不再赘述。

S406、根据每个作业的开始时间和结束时间,计算每个作业的作业加工时长;基于作业加工时长对作业进行处理优先级排序;根据优先级处理对应的作业血缘链路的作业加工时长

具体来说,可以先根据每个作业的开始时间和结束时间,作业的开始时间可以是作业文件最早的到齐时间,作业的结束时间可以作业跑批结束时间,可以计算得到每个作业的作业加工时长。

再可以根据作业加工时长对作业进行一个处理优先级排序,优先级排序在前的可以优先处理来减少其作业运行所需的时长。

最后根据优先级来处理作业血缘链路的作业加工时长,根据作业加工时长对作业进行优先级排序可以优先处理加工时长较长的作业,可以实现对整体作业加工时长较长的作业血缘链路的作业加工时长较长的作业的优先处理,实现整体作业加工时长较长的作业血缘链路的有效处理。

可选的,可以把作业血缘链路的全部作业的作业加工时长之和确定为作业血缘链路的绝对整体作业加工时长,相应的,当整体作业加工时长小于预设整体时长阈值时,若绝对整体作业加工时长大于预设绝对整体时长阈值,确定待识别业务为时间异常业务。

具体来说,绝对整体作业加工时长可以体现除去等待时长的完成作业血缘链路所需的绝对加工时长,实现作业血缘链路所需的时长不仅包括每个作业加工时长,还包括等待时长,该等待时长可以包括等待运行作业所需文件到齐的时间。在整体作业加工时长小于预设整体时长阈值时,也可能会出现一种情况:虽然绝对加工时长较长,但是由于等待时长较短,最终整体作业加工时长小于预设整体时长阈值。当整体作业加工时长小于预设整体时长阈值时,通过把绝对整体作业加工时长大于预设绝对整体时长阈值的待识别业务确定为时间异常业务可以实现对时间异常业务更准确的识别。

本申请另一实施例提供了一种针对数据仓库的数据处理装置,如图5所示,该装置包括:

数据读取单元501,用于读取数据仓库中存储的工作周期内产生的作业运行数据,作业运行数据包括作业的开始时间和作业的结束时间。

数据血缘分析单元502,用于根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路;作业血缘链路包括待识别业务中作业的作业执行顺序。

作业时间确定单元503,用于通过作业执行顺序,得到作业血缘链路的头部作业的目标开始时间和尾部作业的目标结束时间。

整体作业加工时长计算单元504,用于根据目标开始时间和目标结束时间,计算作业血缘链路的整体作业加工时长。

整体作业加工时长判断单元505,用于若所述整体作业加工时长大于待识别业务对应的预设整体时长阈值,确定待识别业务为时间异常业务。

可选的,在本申请另一实施例提供的一种针对数据仓库的数据处理装置中,作业时间确定单元,用于通过作业执行顺序,得到作业血缘链路中每个作业的开始时间和结束时间。在整体作业加工时长判断单元确定待识别业务为时间异常业务之后,该针对数据仓库的数据处理装置还包括:

作业加工时长计算单元,用于根据每个作业的开始时间和结束时间,计算每个作业的作业加工时长。

作业处理优先级排序单元,用于基于作业加工时长对作业进行处理优先级排序。

作业加工时长处理单元,用于根据优先级处理对应的作业血缘链路的作业加工时长。

可选的,在本申请另一实施例提供的一种针对数据仓库的数据处理装置中,该针对数据仓库的数据处理装置还包括:

绝对整体作业加工时长计算单元,用于把作业血缘链路的全部作业的作业加工时长之和确定为作业血缘链路的绝对整体作业加工时长。

绝对整体作业加工时长判断单元,用于当整体作业加工时长小于预设整体时长阈值时,若绝对整体作业加工时长大于预设绝对整体时长阈值,确定待识别业务为时间异常业务。

可选的,在本申请另一实施例提供的一种针对数据仓库的数据处理装置中,该针对数据仓库的数据处理装置还包括:

预设整体时长阈值确定单元,用于预先设置作业血缘链路层级和整体时长阈值的对应关系;作业血缘链路层级表示作业血缘链路全部作业数量;根据待识别业务对应的作业血缘链路层级和对应关系确定预设整体时长阈值。

可选的,在本申请另一实施例提供的一种针对数据仓库的数据处理装置中,数据血缘分析单元,用于根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路。

可选的,在本申请另一实施例提供的一种针对数据仓库的数据处理装置中,数据血缘分析单元,用于根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路,该针对数据仓库的数据处理装置还包括:

血缘链路展示单元,用于根据前端页面的输入的业务查询信息,获取业务查询信息对应的业务数据血缘链路;业务血缘链路包括作业血缘链路、表血缘链路或字段血缘链路;把对应的业务数据血缘链路发送前端页面,以便前端页面进行展示。

可选的,在本申请另一实施例提供的一种针对数据仓库的数据处理装置中,数据血缘分析单元,用于根据作业运行数据对待识别业务进行血缘分析,得到待识别业务的作业血缘链路,以及得到待识别业务的表血缘链路或字段血缘链路,该针对数据仓库的数据处理装置还包括:

异常分析单元,用于处理业务血缘链路,业务血缘链路包括作业血缘链路、表血缘链路或字段血缘链路;若业务血缘链路产生异常信息,处理异常信息;异常信息包括血缘链路信息闭环、血缘链路信息缺失或血缘链路信息断裂,血缘链路闭环包括血缘链路中节点信息不能从本节点发出,血缘链路信息缺失包括血缘链路中节点所需的上游节点信息缺失,血缘链路信息断裂包括血缘链路中信息生成中断。

需要说明的是,本申请上述实施例提供的各个模块的具体工作过程可相应地参考上述方法实施例中的相应的实施方式,此处不再赘述。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种针对数据仓库的数据处理方法及装置
  • 针对数据仓库的数据处理方法、介质、装置和计算设备
技术分类

06120114702056