掌桥专利:专业的专利平台
掌桥专利
首页

确定数据仓库作业优先级的方法、装置及相关设备

文献发布时间:2023-06-19 10:29:05


确定数据仓库作业优先级的方法、装置及相关设备

技术领域

本发明涉及数据仓库技术领域,特别是涉及确定数据仓库作业优先级的方法、装置及相关设备。

背景技术

现代商业银行数据仓库数据来源广泛,由于数据来源数量繁多、发展快速,因此如何合理的规划大批量数据批量作业运行,保证数据库运行效率,减少数据加工阻塞是一个需要持续研究的课题。

在传统的任务调度方法中,一般是通过计算所有作业的加工资源和加工时间,优化数据仓库整体的运行效率,减少所有作业整体的运行时间。在实际场景中,不同数据来源,不同业务分类的数据加工,往往对加工时效要求不同,整体优化虽然会减少整体作业运行时长,但是对重点业务的数据并没有明显优化效果。

目前一般是通过数据仓库专业人员对重点业务批量作业进行优先级排序,由于缺少对众多系统的深入了解,或者经验不足,考虑到不同作业的时效性、业务的重要程度等多重因素,往往需要经过反复运行测试,才能确定不同业务领域的批量作业优先级,效率较低。

发明内容

本发明实施例的目的在于提供一种确定数据仓库作业优先级的方法、装置及相关设备,以实现批量确定各个业务作业的优先级,效率较高。具体技术方案如下:

第一方面,一种确定数据仓库作业优先级的方法,包括:

获得影响因子组中、各影响因子两两之间的多个标度值,所述影响因子组至少包括:重要性因子、数据消费紧迫性因子、数据提取频度因子和数据不可替代性因子,各所述标度值分别用于表征各所述影响因子两两之间的相对重要性;

根据获得的各所述标度值,计算得到各所述影响因子的权重值;

分别获得各作业的各所述影响因子的设置值,所述作业为数据仓库进行数据调度的过程;

根据各所述作业的各所述影响因子的设置值和各所述影响因子的权重值,分别计算得到各所述作业的优先级。

结合第一方面,在某些可选的实施方式中,所述根据获得的各所述标度值,计算得到各所述影响因子的权重值,包括:

对于任一个所述影响因子的权重值,均通过方式一计算得到,从而得到各所述影响因子的权重值;

方式一:将第一影响因子与其他影响因子的之间的标度值进行归一化,并将所述第一影响因子及其本身之间的标度值进行归一化,从而获得所述第一影响因子的各标度值的归一化向量;将所述第一影响因子的各标度值的归一化向量进行求和,并对求和的结果进行归一化,从而得到所述第一影响因子的权向量;根据所述第一影响因子的权向量得到所述第一影响因子的权重值;

其中,第一影响因子为所述影响因子组中的其中一个影响因子,所述其它影响因子为除了所述第一影响因子外、所述影响因子组中的其它影响因子。

结合第一方面,在某些可选的实施方式中,所述根据各所述作业的各所述影响因子的设置值和各所述影响因子的权重值,分别计算得到各所述作业的优先级,包括:

对于任一个所述作业的优先级,均通过方式二计算得到,从而得到各所述作业的优先级;

方式二:将作业的各所述影响因子的设置值与相应的权重值进行加权求和得到所述作业的优先级。

结合第一方面,在某些可选的实施方式中,所述方法还包括:根据计算得到的各所述作业的优先级,更新所述数据仓库的各所述作业的优先级,以使得所述数据仓库的调度系统根据更新后的各所述作业的优先级,依次执行相应的数据调度。

第二方面,一种确定数据仓库作业优先级的装置,包括:标度值获得单元、权重值获得单元、设置值获得单元和优先级获得单元;

所述标度值获得单元,被配置为执行获得影响因子组中、各影响因子两两之间的多个标度值,所述影响因子组至少包括:重要性因子、数据消费紧迫性因子、数据提取频度因子和数据不可替代性因子,各所述标度值分别用于表征各所述影响因子两两之间的相对重要性;

所述权重值获得单元,被配置为执行根据获得的各所述标度值,计算得到各所述影响因子的权重值;

所述设置值获得单元,被配置为执行分别获得各作业的各所述影响因子的设置值,所述作业为数据仓库进行数据调度的过程;

所述优先级获得单元,被配置为执行根据各所述作业的各所述影响因子的设置值和各所述影响因子的权重值,分别计算得到各所述作业的优先级。

结合第二方面,在某些可选的实施方式中,所述权重值获得单元,包括:权重值获得子单元;

所述权重值获得子单元,被配置为执行对于任一个所述影响因子的权重值,均通过方式一计算得到,从而得到各所述影响因子的权重值;

方式一:将第一影响因子与其他影响因子的之间的标度值进行归一化,并将所述第一影响因子及其本身之间的标度值进行归一化,从而获得所述第一影响因子的各标度值的归一化向量;将所述第一影响因子的各标度值的归一化向量进行求和,并对求和的结果进行归一化,从而得到所述第一影响因子的权向量;根据所述第一影响因子的权向量得到所述第一影响因子的权重值;

其中,第一影响因子为所述影响因子组中的其中一个影响因子,所述其它影响因子为除了所述第一影响因子外、所述影响因子组中的其它影响因子。

结合第二方面,在某些可选的实施方式中,所述优先级获得单元,包括:优先级获得子单元;

所述优先级获得子单元,被配置为执行对于任一个所述作业的优先级,均通过方式二计算得到,从而得到各所述作业的优先级;

方式二:将作业的各所述影响因子的设置值与相应的权重值进行加权求和得到所述作业的优先级。

结合第二方面,在某些可选的实施方式中,所述装置还包括:优先级更新单元;

所述优先级更新单元,被配置为执行根据计算得到的各所述作业的优先级,更新所述数据仓库的各所述作业的优先级,以使得所述数据仓库的调度系统根据更新后的各所述作业的优先级,依次执行相应的数据调度。

第三方面,一种存储介质,所述存储介质用于存储程序,所述程序被处理器执行时实现上述任一种所述的确定数据仓库作业优先级的方法。

第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序,所述程序至少用于实现上述任一种所述的确定数据仓库作业优先级的方法。

本发明实施例提供的确定数据仓库作业优先级的方法、装置及相关设备,通过获得影响因子组中、各影响因子两两之间的多个标度值,所述影响因子组至少包括:重要性因子、数据消费紧迫性因子、数据提取频度因子和数据不可替代性因子,各所述标度值分别用于表征各所述影响因子两两之间的相对重要性;根据获得的各所述标度值,计算得到各所述影响因子的权重值;分别获得各作业的各所述影响因子的设置值,所述作业为数据仓库进行数据调度的过程;根据各所述作业的各所述影响因子的设置值和各所述影响因子的权重值,分别计算得到各所述作业的优先级。由此可以看出,本发明可以批量确定各个业务作业的优先级,效率较高。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种确定数据仓库作业优先级的方法的流程图;

图2为本发明实施例提供的影响因子标度值列表;

图3为本发明实施例提供的一种确定数据仓库作业优先级的装置的结构示意图;

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

现代商业银行数据仓库数据来源广泛,由于数据来源数量繁多、发展快速,因此如何合理的规划大批量数据批量作业运行,保证数据库运行效率,减少数据加工阻塞是一个需要持续研究的课题。

在传统的任务调度方法中,一般是通过计算所有作业的加工资源和加工时间,优化数据仓库整体的运行效率,减少所有作业整体的运行时间。在实际场景中,不同数据来源,不同业务分类的数据加工,往往对加工时效要求不同,整体优化虽然会减少整体作业运行时长,但是对重点业务的数据并没有明显优化效果。

经本方案发明人研究发现,目前一般是通过数据仓库专业人员对重点业务批量作业进行优先级排序,由于缺少对众多系统的深入了解,或者经验不足,考虑到不同作业的时效性、业务的重要程度等多重因素,往往需要经过反复运行测试,才能确定不同业务领域的批量作业优先级,效率较低。

为此本方案发明人提出了一种确定数据仓库作业优先级的方法、装置及相关设备,可以批量确定各业务作业的优先级,效率较高。并且可以在确定优先级之后,利用统一调度程序,每日更新,自动配置作业的运行优先级,可以有效提高数据服务的效率,保证紧急重要的作业可以优先运行。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供了一种确定数据仓库作业优先级的方法,包括:

S100、获得影响因子组中、各影响因子两两之间的多个标度值,所述影响因子组至少包括:重要性因子、数据消费紧迫性因子、数据提取频度因子和数据不可替代性因子,各所述标度值分别用于表征各所述影响因子两两之间的相对重要性;

可选的,通过本发明提供的方法可以自动批量确定各作业的优先级,确定优先级的过程中,为了提高准确率,各作业的优先级可以将上述重要性因子、数据消费紧迫性因子、数据提取频度因子和数据不可替代性因子考虑进来。

可选的,重要性因子表征的是:作业加工数据的来源系统的重要性,一般通过数据等保级别或者网络保护级别决定。对应的等保级别或者保护级别越高,标度值越大。

可选的,数据消费紧迫性因子表征的是:下游数据消费方对数据消费的时效性的要求。例如需要在当日上午8点前完成数据加工下发,或者当天24点下发。对时间要求越高,标度值越大。

可选的,数据提取频度因子表征的是:下游作业提取数据的频度。例如,每日,每周,每月等,频度越频繁,标度值越大。

可选的,数据不可替代性因子表征的是:数据来源有无其他数据来源可以替换。例如有多个系统中存有相同的数据,则标度值低。

可选的,不同影响因子对于优先级的影响程度可以不一样,即可以用标度值表征各所述影响因子两两之间的相对重要性,也可以包括同一个影响因子相对其自身的相对重要性,例如如图2所示,其中,图中的1、a

可选的,标度值的取值范围可以为从1至9的整数,其中,标度值为1表示两个因素相比,具有同样重要性;标度值为3表示两个因素相比,一个因素比另一个因素稍微重要;标度值为5表示两个因素相比,一个因素比另一个因素明显重要;标度值为7表示两个因素相比,一个因素比另一个因素强烈重要;标度值为9表示两个因素相比,一个因素比另一个因素极端重要;标度值为2、4、6和8,分别对应表示为上述标度值为1、3、5、7和9的中值,例如标度值为2表示的含义为标度值为1的含义和标度值为3的含义的中间含义,本发明对此不做限制。

S200、根据获得的各所述标度值,计算得到各所述影响因子的权重值;

可选的,如前所述,具体一个标度值表征的是两个影响因子之间的相对重要性,本文所述的相对重要性指的是:对于计算权重值而言,两个影响因子对于权重值的计算结果的直接相对影响程度,以及对后续计算优先级的间接相对影响程度,本发明对此不做限制。

可选的,各所述标度值可以具有一定权限的工作人员,根据实际经验进行提前设定的,例如可以是数据仓库人员用户登录调度系统,在调度系统中进行设定的,本发明对此不做限制。

可选的,若有多个用户均具有设定标度值的权限,则各标度值可以分别取各用户设定的相应标度值的平均值,本发明对此不做限制。

可选的,具体一个影响因子的权重值可以表征该影响因子对于后续计算优先级的影响程度,本发明对此不做限制。

可选的,本发明不限制根据获得的各所述标度值,计算得到各所述影响因子的权重值的方法,任何可行的方式均属于本发明的保护范围。例如,结合图1所示的实施方式,在某些可选的实施方式中,所述步骤S200,包括:

对于任一个所述影响因子的权重值,均通过方式一计算得到,从而得到各所述影响因子的权重值;

方式一:将第一影响因子与其他影响因子的之间的标度值进行归一化,并将所述第一影响因子及其本身之间的标度值进行归一化,从而获得所述第一影响因子的各标度值的归一化向量;将所述第一影响因子的各标度值的归一化向量进行求和,并对求和的结果进行归一化,从而得到所述第一影响因子的权向量;根据所述第一影响因子的权向量得到所述第一影响因子的权重值;

其中,第一影响因子为所述影响因子组中的其中一个影响因子,所述其它影响因子为除了所述第一影响因子外、所述影响因子组中的其它影响因子。

可选的,参见图2,将图2中的每一列视为一个列向量,将每一个列向量进行归一化,以实现将各标度值进行归一化,如公式1:

可选的,将

可选的,将各行的总和按公式3:

S300、分别获得各作业的各所述影响因子的设置值,所述作业为数据仓库进行数据调度的过程;

可选的,针对具体一个作业,确定其优先级需要获得其各所述影响因子的设置值,例如对于作业1,需要获得作业1的重要性因子的设置值、数据消费紧迫性因子的设置值、数据提取频度因子的设置值和数据不可替代性因子的设置值。

可选的,对于具体一个作业,其各所述影响因子的设置值可以具有相关权限的工作人员凭实际经验进行设定,例如可以具有相关权限的数据仓库人员用户、应用人员用户和业务人员用户登录调度系统进行设定,本发明对此不做限制。

可选的,对于具体一个作业,其各所述影响因子的设置值也可以是执行本发明的设备根据预先设定的规则进行计算得到并自动设定的,本发明对此不做限制。

可选的,每个作业代表了一次后台程序处理,例如解压、清洗、加载等都可以定义为一个作业,每个作业对应一个可执行程序,在本专利中,每个作业可以理解为:数据库中一个数据表的加工程序,因一般的加工程序均为涉及到相应的数据,所以也可以理解为数据仓库进行数据调度的过程,本发明对此不做限制。

S400、根据各所述作业的各所述影响因子的设置值和各所述影响因子的权重值,分别计算得到各所述作业的优先级。

可选的,对于具体一个作业,可以根据其各所述影响因子的设置值和其各所述影响因子的权重值通,确定其优先级,本发明对确定其优先级的具体方案不做任何限制,任何可行的方式均属于本发明的保护范围。例如结合图1所示的实施方式,在某些可选的实施方式中,所述步骤S400,包括:

对于任一个所述作业的优先级,均通过方式二计算得到,从而得到各所述作业的优先级;

方式二:将作业的各所述影响因子的设置值与相应的权重值进行加权求和得到所述作业的优先级。

可选的,对于具体一个作业,均可以通过公示4:

结合图1所示的实施方式,在某些可选的实施方式中,所述方法还包括:根据计算得到的各所述作业的优先级,更新所述数据仓库的各所述作业的优先级,以使得所述数据仓库的调度系统根据更新后的各所述作业的优先级,依次执行相应的数据调度。

可选的,在获得各作业的优先级后,执行本发明的设备可以更新各作业的优先级,以使得调度系统可以及时获得各作业的当前优先级排序,并根据各作业的优先级排序批量调度各作业,加快作业链的处理速度,提高仓库整体的数据吞吐,全方位满足数据仓库在调度作业方面的需要。

如图3所示,本发明提供了一种确定数据仓库作业优先级的装置,包括:标度值获得单元100、权重值获得单元200、设置值获得单元300和优先级获得单元400;

所述标度值获得单元100,被配置为执行获得影响因子组中、各影响因子两两之间的多个标度值,所述影响因子组至少包括:重要性因子、数据消费紧迫性因子、数据提取频度因子和数据不可替代性因子,各所述标度值分别用于表征各所述影响因子两两之间的相对重要性;

所述权重值获得单元200,被配置为执行根据获得的各所述标度值,计算得到各所述影响因子的权重值;

所述设置值获得单元300,被配置为执行分别获得各作业的各所述影响因子的设置值,所述作业为数据仓库进行数据调度的过程;

所述优先级获得单元400,被配置为执行根据各所述作业的各所述影响因子的设置值和各所述影响因子的权重值,分别计算得到各所述作业的优先级。

结合图3所示的实施方式,在某些可选的实施方式中,所述权重值获得单元200,包括:权重值获得子单元;

所述权重值获得子单元,被配置为执行对于任一个所述影响因子的权重值,均通过方式一计算得到,从而得到各所述影响因子的权重值;

方式一:将第一影响因子与其他影响因子的之间的标度值进行归一化,并将所述第一影响因子及其本身之间的标度值进行归一化,从而获得所述第一影响因子的各标度值的归一化向量;将所述第一影响因子的各标度值的归一化向量进行求和,并对求和的结果进行归一化,从而得到所述第一影响因子的权向量;根据所述第一影响因子的权向量得到所述第一影响因子的权重值;

其中,第一影响因子为所述影响因子组中的其中一个影响因子,所述其它影响因子为除了所述第一影响因子外、所述影响因子组中的其它影响因子。

结合图3所示的实施方式,在某些可选的实施方式中,所述优先级获得单元400,包括:优先级获得子单元;

所述优先级获得子单元,被配置为执行对于任一个所述作业的优先级,均通过方式二计算得到,从而得到各所述作业的优先级;

方式二:将作业的各所述影响因子的设置值与相应的权重值进行加权求和得到所述作业的优先级。

结合图3所示的实施方式,在某些可选的实施方式中,所述装置还包括:优先级更新单元;

所述优先级更新单元,被配置为执行根据计算得到的各所述作业的优先级,更新所述数据仓库的各所述作业的优先级,以使得所述数据仓库的调度系统根据更新后的各所述作业的优先级,依次执行相应的数据调度。

本发明提供了一种存储介质,所述存储介质用于存储程序,所述程序被处理器执行时实现上述任一种确定数据仓库作业优先级的方法。

所述确定数据仓库作业优先级的装置包括处理器和存储器,上述标度值获得单元100、权重值获得单元200、设置值获得单元300和优先级获得单元400等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来批量确定各个业务作业的优先级,效率较高。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行本发明提供的任一种确定数据仓库作业优先级的方法。

如图4所示,本发明实施例提供了一种电子设备70,电子设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的任一种确定数据仓库作业优先级的方法。本文中的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有上述的任一种确定数据仓库作业优先级的方法包括的步骤的程序。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 确定数据仓库作业优先级的方法、装置及相关设备
  • 用于确定金属带的温度的方法和电子装置、相关的控制方法、计算机程序、控制装置和热轧设备
技术分类

06120112568714