导航：首页> 一般的物理或化学的方法或装置>分布式的任务处理方法、装置、设备、存储介质和系统

分布式的任务处理方法、装置、设备、存储介质和系统

文献发布时间：2023-06-19 10:02:03

技术领域

本发明实施例涉及人工智能、深度学习领域，尤其涉及一种分布式的任务处理方法、装置、设备、存储介质和系统。

背景技术

分布式训练可用于训练深度神经网络的深度学习，在分布式训练中，用于训练模型的工作负载会在多个微型处理器之间进行拆分和共享，这些处理器称为工作器节点，各节点并行工作以加速模型训练。

现有的分布式训练，模型训练任务一旦开始，节点的数量即固定不变，无法变更。如果模型训练任务的处理过程中，计算资源出现空闲，模型训练任务无法扩容节点数量，从而造成计算资源的浪费。如果模型训练任务的处理过程中，计算资源不足时出现高优先级的模型训练任务需要抢占部分节点，则当前的模型训练任务只能被迫中断。如果模型训练任务的处理过程中，某个节点出现故障，则模型训练任务只能终止训练。

发明内容

本发明实施例提供了一种分布式的任务处理方法、装置、设备、存储介质和系统，可以实现任务处理时节点的弹性扩缩，提高了任务处理效率。

第一方面，本发明实施例提供了一种分布式的任务处理方法，由节点执行，包括：

根据本机节点在目标节点集中的节点角色，从目标任务中获取匹配的子任务进行处理，目标任务中各子任务由目标节点集中的各节点共同处理；

在检测到目标节点集发生变更时，暂停当前处理进程；

重新确定本机节点在变更后目标节点集中的新的节点角色，并根据所述新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

第二方面，本发明实施例提供了一种分布式的任务处理方法，由节点控制器执行，包括：

获取目标任务，所述目标任务包括多项子任务；

根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识；

根据动态更新的可用计算资源，实时动态调整与所述目标任务对应的目标节点集。

第三方面，本发明实施例还提供了一种分布式的任务处理装置，设置在节点中，包括：

子任务处理模块，用于根据本机节点在目标节点集中的节点角色，从目标任务中获取匹配的子任务进行处理，目标任务中各子任务由目标节点集中的各节点共同处理；

当前处理进程暂停模块，用于在检测到目标节点集发生变更时，暂停当前处理进程；

节点角色确定模块，用于重新确定本机节点在变更后目标节点集中的新的节点角色，并根据所述新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

第四方面，本发明实施例还提供了一种分布式的任务处理装置，设置在节点控制器中，包括：

目标任务获取模块，用于获取目标任务，所述目标任务包括多项子任务；

目标节点集创建模块，用于根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识；

目标节点集调整模块，用于根据动态更新的可用计算资源，实时动态调整与所述目标任务对应的目标节点集。

第五方面，本发明实施例还提供了一种电子设备，电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例提供的分布式的任务处理方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的分布式的任务处理方法。

第七方面，本发明实施例还提供了一种分布式的任务处理系统，包括：节点控制器、多个计算机设备、以及扩缩控制器；

节点控制器，用于获取至少一个任务，并在各计算机节点上创建与各任务分别对应的节点集；向处理同一任务的各节点分配同一任务标识，并根据动态更新的可用计算资源，实时动态调整与各任务分别对应的节点集；

所述扩缩控制器，用于响应于各节点的注册，和/或取消注册信息，更新与各任务分别对应的节点集；撮合每个节点集中的各节点进行选举，以确定各节点在所属节点集中的节点角色；

所述计算机设备，用于运行至少一个节点，所述节点用于执行本发明任意实施例提供的分布式的任务处理方法。

本发明实施例的技术方案通过根据本机节点在目标节点集中的节点角色处理目标任务，当目标节点集发生变更时暂停处理，并重新确定本机节点在目标节点集中的节点角色，继续进行任务处理。解决了现有技术中分布式的任务处理方式，任务对应的节点不可变更，从而造成的资源空闲时的资源浪费、资源不足时任务被迫中断，以及节点故障时任务被迫终止的问题，实现了任务处理时节点的弹性扩缩，提高了任务处理效率。

附图说明

图1是本发明实施例一中的一种分布式的任务处理方法的流程图；

图2a是本发明实施例二中的另一种分布式的任务处理方法的流程图；

图2b是适用于本发明实施例中的一种各节点环状通信的示意图；

图3是本发明实施例三中的一种分布式的任务处理方法的流程图；

图4是本发明实施例四中的另一种分布式的任务处理方法的流程图；

图5是本发明实施例五中的一种分布式的任务处理装置的结构示意图；

图6是本发明实施例六中的一种分布式的任务处理装置的结构示意图；

图7是本发明实施例七中的一种分布式的任务处理系统的结构示意图；

图8是本发明实施例八中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本发明实施例一中的一种分布式的任务处理方法的流程图，本实施例可适用于在分布式训练场景下，本机节点处理训练任务的情况，该方法可以由分布式的任务处理装置来执行，该装置可以由软件，和/或硬件的方式来实现，并集成在节点中。

如图1所示，该方法包括：

S110、根据本机节点在目标节点集中的节点角色，从目标任务中获取匹配的子任务进行处理，目标任务中各子任务由目标节点集中的各节点共同处理。

其中，本机节点为分布式训练中的一个工作器节点，目标节点集中包括多个节点，并且同一目标节点集中的各节点处理同一目标任务。节点角色用于指示本机节点在目标节点集中的排位，本机节点在目标节点集中的排位可以决定本机节点对目标任务中的子任务的处理顺序。

在本发明实施例中，目标任务中包括多个子任务，目标节点集中包括多个节点，目标任务中的各子任务由目标节点集中的各节点进行处理。可以根据本机节点在目标节点集中的节点角色，确定目标任务中由本机节点进行处理的子任务。

S120、在检测到目标节点集发生变更时，暂停当前处理进程。

现有技术中，当目标节点集发生变更时，也即目标节点集中的某个或某些节点发生故障，或者，某个或某些节点被优先级更高的任务抢占时，当前处理进程只能被迫中断或终止，目标任务无法继续被处理。

在本发明实施例中，当目标节点集发生变更时，将目标任务的当前处理进程暂停，重新确定本机节点的节点角色后，可以继续对目标任务进行处理。本实施例的技术方案，可以保证目标任务的处理进程正常进行。

S130、重新确定本机节点在变更后目标节点集中的新的节点角色，并根据所述新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

目标节点集变更后，需要重新确定本机节点在目标节点集中的节点角色，也即重新确定本机节点在目标节点集中的排位，从而重新确定目标任务中由本机节点进行处理的各子任务，继续对匹配的子任务进行处理。

本发明实施例的技术方案，通过根据本机节点在目标节点集中的节点角色处理目标任务，当目标节点集发生变更时暂停处理，并重新确定本机节点在目标节点集中的节点角色，继续进行任务处理。解决了现有技术中分布式的任务处理方式，任务对应的节点不可变更，从而造成的资源空闲时的资源浪费、资源不足时任务被迫中断，以及节点故障时任务被迫终止的问题，实现了任务处理时节点的弹性扩缩，提高了任务处理效率。

实施例二

图2a是本发明实施例二中的一种分布式的任务处理方法的流程图，本实施例在上述实施例的基础上，对确定本机节点在目标节点集中的节点角色的过程、根据本机节点的节点角色进行目标任务处理的过程，以及检测目标节点集是否发生变更的过程进行了进一步细化，并加入了节点注册、生成目标节点集、节点关闭以及节点故障处理等过程。

相应的，本实施例的方法可以包括：

S210、根据节点控制器的节点启动指令，获取目标任务的任务标识，其中，目标任务的目标节点集中各节点共享同一任务标识。

其中，节点控制器用于实现节点的开启和关闭，节点启动指令用于指示节点启动。示例性的，当需要对目标任务进行处理时，节点控制器确定目标任务对应的节点数量，并向对应数量的节点发送节点启动指令。同时，在目标任务的处理过程中，如果当前的计算资源出现空闲，节点控制器可以开启新节点，如果当前出现高优先级任务，或者节点出现故障，或者目标任务处理完毕，节点控制器可以关闭节点。

任务标识与目标任务一一对应，对处理同一目标任务的各节点，都分配相同的任务标识。获取目标任务的任务标识的作用在于，使扩缩控制器可以根据相同的任务标识，将目标任务对应的各节点加入目标节点集中。

S220、根据任务标识向扩缩控制器进行节点注册，以指示扩缩控制器生成与目标任务对应的目标节点集。

其中，扩缩控制器用于实现节点的注册和选举，也即，各节点注册到扩缩控制器后，扩缩控制器根据各节点的任务标识，将任务标识相同的节点加入同一目标节点集中。并且，扩缩控制器还可以实现目标节点集中各节点的选举。

可选的，扩缩控制器可以为ETCD存储系统，ETCD存储系统是一个分布式的、可靠的key-value存储系统，它适用于存储分布式系统中的关键数据，但本实施例对扩缩控制器的具体类型不进行限制。

S230、判断是否满足选举条件，如果是，则执行S240，否则返回执行S230。

选举是指确定目标节点集中各节点的节点角色的过程，也即确定目标节点集中各节点的排位顺序的过程。

选举条件是指目标任务对应的各节点都已注册到扩缩控制器，判断是否满足选举条件，可以通过判断是否已到达预设时间间隔的方式，也可以通过判断已注册的节点数量是否与目标任务匹配的方式，本实施例对此不进行限制。

S240、通过扩缩控制器与目标节点集中的其他节点共同进行选举，确定本机节点在目标节点集中的节点角色。

扩缩控制器对目标节点集中的各节点进行选举，可以确定各节点的节点角色。在扩缩控制器选举之后，即可确定本机节点的节点角色。

S250、根据本机节点的节点角色，确定本机节点在所述目标任务中的首个子任务获取位置。

其中，节点角色用于标识各节点的任务获取顺序。

在本发明实施例中，目标任务中包括多个按序排列的子任务，本机节点的节点角色决定了本机节点在目标任务中获取子任务的顺序，因此，根据节点角色即可确定本机节点在目标任务中获取的首个子任务的位置。

示例性的，当目标任务中共包含10个子任务，且目标任务的目标节点集中共包括3个节点时，如果目标节点集中各节点选举之后，本机节点的节点角色为rank0，其他两个节点的节点角色分别为rank1和rank2，则可知本机节点在目标任务中获取的首个子任务为第一个子任务。

S260、根据由目标节点集中包括的节点总数量确定的子任务获取间隔，以及所述首个子任务获取位置，在所述目标任务中确定子任务处理编号。

其中，子任务获取间隔与目标节点集中的节点总数相对应，也即，当目标节点集中共包括3个节点时，本机节点每隔三个子任务，获取一次子任务。子任务处理编号用于指示本机节点在目标任务中所要处理的各子任务的位置。

示例性的，当目标任务中共包含10个子任务，且目标任务的目标节点集中共包括3个节点时，如果目标节点集中各节点选举之后，本机节点的节点角色为rank0，其他两个节点的节点角色分别为rank1和rank2，则可知子任务获取间隔为3，首个子任务获取位置为1，本机节点对应的子任务处理编号分别为第1,4,7,10个子任务。

S270、按照子任务处理编号，依次从所述目标任务中获取匹配的子任务进行处理。

在本发明实施例中，确定本机节点对应的子任务处理编号之后，随着目标任务中各子任务处理进程的推进，本机节点依次获取对应的子任务进行处理。

S280、判断是否接收到节点控制器的节点关闭指令，如果是，则执行S290，否则执行S2100。

在本发明实施例中，节点关闭指令用于指示节点进行关闭。在各节点对目标任务中的各子任务进行处理的过程中，如果出现了优先级更高的任务，并且当前计算资源不足，节点控制器可以控制关闭目标任务对应的一个或多个节点，从而确保高优先级任务能够占用部分计算资源从而得以运行，并且在目标任务不中断的情况下，能够以较少的节点继续保持处理进程。

或者，当目标任务中的全部子任务被本机节点以及目标节点集中的其他节点全部执行完毕后，节点控制器也会向目标节点集中的各节点发送节点关闭指令，从而关闭各节点，释放空闲计算资源。

在本发明实施例中，如果本机节点接收到了节点控制器的节点关闭指令，则取消在扩缩控制器中的注册，从而退出目标任务的处理进程。

S290、向扩缩控制器进行节点取消注册，以指示所述扩缩控制器更新与目标任务对应的目标节点集。

在本发明实施例中，如果本机节点取消了在扩缩控制器中的注册，则扩缩控制器需要在目标节点集中删除本机节点，本机节点则不再继续参与目标任务的处理。

S2100、与所述目标节点集中的其他节点进行实时通信。

在本发明实施例中，扩缩控制器对目标节点集中的各节点进行选举之后，各节点通过扩缩控制器可以得知其他节点的节点角色。也即，本机节点可以获知目标节点集中的其他各节点，以及其他各节点的节点角色。各节点根据各自的节点角色，形成环状通信，图2b提供了一种各节点环状通信的示意图，如图2b所示，本机节点的节点角色为rank0，其他两个节点的节点角色分别为rank1和rank2，根据rank0、rank1、rank2的顺序形成环状通信。

S2110、判断在通信过程中是否识别出至少一个故障节点，如果是，则执行S2120，否则执行S2130。

在本机节点和其他节点进行环状通信的过程中，如果出现故障节点，则环状通信无法再形成闭环，需要将故障节点剔除出目标节点集，从而保证目标任务的处理进程不中断。

识别故障节点，可以通过判断某节点接收上一节点的通信信息之后，是否超过预设时间间隔仍未向下一节点发送通信信息来实现。以图2b中的环状通信为例，如果本机节点向节点1发送通信信息之后，预设时间间隔之后，节点1仍未向节点2发送通信信息，即可认定节点1为故障节点，但本实施例对识别故障节点的方式不进行限制。

S2120、将所述故障节点的信息上报至扩缩控制器，以指示所述扩缩控制器更新与目标任务对应的目标节点集。

扩缩控制器接收到故障节点信息后，向故障节点发送节点关闭指令，并将故障节点从目标节点集中删除。

S2130、判断是否满足目标节点集检测条件，如果是，则执行S2140，否则返回执行S2130。

其中，目标节点集检测条件可以是相隔预设时间间隔，例如，可以每隔1s进行一次目标节点集检测，但本实施例对目标节点集检测条件的具体内容不进行限制。

S2140、向所述扩缩控制器发送查询请求，并接收所述扩缩控制器反馈的实时目标节点集。

查询请求用于查询扩缩控制器中，当前目标节点集中的各节点。当满足目标节点集检测条件时，本机节点向扩缩控制器发起查询，获取当前的实时目标节点集。

S2150、将所述实时目标节点集与本地保存的历史目标节点集进行比对。

本机节点获取扩缩控制器反馈的实时目标节点集之后，将本机节点中保存的目标节点集和实时目标节点集进行比对，如果实时目标节点集发生了变更，则本机节点也对保存的目标节点集进行相应的变更。

S2160、判断根据比对结果检测目标节点集是否发生变更，如果是，则执行S2170，否则返回执行S280。

其中，目标节点集的变更，主要包括以下三种情况：

其一，当前计算资源紧张时，出现了优先级更高的任务，节点控制器将目标节点集中的某个或某几个节点进行了关闭；

其二，如S2110-S2120步骤的描述，本机节点或者其他节点识别到故障节点，对目标节点集进行了更新。

其三，当前计算资源空闲，节点控制器创建了新节点进行目标任务的处理，新节点注册到扩缩控制器之后，扩缩控制器对目标节点集进行了更新。

S2170、将所述历史目标节点集更新为所述实时目标节点集。

S2180、通过所述扩缩控制器与变更后目标节点集中的其他节点重新进行选举，确定本机节点在变更后目标节点集中的新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

在本发明实施例中，如果目标节点集发生了变更，则本机节点以及变更后的目标节点集中的其他节点暂停对目标任务的执行，扩缩控制器对变更后的目标节点集中的各节点重新进行选举。本机节点确定重新选举后的节点角色之后，继续对目标任务进行处理。

本发明实施例的技术方案，在计算资源紧张且出现了优先级更高的任务时，能够弹性缩容目标任务的节点，保证在不中断目标任务的前提下，优先级更高的任务能够及时进行处理。在节点故障时，能继续保持目标任务的处理进程，提高了对节点的容错能力。在计算资源空闲时，能够弹性扩容目标任务的节点，减少了空闲计算资源的浪费，加速了目标任务的处理过程。

实施例三

图3是本发明实施例三中的一种分布式的任务处理方法的流程图，本实施例可适用于在分布式训练场景下，对训练任务分配节点集的情况，该方法可以由分布式的任务处理装置来执行，该装置可以由软件，和/或硬件的方式来实现，并集成在节点控制器中。

如图3所示，该方法包括：

S310、获取目标任务，所述目标任务包括多项子任务。

在本发明实施例中，节点控制器获取到目标任务后，为目标任务分配目标节点集。

S320、根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识。

在本发明实施例中，节点控制器为目标任务分配对其进行处理的各节点时，可以根据目标任务的用户属性、目标任务优先级、当前已分配任务对应的节点，以及当前可用计算资源进行确定。

示例性的，当目标任务的用户属性级别较高或者目标任务优先级较高时，需要对其分配较多的节点，以保证目标任务能够被高效处理，如果当前可用计算资源较多，可以直接创建目标任务对应的目标节点集。如果当前可用计算资源较少，甚至没有可用计算资源，则可以抢占当前其他的已分配任务的节点。高级别用户属性、高优先级的目标任务抢占其它任务节点时，可以根据其他任务的优先级、用户属性以及已分配的节点数量，确定所要抢占的节点。本发明实施例对创建目标任务对应的目标节点集的具体实现方式不进行限制。

节点控制器为目标任务分配对其进行处理的各节点，生成目标节点集之后，对各节点都分配相同的任务标识，该任务标识与目标任务相匹配。

S330、根据动态更新的可用计算资源，实时动态调整与所述目标任务对应的目标节点集。

当可用计算资源发生变化时，节点控制器根据当前可用计算资源调整目标节点集，可以在当前可用计算资源空闲时，在目标节点集中新增节点，或者在当前可用计算资源较少，并且出现新的任务需要为其分配计算资源时，在目标节点集中关闭节点。这样设置的好处在于，通过灵活调整处理任务的节点数量，避免了空闲计算资源的浪费，避免了其他任务抢占节点时，任务被迫中断，保证了分布式任务处理的高效性。

本发明实施例的技术方案，通过根据当前可用计算资源，创建目标任务对应的目标节点集，对各节点分配与目标任务对应的相同任务标识，并随着可用计算资源的动态更新，动态调整目标节点集。解决了现有技术中分布式的任务处理方式，任务对应的节点不可变更，从而造成的资源空闲时的资源浪费、资源不足时任务被迫中断，以及节点故障时任务被迫终止的问题，实现了任务处理时根据计算资源进行节点的弹性扩缩，提高了对节点的容错能力，提高了任务处理效率。

实施例四

图4是本发明实施例四中的另一种分布式的任务处理方法的流程图，本实施例在上述实施例的基础上，对动态调整目标节点集的过程进行了进一步细化。

相应的，本实施例的方法可以包括：

S410、获取目标任务，所述目标任务包括多项子任务。

S420、根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识。

S430、判断根据动态更新的可用计算资源是否能确定目标任务满足新节点加入条件，如果是，则执行S440，否则执行S450。

其中，目标任务满足新节点加入条件是指当前可用计算资源出现空闲，可以为目标任务创建新节点。判断目标任务是否满足新节点加入条件，需要综合考虑目标任务的用户属性、优先级，以及当前可用计算资源的多少，但本发明实施例对目标任务是否满足新节点加入条件的具体判断标准不进行限制。

示例性的，节点控制器为目标任务分配了3个节点，目标节点集中节点数量为3，当前无可用计算资源。在目标任务的处理过程中，其他任务被处理完毕，其他任务对应的2个节点被关闭，释放出2个节点对应的计算资源。如果当前目标任务的优先级和用户属性等级最高，则确定目标任务满足新节点加入条件，可以为目标任务创建2个新节点。如果存在其它优先级和用户属性等级更高的任务，则目标任务不满足新节点加入条件。

S440、创建与所述目标任务对应的新节点，并向所述新节点分配所述任务标识，以使所述新节点在扩缩控制器中进行注册。

当目标任务满足新节点加入条件时，为目标任务创建新节点，但本发明实施例对创建的新节点的数量不进行限制，新节点的数量同样需综合考量目标任务的用户属性、优先级，以及当前可用计算资源多少等因素。

节点控制器创建目标任务的新节点之后，将目标任务的任务标识发送给新节点，新节点即可根据任务标识在扩缩控制器中进行注册，从而使扩缩控制器更新目标节点集后，对各节点重新进行选举。

S450、判断根据动态更新的可用计算资源是否能确定目标任务满足节点抢占条件，如果是，则执行S460，否则返回执行S430。

其中，目标任务满足节点抢占条件是指出现其他任务且当前可用计算资源不足时，需要抢占目标任务对应的节点，对新出现的任务进行处理。判断目标任务是否满足节点抢占条件，需要综合考虑目标任务和新任务的用户属性、优先级、处理目标任务和新任务所需的最少节点数量、目标节点集中的节点数量，以及当前可用计算资源的多少，但本发明实施例对目标任务是否满足节点抢占条件的具体判断标准不进行限制。

示例性的，节点控制器为目标任务分配了4个节点，目标节点集中节点数量为4，处理目标任务所需的最少节点数为2。在目标任务的处理过程中，出现了新任务，且该新任务的用户属性、优先级都高于目标任务，处理该新任务所需的节点数量最少为5，但根据当前可用计算资源只能创建4个节点，并且目标任务为当前已分配任务中用户属性、优先级最低的任务，则此时目标任务满足节点抢占条件，可以关闭目标节点集中的1个节点，从而满足新任务最少节点数的要求。如果当前已分配任务中存在用户属性、优先级更低的任务，且该任务的节点集中节点数量同样为4，所需最少节点数为2，则此时目标任务不满足节点抢占条件，该用户属性、优先级更低的任务满足节点抢占条件，可以将该用户属性、优先级更低的任务对应的节点关闭。

S460、在目标节点集中确定关闭节点进行关闭，以使关闭节点在扩缩控制器中取消注册。

在本发明实施例中，确定所关闭节点的数量，同样需要综合考虑目标任务和新任务的用户属性、优先级、处理目标任务和新任务所需的最少节点数量、目标节点集中的节点数量，以及当前可用计算资源的多少。本实施例对确定关闭节点数量的具体标准不进行限制。

在目标节点集中选定节点进行关闭后，该关闭节点即在扩缩控制器中取消注册，从而扩缩控制器对目标节点集进行更新后，重新对目标节点集中的现有节点进行选举。

实施例五

图5是本发明实施例五中的一种分布式的任务处理装置的结构示意图。该装置可以集成在节点中，如图5所示，该分布式的任务处理装置包括：子任务处理模块510、当前处理进程暂停模块520以及节点角色确定模块530，其中：

子任务处理模块510，用于根据本机节点在目标节点集中的节点角色，从目标任务中获取匹配的子任务进行处理，目标任务中各子任务由目标节点集中的各节点共同处理；

当前处理进程暂停模块520，用于在检测到目标节点集发生变更时，暂停当前处理进程；

节点角色确定模块530，用于重新确定本机节点在变更后目标节点集中的新的节点角色，并根据所述新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

在上述实施例的基础上，所述装置，还包括：

本机节点角色确定模块，用于在确定满足选举条件时，通过扩缩控制器与目标节点集中的其他节点共同进行选举，确定本机节点在目标节点集中的节点角色；

所述节点角色确定模块530，包括：

重新选举单元，用于通过所述扩缩控制器与变更后目标节点集中的其他节点重新进行选举，确定本机节点在变更后目标节点集中的新的节点角色。

在上述实施例的基础上，所述装置，还包括：

任务标识获取模块，用于根据节点控制器的节点启动指令，获取目标任务的任务标识，其中，目标任务的目标节点集中各节点共享同一任务标识；

节点注册模块，用于根据任务标识向扩缩控制器进行节点注册，以指示扩缩控制器生成与目标任务对应的目标节点集。

在上述实施例的基础上，所述装置，还包括：

节点取消注册模块，用于根据节点控制器的节点关闭指令，向扩缩控制器进行节点取消注册，以指示所述扩缩控制器更新与目标任务对应的目标节点集。

在上述实施例的基础上，所述装置，还包括：

实时通信模块，用于与所述目标节点集中的其他节点进行实时通信；

故障节点信息上报模块，用于如果在通信过程中识别出至少一个故障节点，则将所述故障节点的信息上报至扩缩控制器，以指示所述扩缩控制器更新与目标任务对应的目标节点集。

在上述实施例的基础上，子任务处理模块510，包括：

子任务获取位置确定单元，用于根据本机节点的节点角色，确定本机节点在所述目标任务中的首个子任务获取位置，其中，节点角色用于标识各节点的任务获取顺序；

子任务处理编号确定单元，用于根据由目标节点集中包括的节点总数量确定的子任务获取间隔，以及所述首个子任务获取位置，在所述目标任务中确定子任务处理编号；

子任务处理单元，用于按照子任务处理编号，依次从所述目标任务中获取匹配的子任务进行处理。

在上述实施例的基础上，当前处理进程暂停模块520，包括：

查询请求发送单元，用于在确定满足目标节点集检测条件时，向所述扩缩控制器发送查询请求，并接收所述扩缩控制器反馈的实时目标节点集；

节点集比对单元，用于将所述实时目标节点集与本地保存的历史目标节点集进行比对；

节点集更新单元，用于根据比对结果，检测目标节点集是否发生变更，并将所述历史目标节点集更新为所述实时目标节点集。

本发明实施例所提供的分布式的任务处理装置可执行本发明任意实施例所提供的分布式的任务处理方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六中的一种分布式的任务处理装置的结构示意图，该装置可以集成在节点控制器中，如图6所示，该分布式的任务处理装置包括：目标任务获取模块610、目标节点集创建模块620以及目标节点集调整模块630，其中：

目标任务获取模块610，用于获取目标任务，所述目标任务包括多项子任务；

目标节点集创建模块620，用于根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识；

目标节点集调整模块630，用于根据动态更新的可用计算资源，实时动态调整与所述目标任务对应的目标节点集。

在上述实施例的基础上，所述目标节点集调整模块630，包括：

新节点加入单元，用于在根据动态更新的可用计算资源确定目标任务满足新节点加入条件时，创建与所述目标任务对应的新节点，并向所述新节点分配所述任务标识，以使所述新节点在扩缩控制器中进行注册；

节点抢占单元，用于在根据动态更新的可用计算资源确定目标任务满足节点抢占条件时，在目标节点集中确定关闭节点进行关闭，以使关闭节点在扩缩控制器中取消注册。

本发明实施例所提供的分布式的任务处理装置可执行本发明任意实施例所提供的分布式的任务处理方法，具备执行方法相应的功能模块和有益效果。

实施例七

图7是本发明实施例七中的一种分布式的任务处理系统的结构示意图，该系统包括：

节点控制器710、多个计算机设备720、以及扩缩控制器730；

节点控制器710，用于获取至少一个任务，并在各计算机节点上创建与各任务分别对应的节点集；向处理同一任务的各节点分配同一任务标识，并根据动态更新的可用计算资源，实时动态调整与各任务分别对应的节点集；

所述扩缩控制器720，用于响应于各节点的注册，和/或取消注册信息，更新与各任务分别对应的节点集；撮合每个节点集中的各节点进行选举，以确定各节点在所属节点集中的节点角色；

所述计算机设备730，用于运行至少一个节点，所述节点用于执行上述任一实施例中的分布式的任务处理方法。

本系统的工作原理为：节点控制器为任务分配对应的节点，生成任务对应的节点集，并对节点集中的各节点分配相同的任务标识。各节点根据任务标识注册到扩缩控制器中，扩缩控制器生成任务对应的节点集，并对各节点进行选举，对各节点分配节点角色。各节点根据节点角色，对任务中的各个子任务进行处理。

在节点对任务的处理过程中，如果节点控制器根据当前可用计算资源确定满足新节点加入条件，则为任务创建新节点，为新节点分配任务标识，新节点根据任务标识注册到扩缩控制器，扩缩控制器更新节点集。

同时，在各节点对任务的处理过程中，如果节点控制器确定满足节点抢占条件，则确定节点集中的关闭节点进行关闭，关闭节点在扩缩控制器中取消注册，扩缩控制器更新节点集。

同时，在各节点对任务的处理过程中，各节点之间根据节点角色进行环状通信，如果某节点识别到故障节点，则将故障节点上报至扩缩控制器，扩缩控制器更新节点集。

各节点检测到扩缩控制器的节点集更新时，暂停对任务的处理，扩缩控制器对更新后节点集中的各节点重新进行选举，各节点根据重新分配的节点角色继续进行任务处理。

可选的，所述分布式的任务处理系统中预先搭建深度学习训练框架以及分布式训练框架，用于处理针对深度学习模型的分布式训练任务；和/或

所述扩缩控制器为ETCD存储系统。

在本发明实施例中，可以预先搭建Tensorflow、PyTorch、MxNet等深度学习训练框架，并在深度学习训练框架之上引入Horovod等分布式训练框架，实现深度学习模型的分布式训练。也即，分布式的任务处理系统中的任务是深度学习模型的分布式训练任务。但是，本实施例对深度学习训练框架以及分布式训练框架的具体类型不进行限制。

实施例八

图8是本发明实施例八公开的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性设备12的框图。图8显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的分布式的任务处理方法。也即：实现一种分布式的任务处理方法，包括：

根据本机节点在目标节点集中的节点角色，从目标任务中获取匹配的子任务进行处理，目标任务中各子任务由目标节点集中的各节点共同处理；

在检测到目标节点集发生变更时，暂停当前处理进程；

重新确定本机节点在变更后目标节点集中的新的节点角色，并根据所述新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

或者实现本发明实施例所提供的分布式的任务处理方法。也即：实现一种分布式的任务处理方法，包括：

获取目标任务，所述目标任务包括多项子任务；

根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识；

根据动态更新的可用计算资源，实时动态调整与所述目标任务对应的目标节点集。

实施例九

本发明实施例九还公开了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种分布式的任务处理方法，包括：

根据本机节点在目标节点集中的节点角色，从目标任务中获取匹配的子任务进行处理，目标任务中各子任务由目标节点集中的各节点共同处理；

在检测到目标节点集发生变更时，暂停当前处理进程；

重新确定本机节点在变更后目标节点集中的新的节点角色，并根据所述新的节点角色，从目标任务中获取匹配的子任务继续进行处理。

或者实现一种分布式的任务处理方法，包括：

获取目标任务，所述目标任务包括多项子任务；

根据目标任务以及当前可用计算资源，创建与所述目标任务匹配的目标节点集，并向所述目标节点集中各节点分配同一任务标识；

根据动态更新的可用计算资源，实时动态调整与所述目标任务对应的目标节点集。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是、但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘柏芳;
专利申请人：广州虎牙科技有限公司;

上一篇：一种建筑装饰材料石膏板用自动化成型切割机
下一篇：一种双活性中心丙烷脱氢催化剂及其制备方法和应用