掌桥专利:专业的专利平台
掌桥专利
首页

一种分布式集群部署方法、装置、设备及可读存储介质

文献发布时间:2024-04-18 20:00:25


一种分布式集群部署方法、装置、设备及可读存储介质

技术领域

本发明涉及分布式集群技术领域,特别是涉及一种分布式集群部署方法、装置、设备及可读存储介质。

背景技术

分布式集群是指由多个计算机节点组成的系统,节点之间通过网络互相通信协作,共同完成一个任务或提供一个服务。分布式集群具有高可用性、高性能、可扩展性等优点,因此被广泛应用于大规模计算、存储、处理等场景。

传统构建分布式集群的方法,包括先在分布式集群的各节点灌装操作系统,而后进行分布式集群的网络拓扑的搭建,再由其中一个节点发起集群部署流程,该节点负责向其他节点发送指令以使各节点完成分布式集群的配置操作。

然而,这种传统的分布式集群部署方法中各节点耦合程度较高,配置效率低的节点极大影响整个分布式集群的部署效率,而单节点故障或单节点配置失败都会对整个集群部署产生影响,一旦发生就需要暂停部署并等待运维人员检查维修。

提高分布式集群部署的效率,是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种分布式集群部署方法、装置、设备及可读存储介质,用于提高分布式集群部署的效率。

为解决上述技术问题,本发明提供一种分布式集群部署方法,包括:

在创建分布式集群时,根据所述分布式集群的节点的设备机型、所述节点用于执行的业务类型以及所述分布式集群的集群规模中的至少一项,查询历史集群部署参数中使所述节点满足性能条件和存储空间利用率条件的最优配置参数;根据所述最优配置参数生成与所述节点对应的配置文件,并将所述配置文件置于对所述节点的操作系统镜像文件中;

利用对应的操作系统镜像文件对各所述节点执行系统灌装操作,以使各所述节点在执行系统灌装操作的过程中根据所述配置文件进行节点级部署;

对各所述节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署。

在一些实施中,所述节点在执行系统灌装操作的过程中根据所述配置文件进行节点级部署,包括:

监测所述节点部署所述配置文件中的配置项的进度;

若所述节点成功完成所有所述配置项的部署,则确定所述节点为所述目标节点;

若所述节点存在部署失败的配置项,则确定所述节点为异常节点,触发所述异常节点重新进行节点级部署;

若所述目标节点的数量达到创建所述分布式集群的基础节点数量,则停止触发所述异常节点重新进行节点级部署的操作,以当前确定出的所述目标节点创建所述集群网络拓扑并选举出所述主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署。

在另一些实施中,所述节点在执行系统灌装操作的过程中根据所述配置文件进行节点级部署,包括:

监测所述节点部署所述配置文件中的配置项的进度;

若所述节点成功完成所有所述配置项的部署,则确定所述节点为所述目标节点;

若所述节点存在部署失败的配置项,则确定所述节点为异常节点;

若所述异常节点重新执行节点级部署的次数未达到节点级部署重试次数,则触发所述异常节点重新进行节点级部署;

若所述异常节点重新执行节点级部署的次数达到所述节点级部署重试次数,则确定所述异常节点为失败节点;

在所有所述节点中仅包括所述失败节点和所述目标节点时,清理所述失败节点;

若此时所述目标节点的数量大于或等于创建所述分布式集群的基础节点数量,则以所述目标节点创建所述集群网络拓扑并选举出所述主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署;

若此时所述目标节点的数量小于所述基础节点数量,则输出分布式集群部署失败的提示信息。

在一些实施中,所述分布式集群为分布式存储集群;

所述节点根据所述配置文件进行节点级部署,包括:

所述节点根据所述配置文件对本地存储器进行磁盘分区操作并建立各所述磁盘分区的状态监视参数配置;

所述节点根据所述配置文件对本地存储器分配存储器编号后,进行各所述本地存储器的存储服务初始化操作;

所述节点根据所述配置文件进行本地网络信息的部署。

在另一些实施中,所述分布式集群为分布式计算集群;

所述节点在执行系统灌装操作的过程中根据所述配置文件进行节点级部署,包括:

所述节点根据所述配置文件对本地存储器进行磁盘分区操作并建立各所述磁盘分区的状态监视参数配置;

所述节点根据所述配置文件对本地存储器分配存储器编号后,进行各所述本地存储器的存储服务初始化操作;

所述节点根据所述配置文件进行本地网络信息的部署;

所述节点根据所述配置文件部署计算任务执行脚本。

在一些实施中,所述基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务,包括:

在所述主节点部署对所述分布式集群的管理组件;

基于所述主节点触发各所述目标节点初始化监视器服务以及激活存储服务。

在一些实施中,所述在创建分布式集群时,根据所述分布式集群中节点的类型,生成对应的配置文件,并将所述配置文件置于对所述节点的操作系统镜像文件中,包括:

在创建所述分布式存储集群时,根据所述分布式集群中所述节点的设备机型、所述节点用于执行的业务类型以及所述分布式集群的集群规模中的至少一项,查询历史集群部署参数中使所述节点满足性能条件和存储空间利用率条件的最优配置参数;

根据所述最优配置参数生成与所述节点对应的所述配置文件;

所述利用对应的操作系统镜像文件对各所述节点执行系统灌装操作,以使各所述节点在执行系统灌装操作的过程中根据所述配置文件进行节点级部署,包括:

利用对应的所述操作系统镜像文件对各所述节点执行系统灌装操作,并监测所述节点部署所述配置文件中的配置项的进度;

若所述节点成功完成所有所述配置项的部署,则确定所述节点为所述目标节点;

若所述节点存在部署失败的配置项,则确定所述节点为异常节点;

触发所述异常节点重新进行节点级部署;若所述目标节点的数量达到创建所述分布式集群的基础节点数量,则停止触发所述异常节点重新进行节点级部署的操作,以当前确定出的所述目标节点创建所述集群网络拓扑并选举出所述主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署;或,若所述异常节点重新执行节点级部署的次数未达到节点级部署重试次数,则触发所述异常节点重新进行节点级部署;若所述异常节点重新执行节点级部署的次数达到所述节点级部署重试次数,则确定所述异常节点为失败节点;在所有所述节点中仅包括所述失败节点和所述目标节点时,清理所述失败节点;若此时所述目标节点的数量大于或等于创建所述分布式集群的基础节点数量,则以所述目标节点创建所述集群网络拓扑并选举出所述主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署;若此时所述目标节点的数量小于所述基础节点数量,则输出分布式集群部署失败的提示信息;

所述对各所述节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署,包括:

对各所述目标节点,创建集群网络拓扑并选举出所述主节点;

在所述主节点部署对所述分布式集群的管理组件;

基于所述主节点触发各所述目标节点初始化监视器服务以及激活存储服务;

其中,所述节点级部署的配置项包括:

所述节点根据所述配置文件对本地存储器进行磁盘分区操作并建立各所述磁盘分区的状态监视参数配置;

所述节点根据所述配置文件对本地存储器分配存储器编号后,进行各所述本地存储器的存储服务初始化操作;

所述节点根据所述配置文件进行本地网络信息的部署。

为解决上述技术问题,本发明还提供一种分布式集群部署装置,包括:

预配置单元,用于在创建分布式集群时,根据所述分布式集群的节点的设备机型、所述节点用于执行的业务类型以及所述分布式集群的集群规模中的至少一项,查询历史集群部署参数中使所述节点满足性能条件和存储空间利用率条件的最优配置参数;根据所述最优配置参数生成与所述节点对应的配置文件,并将所述配置文件置于对所述节点的操作系统镜像文件中;

节点部署单元,用于利用对应的操作系统镜像文件对各所述节点执行系统灌装操作,以使各所述节点在执行系统灌装操作的过程中根据所述配置文件进行节点级部署;

集群部署单元,用于对各所述节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于所述主节点触发各所述目标节点进行集群级部署并激活业务服务后,完成对所述分布式集群的部署。

为解决上述技术问题,本发明还提供一种分布式集群部署设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述分布式集群部署方法的步骤。

为解决上述技术问题,本发明还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述分布式集群部署方法的步骤。

本发明所提供的分布式集群部署方法,通过在创建分布式集群时,根据分布式集群中节点的设备机型、业务类型、集群规模等生成对应的配置文件,并将配置文件置于对节点的操作系统镜像文件中,从而在利用对应的操作系统镜像文件对各节点执行系统灌装操作时,可以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,而对于成功完成系统灌装操作的目标节点,再创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。应用本发明提供的分布式集群部署方法,节点级部署失败的节点不会加入集群级部署,也减少了主节点执行过多集群部署任务产生的效率瓶颈,从而提高了分布式集群部署的效率。

本发明所提供的分布式集群部署方法,通过根据分布式集群的节点的设备机型、节点用于执行的业务类型以及分布式集群的集群规模中的至少一项,查询历史集群部署参数中使节点满足性能条件和存储空间利用率条件的最优配置参数;根据最优配置参数生成与节点对应的配置文件,从而在系统灌装阶段完成对节点自身的最优配置部署。

本发明所提供的分布式集群部署方法,通过监测各节点的节点级部署中的部署项的部署进度,来确定可以参加集群级部署的目标节点以及部署失败的异常节点,根据需要选择对节点级部署失败次数过多的节点作为失败节点清除出分布式集群,在保证分布式集群的基础节点数量的情况下以节点级部署成功的目标节点进行集群级部署,有效避免故障节点造成分布式集群部署失败。

本发明还提供一种分布式集群部署装置、设备及可读存储介质,具有上述有益效果。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为传统分布式集群部署架构示意图;

图2为本发明实施例提供的一种分布式集群部署架构示意图;

图3为本发明实施例提供的一种分布式集群部署方法的流程图;

图4为本发明实施例提供的一种分布式集群部署装置的结构示意图;

图5为本发明实施例提供的一种分布式集群部署设备的结构示意图。

具体实施方式

本发明的核心是提供一种分布式集群部署方法、装置、设备及可读存储介质,用于提高分布式集群部署的效率。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面对本发明实施例一进行说明。

图1为传统分布式集群部署架构示意图;图2为本发明实施例提供的一种分布式集群部署架构示意图。

为便于理解,首先对本发明适用的系统架构进行介绍。本发明实施例提供的具体实施方式可以适用于任意类型的分布式集群,如分布式存储集群、分布式计算集群、分布式训练集群等。分布式集群是由多个计算机节点(下文简称节点)组成的系统,在运行过程中,节点之间通过网络互相通信协作,共同完成一个任务或提供一个服务。

本发明实施例提供的分布式集群部署方法则应用于创建分布式集群阶段,此时仅有未建立网络拓扑的用于建立分布式集群的多个节点,各节点可以为相同机型的设备或不同机型的设备,可以用于执行相同的业务服务也可以用于执行不同的业务服务。

下面结合图1和图2对本发明实施例提供的分布式集群部署方案相较于传统分布式集群部署方案的差异进行说明。

如图1所示,在传统的分布式集群部署方案中,在各节点完成各自的操作系统灌装后,创建各节点间的网络拓扑并选举出一个主节点(例如以节点1为主节点),由主节点触发对分布式集群中各从节点(从节点1、从节点2……从节点n)的初始化操作,包括各节点本地配置的部署和集群服务的部署以及集群服务的激活等操作。传统的分布式集群部署方案存在几个至今尚未解决的短板:单节点故障,部署过程中主节点故障后,整个流程将无法正常执行,其他任意节点故障也将导致对应步骤执行失败;耦合程度高:各个节点执行结果都会对整个分布式集群部署的结果产生影响,无法做到解耦;资源消耗:由于要有一个节点统筹整个部署流程,所以对该节点的资源产生较大消耗;效率低:执行一个步骤时,必须等所有节点完成该步骤后,即使有节点提前完成该步骤操作,也要等待其他所有节点都完成后,才能继续执行下一步。从图1可以看到,假设从节点n初始化失败,意味着整个分布式集群初始化失败,需要重新部署,且重新部署前需要先重置整个分布式集群。

如图2所示,在本发明实施例提供的分布式集群部署方案中,对部署流程的各个操作进行分类,总体分为各个节点执行以及全局执行两大类。例如,进行存储分区可以由节点自行完成,进行集群监视器初始化则需要进行全局部署。由此,各节点(节点1、节点2……节点n)在进行系统灌装时即完成了节点级部署,在系统灌装结束且完成网络配置后,开始纳管到集群中。在各系统灌装成功的节点中选举出主节点(例如以节点1为主节点),对各节点进行集群级部署。假设节点n初始化失败(未完成系统灌装或未完成网络配置),则等待节点恢复后再进行纳管。此时只需要基于主节点完成集群级部署,显著降低了主节点的资源消耗,且各节点间实现了解耦,避免单节点故障造成分布式集群部署工作无法进行。

在上述架构的基础上,下面结合附图对本发明实施例提供的分布式集群部署方法进行说明。

下面对本发明实施例二进行说明。

图3为本发明实施例提供的一种分布式集群部署方法的流程图。

如图3所示,本发明实施例提供的分布式集群部署方法包括:

S301:在创建分布式集群时,根据分布式集群的节点的设备机型、节点用于执行的业务类型以及分布式集群的集群规模中的至少一项,查询历史集群部署参数中使节点满足性能条件和存储空间利用率条件的最优配置参数;根据最优配置参数生成与节点对应的配置文件,并将配置文件置于对节点的操作系统镜像文件中。

S302:利用对应的操作系统镜像文件对各节点执行系统灌装操作,以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署。

S303:对各节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。

在具体实施中,本发明实施例提供的分布式集群部署方法可以基于分布式集群外的一台设备执行。

对于S301,根据创建分布式集群的历史记录,针对不同机型、不同集群规模乃至不同的业务类型,可以找到使分布式集群性能达到较优乃至最优的方案。

通过根据分布式集群的节点的设备机型、节点用于执行的业务类型以及分布式集群的集群规模中的至少一项,查询历史集群部署参数中使节点满足性能条件和存储空间利用率条件的最优配置参数;根据最优配置参数生成与节点对应的配置文件,将最优配置参数写入配置文件中,并将配置文件置于操作系统镜像文件中,从而在系统灌装阶段完成对节点自身的最优配置部署。

其中,性能条件可以为使节点在分布式集群中发挥最大性能,存储空间利用率条件可以为使节点达到最大存储空间利用率或与其他节点均衡的存储空间利用率。或者,也可以设置为性能条件为达到节点的最大性能的预设百分比,存储空间利用率条件可以为使节点达到最大存储空间利用率的预设百分比。

需要说明的是,这里的最优配置参数并不限定为在任意使用场景下都可以通过该配置参数实现节点最优配置,而是寻找到相对优选的配置参数进行节点级部署,在分布式集群运行过程中还可以根据需求对配置参数进行调优。

最优配置参数可以包括节点存储分区配置参数、网络配置参数等。

S302是各节点分开执行的。对于S302,在利用对应的操作系统镜像文件对各节点执行系统灌装操作时,将操作系统镜像文件拷贝至节点本地,并触发系统灌装任务,各节点执行系统灌装任务时即可根据配置文件完成节点级部署,包括存储信息部署、网络信息部署等。可以理解的是,为增强各节点在分布式集群部署中的解耦程度,应将能够由节点自行部署的任务均由节点自行部署。此外,也可以仅将可以由节点自行部署的任务中的部分任务由节点自行部署,其余任务还是加入集群级部署流程。

针对不同类型的分布式集群,可以进行不同的节点级部署。

如分布式集群为分布式存储集群,则S302中节点根据配置文件进行节点级部署,可以包括:

节点根据配置文件对本地存储器进行磁盘分区操作并建立各磁盘分区的状态监视参数配置;

节点根据配置文件对本地存储器分配存储器编号后,进行各本地存储器的存储服务初始化操作;

节点根据配置文件进行本地网络信息的部署。

其中,本地存储器可以为对象存储设备(OSD),也可以为其他类型的存储设备。磁盘分区的状态监视参数配置可以为磁盘分区灯光的配置,即在磁盘监视系统中建立各磁盘分区与对应的状态指示灯的对应关系,确定不同颜色的灯光对应磁盘的不同状态等。

如分布式集群为分布式计算集群,则S302中节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,可以包括:

节点根据配置文件对本地存储器进行磁盘分区操作并建立各磁盘分区的状态监视参数配置;

节点根据配置文件对本地存储器分配存储器编号后,进行各本地存储器的存储服务初始化操作;

节点根据配置文件进行本地网络信息的部署;

节点根据配置文件部署计算任务执行脚本。

由于分布式计算集群需要搭载计算算法才能够执行计算任务,故在系统灌装阶段可以增加在各节点自行部署计算任务执行脚本。

对于S303,定义完成系统灌装操作的节点为目标节点。而对于未能成功执行系统灌装操作的节点则记录该节点异常,在其他节点纳管时可以先暂时忽略该节点,可以重复触发对该节点的系统灌装操作,待该节点完成系统灌装操作后再重新纳管该节点。由于各个节点独立完成节点级部署,单个节点部署失败不会影响整个分布式集群的部署结果,且重新初始化时只需要清理失败节点,不需要重新部署时也不需要重置整个集群。

根据配置好的网络信息创建集群网络拓扑,在检测到所有节点的网络连通后,可以根据选举算法选举出一个主节点,由该节点纳管所有节点组成分布式集群,触发对各目标节点的集群级部署。若在该过程中主节点故障,则可以重新选举出新的主节点并重新纳管并初始化分布式集群。主节点可以为分布式集群中网络地址最小的节点,也可以为选出分布式集群中性能较优的节点作为主节点。基于主节点,触发对各目标节点的集群级部署后,激活业务服务(如分布式存储系统的存储业务服务),完成分布式集群的部署工作,此时分布式集群可以提供给用户使用业务服务。

S303中基于主节点触发各目标节点进行集群级部署并激活业务服务,可以包括:

在主节点部署对分布式集群的管理组件;

基于主节点触发各目标节点初始化监视器(Monitor)服务以及激活存储服务。

若分布式集群还具有其他功能,如计算功能,则还包括激活分布式集群的计算服务。

本发明实施例提供的分布式集群部署方法,通过在创建分布式集群时,根据分布式集群中节点的设备机型、业务类型、集群规模等生成对应的配置文件,并将配置文件置于对节点的操作系统镜像文件中,从而在利用对应的操作系统镜像文件对各节点执行系统灌装操作时,可以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,而对于成功完成系统灌装操作的目标节点,再创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。应用本发明实施例提供的分布式集群部署方法,节点级部署失败的节点不会加入集群级部署,也减少了主节点执行过多集群部署任务产生的效率瓶颈,从而提高了分布式集群部署的效率。

下面对本发明实施例三进行说明。

在上述实施例的基础上,在各节点执行系统灌装操作时可能操作失败,则在本发明实施例提供的分布式集群部署方法中,S302中节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,可以包括:

监测节点部署配置文件中的配置项的进度;

若节点成功完成所有配置项的部署,则确定节点为目标节点;

若节点存在部署失败的配置项,则确定节点为异常节点,触发异常节点重新进行节点级部署;

若目标节点的数量达到创建分布式集群的基础节点数量,则停止触发异常节点重新进行节点级部署的操作,以当前确定出的目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。

即是说,在进行各节点的系统灌装操作(节点级部署)过程中,对于成功完成所有配置项的部署的节点确定为目标节点。而对于未能完成所有配置项的部署的节点确定异常节点,对异常节点可以重新出发节点级部署。

监测分布式集群中目标节点的数量,若目标节点的数量达到创建分布式集群的基础节点数量,则可以停止对此时仍未完成所有配置项的部署的节点的节点级部署工作,以当前的目标节点直接进入S303执行集群级部署。

本发明实施例提供的分布式集群部署方法,通过监测各节点的节点级部署中的部署项的部署进度,来确定可以参加集群级部署的目标节点以及部署失败的异常节点,在保证分布式集群的基础节点数量的情况下以节点级部署成功的目标节点进行集群级部署,有效避免故障节点造成分布式集群部署失败。

下面对本发明实施例四进行说明。

在上述实施例中,若持续等待目标节点则可能会导致分布式集群的部署时间被不断延长,因为其中可能存在较多故障节点始终无法完成节点级部署。故在本发明实施例提供的分布式集群部署方法中,S302中节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,可以包括:

监测节点部署配置文件中的配置项的进度;

若节点成功完成所有配置项的部署,则确定节点为目标节点;

若节点存在部署失败的配置项,则确定节点为异常节点;

若异常节点重新执行节点级部署的次数未达到节点级部署重试次数,则触发异常节点重新进行节点级部署;

若异常节点重新执行节点级部署的次数达到节点级部署重试次数,则确定异常节点为失败节点;

在所有节点中仅包括失败节点和目标节点时,清理失败节点;

若此时目标节点的数量大于或等于创建分布式集群的基础节点数量,则以目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署;

若此时目标节点的数量小于基础节点数量,则输出分布式集群部署失败的提示信息。

即是说,在进行各节点的系统灌装操作(节点级部署)过程中,对于成功完成所有配置项的部署的节点确定为目标节点。而对于未能完成所有配置项的部署的节点确定异常节点,且监测异常节点重新执行节点级部署的次数,若达到节点级部署重试次数,则确定该异常节点为失败节点,不再触发重新执行节点级部署。当整个集群中只有目标节点和失败节点时,将失败节点清理出纳管,若剩余的目标节点的数量不足创建分布式集群的基础节点数量,则确定分布式集群创建失败,输出分布式集群部署失败的提示信息,等待运维人员检修。否则才进入S303执行集群级部署。

本发明实施例提供的分布式集群部署方法,通过监测各节点的节点级部署中的部署项的部署进度,来确定可以参加集群级部署的目标节点以及部署失败的异常节点,对节点级部署失败次数过多的节点作为失败节点清除出分布式集群,在保证分布式集群的基础节点数量的情况下以节点级部署成功的目标节点进行集群级部署,且避免因故障节点较多延迟分布式集群的部署工作,及时进行设备检修。

下面对本发明实施例五进行说明。

在上述实施例的基础上,在本发明实施例提供的分布式集群部署方法中,S301可以参考本发明实施例二的说明。

S302:利用对应的操作系统镜像文件对各节点执行系统灌装操作,以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,可以包括:

利用对应的操作系统镜像文件对各节点执行系统灌装操作,并监测节点部署配置文件中的配置项的进度;

若节点成功完成所有配置项的部署,则确定节点为目标节点;

若节点存在部署失败的配置项,则确定节点为异常节点。

触发异常节点重新进行节点级部署;若目标节点的数量达到创建分布式集群的基础节点数量,则停止触发异常节点重新进行节点级部署的操作,以当前确定出的目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署;或,若异常节点重新执行节点级部署的次数未达到节点级部署重试次数,则触发异常节点重新进行节点级部署;若异常节点重新执行节点级部署的次数达到节点级部署重试次数,则确定异常节点为失败节点;在所有节点中仅包括失败节点和目标节点时,清理失败节点;若此时目标节点的数量大于或等于创建分布式集群的基础节点数量,则以目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署;若此时目标节点的数量小于基础节点数量,则输出分布式集群部署失败的提示信息。

S303:对各节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署,可以包括:

对各目标节点,创建集群网络拓扑并选举出主节点;

在主节点部署对分布式集群的管理组件;

基于主节点触发各目标节点初始化监视器服务以及激活存储服务;

其中,节点级部署的配置项包括:

节点根据配置文件对本地存储器进行磁盘分区操作并建立各磁盘分区的状态监视参数配置;

节点根据配置文件对本地存储器分配存储器编号后,进行各本地存储器的存储服务初始化操作;

节点根据配置文件进行本地网络信息的部署。

本发明实施例提供的分布式集群部署方法,通过在创建分布式集群时,根据分布式集群中节点的设备机型、业务类型、集群规模等生成对应的配置文件,并将配置文件置于对节点的操作系统镜像文件中,从而在利用对应的操作系统镜像文件对各节点执行系统灌装操作时,可以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,而对于成功完成系统灌装操作的目标节点,再创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。应用本发明提供的分布式集群部署方法,节点级部署失败的节点不会加入集群级部署,也减少了主节点执行过多集群部署任务产生的效率瓶颈,从而提高了分布式集群部署的效率。通过根据分布式集群的节点的设备机型、节点用于执行的业务类型以及分布式集群的集群规模中的至少一项,查询历史集群部署参数中使节点满足性能条件和存储空间利用率条件的最优配置参数;根据最优配置参数生成与节点对应的配置文件,从而在系统灌装阶段完成对节点自身的最优配置部署。通过监测各节点的节点级部署中的部署项的部署进度,来确定可以参加集群级部署的目标节点以及部署失败的异常节点,根据需要选择对节点级部署失败次数过多的节点作为失败节点清除出分布式集群,在保证分布式集群的基础节点数量的情况下以节点级部署成功的目标节点进行集群级部署,有效避免故障节点造成分布式集群部署失败。

上文详述了分布式集群部署方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的分布式集群部署装置、设备及可读存储介质。

下面对本发明实施例六进行说明。

图4为本发明实施例提供的一种分布式集群部署装置的结构示意图。

如图4所示,本发明实施例提供的分布式集群部署装置包括:

预配置单元401,用于在创建分布式集群时,根据分布式集群的节点的设备机型、节点用于执行的业务类型以及分布式集群的集群规模中的至少一项,查询历史集群部署参数中使节点满足性能条件和存储空间利用率条件的最优配置参数;根据最优配置参数生成与节点对应的配置文件,并将配置文件置于对节点的操作系统镜像文件中;

节点部署单元402,用于利用对应的操作系统镜像文件对各节点执行系统灌装操作,以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署;

集群部署单元403,用于对各节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。

在一些实施中,节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,包括:

监测节点部署配置文件中的配置项的进度;

若节点成功完成所有配置项的部署,则确定节点为目标节点;

若节点存在部署失败的配置项,则确定节点为异常节点,触发异常节点重新进行节点级部署;

若目标节点的数量达到创建分布式集群的基础节点数量,则停止触发异常节点重新进行节点级部署的操作,以当前确定出的目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署。

在另一些实施中,节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,包括:

监测节点部署配置文件中的配置项的进度;

若节点成功完成所有配置项的部署,则确定节点为目标节点;

若节点存在部署失败的配置项,则确定节点为异常节点;

若异常节点重新执行节点级部署的次数未达到节点级部署重试次数,则触发异常节点重新进行节点级部署;

若异常节点重新执行节点级部署的次数达到节点级部署重试次数,则确定异常节点为失败节点;

在所有节点中仅包括失败节点和目标节点时,清理失败节点;

若此时目标节点的数量大于或等于创建分布式集群的基础节点数量,则以目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署;

若此时目标节点的数量小于基础节点数量,则输出分布式集群部署失败的提示信息。

在一些实施中,分布式集群为分布式存储集群;

节点根据配置文件进行节点级部署,包括:

节点根据配置文件对本地存储器进行磁盘分区操作并建立各磁盘分区的状态监视参数配置;

节点根据配置文件对本地存储器分配存储器编号后,进行各本地存储器的存储服务初始化操作;

节点根据配置文件进行本地网络信息的部署。

在另一些实施中,分布式集群为分布式计算集群;

节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,包括:

节点根据配置文件对本地存储器进行磁盘分区操作并建立各磁盘分区的状态监视参数配置;

节点根据配置文件对本地存储器分配存储器编号后,进行各本地存储器的存储服务初始化操作;

节点根据配置文件进行本地网络信息的部署;

节点根据配置文件部署计算任务执行脚本。

在一些实施中,节点部署单元402利用对应的操作系统镜像文件对各节点执行系统灌装操作,以使各节点在执行系统灌装操作的过程中根据配置文件进行节点级部署,包括:

利用对应的操作系统镜像文件对各节点执行系统灌装操作,并监测节点部署配置文件中的配置项的进度;

若节点成功完成所有配置项的部署,则确定节点为目标节点;

若节点存在部署失败的配置项,则确定节点为异常节点;

触发异常节点重新进行节点级部署;若目标节点的数量达到创建分布式集群的基础节点数量,则停止触发异常节点重新进行节点级部署的操作,以当前确定出的目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署;或,若异常节点重新执行节点级部署的次数未达到节点级部署重试次数,则触发异常节点重新进行节点级部署;若异常节点重新执行节点级部署的次数达到节点级部署重试次数,则确定异常节点为失败节点;在所有节点中仅包括失败节点和目标节点时,清理失败节点;若此时目标节点的数量大于或等于创建分布式集群的基础节点数量,则以目标节点创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署;若此时目标节点的数量小于基础节点数量,则输出分布式集群部署失败的提示信息;

集群部署单元403对各节点中成功完成系统灌装操作的目标节点,创建集群网络拓扑并选举出主节点,以基于主节点触发各目标节点进行集群级部署并激活业务服务后,完成对分布式集群的部署,包括:

对各目标节点,创建集群网络拓扑并选举出主节点;

在主节点部署对分布式集群的管理组件;

基于主节点触发各目标节点初始化监视器服务以及激活存储服务;

其中,节点级部署的配置项包括:

节点根据配置文件对本地存储器进行磁盘分区操作并建立各磁盘分区的状态监视参数配置;

节点根据配置文件对本地存储器分配存储器编号后,进行各本地存储器的存储服务初始化操作;

节点根据配置文件进行本地网络信息的部署。

由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

下面对本发明实施例七进行说明。

图5为本发明实施例提供的一种分布式集群部署设备的结构示意图。

如图5所示,本发明实施例提供的分布式集群部署设备包括:

存储器510,用于存储计算机程序511;

处理器520,用于执行计算机程序511,该计算机程序511被处理器520执行时实现如上述任意一项实施例所述分布式集群部署方法的步骤。

其中,处理器520可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器520可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器520也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器520可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器520还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器510可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器510还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器510至少用于存储以下计算机程序511,其中,该计算机程序511被处理器520加载并执行之后,能够实现前述任一实施例公开的分布式集群部署方法中的相关步骤。另外,存储器510所存储的资源还可以包括操作系统512和数据513等,存储方式可以是短暂存储或者永久存储。其中,操作系统512可以为Windows。数据513可以包括但不限于上述方法所涉及到的数据。

在一些实施例中,分布式集群部署设备还可包括有显示屏530、电源540、通信接口550、输入输出接口560、传感器570以及通信总线580。

本领域技术人员可以理解,图5中示出的结构并不构成对分布式集群部署设备的限定,可以包括比图示更多或更少的组件。

本发明实施例提供的分布式集群部署设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的分布式集群部署方法,效果同上。

下面对本发明实施例八进行说明。

需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。

为此,本发明实施例还提供一种可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如分布式集群部署方法的步骤。

该可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-Only Memory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例中提供的可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的分布式集群部署方法的步骤,效果同上。

以上对本发明所提供的一种分布式集群部署方法、装置、设备及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

相关技术
  • 线控换档移位器装置
  • 提供差分光输出的铷光谱灯装置及光噪声差分抑制的方法
  • 差分时间延迟移位器装置和方法
  • 测量针对MMF或FMF的差分模式延迟的时间延迟的方法
技术分类

06120116526085