掌桥专利:专业的专利平台
掌桥专利
首页

一种高性能计算集群系统故障预测装置及其使用方法

文献发布时间:2023-06-19 18:37:28


一种高性能计算集群系统故障预测装置及其使用方法

技术领域

本发明涉及一种高性能计算集群系统故障预测装置及其使用方法,属于系统故障预测装置技术领域。

背景技术

高性能计算指通常使用很多处理器或者某一集群中组织的几台计算机的计算系统和环境,有许多类型的HPC系统,其范围从标准计算机的大型集群,到高度专用的硬件。

中国专利申请(公告号为CN105159815B)中公开了一种高性能计算集群系统故障预测方法和装置,该专利中的故障预测方法包括:获取集群系统中各服务节点的芯片工况和电源输出功率,根据所述芯片工况和电源输出功率分析各服务节点的工作状态,在服务节点的工作状态为非正常时,执行预先设定的维护策略。本发明通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略。专利中的故障预测装置在进行工作的过程中,系统中的模块容易受到灰尘影响,灰尘也会引发系统的故障,造成检测效率较低,而且,无法很准确的预测发生故障的部件位置,检测效果较差。

发明内容

本发明要解决的技术问题是:提供一种高性能计算集群系统故障预测装置及其使用方法,解决在进行工作的过程中,系统中的模块容易受到灰尘影响,灰尘也会引发系统的故障,造成检测效率较低,而且,无法很准确的预测发生故障的部件位置,检测效果较差的问题。

本发明采取的技术方案为:一种高性能计算集群系统故障预测装置,包括装置本体,在装置本体内部设置控制器和故障预测机构;

故障预测机构包括灰尘故障预测组件以及系统故障预测组件,装置本体内部通过隔板分为监测室以及系统室,系统室分为四个区域;

系统故障预测组件包括移动部以及显示部,显示部设置在移动部上且均安装在监测室内,移动部包括驱动电机、丝杠以及移动块,驱动电机安装在监测室内部一侧,丝杠连接在驱动电机输出端,移动块活动设置在丝杠上,显示部包括安装板、拆卸件、多彩灯以及灯罩,安装板通过连接杆连接在移动块上,多彩灯以及灯罩通过拆卸件安装在安装板上,多彩灯位于灯罩内部,装置本体外侧设置有三个长条,将装置本体的外侧分为四个区域,且与系统室的四个区域位置对应;

其中,通过设置移动部的驱动电机、丝杠以及移动块以及显示部的安装板、拆卸件、多彩灯以及灯罩,通过多彩灯的不同颜色对系统故障进行预测,通过驱动电机驱动多彩灯进行移动,再通过装置本体的外侧的四个区域配合系统室的四个区域,将高性能计算集群系统的不同部件连接在装置本体中系统本体的不同区域,能够较为准确的预测出发生故障的区域,提高了预测的准确性,提高了检测效果。

灰尘故障预测组件包括驱动部以及清理部,驱动部包括双作用气缸、第一活动件、第二活动件以及活动块,双作用气缸安装在监测室内部,第一活动件连接在双作用气缸的一端,第二活动件连接在双作用气缸的另一端,第二活动件远离双作用气缸的一端连接在活动块上,活动块上设置有若干环槽,装置本体一侧开设有安装槽,活动块通过安装槽从装置本体内部伸出;

清理部包括中转球、压力泵、进气管、滑块、弹性件、活动球、连接管以及输出管,中转球为中空球体,中转球通过连接件连接在移动块上,隔板上设置有导轨,滑块活动设置在导轨中,滑块内部设置有导流槽,导流槽为圆台状结构,若干弹性件一端连接在导流槽的内壁上,若干弹性件另一端连接在活动球上,连接管一端与中转球连通,连接管另一端与导流槽连通,进气管设置在中转球上且与其连通,压力泵设置在进气管上,输出管设置在滑块上,且与导流槽连通;

其中,通过设置双作用气缸、第一活动件、第二活动件以及活动块配合中转球、压力泵、进气管、滑块、弹性件、活动球、连接管以及输出管,在检测到灰尘即将影响系统正常工作之后,双作用气缸向第一活动件方向移动,双作用气缸的一端伸出,另一端就会收缩,第二活动件收缩带动活动块收缩,灰尘含量的不同会使双作用气缸移动不同的距离,会使活动块向装置本体内部移动的距离不同,活动块上的环槽在装置本体外漏出的数量也会不同,能够较为精准的表示灰尘对系统本体影响的程度不同;初始状态时,在滑块的导流槽内活动球堵住导流槽,在第一活动件伸出时,带动活动球不再堵住导流槽,使气流能够流通,通过输出管输出气流进行清理,提高了装置的自清理能力,也消除了故障的隐患,提高了装置的使用寿命;

其中,通过灰尘含量的不同会使双作用气缸移动不同的距离,含量越高,则双作用气缸向第一活动件移动的距离越长,则能够使活动球离导流槽的出口越远,是气流的流通量能够随着灰尘含量控制,提高了清理的精确性,节省了清理时间,提高了清理效率;

其中,系统室分为四个区域,在进行系统故障预测的同时,也能将系统室四个区域的不同灰尘含量进行分类,在驱动电机进行移动的过程中,同时也带动灰尘故障预测组件进行移动,带动其在不同区域进行不同的工作状态。

优选的,上述装置本体底部设置有排灰槽,排灰槽位于系统室内。

优选的,上述系统室内部设置有系统本体以及灰尘感应模块,系统本体与系统室的四个区域相互对应,灰尘感应模块位于系统室顶部,且与系统本体位置对应;

其中,灰尘感应模块中设置有分析子模块,能够对灰尘含量进行分析,并进行各种操作。

优选的,上述系统室上设置有连接组件,连接组件包括连接线以及接口,四个接口设置在装置本体外侧面,每个接口上连接一个连接线,每个连接线远离接口的一端与系统本体连接。

优选的,上述输出管远离滑块的一端设置有出风管,出风管远离输出管的一端设置有出风罩;

其中,出风罩能增大出风面积,提高除尘的效率。

优选的,上述装置本体上设置有进气罩,进气罩与进气管连通,进气罩顶部设置有若干防尘孔;

其中,通过进气罩将外界的空气抽入到进气管中,并且防尘孔能有效防止灰尘进入。

优选的,上述系统本体包括分析模块以及获取模块,获取模块用于获取高性能计算集群系统中各服务节点的芯片工况和电源输出功率,分析模块用于根据芯片工况和电源输出功率分析各服务节点的工作状态,并根据工作状态传递不同信息给控制器,控制器分别控制多彩灯、驱动电机、双作用气缸以及灰尘感应模块。

一种高性能计算集群系统故障预测装置的使用方法,包括以下步骤:

S1:准备:

将装置本体上的接口连接高性能计算集群系统,使系统室内的系统本体与高性能计算集群系统相连,进行信息传递;

S2:系统故障预测:

在分析模块中根据各服务节点的工作状态设置三个阈值,分别为第一阈值、第二阈值以及第三阈值,第一阈值表示低概率发生故障,第二阈值表示中概率发生故障,第三阈值表示大概率发生故障,且系统本体与系统室的四个区域相互对应,这些系统本体分别与高性能计算集群系统的各个部件分别相连接,表示发生故障的不同区域,驱动电机接收控制器信号进行驱动,带动多彩灯进行移动,分别经过装置本体外部的四个区域,当经过一个区域时,控制器根据系统本体传递的不同信息,控制多彩灯进行不同颜色的显示,分别为红色、橙色、黄色以及绿色,绿色代表此区域的各服务节点的工作状态低于第一阈值,橙色代表此区域的各服务节点的工作状态位于第一阈值与第二阈值之间,黄色代表此区域的各服务节点的工作状态位于第二阈值与第三阈值之间,红色代表此区域的各服务节点的工作状态大于第三阈值;

S3:灰尘故障预测:

灰尘感应模块实时检测系统室内部的灰尘含量,在灰尘感应模块内部设置灰尘含量的若干阈值,当达到不同阈值时,发送不同信号给控制器,控制器控制双作用气缸向第一活动件方向移动,不同阈值代表不同的移动距离,此时,活动块上环槽在装置本体上露出的数量代表着灰尘含量的等级;

S4:自清理:

初始状态下,活动球堵住滑块内部的导流槽,当控制器控制双作用气缸向第一活动件方向移动时,使活动球不再堵住导流槽,气体随之从输出管以及出风管导出,对系统本体进行清理,并且从排灰槽排出;

S5:结束:

将装置本体上的接口连接的高性能计算集群系统拔出,结束预测装置的工作。

本发明的有益效果:与现有技术相比,本发明的效果如下:

1)本发明通过设置双作用气缸、第一活动件、第二活动件以及活动块配合中转球、压力泵、进气管、滑块、弹性件、活动球、连接管以及输出管,在检测到灰尘即将影响系统正常工作之后,双作用气缸向第一活动件方向移动,双作用气缸的一端伸出,另一端就会收缩,第二活动件收缩带动活动块收缩,灰尘含量的不同会使双作用气缸移动不同的距离,会使活动块向装置本体内部移动的距离不同,活动块上的环槽在装置本体外漏出的数量也会不同,能够较为精准的表示灰尘对系统本体影响的程度不同;初始状态时,在滑块的导流槽内活动球堵住导流槽,在第一活动件伸出时,带动活动球不再堵住导流槽,使气流能够流通,通过输出管输出气流进行清理,提高了装置的自清理能力,也消除了故障的隐患,提高了装置的使用寿命;

2)本发明通过设置移动部的驱动电机、丝杠以及移动块以及显示部的安装板、拆卸件、多彩灯以及灯罩,通过多彩灯的不同颜色对系统故障进行预测,通过驱动电机驱动多彩灯进行移动,再通过装置本体的外侧的四个区域配合系统室的四个区域,将高性能计算集群系统的不同部件连接在装置本体中系统本体的不同区域,能够较为准确的预测出发生故障的区域,提高了预测的准确性,提高了检测效果;

3)本发明通过灰尘含量的不同会使双作用气缸移动不同的距离,含量越高,则双作用气缸向第一活动件移动的距离越长,则能够使活动球离导流槽的出口越远,是气流的流通量能够随着灰尘含量控制,提高了清理的精确性,节省了清理时间,提高了清理效率;

4)本发明系统室分为四个区域,在进行系统故障预测的同时,也能将系统室四个区域的不同灰尘含量进行分类,在驱动电机进行移动的过程中,同时也带动灰尘故障预测组件进行移动,带动其在不同区域进行不同的工作状态。

附图说明

图1为本发明的立体结构示意图;

图2为本发明的正视结构示意图;

图3为图2中A-A处剖视图;

图4为图2中B-B处剖视图;

图5为图1中C部局部放大图;

图6为图2中D部局部放大图;

图7为图3中E部局部放大图;

图8为系统本体的系统框图。

附中,110、装置本体;120、控制器;130、监测室;140、系统室;150、隔板;210、驱动电机;220、丝杠;230、移动块;240、安装板;250、拆卸件;260、多彩灯;270、灯罩;280、连接杆;310、双作用气缸;320、第一活动件;330、第二活动件;340、活动块;350、环槽;360、导轨;370、导流槽;410、中转球;420、压力泵;430、滑块;440、弹性件;450、活动球;460、连接管;470、输出管;480、连接件;490、进气管;510、排灰槽;520、系统本体;530、连接线;540、接口;610、出风管;620、出风罩;630、进气罩;640、防尘孔;650、分析模块;660、获取模块;710、灰尘感应模块;720、长条。

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

实施例1:如图1-8所示,一种高性能计算集群系统故障预测装置,包括装置本体110,设置在装置本体110内部的控制器120和故障预测机构;

故障预测机构包括灰尘故障预测组件以及系统故障预测组件,装置本体110内部通过隔板150分为监测室130以及系统室140,系统室140分为四个区域;

系统故障预测组件包括移动部以及显示部,显示部设置在移动部上,移动部包括驱动电机210、丝杠220以及移动块230,驱动电机210安装在监测室130内部一侧,丝杠220连接在驱动电机210输出端,移动块230活动设置在丝杠220上,显示部包括安装板240、拆卸件250、多彩灯260以及灯罩270,安装板240通过连接杆280连接在移动块230上,多彩灯260以及灯罩270通过拆卸件250安装在安装板240上,多彩灯260位于灯罩270内部,装置本体110外侧设置有三个长条720,将装置本体110的外侧分为四个区域,且与系统室140的四个区域位置对应;

其中,通过设置移动部的驱动电机210、丝杠220以及移动块230以及显示部的安装板240、拆卸件250、多彩灯260以及灯罩270,通过多彩灯260的不同颜色对系统故障进行预测,通过驱动电机210驱动多彩灯260进行移动,再通过装置本体110的外侧的四个区域配合系统室140的四个区域,将高性能计算集群系统的不同部件连接在装置本体110中系统本体520的不同区域,能够较为准确的预测出发生故障的区域,提高了预测的准确性,提高了检测效果。

灰尘故障预测组件包括驱动部以及清理部,驱动部包括双作用气缸310、第一活动件320、第二活动件330以及活动块340,双作用气缸310安装在监测室130内部,第一活动件320连接在双作用气缸310的一端,第二活动件330连接在双作用气缸310的另一端,第二活动件330远离双作用气缸310的一端连接在活动块340上,活动块340上设置有若干环槽350,装置本体110一侧开设有安装槽,活动块340通过安装槽从装置本体110内部伸出;

清理部包括中转球410、压力泵420、进气管490、滑块430、弹性件440、活动球450、连接管460以及输出管470,中转球410为中空球体,中转球410通过连接件480连接在移动块230上,隔板150上设置有导轨360,滑块430活动设置在导轨360中,滑块430内部设置有导流槽370,导流槽370为圆台状结构,若干弹性件440一端连接在导流槽370的内壁上,若干弹性件440另一端连接在活动球450上,连接管460一端与中转球410连通,连接管460另一端与导流槽370连通,进气管490设置在中转球410上且与其连通,压力泵420设置在进气管490上,输出管470设置在滑块430上,且与导流槽370连通;

其中,通过设置双作用气缸310、第一活动件320、第二活动件330以及活动块340配合中转球410、压力泵420、进气管490、滑块430、弹性件440、活动球450、连接管460以及输出管470,在检测到灰尘即将影响系统正常工作之后,双作用气缸310向第一活动件320方向移动,双作用气缸310的一端伸出,另一端就会收缩,第二活动件330收缩带动活动块340收缩,灰尘含量的不同会使双作用气缸310移动不同的距离,会使活动块340向装置本体110内部移动的距离不同,活动块340上的环槽在装置本体110外漏出的数量也会不同,能够较为精准的表示灰尘对系统本体520影响的程度不同;初始状态时,在滑块430的导流槽370内活动球450堵住导流槽370,在第一活动件320伸出时,带动活动球450不再堵住导流槽370,使气流能够流通,通过输出管470输出气流进行清理,提高了装置的自清理能力,也消除了故障的隐患,提高了装置的使用寿命;

其中,通过灰尘含量的不同会使双作用气缸310移动不同的距离,含量越高,则双作用气缸310向第一活动件320移动的距离越长,则能够使活动球450离导流槽370的出口越远,使气流的流通量能够随着灰尘含量控制,提高了清理的精确性,节省了清理时间,提高了清理效率;

其中,系统室140分为四个区域,在进行系统故障预测的同时,也能将系统室140的四个区域的不同灰尘含量进行分类,在驱动电机210进行移动的过程中,同时也带动灰尘故障预测组件进行移动,带动其在不同区域进行不同的工作状态。

本实施例中,双作用气缸310在一个方向上的运动为5cm,即双作用气缸310能够朝第一活动件320方向运动5cm以及向第二活动件330方向运动5cm,活动块340上设置四个环槽350,每隔活动块340漏出装置本体110外界的侧面1cm设置一个环槽350,双作用气缸310的初始位置,活动块340漏出外界四个环槽350,在双作用气缸310朝第一活动件320方向运动时,会使漏出的环槽350数量不断减少,当漏出四个环槽350代表无灰尘影响的故障概率,当漏出三个环槽350代表轻度灰尘影响的故障概率,当漏出两个环槽350,代表中轻度灰尘影响的故障概率,当漏出一个环槽350代表中度灰尘影响的故障概率,当漏出无环槽350代表重度灰尘影响的故障概率。

装置本体110底部设置有排灰槽510,排灰槽510位于系统室140内。

系统室140内部设置有系统本体520以及灰尘感应模块710,系统本体520与系统室140的四个区域相互对应,灰尘感应模块710位于系统室140顶部,且与系统本体520位置对应;

其中,灰尘感应模块710中设置有分析子模块,能够对灰尘含量进行分析,并进行各种操作。

系统室140上设置有连接组件,连接组件包括连接线530以及接口540,四个接口540设置在装置本体110外侧面,每个接口540上连接一个连接线530,每个连接线530远离接口540的一端与系统本体520连接。

输出管470远离滑块430的一端设置有出风管610,出风管610远离输出管470的一端设置有出风罩620;

其中,出风罩620能增大出风面积,提高除尘的效率。

装置本体110上设置有进气罩630,进气罩630与进气管490连通,进气罩630顶部设置有若干防尘孔640;

其中,通过进气罩630将外界的空气抽入到进气管490中,并且防尘孔640能有效防止灰尘进入。

系统本体520包括分析模块650以及获取模块660,获取模块660用于获取高性能计算集群系统中各服务节点的芯片工况和电源输出功率,分析模块650用于根据芯片工况和电源输出功率分析各服务节点的工作状态,并根据工作状态传递不同信息给控制器120,控制器120分别控制多彩灯260、驱动电机210、双作用气缸310以及灰尘感应模块710。

实施例2:一种高性能计算集群系统故障预测装置的使用方法,包括以下步骤:

S1:准备:

将装置本体110上的接口540连接高性能计算集群系统,使系统室140内的系统本体与高性能计算集群系统相连,进行信息传递;

S2:系统故障预测:

在分析模块650中根据各服务节点的工作状态设置三个阈值,分别为第一阈值、第二阈值以及第三阈值,第一阈值表示低概率发生故障,第二阈值表示中概率发生故障,第三阈值表示大概率发生故障,且系统本体520与系统室140的四个区域相互对应,这些系统本体520分别与高性能计算集群系统的各个部件分别相连接,表示发生故障的不同区域,驱动电机210接收控制器120信号进行驱动,带动多彩灯260进行移动,分别经过装置本体110外部的四个区域,当经过一个区域时,控制器120根据系统本体520传递的不同信息,控制多彩灯260进行不同颜色的显示,分别为红色、橙色、黄色以及绿色,绿色代表此区域的各服务节点的工作状态低于第一阈值,橙色代表此区域的各服务节点的工作状态位于第一阈值与第二阈值之间,黄色代表此区域的各服务节点的工作状态位于第二阈值与第三阈值之间,红色代表此区域的各服务节点的工作状态大于第三阈值;

本实施例中,将各服务节点的工作状态转化为故障率,此时设置第一阈值为故障率5%,第二阈值为15%,第三阈值为50%,具体如下表:

如上表所示,当故障率小于5%时,处于第四级别,多彩灯颜色为绿色,此时故障发生概率较小,所以无需处理;当故障率为5%-15%,处于第三级别,多彩灯颜色为橙色,此时故障发生概率小,需要处理,但无需优先处理;当故障率为15%-50%,处于第二级别,此时故障发生概率较大,需要优先处理;当故障率大于50%时,处于第一级别,此时故障发生概率大,需要尽快处理。

S3:灰尘故障预测:

灰尘感应模块710实时检测系统室140内部的灰尘含量,在灰尘感应模块710内部设置灰尘含量的若干阈值,当达到不同阈值时,发送不同信号给控制器120,控制器120控制双作用气缸310向第一活动件320方向移动,不同阈值代表不同的移动距离,此时,活动块340上环槽350在装置本体110上露出的数量代表着灰尘含量的等级;

S4:自清理:

初始状态下,活动球450堵住滑块430内部的导流槽370,当控制器120控制双作用气缸310向第一活动件320方向移动时,使活动球450不再堵住导流槽370,气体随之从输出管470以及出风管610导出,对系统本体520进行清理,并且从排灰槽510排出;

S5:结束:

将装置本体110上的接口540连接的高性能计算集群系统拔出,结束预测装置的工作。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术分类

06120115630900