掌桥专利:专业的专利平台
掌桥专利
首页

一种服务器故障诊断方法、装置及相关设备

文献发布时间:2023-06-19 11:29:13


一种服务器故障诊断方法、装置及相关设备

技术领域

本申请涉及服务器技术领域,特别涉及一种服务器故障诊断方法,还涉及一种服务器故障诊断装置、系统以及计算机可读存储介质。

背景技术

随着数据中心服务器节点指数增加,运维对服务器健康监控倾向于通过自动化巡检工具,当前服务器的BMC(Baseboard Manager Controller,基板管理控制器)绝大多数遵循IPMI(Intelligent Platform Management Interface,智能平台管理接口)或SNMP(Simple Network Management Protocol,简单网络管理协议)管理规范,巡检工具大多也是通过IPMI或SNMP指令主动获取服务器的健康状态。目前,各厂家巡检工具都是通过预先创建好故障知识库,并在巡检时通过IPMI或SNMP获取服务器健康数据,然后根据预先设定的故障知识库确定其健康状态。

然而,由于IPMI和SNMP指令、数据多是由厂商自定义设置,导致不同厂商、不同型号、甚至不同BMC版本的故障规则不同,因此,巡检工具需提前获取并人工维护适配各厂商、型号、固件的故障知识库。但是,随着服务器厂商、型号、设备BMC的不断更新,故障知识库也需要实时更新,从而导致故障知识库维护成本居高不下;以此同时,故障知识库的可移植性较差,若将现有的故障知识库移植到其他数据中心则需重新适配。

因此,如何实现服务器故障知识库的灵活迁移和适配,降低故障知识库的运维成本是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种服务器故障诊断方法,该服务器故障诊断方法可以实现服务器故障知识库的灵活迁移和适配,有效地降低了故障知识库的运维成本;本申请的另一目的是提供一种服务器故障诊断装置、系统以及计算机可读存储介质,也具有上述有益效果。

第一方面,本申请提供了一种服务器故障诊断方法,包括:

对目标服务器进行日志采集,获得日志数据;

利用所述日志数据对历史故障知识库进行更新,获得所述目标服务器对应的故障知识库;

当接收到诊断指令时,利用所述故障知识库对所述目标服务器进行故障诊断。

优选的,所述对目标服务器进行日志采集,获得日志数据,包括:

对所述目标服务器进行日志采集,获得BMC SEL数据和BMC Sensor数据。

优选的,所述利用所述日志数据对历史故障知识库进行更新,获得所述目标服务器对应的故障知识库,包括:

将所述日志数据与所述历史故障知识库中的各历史故障诊断规则进行对比;

当对比通过时,将所述历史故障诊断规则上传至所述故障知识库;

当对比不通过时,利用所述日志数据对所述历史故障诊断规则进行更新,获得新的故障诊断规则,并将所述新的故障诊断规则上传至所述故障知识库。

优选的,所述将所述新的故障诊断规则上传至所述故障知识库之前,还包括:

将所述新的故障诊断规则发送至用户终端;

当接收到所述用户终端反馈的确认信息时,执行所述将所述新的故障诊断规则上传至所述故障知识库的步骤。

优选的,将所述历史故障诊断规则或所述新的故障诊断规则上传至所述故障知识库之前,还包括:

将所述历史故障诊断规则或所述新的故障诊断规则转换为预设格式的故障诊断规则。

优选的,所述当接收到诊断指令时,利用所述故障知识库对所述目标服务器进行故障诊断,包括:

根据所述诊断指令采集所述目标服务器的运行数据;

根据所述运行数据从所述故障规则库中匹配获得目标故障诊断规则;

利用所述目标故障诊断规则对所述运行数据进行故障诊断。

第二方面,本申请还公开了一种服务器故障诊断装置,包括:

采集模块,用于对目标服务器进行日志采集,获得日志数据;

更新模块,用于利用所述日志数据对历史故障知识库进行更新,获得所述目标服务器对应的故障知识库;

诊断模块,用于当接收到诊断指令时,利用所述故障知识库对所述目标服务器进行故障诊断。

优选的,所述采集模块具体用于对所述目标服务器进行日志采集,获得BMC SEL数据和BMC Sensor数据。

第三方面,本申请还公开了一种服务器故障诊断系统,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序以实现如上所述的任一种服务器故障诊断方法的步骤。

第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上所述的任一种服务器故障诊断方法的步骤。

本申请所提供的一种服务器故障诊断方法,包括对目标服务器进行日志采集,获得日志数据;利用所述日志数据对历史故障知识库进行更新,获得所述目标服务器对应的故障知识库;当接收到诊断指令时,利用所述故障知识库对所述目标服务器进行故障诊断。

可见,本申请所提供的服务器故障诊断方法,通过目标服务器的日志数据实现历史故障知识库的更新,以获得可以满足目标服务器故障诊断的故障知识库,由此,即可利用该故障知识库实现目标服务器的故障诊断,相较于已有技术,该方法实现了服务器故障知识库的灵活迁移和自动化适配,无需预先对故障知识库进行人工配置,提高了服务器故障诊断效率,降低了故障知识库的运维成本。

本申请所提供的一种服务器故障诊断装置、系统以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。

附图说明

为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。

图1为本申请所提供的一种服务器故障诊断方法的流程示意图;

图2为本申请所提供的一种服务器故障诊断装置的结构示意图;

图3为本申请所提供的一种服务器故障诊断系统的结构示意图。

具体实施方式

本申请的核心是提供一种服务器故障诊断方法,该服务器故障诊断方法可以实现服务器故障知识库的灵活迁移和适配,有效地降低了故障知识库的运维成本;本申请的另一核心是提供一种服务器故障诊断装置、系统以及计算机可读存储介质,也具有上述有益效果。

为了对本申请实施例中的技术方案进行更加清楚、完整地描述,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参考图1,图1为本申请所提供的一种服务器故障诊断方法的流程示意图,该服务器故障诊断方法可包括:

S101:对目标服务器进行日志采集,获得日志数据;

本步骤旨在实现目标服务器的日志采集,获得其日志数据。其中,目标服务器即为需要进行故障诊断的服务器,日志数据是指目标服务器在运行过程中所产生的所有数据信息,包括正常数据和异常数据,其具体类型并不影响本技术方案的实施。可以理解的是,由于本申请旨在利用日志数据实现故障知识库的更新获取,因此,该日志数据的类型与数量越多,故障知识库中的故障诊断规则越为全面,进而实现更为准确全面的服务器故障诊断。

作为一种优选实施例,上述对目标服务器进行日志采集,获得日志数据,可以包括:对目标服务器进行日志采集,获得BMC SEL(系统事件日志)数据和BMC Sensor(传感器)数据。

本优选实施例提供了具体类型的日志数据,即BMC SEL数据和BMC Sensor数据,由此,通过获取多种类型的日志数据实现故障知识库的更新,可以多维度确认新增故障规则的有效性。当然,以上类型的日志数据仅为本优选实施例所提供的一种实现方式,并不唯一,还可以包括其他类型的数据信息,如固件版本检测数据等。

S102:利用日志数据对历史故障知识库进行更新,获得目标服务器对应的故障知识库;

本步骤旨在利用目标服务器的日志数据实现故障知识库的更新,以获得对应于目标服务器的故障知识库,该故障知识库可有效满足目标服务器的各种类型的故障诊断。具体而言,日志数据中包括目标服务器在运行过程中所产生的所有数据信息,包括正常数据和异常数据,因此,利用该日志数据对历史故障知识库进行更新,可以有效保证新的故障知识库中的所有故障诊断规则均对应于该目标服务器,以及可以获得完全对应于目标服务器的故障知识库。其中,历史故障知识库是指目前已知、已存在、可直接获取的故障知识库,如其他服务器当前正在使用的故障知识库等,其中包含有各类已知的故障诊断规则。

作为一种优选实施例,上述利用日志数据对历史故障知识库进行更新,获得目标服务器对应的故障知识库,可以包括:将日志数据与历史故障知识库中的各历史故障诊断规则进行对比;当对比通过时,将历史故障诊断规则上传至故障知识库;当对比不通过时,利用日志数据对历史故障诊断规则进行更新,获得新的故障诊断规则,并将新的故障诊断规则上传至故障知识库。

本优选实施例提供了一种具体的故障知识库更新方法,在具体实现过程中,将日志数据与历史故障知识库中的各历史故障诊断规则进行一一对比,若比对通过,则说明该历史故障诊断规则对应于目标服务器,可以实现目标服务器的故障诊断,故可以将其作为新的故障诊断规则直接存储至该目标服务器对应的故障知识库;若比对不通过,则说明该历史故障诊断规则不对应于目标服务器,不可以实现目标服务器的故障诊断,故不可以直接存储至其对应的故障知识库,此时,则需要利用日志数据对该历史故障规则进行更新,以获得满足目标服务器故障诊断的新的故障诊断规则,再将其存储至目标服务器对应的故障知识库中,由此,实现了历史故障知识库的更新,获得了对应于目标服务器的故障知识库。

作为一种优选实施例,上述将新的故障诊断规则上传至故障知识库之前,还可以包括:将新的故障诊断规则发送至用户终端;当接收到用户终端反馈的确认信息时,执行将新的故障诊断规则上传至故障知识库的步骤。

为进一步有效保证新生成的故障诊断规则的正确性,在将其上传至故障知识库进行存储之前,还可以将其发送至用户终端,由用户(技术人员)对其进行人工确认,在此基础上,当接收到用户终端反馈的确认信息时,方可将其上传至故障知识库进行存储。当然,对于用户未给予确认的故障诊断规则,则说明该故障诊断规则不正确,直接将其删除即可。

作为一种优选实施例,将历史故障诊断规则或新的故障诊断规则上传至故障知识库之前,还可以包括:将历史故障诊断规则或新的故障诊断规则转换为预设格式的故障诊断规则。

本优选实施例所提供的服务器故障诊断方法,旨在实现故障诊断规则的格式转换。具体而言,对于某一特定类型的目标服务器,可为其设置统一的数据格式,以便实现故障诊断规则的直接调取,无需在故障诊断过程中再进行额外的格式转换,提高故障诊断效率。因此,在将历史故障诊断规则或新的故障诊断规则上传至故障知识库之前,还可将其转换为预设格式的故障诊断规则,当然,该预设格式的具体类型并不唯一,由技术人员根据实际情况进行设置即可,本申请对此不做限定。

S103:当接收到诊断指令时,利用故障知识库对目标服务器进行故障诊断。

本步骤至旨在实现目标服务器的故障诊断,即利用目标服务器对应的故障知识库对目标服务器进行故障诊断。具体而言,当接收到针对目标服务器的诊断指令时,即可响应于该诊断指令,并调用上述故障知识库对其进行故障诊断,也即利用该故障知识库中的各个故障诊断规则对其进行故障诊断。其中,诊断指令可以由用户基于相应的用户终端发起,也可以基于预设响应条件自动触发。

作为一种优选实施例,上述当接收到诊断指令时,利用故障知识库对目标服务器进行故障诊断,可以包括:根据诊断指令采集目标服务器的运行数据;根据运行数据从故障规则库中匹配获得目标故障诊断规则;利用目标故障诊断规则对运行数据进行故障诊断。

本优选实施例提供了一种具体的故障诊断方法,具体而言,在接收到针对目标服务器的诊断指令时,首先响应该诊断指令对目标服务器进行数据采集,获得其运行数据,即目标服务器在正常运行过程中所产生的数据信息;进一步,将其与故障规则库中的各故障诊断规则进行匹配,以获得对应于该运行数据的目标诊断规则;最后,利用该目标故障诊断规则对该运行数据进行处理,即可实现目标服务器的故障诊断。可以理解的是,由于上述运行数据的具体类型并不唯一,因此,对应所匹配到的目标故障诊断规则的数量也不唯一。

可见,本申请所提供的服务器故障诊断方法,通过目标服务器的日志数据实现历史故障知识库的更新,以获得可以满足目标服务器故障诊断的故障知识库,由此,即可利用该故障知识库实现目标服务器的故障诊断,相较于已有技术,该方法实现了服务器故障知识库的灵活迁移和自动化适配,无需预先对故障知识库进行人工配置,提高了服务器故障诊断效率,降低了故障知识库的运维成本。

本申请实施例提供了另一种服务器故障诊断方法。

具体而言,为实现服务器故障诊断,其巡检工具集成了数据采集模块、故障知识库维护模块以及诊断模块。

(1)数据采集模块:

定义了数据采集的指令和功能,具体可以采集BMC SEL日志数据、BMC Sensor数据以及其他辅助数据;

(2)故障知识库维护模块:

对上述所采集到的各类数据信息进行解析、过滤和分类等处理,并将处理后的数据信息与当前故障知识库(历史故障知识库)进行比对分析,以生成新的故障知识库;其中,新的故障知识库中的各故障诊断规则格式统一;

(3)诊断模块:

当接收到诊断指令时,直接调取更新后的故障知识库对服务器进行分析和巡检。

可见,本申请实施例所提供的服务器故障诊断方法,通过目标服务器的日志数据实现历史故障知识库的更新,以获得可以满足目标服务器故障诊断的故障知识库,由此,即可利用该故障知识库实现目标服务器的故障诊断,相较于已有技术,该方法实现了服务器故障知识库的灵活迁移和自动化适配,无需预先对故障知识库进行人工配置,提高了服务器故障诊断效率,降低了故障知识库的运维成本。

为解决上述技术问题,本申请还提供了一种服务器故障诊断装置,请参考图2,图2为本申请所提供的一种服务器故障诊断装置的结构示意图,该服务器故障诊断装置可包括:

采集模块1,用于对目标服务器进行日志采集,获得日志数据;

更新模块2,用于利用日志数据对历史故障知识库进行更新,获得目标服务器对应的故障知识库;

诊断模块3,用于当接收到诊断指令时,利用故障知识库对目标服务器进行故障诊断。

可见,本申请实施例所提供的服务器故障诊断装置,通过目标服务器的日志数据实现历史故障知识库的更新,以获得可以满足目标服务器故障诊断的故障知识库,由此,即可利用该故障知识库实现目标服务器的故障诊断,相较于已有技术,该方法实现了服务器故障知识库的灵活迁移和自动化适配,无需预先对故障知识库进行人工配置,提高了服务器故障诊断效率,降低了故障知识库的运维成本。

作为一种优选实施例,上述采集模块1可具体用于对目标服务器进行日志采集,获得BMC SEL数据和BMC Sensor数据。

作为一种优选实施例,上述更新模块2可具体用于将日志数据与历史故障知识库中的各历史故障诊断规则进行对比;当对比通过时,将历史故障诊断规则上传至故障知识库;当对比不通过时,利用日志数据对历史故障诊断规则进行更新,获得新的故障诊断规则,并将新的故障诊断规则上传至故障知识库。

作为一种优选实施例,上述更新模块2还可用于在上述将新的故障诊断规则上传至故障知识库之前,将新的故障诊断规则发送至用户终端;当接收到用户终端反馈的确认信息时,执行将新的故障诊断规则上传至故障知识库的步骤。

作为一种优选实施例,上述更新模块2还可用于在将历史故障诊断规则或新的故障诊断规则上传至故障知识库之前,将历史故障诊断规则或新的故障诊断规则转换为预设格式的故障诊断规则。

作为一种优选实施例,上述诊断模块3可具体用于根据诊断指令采集目标服务器的运行数据;根据运行数据从故障规则库中匹配获得目标故障诊断规则;利用目标故障诊断规则对运行数据进行故障诊断。

对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。

为解决上述技术问题,本申请还提供了一种服务器故障诊断系统,请参考图3,图3为本申请所提供的一种服务器故障诊断系统的结构示意图,该服务器故障诊断系统可包括:

存储器10,用于存储计算机程序;

处理器20,用于执行计算机程序时可实现如上述任意一种服务器故障诊断方法的步骤。

对于本申请提供的系统的介绍请参照上述方法实施例,本申请在此不做赘述。

为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种服务器故障诊断方法的步骤。

该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请的保护范围内。

相关技术
  • 一种服务器故障诊断方法、装置及相关设备
  • 一种服务器设备故障诊断方法和装置以及设备
技术分类

06120112942012