掌桥专利:专业的专利平台
掌桥专利
首页

一种服务器健康评估方法、系统、设备以及介质

文献发布时间:2023-06-19 13:45:04


一种服务器健康评估方法、系统、设备以及介质

技术领域

本发明涉及服务器领域,具体涉及一种服务器健康评估方法、系统、设备以及存储介质。

背景技术

随着信息技术的发展,数据中心的设备规模越来越大,对于设备的运维难度也越来越大,当服务器产生告警时,需要针对告警去对服务器进行检查维护,但是对于部分客户在特定场景下,有些告警是不影响客户使用,有些轻微告警是客户关注的;在通常的监控系统,只是将这些告警划分为不同的级别,不能有效地区分告警是否为“误报”,同时服务器的相关性能监控指标只是作为展示型数据,没有有效地利用起来。在实际的数据中心场景中对于服务器的健康状态没有一个准确的定义,从而不能准确的断定服务器设备是否存在隐患。

发明内容

有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种服务器健康评估方法,包括以下步骤:

获取配置的若干个评估参数;

根据若干个评估参数获取对应的历史数据;

根据所述对应的历史数据生成对应的评估模型;

采集待评估服务器当前的与所述评估参数对应的实时数据;

将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,根据所述历史数据生成对应的评估模型,进一步包括:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,进一步包括:

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,进一步包括:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种服务器健康评估系统,包括:

配置模块,配置为获取配置的若干个评估参数;

第一获取模块,配置为根据若干个评估参数获取对应的历史数据;

生成模块,配置为根据所述对应的历史数据生成对应的评估模型;

采集模块,配置为采集待评估服务器当前的与所述评估参数对应的实时数据;

评估模块,配置为将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,生成模块还配置为:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括第二获取模块,第二获取模块被配置为获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括通知模块,通知模块被配置为:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:

至少一个处理器;以及

存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行以下步骤:

获取配置的若干个评估参数;

根据若干个评估参数获取对应的历史数据;

根据所述对应的历史数据生成对应的评估模型;

采集待评估服务器当前的与所述评估参数对应的实时数据;

将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,根据所述历史数据生成对应的评估模型,进一步还包括:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括:

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行以下步骤:

获取配置的若干个评估参数;

根据若干个评估参数获取对应的历史数据;

根据所述对应的历史数据生成对应的评估模型;

采集待评估服务器当前的与所述评估参数对应的实时数据;

将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,根据所述历史数据生成对应的评估模型,进一步还包括:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括:

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

本发明具有以下有益技术效果之一:本发明提出的方案通过对服务器健康状态指标项的侧重配置,定义适用于特定用户场景下的健康状态计算方法,结合对应服务器的性能监控特征指标项数据进行健康状态预测,可以有效的提高特定场景下服务器健康状态的准备性,同时对存在潜在故障风险的服务器设备进行甄别,并进行预警。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的服务器健康评估方法的流程示意图;

图2为本发明的实施例提供的服务器健康评估装置的示意图;

图3为本发明的实施例提供的服务器健康评估系统的结构示意图;

图4为本发明的实施例提供的计算机设备的结构示意图;

图5为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

根据本发明的一个方面,本发明的实施例提出一种服务器健康评估方法,如图1所示,其可以包括步骤:

S1,获取配置的若干个评估参数;

S2,根据若干个评估参数获取对应的历史数据;

S3,根据所述对应的历史数据生成对应的评估模型;

S4,采集待评估服务器当前的与所述评估参数对应的实时数据;

S5,将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,根据所述历史数据生成对应的评估模型,进一步还包括:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括:

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

本发明的提出的技术方案可以通过采集服务器当前的设备性能监控等服务器相关健康状态特征的数据信息,结合当前的故障信息,通过用户特定场景需求自主配置服务器健康状态特征指标项,结合历史的性能监控信息与故障信息,以配置的特征指标项的历史样本数据训练构建出决策树预测模型,通过建立好的决策树预测模型对当前服务器设备进行健康状态预测,对预测的健康状态异常的设备进行标记,标识出异常健康状态的设备,提醒运维人员哪些设备存在故障风险,对存在故障风险的设备进行提早的检测排查维护,从而降低设备故障率。

需要特别指出的是,上述服务器健康评估方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于服务器健康评估方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。

在一些实施例中,如图2所示,可以通过数据采集模块、健康状态配置模块、决策树模型生成模块、健康状态分析模块、标记预警模块和特征存储模块实现本发明提出的服务器健康评估方法。

在一些实施例中,特征数据采集模块包含数据采集与数据清洗功能,数据采集用于对服务器健康状态相关的特征量进行采集,服务器健康状态特征量是可作为基于决策树算法的服务器健康状态预测模型的节点类型所对应的特征量,包含但不限于以下的性能、监控、告警数据:CPU温度、CPU利用率、内存利用率、风扇转速、电源实时功率、硬盘IOPS、网卡收发速率、电压、电流、Trap告警等。数据清洗用于对大量的特征数据进行清洗,过滤掉一些异常数据。通过采集模块采集服务器性能监控等健康状态特征数据并由特征存储模块对服务器性能数据进行存储。

这样,通过特征数据采集模块提供数据获取功能,获取服务器健康状态相关的特征量,服务器健康状态特征量是可作为基于决策树算法的服务器健康状态预测模型的节点类型所对应的特征量。

在一些实施例中,特征存储模块可以用于对服务器健康状态相的特征量进行存储,并可提供高效的特征数据查询服务。特征存储模块是一个信息储备持久化的装置,可理解为一种带有本地缓存和能够持久化数据库的一段程序,或者是具备这种功能的一种服务,缓存层可对特征数据查询提供高效查询,持久化层对特征数据以及预测结果进行持久化存储。

在一些实施例中,健康状态配置模块分类统计当前已采集的数据指标项,提供给用户自定义配置指标项以调整健康状态计算的侧重点。其通过特征存储模块分类统计当前采集的指标项,统计出各指标项异常时的故障率,为配置提供参考,同时提供健康状态指标项配置功能,通过选配影响当前特定场景健康状态的特征指标项以及指标项权重,为决策树预测生成模块提供支撑。

健康状态配置模块是一个健康状态指标管理模块,其可以对特征存储模块所存储的健康状态特征值数据进行分类统计,统计出各指标项异常时的故障率,为配置提供参考;同时提供影响健康状态的指标项配置功能,以针对某些特定场景进行指标项的侧重调整。

在一些实施例中,决策树模型生成模块,结合已配置的健康状态指标项,利用历史已采集的对应健康状态特征指标项数据,基于决策树算法建立一个服务器健康状态预测模型。

在一些实施例中,健康状态分析模块,此模块可以根据采集而来的数据作为预测模型的输入数据,调用健康状态预测模型从而得到服务器健康状态预测结果,将健康状态预测结果交由存储模块进行持久化存储,同时将预测结果输入标记预警模块用于后续操作。

在一些实施例中,标记预警模块包含异常展示功能与预警通知功能,接收健康状态分析模块的预测分析结果数据,用于对异常健康状态的服务器进行差异化展示区分不同健康状态下的服务器设备,同时可通过配置通知模板针对异常的信息向运维人员进行通知预警。

本发明的实施例提出的方案通过对服务器健康状态指标项的侧重配置,定义适用于特定用户场景下的健康状态计算方法,结合对应服务器的性能监控特征指标项数据进行健康状态预测,可以有效的提高特定场景下服务器健康状态的准备性,同时对存在潜在故障风险的服务器设备进行甄别,并进行预警。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种服务器健康评估系统400,如图3所示,包括:

配置模块401,配置为获取配置的若干个评估参数;

第一获取模块402,配置为根据若干个评估参数获取对应的历史数据;

生成模块403,配置为根据所述对应的历史数据生成对应的评估模型;

采集模块404,配置为采集待评估服务器当前的与所述评估参数对应的实时数据;

评估模块405,配置为将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,生成模块403还配置为:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括第二获取模块,配置为

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括通知模块,配置为:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

本发明的提出的技术方案可以通过采集服务器当前的设备性能监控等服务器相关健康状态特征的数据信息,结合当前的故障信息,通过用户特定场景需求自主配置服务器健康状态特征指标项,结合历史的性能监控信息与故障信息,以配置的特征指标项的历史样本数据训练构建出决策树预测模型,通过建立好的决策树预测模型对当前服务器设备进行健康状态预测,对预测的健康状态异常的设备进行标记,标识出异常健康状态的设备,提醒运维人员哪些设备存在故障风险,对存在故障风险的设备进行提早的检测排查维护,从而降低设备故障率。

基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机设备501,包括:

至少一个处理器520;以及

存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行以下步骤:

S1,获取配置的若干个评估参数;

S2,根据若干个评估参数获取对应的历史数据;

S3,根据所述对应的历史数据生成对应的评估模型;

S4,采集待评估服务器当前的与所述评估参数对应的实时数据;

S5,将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,根据所述历史数据生成对应的评估模型,进一步还包括:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括:

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

本发明的提出的技术方案可以通过采集服务器当前的设备性能监控等服务器相关健康状态特征的数据信息,结合当前的故障信息,通过用户特定场景需求自主配置服务器健康状态特征指标项,结合历史的性能监控信息与故障信息,以配置的特征指标项的历史样本数据训练构建出决策树预测模型,通过建立好的决策树预测模型对当前服务器设备进行健康状态预测,对预测的健康状态异常的设备进行标记,标识出异常健康状态的设备,提醒运维人员哪些设备存在故障风险,对存在故障风险的设备进行提早的检测排查维护,从而降低设备故障率。

在一些实施例中,如图2所示,可以通过数据采集模块、健康状态配置模块、决策树模型生成模块、健康状态分析模块、标记预警模块和特征存储模块实现本发明提出的服务器健康评估方法。

在一些实施例中,特征数据采集模块包含数据采集与数据清洗功能,数据采集用于对服务器健康状态相关的特征量进行采集,服务器健康状态特征量是可作为基于决策树算法的服务器健康状态预测模型的节点类型所对应的特征量,包含但不限于以下的性能、监控、告警数据:CPU温度、CPU利用率、内存利用率、风扇转速、电源实时功率、硬盘IOPS、网卡收发速率、电压、电流、Trap告警等。数据清洗用于对大量的特征数据进行清洗,过滤掉一些异常数据。通过采集模块采集服务器性能监控等健康状态特征数据并由特征存储模块对服务器性能数据进行存储。

这样,通过特征数据采集模块提供数据获取功能,获取服务器健康状态相关的特征量,服务器健康状态特征量是可作为基于决策树算法的服务器健康状态预测模型的节点类型所对应的特征量。

在一些实施例中,特征存储模块可以用于对服务器健康状态相的特征量进行存储,并可提供高效的特征数据查询服务。特征存储模块是一个信息储备持久化的装置,可理解为一种带有本地缓存和能够持久化数据库的一段程序,或者是具备这种功能的一种服务,缓存层可对特征数据查询提供高效查询,持久化层对特征数据以及预测结果进行持久化存储。

在一些实施例中,健康状态配置模块分类统计当前已采集的数据指标项,提供给用户自定义配置指标项以调整健康状态计算的侧重点。其通过特征存储模块分类统计当前采集的指标项,统计出各指标项异常时的故障率,为配置提供参考,同时提供健康状态指标项配置功能,通过选配影响当前特定场景健康状态的特征指标项以及指标项权重,为决策树预测生成模块提供支撑。

健康状态配置模块是一个健康状态指标管理模块,其可以对特征存储模块所存储的健康状态特征值数据进行分类统计,统计出各指标项异常时的故障率,为配置提供参考;同时提供影响健康状态的指标项配置功能,以针对某些特定场景进行指标项的侧重调整。

在一些实施例中,决策树模型生成模块,结合已配置的健康状态指标项,利用历史已采集的对应健康状态特征指标项数据,基于决策树算法建立一个服务器健康状态预测模型。

在一些实施例中,健康状态分析模块,此模块可以根据采集而来的数据作为预测模型的输入数据,调用健康状态预测模型从而得到服务器健康状态预测结果,将健康状态预测结果交由存储模块进行持久化存储,同时将预测结果输入标记预警模块用于后续操作。

在一些实施例中,标记预警模块包含异常展示功能与预警通知功能,接收健康状态分析模块的预测分析结果数据,用于对异常健康状态的服务器进行差异化展示区分不同健康状态下的服务器设备,同时可通过配置通知模板针对异常的信息向运维人员进行通知预警。

本发明的实施例提出的方案通过对服务器健康状态指标项的侧重配置,定义适用于特定用户场景下的健康状态计算方法,结合对应服务器的性能监控特征指标项数据进行健康状态预测,可以有效的提高特定场景下服务器健康状态的准备性,同时对存在潜在故障风险的服务器设备进行甄别,并进行预警。

基于同一发明构思,根据本发明的另一个方面,如图5所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行以下步骤:

S1,获取配置的若干个评估参数;

S2,根据若干个评估参数获取对应的历史数据;

S3,根据所述对应的历史数据生成对应的评估模型;

S4,采集待评估服务器当前的与所述评估参数对应的实时数据;

S5,将所述实时数据输入到所述评估模型以对所述待评估服务器的健康度进行评估。

在一些实施例中,根据所述历史数据生成对应的评估模型,进一步还包括:

将所述历史数据分成训练集和测试集;

利用所述训练集对所述评估模型进行训练并利用所述测试集对所述评估模型进行测试。

在一些实施例中,还包括:

获取所有的评估参数;

根据所有的评估参数获取相应的数据;

对所述相应的数据进行清洗后保存以作为历史数据。

在一些实施例中,还包括:

响应于所述待评估服务器的健康度小于阈值,进行差异化展示并通过预设途径进行预警。

本发明的提出的技术方案可以通过采集服务器当前的设备性能监控等服务器相关健康状态特征的数据信息,结合当前的故障信息,通过用户特定场景需求自主配置服务器健康状态特征指标项,结合历史的性能监控信息与故障信息,以配置的特征指标项的历史样本数据训练构建出决策树预测模型,通过建立好的决策树预测模型对当前服务器设备进行健康状态预测,对预测的健康状态异常的设备进行标记,标识出异常健康状态的设备,提醒运维人员哪些设备存在故障风险,对存在故障风险的设备进行提早的检测排查维护,从而降低设备故障率。

最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。

此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

技术分类

06120113792984