掌桥专利:专业的专利平台
掌桥专利
首页

基于监控指标数据的健康度评估方法

文献发布时间:2023-06-19 09:24:30


基于监控指标数据的健康度评估方法

技术领域

本发明涉及一种监控数据评估方法,尤其涉及一种基于监控指标数据的健康度评估方法。

背景技术

日益激烈的市场竞争和日益增长的客户量带来的业务支撑服务能力的提升,业务系统的压力也越来越大,那么对运行的IT基础资源可靠稳定要求也越来越高。业务应用在运行过程中发生诸如服务器性能下降、网络卡慢或者服务不可用等故障的可能性大大增加,将导致许多基本业务无法开展。为了避免业务系统不可用导致关键业务的运营受到影响,需要IT管理员能通过软、硬件设备,对可能影响业务系统可用性的因素进行持续监控,并在故障发生的第一时间通知相关人员,判断故障的根源,从而可以在最短时间内解决故障,减少业务系统停机时间,提升业务系统可用性,最终提高用户的满意度。

现有技术存在如下缺点:

1、对人的依赖性高:地市营业人员人工判断业务受理终端性能问题;

2、被动接收故障信息:仅通过客服分部接收地市一级级上报故障信息,存在汇报信息模糊和缺失情况;

3、缺少性能指标数据:故障信息无具体的性能指标,无法快速定位故障原因。

发明内容

本发明所要解决的技术问题是提供一种基于监控指标数据的健康度评估方法,能够解决现有的被动接收故障信息的运维机制,降低因终端性能问题带来的业务受理故障率。

本发明为解决上述技术问题而采用的技术方案是提供一种基于监控指标数据的健康度评估方法,包括如下步骤:S1)首先将网络、中间件、数据库和服务器作为配置项进行统一设置,建立各配置项之间的关系模型,提取关键性能指标,并按照重要等级为获取的关键性能指标设置权重;S2)根据告警规则同步设置性能指标扣分规则,根据性能指标扣分规则计算节点健康度;S3)通过节点所属的网络层级及网元等级的权重和节点健康度计算出层级健康度;S4)对系统进行分层并设置层级权重,计算系统健康度。

上述的基于监控指标数据的健康度评估方法,其中,所述步骤S1中的关键性能指标包括主机CPU、内存、磁盘IO和网络IO的使用率。

上述的基于监控指标数据的健康度评估方法,其中,所述步骤S2将业务系统的运行状态分为可用和不可用两个状态,若业务系统不可用,则业务系统关联的所有节点健康度均为0。

上述的基于监控指标数据的健康度评估方法,其中,所述业务系统关联的网络设备、中间件、数据库、主机的运维状态分为可用和不可用两个状态,如果有不可用,那么节点健康度为0。

上述的基于监控指标数据的健康度评估方法,其中,所述步骤S2采用旁路监听服务器获取Web请求、网络传输信息和服务器响应信息,并判断业务系统关联的网络设备、中间件、数据库、主机的运维状态是否可用。

上述的基于监控指标数据的健康度评估方法,其中,如果主机的运维状态为不可用,且该主机为集群中的一台主机,则将集群健康度作为节点健康度,集群中每出现一台主机不可用,则扣除一定的分数,直至节点健康度为0。

上述的基于监控指标数据的健康度评估方法,其中,所述步骤S3先判断网络层各节点的可用性,如果网络层存在不可用节点,则将该不可用节点度权重按比例均分到剩下的节点权重上。

上述的基于监控指标数据的健康度评估方法,其中,所述步骤S4中系统健康度的计算如下:

系统健康度=(网络层健康度*网络层权重+存储健康度*存储权重+主机健康度*主机权重+数据库健康度*数据库权重+中间件健康度*中间件权重)/节点权重总和。

本发明对比现有技术有如下的有益效果:本发明提供的基于监控指标数据的健康度评估方法,能够主动对用户真实体验数据进行采集解析,对业务系统性能进行主观判断,制定性能指标,通过特定公式计算终端健康度,主动式分析处理健康度低的终端,并快速定位硬件性能问题、网络问题或应用系统瓶颈,降低终端性能故障,提升用户感知;从而解决现有的被动接收故障信息的运维机制,降低因终端性能问题带来的业务受理故障率。

附图说明

图1为本发明基于监控指标数据的健康度评估流程示意图;

图2为本发明在电信运营商在线CRM业务受理系统使用示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明基于监控指标数据的健康度评估流程示意图。

请参见图1,本发明提供的基于监控指标数据的健康度评估方法,包括如下步骤:1、关键指标、可用性能指标配置;2、权重配置;3、健康度计算;4、健康度展示。

1、关键性能指标

首先将网络、中间件、数据库、服务器等作为配置项进行统一管理,根据实际需要,建立各配置项之间的关系模型。然后抽象出关键性能指标,并建立之间的关系,并设置关键点的重要等级权重。

2、可用性指标

业务系统的运行状态分为可用和不可用两个状态,健康度是建立在业务系统可用的基础上,若业务系统不可用,那么节点健康度无效,即为0。

同时,业务系统关联的网络设备、中间件、数据库、主机的运维状态分为可用和不可用两个状态,如果有不可用,那么节点健康度无效,即为0。

3、节点健康度计算

设定关键性能指标(譬如主机CPU,内存,磁盘IO,网络IO)和权重(例如CPU使用率的权重为25,内存为25,磁盘为25,网络IO为25)。

设置性能指标扣分规则,可和告警规则同步设置,例如告警20分,严重扣50分,致命扣100分。

性能指标=(指标1扣分*指标1权重+指标N扣分*指标N权重)/权重总和。

例如CPU使用率发生了严重告警,这台机器的性能指标扣分为:

性能指标扣分=(50*25+0+0+0)/(25+25+25+25)=12.5分;

健康分=100-12.5=87.5分;

设置可用性指标扣分规则,不可用整个设备直接扣100分。

比如主机不可用,出现宕机;

健康度=100-100=0分。

集群可调整设置,高可用集群,一台当掉,扣50分;

高可用集群的健康度=100-50=50分;

健康度的算法:最低0分,扣完为止;

健康度=100-可用性指标扣分-性能指标扣分。

4、层级的健康度算法

网络层次健康度算法在原网络层次健康度的基础之上乘以可用设备的权重比例,即在不可用设备比较多时健康度下降较快。通过节点(网络设备、中间件、数据库等)所属的网络层级及网元等级的权重和节点健康度计算出层级健康度。网元是网络管理中可以监视和管理的最小单位,由一个或多个机盘或机框组成,能够独立完成一定的传输功能。

首先通过节点可用性指标判断节点是否可用,假如网络层四个节点,有一个节点不可用,不可用节点度权重,将按比例均分到剩下的节点权重上,剩下的节点权重占总权重就更重了,再一个节点不可用用继续按比例均分到剩下的节点权重上,以次类推,即:层级可用性=1-[总权重/n+总权重/(n-1)+总权重/(n-2)+总权重+…]/总权重;然后,通过计算公式,算出层级健康度,即:

网络层健康度=(节点1健康度*节点1权重+节点N健康度*节点N权重)/(节点权重总和)。

5、系统健康度算法

对系统进行分层计算(网络层,存储,主机,中间件,数据库),并设置层级权重,例如网络层权重100,存储60,主机80,中间件60,数据库70,那么

系统健康度=(网络层健康度*网络层权重+存储健康度*存储N权重+主机健康度*主机权重+数据库健康度*数据库权重+中间件健康度*中间件权重)/(节点权重总和)。

本发明在电信运营商在线CRM业务受理系统的使用如图2所示,通过对终端流量数据进行实时的网络旁路监听,能够主动对用户真实体验数据进行采集解析,对业务系统性能进行主观判断,制定性能指标,通过特定公式计算终端健康度,主动式分析处理健康度低的终端,并快速定位硬件性能问题、网络问题或应用系统瓶颈,比如页加载时间告警、服务器响应时间告警、网络相应时间告警等问题,降低终端性能故障,提升用户感知;从而解决现有的被动接收故障信息的运维机制,降低因终端性能问题带来的业务受理故障率。

虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

相关技术
  • 基于监控指标数据的健康度评估方法
  • 基于扩散图数据降维技术的风力发电机组健康度评估方法
技术分类

06120112153248