掌桥专利:专业的专利平台
掌桥专利
首页

一种基于指标的告警方法、装置及计算机系统

文献发布时间:2023-06-19 10:46:31


一种基于指标的告警方法、装置及计算机系统

技术领域

本发明涉及数据监控领域,尤其涉及一种基于指标的告警方法、装置及计算机系统。

背景技术

随着互联网的发展,企业的后台系统每天能够产生数千万条指标序列,这些指标序列反映了系统当前的运行状况、业务状况等。其中有指示系统运行正常的指标,也包括由于日常发布、硬件故障、网络故障或者恶意访问等情况导致的指示系统异常的指标。

现有技术中通常通过基于阈值的告警系统识别异常指标,例如当某一指标的个数超过对应的预设阈值时,向相关的负责人发送告警信号。然而,当存在数量庞大的指标时,系统的运维人员没有办法为每个指标都设置对应的阈值,只能批量性地设置阈值,导致经常发生误报,相应的负责人由于接收到海量的误报消息,没有精力一一进行处理,导致真正发生异常时的告警信号也被忽略。

发明内容

为了解决现有技术的不足,本发明的主要目的在于提供一种基于指标的告警方法、装置及计算机系统,以解决现有技术的上述问题。

为了达到上述目的,第一方面本发明提供了一种基于指标的告警方法,所述方法包括:

获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;

当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;

使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;

根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;

当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常。

在一些实施例中,所述方法包括:

获取所述指标标签对应的第二历史指标,所述第二历史指标包括所述采集时间前预设时间段内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

根据所述指标类型对应的计算规则以及所述第二历史指标计算得到第二基线值;

使用第一预设模型根据所述第二历史指标预测所述待检测指标在所述采集时间对应的第二正常值阈值;

根据所述第二基线值及所述第二正常值阈值,生成所述第二历史指标对应的第二目标基线;

所述当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常包括:

当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,确定所述待检测指标存在异常。

在一些实施例中,所述当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,确定所述待检测指标存在异常包括:

当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,生成所述指标标签对应的异常值记录;

获取所述采集日期前预设天数内所述指标标签的异常值记录;

当所述预设天数内所述指标标签的异常值记录的数量超过对应的预设阈值时,确定所述待检测指标存在异常并发出告警信号。

在一些实施例中,所述根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值包括:

当所述待检测指标对应的指标类型是平稳型时,根据所述第一历史指标对应的历史指标值的均值生成第一基线值;

当所述待检测指标对应的指标类型是离散型时,根据所述第一历史指标对应的历史指标值的预设分位值生成第一基线值。

在一些实施例中,所述根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线包括:

根据所述第一基线值及所述第一正常值阈值,生成第一目标基线值;

根据所述第一目标基线值及预设波动范围倍率,生成第一目标基线。

在一些实施例中,所述确定所述待检测指标存在异常并发出告警信号包括:

向预设告警系统发送告警信号,所述告警消息包括待检测指标;

所述预设告警系统根据所述待检测指标匹配相应的告警目标,根据预设的告警模板生成告警消息并发送至所述告警目标。

在一些实施例中,当所述待检测指标对应的指标类型是周期型时,所述方法包括:

获取所述待检测指标在所述采集时间对应的预测指标值,所述预测指标值由第二预设模型根据第三历史指标预测得到,所述第三历史指标包括第三历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

生成所述待检测指标值与所述预测指标值的偏差值;

计算所述采集时间前预设时间段内采集的所述待检测指标对应的指标值的标准差;

当所述标准差与所述偏差值不满足预设条件时,确定所述待检测指标存在异常。

第二方面,本申请提供了一种基于指标的告警装置,所述装置包括:

获取模块,用于获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;及当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

计算模块,用于根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;

预测模块,用于使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;

生成模块,用于根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;

判断模块,用于当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常。

在一些实施例中,所述获取模块还可用于获取所述指标标签对应的第二历史指标,所述第二历史指标包括所述采集时间前预设时间段内采集的所述指标标签对应的历史指标值及对应的历史采集时间;所述计算模块还可用于根据所述指标类型对应的计算规则以及所述第二历史指标计算得到第二基线值;所述预测模块还可用于使用第一预设模型根据所述第二历史指标预测所述待检测指标在所述采集时间对应的第二正常值阈值;所述生成模块还可用于根据所述第二基线值及所述第二正常值阈值,生成所述第二历史指标对应的第二目标基线;所述处理模块还可用于当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,确定所述待检测指标存在异常。

第三方面,本申请提供了一种计算机系统,所述系统包括:

一个或多个处理器;

以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:

获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;

当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;

使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;

根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;

当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常。

本发明实现的有益效果为:

本申请提出了一种基于指标的告警方法,包括获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常,本申请通过根据历史指标计算得到基线值及正常值阈值,然后根据这两个值得到目标基线,实现了指标是否异常的判断规则基于已有的记录动态调整,相较于现有技术中的固定阈值方法提升了异常识别的准确率,降低了异常误报率;

进一步地,本申请针对根据待检测指标的指标类型设置了不同的算法进行异常检测,避免了指标值的时序性特征对异常指标的检测造成影响,进一步提升了检测结果的准确性;

针对平稳型和离散型指标,本申请还通过第一历史时间周期内采集的第一历史指标和采集时间前预设时间段内采集的第二历史指标分别生成相应的目标基线,使得异常指标的检测标准的指定考虑到了同比和环比的指标数据,进一步提升了检测的准确性。

本发明所有产品并不需要具备上述所有效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的告警系统架构图;

图2是本申请实施例提供的周期型指标波动示意图;

图3是本申实施例提供的平稳型指标波动示意图;

图4是本申请实施例提供的离散型指标波动示意图;

图5是本申请实施例提供的方法流程图;

图6是本申请实施例提供的装置结构图;

图7是本申请实施例提供的计算机系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如背景技术所述,现有技术中基于阈值的告警系统识别异常指标需要对每个指标手动设置对应的阈值。当指标量很大时,设置每个指标的阈值将需要大量的时间成本,如果采用批量设置的方法则会导致设置的指标阈值不准确,导致误报或漏报。

为解决上述技术问题,本申请提出了一种基于指标的告警方法,根据指标对应的指标类型采用不同的算法得到相应的异常检测条件,然后基于相应的异常检测条件判断指标值是否存在异常,提升了异常检测的准确性,降低了误报率和漏报率。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

图1示出了本申请实施例提供的指标值采集和监控系统架构图。如图1所示,APPServer可定时采集系统的指标,每个指标具有相应的名称、标签、指标值及对应的采集时间,并通过本机代理传输至Kafka流处理平台,Kafka流处理平台接收并存储至MetricsKafka。指标检测过滤器可根据指标名称和标签等数据对存储的每个指标进行匹配,识别指标对应的指标类型并分配至对应的一种或多种检测算法进行实时异常检测。指标检测过滤器可支持匹配黑名单,对黑名单内包含的指标不进行异常检测。指标检测过滤器还可基于指标名称或标签进行精确匹配、正则匹配、前缀匹配、后缀匹配等多种方法等方法的匹配,以便匹配指标与检测算法,也可基于标签所属的域的部署类型或重要程度进行检测算法与指标的匹配。

每一检测算法具有相应的检测器,检测器包括阈值检测器和变化率检测器,阈值检测器包括相应的阈值算法和是否异常的判断规则。

阈值算法可用于预测指标值的正常取值范围对应的取值阈值,然后根据判断规则对取值阈值和待检测指标进行计算和对比,以确定是否存在异常。阈值算法包括指数加权移动平均算法(EWMA)、指数平滑算法(HOLTWINTER)、四分位算法、DBSCAN聚类算法中的一种或多种。

指标类型可包括周期型、平稳型和离散型。如图2所示,周期型指标的指标值每天或每周随着时间的变化而呈周期型变化,且每天或者每周的指标值同一时间点时指标值的变化趋势基本相同。由于这种类型的指标值变化趋势满足正态分布,可获取这种类型的指标的预设天数内每个时间点的指标值对模型进行训练拟合,训练拟合后得到的模型可以预测每天的每个时间点的预测指标值。其中,所述模型可以基于加权移动平均算法(EWMA)或指数平滑算法(HOLTWINTER)得到。

如图3所示,平稳型指标是指在一天中超过对应的预设时间段内指标值的变化率不超过对应的预设阈值的指标,当这类指标的指标值出现大的波动的时候即说明出现了异常。针对平稳型指标,可以使用包括四分位算法的检测器或是变化率检测器。

如图4所示,离散型指标时值在一天中指标值的变化是间断的、指标值没有规律的指标,这类指标的指标值出现如图4中的尖锋点的变化就代表指标值出现了异常。

具体的,使用检测器进行异常检测的过程包括:

步骤一、获取待检测指标,所述待检测指标包括待检测指标值、指标标签及采集时间;

所述采集时间包括采集时的采集日期及采集时间段。其中采集日期包括所述采集日期在一周中的第几天,采集时间段包括采集时刻,可以是一个时间点,也可以是一个连续的时间段。

当获取到待检测指标时,可以通过Flink流处理框架将检测任务切分成预设数量的子任务并分配给对应的处理端执行,子任务可调用相应的检测器进行异常检测。

步骤二、当指标类型是平稳型时,使用平稳型对应的检测器进行异常检测;

当指标类型是平稳型时,检测器可以是变化率检测器、简单指数检测器、简单指数平滑四分位检测器、简单指数平滑聚类检测器和四分位检测器中的一个或多个。

其中,变化率检测器可以从环比和同比两个角度分别计算对应的基线。

变化率检测器进行平稳型指标的异常检测过程包括:

A1、计算同比目标基线;

获取采集日期前的预设天数内采集的第一历史指标值,计算这些指标值的均值作为第一基线值。然后通过预设模型根据这些指标值预测采集时间对应的指标值的第一正常值阈值。正常值阈值可以包括预测的正常值最大值和最小值,即代表当待检测指标的指标值在正常值最大值和正常值最小值之间时待检测指标不存在异常。根据第一基线值和第一正常值阈值可以生成最终的第一目标基线值。例如,可以对第一基线值、第一正常值阈值包含的正常值最大值和最小值取平均值、中位值等得到第一目标基线值。第一目标基线包括(value-mean)/mean>up和(value-mean)/mean

A2、计算环比目标基线,根据采集时间前连续的一段时间段内的采集的指标值,计算这些指标值的均值作为第二基线值。然后通过预设模型根据这些指标值预测采集时间对应的指标值的第二正常值阈值。根据第二基线值和第二正常值阈值可以生成最终的第二目标基线值,根据第二目标基线值和预设的波动范围倍率可以得到第二目标基线。

A3、根据同比目标基线和环比目标基线,确定待检测指标值是否存在异常;

当待检测指标值满足(value-mean)/mean>up时,说明待检测指标值发生了突增的异常,当满足(value-mean)/mean

简单指数平滑四分位检测器进行平稳型指标的异常检测过程包括:

B1、使用EWMA算法根据第三历史指标值预测待检测指标在所述采集时间对应的预测指标值;

可以通过预设的Python训练任务根据第三历史指标值训练EWMA算法,以便EWMA算法预测待检测指标在所述采集时间对应的预测指标值。

所述预测指标值是指EWMA算法预测的待检测指标在采集时间的指标值。

EWMA算法的公式可以以S

B2、计算待检测指标值与预测值的差值及采集时间前预设时间段内采集的待检测指标对应的所有指标值的标准差,并对差值和标准差进行Z-score归一化操作,获得归一化后的差值和标准差。

B3、通过四分位算法计算得到采集时间前预设时间段内采集的待检测指标的指标值的75分位值p75、25分位值p25和IQR;

其中,IQR=p75-p25。当归一化后的差值与归一化后的标准差的比值超过IQR的预设倍数时,确定待检测指标值存在异常。其中,所述预设倍数可以是最大升高倍率或最大降低倍率。

四分位检测器进行平稳型指标的异常检测过程包括:

通过四分位算法计算得到采集时间前预设时间段内采集的待检测指标的指标值的75分位值p75、25分位值p25和IQR,其中,IQR=p75-p25。

当待检测指标值value>q75+k*IQR或待检测指标值value

简单指数平滑聚类检测器进行平稳型指标的异常检测过程包括:

C1、使用EWMA算法根据第三历史指标值预测待检测指标在所述采集时间对应的预测指标值;

C2、计算待检测指标值与预测值的差值及采集时间前预设时间段内采集的待检测指标对应的所有指标值的标准差,并对差值和标准差进行Z-score归一化操作,获得归一化后的差值和标准差;

C3、使用DBSCAN算法根据归一化后的差值和标准差检测是否存在异常。

简单指数检测器进行平稳型指标的异常检测过程包括:

D1、使用EWMA算法根据第三历史指标值预测待检测指标在所述采集时间对应的预测指标值;

D2、计算待检测指标值与预测值的差值及采集时间前预设时间段内采集的待检测指标对应的所有指标值的标准差,并对差值和标准差进行Z-score归一化操作,获得归一化后的差值和标准差;

D3、当差值除以标准差的结果值超过预设最高值或低于预设最低值时,判断待检测指标值存在异常。

步骤三、当指标类型是离散型时,使用离散型对应的检测器进行异常检测;

离散型对应的检测器可以包括变化率检测器、DBSCAN检测器和固定阈值检测器。

变化率检测器对离散型指标进行异常检测的过程与包括:

E1、计算同比目标基线;

获取采集日期前的预设天数内采集的第一历史指标值,计算这些指标值的分位值作为第一基线值。优选的,可以首先确定预设天数内每日中的指标值的预设分位值。其中,所述预设分位值可以根据预设的异常值容忍上限确定,例如指标值允许每天产生不超过十分钟的异常时,可以将90分位值作为预设分位值。在计算得到每天的预设分位值时,可以随机取其中一个分位值作为第一基线值,或者取其中第预设天的分位值作为第一基线值。然后通过预设模型根据这些指标值预测采集时间对应的预设指标值的第一正常值阈值。正常值阈值可以包括预测的正常值最大值和最小值,即代表当待检测指标的指标值在正常值最大值和正常值最小值之间时待检测指标不存在异常。根据第一基线值和第一正常值阈值可以生成最终的第一目标基线值,根据第一目标基线值和预设的波动范围倍率可以得到第一目标基线。所述波动范围倍率包括最大升高倍率和最大降低倍率。

E2、计算环比目标基线,根据采集时间前连续的一段时间段内的采集的指标值,计算这些指标值的预设分位值作为第二基线值。然后通过预设模型根据这些指标值预测采集时间对应的指标值的第二正常值阈值。根据第二基线值和第二正常值阈值可以生成最终的第二目标基线值,根据第二目标基线值和预设的波动范围倍率可以得到第二目标基线。

E3、根据同比目标基线和环比目标基线,确定待检测指标值是否存在异常;

目标基线包括(value-mean)/mean>up和(value-mean)/meanup时,说明待检测指标值发生了突增的异常,当满足(value-mean)/mean

固定阈值检测器包括对应的预设阈值,包括最大值和最小值。当待检测指标值高于对应的最大值或低于最小值时,判断待检测指标值出现异常。

DBSCAN检测器可根据历史指标值训练得到参数EPS和正常分类最小指标数,参数EPS表示合理的指标距离。然后根据EPS和正常分类最小指标数确定待检测指标值是否存在异常。具体的,DBSCAN检测器将历史指标值和待检测指标值根据是否小于EPS进行分类,将小于EPS的分为一类,不小于EPS的分为另一类。当待检测指标值所在的分类包含的指标的数量小于正常分类最小指标数时,确定待检测指标存在异常。

步骤四、当待检测指标是周期型指标时,使用周期型指标对应的检测器进行异常检测;

周期型对应的检测器可以包括HoltWinter检测器、简单指数检测器、简单指数平滑四分位检测器和简单指数平滑聚类检测器中的一个或多个。

HoltWinter检测器对周期型指标进行异常检测的过程包括:

F1、使用HoltWinter算法根据第三历史指标值预测待检测指标在所述采集时间对应的预测指标值;

F2、计算待检测指标值与预测值的差值及采集时间前预设时间段内采集的待检测指标对应的所有指标值的标准差,并对差值和标准差进行Z-score归一化操作,获得归一化后的差值和标准差;

F3、当差值除以标准差的结果值超过预设最高值或低于预设最低值时,判断待检测指标值存在异常。

简单指数检测器、简单指数平滑四分位检测器、简单指数平滑聚类检测器对周期型指标进行异常检测的过程与对平稳型指标进行异常检测的过程相同,本申请不再赘述。

当待检测指标是周期型指标时,还可对待检测指标值、第一历史指标值和第二历史指标值进行处理,去除周期型变化对所有指标值的影响,生成处理后待检测指标值、第一历史指标值和第二历史指标值,然后采用平稳型指标对应的检测器对待检测指标值进行异常检测。

步骤五、当判断待检测指标值存在异常时,生成异常值记录;

异常值记录可存储至ES分布式文档数据库中。当采集日期前预设天数内该采集时间段内待检测指标也存在异常值记录且数量超过预设的数量阈值时,输出包含待检测指标的异常消息至告警Kafka,告警Kafka通过FLINK将告警消息发送至分布式服务通信框架PIGEON,分布式服务通信框架PIGEON根据预设的告警模板生成告警消息,并发送至预设的负责人,以便负责人进行处理。

检测人员可通过Grafana算法提供的dashboard监控界面监控每个检测器的检测结果,以便检测人员对算法和检测器进行优化。

待检测指标值可以作为训练数据存储到M3DB数据集群中,M3DB集群提供相应的HTTP接口供检测子任务拉取相应的训练数据。

实施例二

对应上述实施例,本申请提供了一种基于指标的告警方法,如图5所示,所述方法包括:

510、获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;

520、当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

530、根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;

优选的,所述根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值包括:

531、当所述待检测指标对应的指标类型是平稳型时,根据所述第一历史指标对应的历史指标值的均值生成第一基线值;

532、当所述待检测指标对应的指标类型是离散型时,根据所述第一历史指标对应的历史指标值的预设分位值生成第一基线值。

540、使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;

550、根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;

优选的,所述根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线包括:

551、根据所述第一基线值及所述第一正常值阈值,生成第一目标基线值;

552、根据所述第一目标基线值及预设波动范围倍率,生成第一目标基线。

560、当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常。

优选的,所述方法包括:

570、获取所述指标标签对应的第二历史指标,所述第二历史指标包括所述采集时间前预设时间段内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

571、根据所述指标类型对应的计算规则以及所述第二历史指标计算得到第二基线值;

572、使用第一预设模型根据所述第二历史指标预测所述待检测指标在所述采集时间对应的第二正常值阈值;

573、根据所述第二基线值及所述第二正常值阈值,生成所述第二历史指标对应的第二目标基线;

所述当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常包括:

574、当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,确定所述待检测指标存在异常。

优选的,所述当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,确定所述待检测指标存在异常包括:

575、当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,生成所述指标标签对应的异常值记录;

576获取所述采集日期前预设天数内所述指标标签的异常值记录;

577、当所述预设天数内所述指标标签的异常值记录的数量超过对应的预设阈值时,确定所述待检测指标存在异常并发出告警信号。

优选的,所述确定所述待检测指标存在异常并发出告警信号包括:

578、向预设告警系统发送告警信号,所述告警消息包括待检测指标;

579、所述预设告警系统根据所述待检测指标匹配相应的告警目标,根据预设的告警模板生成告警消息并发送至所述告警目标。

优选的,当所述待检测指标对应的指标类型是周期型时,所述方法包括:

580、获取所述待检测指标在所述采集时间对应的预测指标值,所述预测指标值由第二预设模型根据第三历史指标预测得到,所述第三历史指标包括第三历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

581、生成所述待检测指标值与所述预测指标值的偏差值;

582、计算所述采集时间前预设时间段内采集的所述待检测指标对应的指标值的标准差;

583、当所述标准差与所述偏差值不满足预设条件时,确定所述待检测指标存在异常。

实施例三

对应上述实施例,本申请提供了一种基于指标的告警装置,如图6所示,所述装置包括:

获取模块610,用于获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;及当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

计算模块620,用于根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;

预测模块630,用于使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;

生成模块640,用于根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;

判断模块650,用于当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常。

优选的,所述获取模块610还可用于当所述待检测指标对应的指标类型是周期型时,获取所述待检测指标在所述采集时间对应的预测指标值,所述预测指标值由第一预设模型根据第三历史指标预测得到,所述第三历史指标包括第三历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间,及当所述待检测指标是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述生成模块640还可用于生成所述待检测指标值与所述预测指标值的偏差值及所述待检测指标值的标准差,所述判断模块650还可用于当所述标准差与所述偏差值不满足预设条件时,确定所述待检测指标存在异常。

优选的,所述获取模块610还可用于获取所述指标标签对应的第二历史指标,所述第二历史指标包括所述采集时间前预设时间段内采集的所述指标标签对应的历史指标值及对应的历史采集时间;所述计算模块620还可用于根据所述指标类型对应的计算规则以及所述第二历史指标计算得到第二基线值;所述预测模块630还可用于使用第一预设模型根据所述第二历史指标预测所述待检测指标在所述采集时间对应的第二正常值阈值;所述生成模块640还可用于根据所述第二基线值及所述第二正常值阈值,生成所述第二历史指标对应的第二目标基线;所述判断模块650还可用于当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,确定所述待检测指标存在异常。

优选的,所述处理模块650还可用于当所述待检测指标值不满足所述第一目标基线及所述第二目标基线时,生成所述指标标签对应的异常值记录;获取所述采集日期前预设天数内所述指标标签的异常值记录;当所述预设天数内所述指标标签的异常值记录的数量超过对应的预设阈值时,确定所述待检测指标存在异常并发出告警信号。

优选的,所述计算模块620还可用于当所述待检测指标对应的指标类型是平稳型时,根据所述第一历史指标对应的历史指标值的均值生成第一基线值;当所述待检测指标对应的指标类型是离散型时,根据所述第一历史指标对应的历史指标值的预设分位值生成第一基线值。

优选的,所述生成模块640还可用于根据所述第一基线值及所述第一正常值阈值,生成第一目标基线值;根据所述第一目标基线值及预设波动范围倍率,生成第一目标基线。

优选的,所述生成模块还可用于生成归一化后的所述标准差及所述偏差值;所述判断模块650还可用于当归一化后的所述标准差与所述偏差值的比值不满足对应的条件时,确定所述待检测指标存在异常。

优选的,所述处理模块650还可用于向预设告警系统发送告警信号,所述告警消息包括待检测指标;所述预设告警系统根据所述待检测指标匹配相应的告警目标,根据预设的告警模板生成告警消息并发送至所述告警目标。

实施例四

对应上述方法及装置,本申请实施例提供一种计算机系统,包括:

一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:

获取待检测指标,所述待检测指标包括待检测指标值、采集时间及对应的指标标签;

当所述待检测指标对应的指标类型是平稳型或离散型时,获取所述指标标签对应的第一历史指标,所述第一历史指标包括第一历史时间周期内采集的所述指标标签对应的历史指标值及对应的历史采集时间;

根据所述指标类型对应的计算规则以及所述第一历史指标计算得到第一基线值;

使用第一预设模型根据所述第一历史指标预测所述待检测指标在所述采集时间对应的第一正常值阈值;

根据所述第一基线值及所述第一正常值阈值,生成所述第一历史指标对应的第一目标基线,所述目标基线包括预测的所述待检测指标在所述采集时间对应的指标值的正常取值范围;

当所述待检测指标值不满足所述第一目标基线时,确定所述待检测指标存在异常。

其中,图7示例性的展示出了计算机系统的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。

其中,处理器1510可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521,用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)1522。另外,还可以存储网页浏览器1523,数据存储管理1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。

另外,该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。

需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于指标的告警方法、装置及计算机系统
  • 一种告警阈值生成方法、业务性能指标监控方法及装置
技术分类

06120112669379