掌桥专利:专业的专利平台
掌桥专利
首页

告警分析方法及装置

文献发布时间:2023-06-19 13:46:35


告警分析方法及装置

技术领域

本发明涉及告警技术领域,特别涉及一种告警分析方法及装置。

背景技术

随着分布式架构的广泛应用,联机交易时调用链的监控技术被广泛应用,调用链是指在分布式系统中,用户的一个联机交易请求会依次经过不同的服务节点进行处理,处理完成后再返回给用户,这些依次调用的过程组成了调用链。

对调用链进行监控可以及时得知交易的情况,通常交易在出现异常时便会进行告警,但有些异常无需一出现便进行告警,出现异常便立刻告警的方式会使系统进行告警的次数增多,使得运维人员需要对系统投入大量的关注度,增加了运维人员的工作量,降低了运维人员的工作效率。

发明内容

有鉴于此,本发明提供一种告警分析方法及装置,可以有效的减少系统进行告警的次数,避免系统进行误告警,减少运维人员投入的关注度以及工作连,降低运维人员的工作效率。

为实现上述目的,本发明实施例提供如下技术方案:

本申请第一方面公开一种告警分析方法,包括:

在监测到系统发生交易告警的情况下,确定与所述交易告警对应的调用链;

基于所述调用链的异常指标信息对所述交易告警进行分析,确定所述交易告警的告警类型是否为调用链异常根因告警;

在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与所述交易告警对应的告警提示信息;

在确定所述交易告警的告警类型不为调用链异常根因告警时,确定所述系统连续发生所述交易告警的告警次数是否大于或等于预设的告警阈值,并在确定所述系统连续发生所述交易告警的告警次数大于或等于所述告警阈值时,向所述运维人员发送与所述交易告警对应的告警提示信息。

上述的方法,可选的,所述确定与所述交易告警对应的调用链,包括:

对所述交易告警进行解析,获取所述交易告警中的交易标识;

在所述系统中确定与所述交易标识对应的业务;

将所述业务的调用链确定为与所述交易告警对应的调用链。

上述的方法,可选的,所述基于所述调用链的异常指标信息对所述交易告警进行分析,确定所述交易告警的告警类型是否为调用链异常根因告警,包括:

基于所述异常指标信息,确定所述调用链的各个监控指标;

获取所述交易告警中的告警信息;

将所述告警信息与各个所述监控指标进行对比,确定各个所述监控指标中是否存在与所述告警信息对应的监控指标;

若各个所述监控指标中存在与所述告警信息对应的监控指标,则确定所述交易告警的告警类型为调用链异常根因告警;

若各个所述监控指标中不存在与所述告警信息对应的监控指标,则确定所述交易告警的告警类型不为调用链异常根因告警。

上述的方法,可选的,所述确定所述系统连续发生所述交易告警的告警次数是否大于或等于预设的告警阈值,包括:

确定所述系统中的告警记录,并基于所述告警记录确定系统连续发生所述交易告警的告警次数;

将所述告警次数与所述告警阈值进行比对,以判断所述告警次数是否大于或等于所述告警阈值。

上述的方法,可选的,还包括:

当所述告警次数不大于或等于所述告警阈值时,禁止所述运维人员发送与所述交易告警对应的告警信息。

本申请第二方面公开一种告警分析装置,包括:

确定单元,用于在监测到系统发生交易告警的情况下,确定与所述交易告警对应的调用链;

分析单元,用于基于所述调用链的异常指标信息对所述交易告警进行分析,确定所述交易告警的告警类型是否为调用链异常根因告警;

第一发送单元,用于在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与所述交易告警对应的告警提示信息;

第二发送单元,用于在确定所述交易告警的告警类型不为调用链异常根因告警时,确定所述系统连续发生所述交易告警的告警次数是否大于或等于预设的告警阈值,并在确定所述系统连续发生所述交易告警的告警次数大于或等于所述告警阈值时,向所述运维人员发送与所述交易告警对应的告警提示信息。

上述的装置,可选的,所述确定单元,包括:

解析子单元,用于对所述交易告警进行解析,获取所述交易告警中的交易标识;

第一确定子单元,用于在所述系统中确定与所述交易标识对应的业务;

第二确定子单元,用于将所述业务的调用链确定为与所述交易告警对应的调用链。

上述的装置,可选的,所述分析单元,包括:

第三确定子单元,用于基于所述异常指标信息,确定所述调用链的各个监控指标;

获取子单元,用于获取所述交易告警中的告警信息;

对比子单元,用于将所述告警信息与各个所述监控指标进行对比,确定各个所述监控指标中是否存在与所述告警信息对应的监控指标;

第四确定子单元,用于若各个所述监控指标中存在与所述告警信息对应的监控指标,则确定所述交易告警的告警类型为调用链异常根因告警;

第五确定子单元,用于若各个所述监控指标中不存在与所述告警信息对应的监控指标,则确定所述交易告警的告警类型不为调用链异常根因告警。

上述的装置,可选的,所述第二发送单元,包括:

第六确定子单元,用于确定所述系统中的告警记录,并基于所述告警记录确定系统连续发生所述交易告警的告警次数;

判断子单元,用于将所述告警次数与所述告警阈值进行比对,以判断所述告警次数是否大于或等于所述告警阈值。

上述的装置,可选的,还包括:

禁止单元,用于当所述告警次数不大于或等于所述告警阈值时,禁止所述运维人员发送与所述交易告警对应的告警信息。

与现有技术相比,本发明具有以下优点:

本发明提供一种告警分析方法及装置,该方法包括:在监测到系统发生交易告警的情况下,确定与交易告警对应的调用链;基于调用链的异常指标信息对交易告警进行分析,确定交易告警的告警类型是否为调用链异常根因告警;在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与交易告警对应的告警信息;在确定交易告警的告警类型不为调用链异常根因告警时,确定系统连续发生交易告警的告警次数是否大于或等于预设的告警阈值,并在确定系统连续发生交易告警的告警次数大于或等于告警阈值时,向运维人员发送与交易告警对应的告警信息。本发明通过对交易告警进行分析,在交易告警的告警类型为预设的告警类型时,向运维人员发送告警信息;当交易告警的告警类型不为对应的告警类型,且系统连续发生交易告警的告警次数大于或等于预设的告警阈值时,向运维人员发送告警信息,由此可以有效减少系统向运维人员进行告警的次数,从而可以减少运维人员对系统的关注度,降低了运维人员的工作量,提高运维人员的工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种告警分析方法的方法流程图;

图2为本发明实施例提供的一种告警分析方法的另一方法流程图;

图3为本发明实施例提供的一种告警分析方法的又一方法流程图;

图4为本发明实施例提供的一种告警分析方法的再一方法流程图;

图5为本发明实施例提供的一种告警分析装置的结构示意图;

图6为本发明实施例提供的一种电子介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本发明的执行主体可以为分布式系统中的处理器或是服务器,具体的,本发明中的分布式系统具体如银行系统。

参照图1,为本发明实施例提供的一种告警分析方法的方法流程图,具体说明如下所述:

S101、在监测到系统发生交易告警的情况下,确定与交易告警对应的调用链。

分布式系统中设置有监控系统发生交易告警的监控模块,该模块实时监控系统是否发生交易告警。

系统提供多项业务,不同的业务对应不同的调用链,因此,系统中包含多条调用链。在检测到系统发生交易告警的情况下,需要确定与该交易告警对应的调用链。

参照图2,为本发明另一实施例提供的确定与交易告警对应的调用的方法流程图,具体说明如下所述:

S201、对交易告警进行解析,获取交易告警中的交易标识。

交易标识具有唯一性,交易告警中除了包含交易标识外,还包括告警时间、交易时长、交易请求时间以及交易响应时间等等。交易标识用于确定该交易告警所属的具体业务。

S202、在系统中确定与交易标识对应的业务。

确定系统中每个业务的业务标识,将每个业务标识与交易标识进行对比,并将与交易标识一致的业务标识所属的业务确定为与该交易标识对应的业务,换言之,与交易标识一致的业务标识所属的业务即为交易告警所对应的业务。

S203、将业务的调用链确定为与交易告警对应的调用链。

每个业务都存在对应的调用链,将业务的调用链确定为与交易告警对应的调用链。

本发明实施例提供的方法中,通过使用交易标识确定与交易告警对应的业务,并将该业务的调用链作为交易告警对应的调用链;通过使用交易标识,可以在系统海量的调用链中准确的确定出现告警的调用链,为系统确定出向告警的调用链提供了一种便捷、快速的方式,提高了系统的工作效率。

S102、基于调用链的异常指标信息对交易告警进行分析,确定交易告警的告警类型是否为调用链异常根因告警;若确定交易告警的告警类型为调用链异常根因告警时,执行S103;若确定交易告警的告警类型不为调用链异常根因告警时,执行S104。

需要说明的是,交易告警的告警类型可分为两种,一种是调用链异常根因告警,另一种是非调用链异常根因告警,其中,由调用链异常根因导致的告警可称为调用链异常根因告警,进一步的,导致调用链发生异常的根本原因称为调用链异常根因。

不同的调用链的异常指标信息的内容是不同的,异常指标信息中包含了调用链的调用链异常根因的信息。

参照图3,为本发明另一实施例提供的基于异常指标信息对交易告警进行分析,确定交易告警的告警类型是否为调用链异常根因告警的方法流程图,具体说明如下所述:

S301、基于异常指标信息,确定调用链的各个监控指标。

对异常指标信息进行解析,以获取调用链的各个监控指标,各个监控指标为调用链的调用链异常根因的指标,可以通过监控指标确定交易告警的告警类型是否为调用链异常根因告警。

监控指标包括但不限于系统服务指标、业务逻辑指标等等,其中,系统服务指标中包含由系统服务本身异常导致交易报错的指标,业务逻辑指标中包含有业务逻辑出错导致的交易报错的指标。优选的,还可以根据系统服务指标确定系统成功率以及业务成功率等等,其中,在出现与系统服务本身异常导致的交易报错时会导致系统功率下降;在出现因业务逻辑导致的交易不成功的情况时,会导致业务成功下降,进一步的,应业务逻辑导致的交易不成功的情况具体如进行支付业务时因余额不足导致的交易失败的情况。

监控指标由调用链异常根因的信息组成,监控指标和调用链异常根因一一对应,每个监控指标中包含与其对应的调用链异常根因的信息。

S302、获取交易告警中的告警信息。

对交易告警进行解析,以便获取交易告警中的告警信息,其中,告警信息中包含交易进行告警的原因,具体如交易响应时长超时、交易处理时长超时、交易逻辑出错等具体信息。交易告警中的告警信息根据交易在出现异常时生成具体的异常信息。

S303、将告警信息与各个监控指标进行对比,确定各个监控指标中是否存在与告警信息对应的监控指标;若各个监控指标中存在与告警信息对应的监控指标,则执行S304;若各个监控指标中不存在与告警信息对应的监控指标,则执行S305。

将告警信息与每个监控指标都进行比对,进而确定各个监控指标中是否存在与告警信息对应的监控指标,进一步的,在各个监控指标中存在与告警信息对应的监控指标时,表征引起该告警信息中包含与该监控指标所对应的调用链异常根因的信息,由此可以确定该交易告警是由于调用链的根本原因而导致的异常告警。

S304、确定交易告警的告警类型为调用链异常根因告警。

S305、确定交易告警的告警类型不为调用链异常根因告警。

本发明实施例提供的方法中,基于调用链的各个监控指标,可以准确的确定交易告警的告警类型,并基于告警类型执行对应的操作。

S103、向运维人员发送与交易告警对应的告警提示信息。

在确定交易告警的告警类型为调用链异常根因告警时,可直接向运维人员发送与交易告警对应的告警提示信息,以便向运维人员进行告警。

进一步的,在交易告警的告警类型为调用链异常根因告警时,表示调用链的根本服务出现了异常,此时需要运维人员进行对应的维护,因此,一旦出现调用链异常根因告警,则必须马上向运维人员进行告警。

S104、确定所述系统连续发生交易告警的告警次数是否大于或等于预设的告警阈值;当确定系统连续发生交易告警的告警次数大于或等于告警阈值时,执行S103;当确定系统连续发生交易告警的告警次数不大于或等于告警阈值时,执行S105。

在确定交易告警的告警类型不为调用链异常根因告警时,则表示调用链的根本服务未出现异常,出现异常的是其他的环境因素,例如因网络中断引起的告警,为了提高系统具有容错性,在出现非调用链异常根因告警时,需要确定系统连续发生交易告警的告警次数是否大于或等于预设的告警阈值,在确定系统连续发生该交易告警的告警次数大于或等于告警阈值时,则向运维人员发送对应的告警提示信息,以便向运维人员进行告警。

进一步的,在系统连续发生交易告警的告警次数大于或等于告警阈值时才向运维人员进行告警的目的是对告警进行压制,通过对告警进行压制,可以有效的减少因为系统瞬间异常波动而导致的误告警,从而减少了告警的次数。

参照图4,为本发明另一实施例提供的判定系统连续发生交易告警的告警次数是否大于或等于预设的告警阈值的方法流程图,具体说明如下所述:

S401、确定系统中的告警记录,并基于告警记录确定系统连续发生交易告警的告警次数。

系统中的告警记录中记录了系统的全局的告警记录,告警记录中包含了多条日志,系统每次发生告警便会生成对应的日志,告警记录中的日志按照发生告警的时间先后顺序进行排列。在通过告警记录确定系统连续发生交易告警的告警次数时,基于当前的交易告警,在告警记录中确定与当前的交易告警对应的日志队列,其中,日志队列中包含至少一个日志,日志队列中包含当前的交易告警的日志,日志队列中的各个日志在告警记录中是连续排列的,日志队列中的每个日志所属的告警的标识与当前的交易告警的标识是相同的;日志队列中日志的个数即为系统连续发生交易告警的告警次数;示例性的,

S402、将告警次数与告警阈值进行比对,以判断告警次数是否大于或等于告警阈值。

通过将告警次数和告警阈值进行比对,可以判断告警次数是否大于或等于告警阈值,具体的,告警阈值可根据实际需求进行设置,具体如告警阈值设置为N,N可以设置为任意的正整数。

本发明通过系统的告警记录可以确定出系统连续发生告警的告警次数,进而可以基于告警次数确定是否需要向运维人员发送告警提示信息。

S105、禁止运维人员发送与交易告警对应的告警提示信息。

本发明实施例提供的方法中,在监测到系统发生交易告警的情况下,确定与交易告警对应的调用链;基于调用链的异常指标信息对交易告警进行分析,确定交易告警的告警类型是否为调用链异常根因告警;在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与交易告警对应的告警信息;在确定交易告警的告警类型不为调用链异常根因告警时,确定系统连续发生交易告警的告警次数是否大于或等于预设的告警阈值,并在确定系统连续发生交易告警的告警次数大于或等于告警阈值时,向运维人员发送与交易告警对应的告警信息。本发明通过对交易告警进行分析,在交易告警的告警类型为预设的告警类型时,向运维人员发送告警信息;当交易告警的告警类型不为对应的告警类型,且系统连续发生交易告警的告警次数大于或等于预设的告警阈值时,向运维人员发送告警信息,由此可以有效减少系统向运维人员进行告警的次数,从而可以减少运维人员对系统的关注度,降低了运维人员的工作量,提高运维人员的工作效率。

本发明基于调用链根因的方式,在非调用链异常根因告警的情况下,可在告警持续的次数达到预设的阈值时向运维人员进行告警,从而有效的减少了告警数量,并且不需要调用链前端和后端都进行告警,从而解决了传统告警方式中前端和后端都进行告警,导致告警重复的问题,有效降低了运维人员的人工关注度,减少了运维人员的工作量,提高运维人员的工作效率。

与图1所示的方法相对应的,本发明实施例提供一种告警分析装置,该装置可以应用于分布式架构的系统中,用以支持图1所示的方法在实际中的应用,参照图5,为本发明实施例提供的告警分析装置的结构示意图,具体说明如下所述:

确定单元501,用于在监测到系统发生交易告警的情况下,确定与所述交易告警对应的调用链;

分析单元502,用于基于所述调用链的异常指标信息对所述交易告警进行分析,确定所述交易告警的告警类型是否为调用链异常根因告警;

第一发送单元503,用于在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与所述交易告警对应的告警提示信息;

第二发送单元504,用于在确定所述交易告警的告警类型不为调用链异常根因告警时,确定所述系统连续发生所述交易告警的告警次数是否大于或等于预设的告警阈值,并在确定所述系统连续发生所述交易告警的告警次数大于或等于所述告警阈值时,向所述运维人员发送与所述交易告警对应的告警提示信息。

本发明实施例提供的装置中,在监测到系统发生交易告警的情况下,确定与交易告警对应的调用链;基于调用链的异常指标信息对交易告警进行分析,确定交易告警的告警类型是否为调用链异常根因告警;在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与交易告警对应的告警信息;在确定交易告警的告警类型不为调用链异常根因告警时,确定系统连续发生交易告警的告警次数是否大于或等于预设的告警阈值,并在确定系统连续发生交易告警的告警次数大于或等于告警阈值时,向运维人员发送与交易告警对应的告警信息。本发明通过对交易告警进行分析,在交易告警的告警类型为预设的告警类型时,向运维人员发送告警信息;当交易告警的告警类型不为对应的告警类型,且系统连续发生交易告警的告警次数大于或等于预设的告警阈值时,向运维人员发送告警信息,由此可以有效减少系统向运维人员进行告警的次数,从而可以减少运维人员对系统的关注度,降低了运维人员的工作量,提高运维人员的工作效率。

本发明实施例提供的装置中,所述确定单元501,可以配置为:

解析子单元,用于对所述交易告警进行解析,获取所述交易告警中的交易标识;

第一确定子单元,用于在所述系统中确定与所述交易标识对应的业务;

第二确定子单元,用于将所述业务的调用链确定为与所述交易告警对应的调用链。

本发明实施例提供的装置中,所述分析单元502,可以配置为:

第三确定子单元,用于基于所述异常指标信息,确定所述调用链的各个监控指标;

获取子单元,用于获取所述交易告警中的告警信息;

对比子单元,用于将所述告警信息与各个所述监控指标进行对比,确定各个所述监控指标中是否存在与所述告警信息对应的监控指标;

第四确定子单元,用于若各个所述监控指标中存在与所述告警信息对应的监控指标,则确定所述交易告警的告警类型为调用链异常根因告警;

第五确定子单元,用于若各个所述监控指标中不存在与所述告警信息对应的监控指标,则确定所述交易告警的告警类型不为调用链异常根因告警。

本发明实施例提供的装置中,所述第二发送单元504,可以配置为:

第六确定子单元,用于确定所述系统中的告警记录,并基于所述告警记录确定系统连续发生所述交易告警的告警次数;

判断子单元,用于将所述告警次数与所述告警阈值进行比对,以判断所述告警次数是否大于或等于所述告警阈值。

本发明实施例提供的装置中,还可以配置为:

禁止单元,用于当所述告警次数不大于或等于所述告警阈值时,禁止所述运维人员发送与所述交易告警对应的告警信息。

本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行以下操作:

在监测到系统发生交易告警的情况下,确定与所述交易告警对应的调用链;

基于所述调用链的异常指标信息对所述交易告警进行分析,确定所述交易告警的告警类型是否为调用链异常根因告警;

在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与所述交易告警对应的告警提示信息;

在确定所述交易告警的告警类型不为调用链异常根因告警时,确定所述系统连续发生所述交易告警的告警次数是否大于或等于预设的告警阈值,并在确定所述系统连续发生所述交易告警的告警次数大于或等于所述告警阈值时,向所述运维人员发送与所述交易告警对应的告警提示信息。

本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:

在监测到系统发生交易告警的情况下,确定与所述交易告警对应的调用链;

基于所述调用链的异常指标信息对所述交易告警进行分析,确定所述交易告警的告警类型是否为调用链异常根因告警;

在确定所述交易告警的告警类型为调用链异常根因告警时,向运维人员发送与所述交易告警对应的告警提示信息;

在确定所述交易告警的告警类型不为调用链异常根因告警时,确定所述系统连续发生所述交易告警的告警次数是否大于或等于预设的告警阈值,并在确定所述系统连续发生所述交易告警的告警次数大于或等于所述告警阈值时,向所述运维人员发送与所述交易告警对应的告警提示信息。

上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120113808026