掌桥专利:专业的专利平台
掌桥专利
首页

基于混合云的无人值守告警处理方法和装置

文献发布时间:2023-06-19 19:37:02


基于混合云的无人值守告警处理方法和装置

技术领域

本申请属于计算机技术领域,具体而言,涉及一种基于混合云的无人值守告警处理方法和装置。

背景技术

通常公司的业务监控平台每天会接收到数万条告警记录,通过对告警记录进行分析,可以监测到出现异常的业务。

目前,对于多云端的混合云平台的告警监控,不同云端发送的告警信息其数据源格式不一,难以直接进行分析,现有的对告警记录的监控和分析方法主要是由人工对零碎单条的告警记录进行逐步排查和告警通知,通过人为去告知联系人,然后联系人去判断告警级别,在去处理告警。即系统运维人员根据经验来判断告警记录所告警的可能存在异常的业务。这种方式不仅处理效率慢,还可能遗漏,在处理的过程中还有可能出现误操作等问题。

针对相关技术中告警处理效率低,容易出现误操作的技术问题,目前尚未提出有效的解决方案。

发明内容

因此,本申请实施例在于提供一种基于混合云的无人值守告警处理方法、装置、电子设备及存储介质,旨在解决上述现有技术存在的至少一个问题。

为实现上述目的,第一方面,本申请提供了一种基于混合云的无人值守告警处理方法,包括:

接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息;

根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息;

根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级;

当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。

在一个实施例中,所述告警业务包括:业务突发、业务发布和业务扩/缩容。

在一个实施例中,在根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息之前,还包括:将所述多条告警信息输入机器识别模型得到所述告警信息的业务标签和主机标签。

在一个实施例中,所述系统类型包括主机、带宽、负载均衡和数据库,所述告警等级包括信息、警告和严重,所述根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级,包括:将所述系统类型和告警等级输入至预设的分类模型中输出所述处理等级。

在一个实施例中,所述分类模型是根据所述系统类型和告警等级的设定权重基于朴素贝叶斯模型进行训进行训练得到。

在一个实施例中,所述触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理,包括:获取告警信息对应的系统类型在预设时间段内的预设间隔时间的资源占用曲线图以及持续时间,当所述资源占用曲线图的峰值超过预设阈值,且所述持续时间超过预设时间阈值时,对所述告警业务基于预设处理规则进行处理。

在一个实施例中,还包括:发送预警事件处理结果消息并保存处理日志。

第二方面,本申请还提供了一种基于混合云的无人值守告警处理装置,包括:

转换模块,用于接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息;

识别模块,用于根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息;

分类模块,用于根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级;

处理模块,用于当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。

第三方面,本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于混合云的无人值守告警处理方法的步骤。

第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于混合云的无人值守告警处理方法的步骤。

本申请实施例提供的一种基于混合云的无人值守告警处理方法、装置、电子设备及存储介质,通过接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息;根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息;根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级;当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。解决了相关技术中告警处理效率低,容易出现误操作的技术问题,实现了以下有益效果:通过将来自多云的告警信息的数据源格式进行转换,实现对所有告警信息的统一分析处理;通过对告警信息进行整合分析,实现可以无需人工干预,自动处理告警的问题,在保证业务可用性和连续性的情况下,降低人为操作失误的概率,提升了业务的连续性和可靠性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的基于混合云的无人值守告警处理方法的实现流程;

图2为本申请实施例提供的基于混合云的无人值守告警处理装置的主要模块示意图;

图3为本申请实施例提供的可以应用于其中的示例性系统架构图;

图4为适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

另外,术语“多个”的含义应为两个以及两个以上。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

通常,公司的业务监控平台每天会接收到数万条告警记录,通过对告警记录进行分析,可以监测到出现异常的业务。目前对告警记录的监控和分析方法主要是由人工对零碎单条的告警记录进行逐步排查和告警通知,通过人为去告知联系人,然后联系人去判断告警级别,在去处理告警。即系统运维人员根据经验来判断告警记录所告警的可能存在异常的业务。这种方式不仅处理效率慢,还可能遗漏,在处理的过程中还有可能出现误操作等问题。因此,本申请实施例通过自动化的对告警信息进行分析处理,实现可无人值守的告警处理。

图1示出了本申请实施例提供的一种基于混合云的无人值守告警处理方法的实现流程,为了便于说明,仅示出与本申请实施例相关的部分,详述如下:

一种基于混合云的无人值守告警处理方法,包括以下步骤:

S101:接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息;

S102:根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息;

S103:根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级;

S104:当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。

在步骤S101中:接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息。

目前,对于多云端的混合云平台的告警监控,不同云端发送的告警信息其数据源格式不一,难以直接进行分析,现有的对告警记录的监控和分析方法主要是由人工对零碎单条的告警记录进行逐步排查和告警通知,通过人为去告知联系人,然后联系人去判断告警级别,在去处理告警。因此,在本申请实施例中,在接收到不同云端的混合云告警信息后,将多条告警信息的数据源格式进行转化得到统一格式的告警信息。在这里,可以将所述告警信息的数据源格式基于预设转换规则或者格式转化技术进行转换得到目标格式即统一标准格式的告警信息,以便于直接对告警信息进行分析处理。所述告警信息可以为不同的机房和/或云端发送的不同业务类型的监控预警信息,所述业务类型可以包括业务突发、业务发布和业务扩容或缩容。所述监控预警信息可以包括以下至少一种:磁盘利用率告警、CPU使用率告警、业务可用性告警等。

在这里,告警信息是对不同业务类型进行监控基于监控规则触发的各种监控预警信息,可以是对业务突发的监控预警信息、业务发布时的监控预警信息和业务扩容时的监控预警信息等。例如,告警信息可以是来自于对机房或云上监控的业务的告警信息,其可以包括磁盘的利用率告警、CPU使用率告警和业务可用性告警等,进一步,磁盘的利用率告警信息可以是在业务突发时的磁盘容量不足的告警信息,也可以是在业务发布时的磁盘容量不足的告警信息,也可以是在业务扩容时的磁盘容量不足的告警信息;同样,CPU使用率告警和业务可用性告警等也均可以是在业务突发、业务发布和业务扩容时的资源不足风险告警。

需要说明的是,不同的机房、云端的业务系统发送的告警信息的数据源格式不统一,为了可以便于统一识别,在接收到告警信息后,先将告警信息转换为统一的数据格式。例如,可以将所有数据源转换为文本格式或数值格式。

在步骤S102中:根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息。每条告警信息有其对应的业务标签和主机标签,通过业务标签可以识别出告警信息对应的告警业务,通过主机标签可以识别出告警信息对应的服务器主机,识别出告警信息对应的主机后,为了降低数据处理量、提高处理效率,将同一主机下的告警信息进行合并整合为一条告警信息,在后续进行告警信息分析处理时直接对合并后的告警信息进行处理即可。在这里,告警业务即上述的业务类型,包括了业务突发、业务发布和业务扩容或缩容等。

在这里,所述业务标签和主机标签,可以是预先配置的标签,在机房或者云端告警系统进行发送告警信息时直接打标携带的标签,也可以是在接收到告警信息后,通过预先训练的标签识别模型进行识别得到业务标签和主机标签的。

优选的,在根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息之前,还包括:将所述多条告警信息输入机器识别模型得到所述告警信息的业务标签和主机标签。

示例性的,所述告警信息在前面的步骤已经转换为对应的文本型数据或者数值型数据,可以将经转换后的文本型或数值型告警信息输入预先训练好的机器识别模型识别出告警识别信息中的业务标签和主机标签,通过业务标签可以确定出该告警识别信息对应的业务类型(告警业务),通过主机标签可以确定出该告警识别信息对应的主机服务器,进而确定出原始告警信息对应的业务类型和主机,对相应的业务类型和主机服务器采用相应的控制措施。

例如,每个主机在某段时间内会发送多条告警信息,通过预先训练的机器识别模型识别出告警识别信息的业务标签和主机标签后,可以将同一主机发送的告警识别信息进行合并整合成一条告警信息。由此可以减少告警信息的数量,提高处理效率。通过业务标签可以分出告警识别信息是哪个业务类型下的,进一步的可以分出是哪条业务下的。

在这里,可以通过历史告警信息的样本数据集进行分类打标后,将历史样本数据集分类为不同的业务标签和主机标签,然后向量化后输入至k-Means聚类算法模型中进行训练得到所述机器识别模型,然后基于训练后的机器识别模型实现对所述告警信息的识别以得到告警信息的业务标签和主机标签。

在步骤S103中:根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级。每条告警信息都携带有对应的系统类型和告警等级,是由告警系统预先配置的标签生成的。在对告警信息进行整合处理后,可以根据告警信息的系统类型和告警等级确定告警信息的处理等级。

在这里,可以通过预先配置的规则映射表,将系统类型和告警等级遍历规则映射表后确定其告警信息的处理等级。

例如,所述系统类型包括主机、带宽、负载均衡和数据库,所述告警等级包括信息、警告和严重。预先配置的规则映射表可以是:系统类型为主机和带宽,告警等级为严重时,对应的处理等级为1级,即立即处理,告警等级为警告时,对应的处理等级为2级,即对该主机和带宽的告警信息增加告警监控次数,告警等级为信息时,处理等级为3级,即保持正常持续监控;系统类型为负载均衡和数据库时,告警等级为严重时,对应的处理等级为2级,即增加告警监控次数,告警等级为信息时,处理等级为3级,即保持正常持续监控。

在一个实施例中,还可以将所述系统类型和告警等级输入至预设的分类模型中输出所述处理等级。所述分类模型是根据所述系统类型和告警等级的设定权重基于

在步骤S104中:当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。通过预设告警业务处理触发条件,当获取到的处理等级满足预设触发条件时,触发对告警业务的处理,即获取告警信息对应的系统类型在预设时间段的告警趋势,然后基于告警趋势判断是否对告警业务进行处理。

在这里,预设时间段可以7天,也可以是3天,可以基于实际业务情况进行设定。预设触发条件可以为:处理等级为1级时,立即触发;处理等级为2级和3级时,不触发。

在一个实施例中,所述触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理,包括:获取告警信息对应的系统类型在预设时间段内的预设间隔时间的资源占用曲线图以及持续时间,当所述资源占用曲线图的峰值超过预设阈值,且所述持续时间超过预设时间阈值时,对所述告警业务基于预设处理规则进行处理。由此,可以通过对告警业务对应的历史趋势的分析,进一步确定告警信息的风险级别,进而确定是否执行告警业务操作,防止对告警业务的误判,提高告警业务的处理准确性。

在这里,基于预设处理规则进行处理为调用告警业务对应的处理接口(API)进行告警业务处理。

例如,当某一告警信息的告警业务为业务扩容或缩容时,业务类型为服务器的主机CPU告警,在判定处理等级为1级时,触发获取主机在前7天每5分钟取一个值的CPU使用曲线图,和持续时间等信息来判断是否进行扩容或缩容处理,如持续时间为警告一次就会计算一次,用7天的警告次数之和除以7天趋势值的总值是否大于50%,如果大于50%且持续7天,则进行扩容处理;如果需要扩容会通过api(应用程序接口)调用扩容程序进行扩容,当主机CPU小于到某个阀值的时候,程序会自动去缩容,直到服务器在一个安全范围(每个服务都有一个初始的数量,这个初始服务器数量是经过多次验证之后的一个数量,缩容也不会小于这个值)之内,其中,阈值为每天CPU使用率最大值在10%以下且连续7天,缩容处理为api远程修改负载均衡器,切流之后删除不在负载均衡器之内的服务。

在一个实施例中,还包括:发送预警事件处理结果消息并保存处理日志。在这里,程序每操作一次都会发送通知,并保留处理日志,以便开发持续优化分析处理程序。

本申请实施例基于数据分类,告警识别等,并针对混合云特点,把多种数据源格式转换成统一格式进行数据处理,针对业务突发,业务发布,业务扩容等告警业务产生的告警信息进行主动学习识别,提高告警处理的准确性和及时性。降低人工处理带来的不确定性和误操作,提升了业务的连续性和可靠性。

由此,本申请实施例提供的基于混合云的无人值守告警处理方法,通过接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息;根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息;根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级;当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。解决了相关技术中告警处理效率低,容易出现误操作的技术问题,实现了以下有益效果:通过将来自多云的告警信息的数据源格式进行转换,实现对所有告警信息的统一分析处理;通过对告警信息进行整合分析,实现可以无需人工干预,自动处理告警的问题,在保证业务可用性和连续性的情况下,降低人为操作失误的概率,提升了业务的连续性和可靠性。

图2示出了本申请实施例提供的基于混合云的无人值守告警处理装置的主要模块示意图,为了便于说明,仅示出与本申请实施例相关的部分,详述如下:

一种基于混合云的无人值守告警处理装置200,包括:

转换模块201,用于接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息;

识别模块202,用于根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息;

分类模块203,用于根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级;

处理模块204,用于当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。

对于转换模块201,用于接收来自多个云端发送的多条告警信息,将多条告警信息的数据源格式进行转化得到统一格式的告警信息。

目前,对于多云端的混合云平台的告警监控,不同云端发送的告警信息其数据源格式不一,难以直接进行分析,现有的对告警记录的监控和分析方法主要是由人工对零碎单条的告警记录进行逐步排查和告警通知,通过人为去告知联系人,然后联系人去判断告警级别,在去处理告警。因此,在本申请实施例中,在接收到不同云端的混合云告警信息后,将多条告警信息的数据源格式进行转化得到统一格式的告警信息。在这里,可以将所述告警信息的数据源格式基于预设转换规则或者格式转化技术进行转换得到目标格式即统一标准格式的告警信息,以便于直接对告警信息进行分析处理。所述告警信息可以为不同的机房和/或云端发送的不同业务类型的监控预警信息,所述业务类型可以包括业务突发、业务发布和业务扩容或缩容。所述监控预警信息可以包括以下至少一种:磁盘利用率告警、CPU使用率告警、业务可用性告警等。

在这里,告警信息是对不同业务类型进行监控基于监控规则触发的各种监控预警信息,可以是对业务突发的监控预警信息、业务发布时的监控预警信息和业务扩容时的监控预警信息等。例如,告警信息可以是来自于对机房或云上监控的业务的告警信息,其可以包括磁盘的利用率告警、CPU使用率告警和业务可用性告警等,进一步,磁盘的利用率告警信息可以是在业务突发时的磁盘容量不足的告警信息,也可以是在业务发布时的磁盘容量不足的告警信息,也可以是在业务扩容时的磁盘容量不足的告警信息;同样,CPU使用率告警和业务可用性告警等也均可以是在业务突发、业务发布和业务扩容时的资源不足风险告警。

需要说明的是,不同的机房、云端的业务系统发送的告警信息的数据源格式不统一,为了可以便于统一识别,在接收到告警信息后,先将告警信息转换为统一的数据格式。例如,可以将所有数据源转换为文本格式或数值格式。

对于识别模块202,用于根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息。每条告警信息有其对应的业务标签和主机标签,通过业务标签可以识别出告警信息对应的告警业务,通过主机标签可以识别出告警信息对应的服务器主机,识别出告警信息对应的主机后,为了降低数据处理量、提高处理效率,将同一主机下的告警信息进行合并整合为一条告警信息,在后续进行告警信息分析处理时直接对合并后的告警信息进行处理即可。在这里,告警业务即上述的业务类型,包括了业务突发、业务发布和业务扩容或缩容等。

在这里,所述业务标签和主机标签,可以是预先配置的标签,在机房或者云端告警系统进行发送告警信息时直接打标携带的标签,也可以是在接收到告警信息后,通过预先训练的标签识别模型进行识别得到业务标签和主机标签的。

优选的,在根据告警信息的业务标签确定每条告警信息对应的告警业务,根据告警信息的主机标签将相同主机下的告警信息合并为一条告警信息之前,还包括:将所述多条告警信息输入机器识别模型得到所述告警信息的业务标签和主机标签。

示例性的,所述告警信息在前面的步骤已经转换为对应的文本型数据或者数值型数据,可以将经转换后的文本型或数值型告警信息输入预先训练好的机器识别模型识别出告警识别信息中的业务标签和主机标签,通过业务标签可以确定出该告警识别信息对应的业务类型(告警业务),通过主机标签可以确定出该告警识别信息对应的主机服务器,进而确定出原始告警信息对应的业务类型和主机,对相应的业务类型和主机服务器采用相应的控制措施。

例如,每个主机在某段时间内会发送多条告警信息,通过预先训练的机器识别模型识别出告警识别信息的业务标签和主机标签后,可以将同一主机发送的告警识别信息进行合并整合成一条告警信息。由此可以减少告警信息的数量,提高处理效率。通过业务标签可以分出告警识别信息是哪个业务类型下的,进一步的可以分出是哪条业务下的。

在这里,可以通过历史告警信息的样本数据集进行分类打标后,将历史样本数据集分类为不同的业务标签和主机标签,然后向量化后输入至k-Means聚类算法模型中进行训练得到所述机器识别模型,然后基于训练后的机器识别模型实现对所述告警信息的识别以得到告警信息的业务标签和主机标签。

对于分类模块203,用于根据所述告警信息的系统类型和告警等级确定所述告警信息的处理等级。每条告警信息都携带有对应的系统类型和告警等级,是由告警系统预先配置的标签生成的。在对告警信息进行整合处理后,可以根据告警信息的系统类型和告警等级确定告警信息的处理等级。

在这里,可以通过预先配置的规则映射表,将系统类型和告警等级遍历规则映射表后确定其告警信息的处理等级。

例如,所述系统类型包括主机、带宽、负载均衡和数据库,所述告警等级包括信息、警告和严重。预先配置的规则映射表可以是:系统类型为主机和带宽,告警等级为严重时,对应的处理等级为1级,即立即处理,告警等级为警告时,对应的处理等级为2级,即对该主机和带宽的告警信息增加告警监控次数,告警等级为信息时,处理等级为3级,即保持正常持续监控;系统类型为负载均衡和数据库时,告警等级为严重时,对应的处理等级为2级,即增加告警监控次数,告警等级为信息时,处理等级为3级,即保持正常持续监控。

在一个实施例中,还可以将所述系统类型和告警等级输入至预设的分类模型中输出所述处理等级。所述分类模型是根据所述系统类型和告警等级的设定权重基于

对于处理模块204,用于当所述处理等级满足预设触发条件时,触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理。通过预设告警业务处理触发条件,当获取到的处理等级满足预设触发条件时,触发对告警业务的处理,即获取告警信息对应的系统类型在预设时间段的告警趋势,然后基于告警趋势判断是否对告警业务进行处理。

在这里,预设时间段可以7天,也可以是3天,可以基于实际业务情况进行设定。预设触发条件可以为:处理等级为1级时,立即触发;处理等级为2级和3级时,不触发。

在一个实施例中,所述触发获取所述告警信息对应的系统类型在预设时间段内的告警趋势,根据所述告警趋势对所述告警业务进行处理,包括:获取告警信息对应的系统类型在预设时间段内的预设间隔时间的资源占用曲线图以及持续时间,当所述资源占用曲线图的峰值超过预设阈值,且所述持续时间超过预设时间阈值时,对所述告警业务基于预设处理规则进行处理。由此,可以通过对告警业务对应的历史趋势的分析,进一步确定告警信息的风险级别,进而确定是否执行告警业务操作,防止对告警业务的误判,提高告警业务的处理准确性。

在这里,基于预设处理规则进行处理为调用告警业务对应的处理接口(API)进行告警业务处理。

例如,当某一告警信息的告警业务为业务扩容或缩容时,业务类型为服务器的主机CPU告警,在判定处理等级为1级时,触发获取主机在前7天每5分钟取一个值的CPU使用曲线图,和持续时间等信息来判断是否进行扩容或缩容处理,如持续时间为警告一次就会计算一次,用7天的警告次数之和除以7天趋势值的总值是否大于50%,如果大于50%且持续7天,则进行扩容处理;如果需要扩容会通过api(应用程序接口)调用扩容程序进行扩容,当主机CPU小于到某个阀值的时候,程序会自动去缩容,直到服务器在一个安全范围(每个服务都有一个初始的数量,这个初始服务器数量是经过多次验证之后的一个数量,缩容也不会小于这个值)之内,其中,阈值为每天CPU使用率最大值在10%以下且连续7天,缩容处理为api远程修改负载均衡器,切流之后删除不在负载均衡器之内的服务。

在一个实施例中,还包括:发送预警事件处理结果消息并保存处理日志。在这里,程序每操作一次都会发送通知,并保留处理日志,以便开发持续优化分析处理程序。

本申请实施例基于数据分类,告警识别等,并针对混合云特点,把多种数据源格式转换成统一格式进行数据处理,针对业务突发,业务发布,业务扩容等告警业务产生的告警信息进行主动学习识别,提高告警处理的准确性和及时性。降低人工处理带来的不确定性和误操作,提升了业务的连续性和可靠性。

由此,本申请实施例提供的基于混合云的无人值守告警处理装置,通过将来自多云的告警信息的数据源格式进行转换,实现对所有告警信息的统一分析处理;通过对告警信息进行整合分析,实现可以无需人工干预,自动处理告警的问题,在保证业务可用性和连续性的情况下,降低人为操作失误的概率,提升了业务的连续性和可靠性。

本申请实施例还提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本申请实施例的基于混合云的无人值守告警处理方法。

本申请实施例还提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本申请实施例的基于混合云的无人值守告警处理方法。

图3示出了可以应用本申请实施例的基于混合云的无人值守告警处理方法或装置的示例性系统架构300。

如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所发送的往来消息提供支持的后台管理服务器。后台管理服务器可以在接收到终端设备请求后进行分析等处理,并将处理结果反馈给终端设备。

需要说明的是,本申请实施例所提供的基于混合云的无人值守告警处理方法一般由终端设备301、302、303或服务器305执行,相应地,基于混合云的无人值守告警处理装置一般设置于终端设备301、302、303或服务器305中。

应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算机系统400的结构示意图。图4示出的计算机系统仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括确定模块、提取模块、训练模块和筛选模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“确定候选用户集的模块”。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 面向无人售卖柜的无人值守告警方法及系统
  • 一种变电站的无人值守告警装置、方法及电子设备
技术分类

06120115971644