掌桥专利:专业的专利平台
掌桥专利
首页

一种故障处理方法、装置及电子设备

文献发布时间:2023-06-19 19:23:34


一种故障处理方法、装置及电子设备

技术领域

本发明涉及移动通信技术领域,尤其涉及一种故障处理方法、装置及电子设备。

背景技术

随着数字化发展的逐渐深入,各单位的在运设备规模逐渐增加,相较于十年前设备增长近10~100倍。其中,即便设备运维模式已经从手工运维模式向工具运维模式和平台运维模式发展,但仍然无法满足当前大型组网对运维设备的监控要求。

例如在大型组网中包括大规模设备,这些设备之间的应用关系往往比较复杂,设置层次较多,因此,在某个网络设备发生故障时,如何更加合理地进行故障溯源,是需要重点解决的问题。

发明内容

本发明实施例提供一种故障处理方法、装置及电子设备,以解决如上所述的至少部分问题。

第一方面,本发明实施例提供了一种故障处理方法,包括:

接收第一设备发生故障时发送的故障消息,其中,所述第一设备为所述管理设备管理的多个被监测设备中的至少一个,所述故障消息用于指示所述第一设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值;

获取所述第一设备传输数据关联的至少一个配置信息;

分别获取每一个所述配置信息关联的所述第一监测指标的历史异常数据;

根据所述历史异常数据,确定是否获取导致所述第一设备故障的被攻击设备的地址信息。

第二方面,本发明实施例提供了一种故障处理方法,包括:

向管理设备发送故障消息,其中,所述故障消息用于指示所述被监测设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值。

第三方面,本发明的实施例提供了一种故障处理装置,应用于管理设备,所述装置包括:

第一接收模块,用于接收第一设备发生故障时发送的故障消息,其中,所述第一设备为所述管理设备管理的多个被监测设备中的至少一个,所述故障消息用于指示所述第一设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值;

第一获取模块,用于获取所述第一设备传输数据关联的至少一个配置信息;

第二获取模块,用于分别获取每一个所述配置信息关联的所述第一监测指标的历史异常数据;

确定模块,用于根据所述历史异常数据,确定是否获取导致所述第一设备故障的被攻击设备的地址信息。

第四方面,本发明的实施例提供了一种故障处理装置,应用于被监测设备,所述装置包括:

第一发送模块,用于向管理设备发送故障消息,其中,所述故障消息用于指示所述被监测设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值。

第五方面,本发明的实施例提供了一种电子设备,包括存储器,收发机,处理器:

存储器,用于存储计算机程序;收发机,用于在所述处理器的控制下收发数据;处理器,用于读取所述存储器中的计算机程序并执行上述第一方面所述的故障处理方法,或者执行上述第二方面所述的故障处理方法。

第六方面,本发明的实施例提供了一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述第一方面所述的故障处理方法,或者执行上述第二方面所述的故障处理方法。

在本发明的实施例中,管理设备可以接收第一设备(即管理设备管理的多个被)发生故障时发送的故障消息,所述故障消息用于指示第一设备传输数据时的第一监测指标的值大于或等于第一监测指标对应的第一监测阈值;然后,管理设备获取第一设备传输数据关联的至少一个配置信息,并分别获取每一个配置信息关联的第一监测指标的历史异常数据,从而根据历史异常数据,确定是否获取导致第一设备故障的被攻击设备的地址信息。

由此可知,在本发明实施例中,管理设备在接收到第一设备发送的故障消息之后,并不是立即获取导致第一设备故障的被攻击设备的地址信息,即并不是立即进行故障溯源,而是获取第一设备传输数据关联的至少一个配置信息,从而从不同配置信息代表的不同方向,获取第一监测指标的历史异常数据,进而根据历史异常数据,来决策是否需要进行故障溯源,从而能够在更加合理的时机进行故障溯源,而不是发生故障就立即溯源,降低了不合理溯源的几率,从而可以进一步节省网络资源。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种故障处理方法的流程图;

图2为本发明实施例提供的另一种故障处理方法的流程图;

图3为本发明实施例的故障处理方法适用的网络拓扑示意图;

图4为本发明实施例提供的一种故障处理装置的结构框图;

图5为本发明实施例提供的另一种故障处理装置的结构框图;

图6为本发明实施例提供的电子设备的结构框图。

具体实施方式

本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供了一种业务切换方法及装置,用以解决现有技术中,在承载业务的UPF网元发生设备级别的时,只能通过人工手动删除故障UPF配置,从而导致业务中断的时间较长问题。

其中,方法和装置是基于同一申请构思的,由于方法和装置解决问题的原理相似,因此装置和方法的实施可以相互参见,重复之处不再赘述。

图1示出了本发明实施例提供的一种故障处理方法的流程示意图,该方法可以应用于管理设备,如图1所示,该方法可以包括以下步骤101至102:

步骤101:接收第一设备发生故障时发送的故障消息。

其中,所述第一设备为所述管理设备管理的多个被监测设备中的至少一个。这里,被监测设备可以包括服务器、其他非服务器的设备(例如终端设备)中的至少一项

可以理解的是,所述被监测设备可以包括本地的被监测设备和异地的被监测设备。

另外,所述故障消息用于指示所述第一设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值。这里,第一监测指标可以为CPU使用率或内存占用率。例如第一设备监测到CPU使用率大于或等于CPU使用率对应的监测阈值时,可以向管理设备发送故障消息;或者,第一设备监测到内存占用率大于或等于内存占用率对应的监测阈值时,可以向管理设备发送故障消息。

步骤102:获取所述第一设备传输数据关联的至少一个配置信息。

其中,第一设备传输数据对应或关联有至少一个配置信息。可选的,所述配置信息包括源地址、目的地址、源端口、目的端口、传输数据时采用的协议中的至少一项。这里,源地址即为第一设备发送数据的源地址;目的地址,即为第一设备接收到的数据的发送设备的地址;源端口即为第一设备发送数据的源端口;目的端口即为第一设备接收到的数据的发送设备的端口。

步骤103:分别获取每一个所述配置信息关联的所述第一监测指标的历史异常数据。

其中,第一设备在历史运行过程中,传输数据时对应相应的配置信息(例如源地址、目的地址、源端口、目的端口、采用的协议),并且,历史运行过程中传输数据的第一监测指标的值(即历史数据)中,也会存在异常数据。

此处需要说明的是,第一设备在不同运行时间段,对同一监测指标采用的监测阈值可能不同,这样,第一设备传输数据时第一监测指标的历史异常数据,包括在不同运行时间段内,大于或等于相应时间段内采用的监测阈值的数据。

步骤104:根据所述历史异常数据,确定是否获取导致所述第一设备故障的被攻击设备的地址信息。

在步骤104中,根据历史异常数据,确定是否获取导致第一设备故障的被攻击设备的地址信息,即为根据历史异常数据评估是否进行故障溯源。

由上述步骤101至104可知,在本发明的实施例中,管理设备可以接收第一设备(即管理设备管理的多个被)发生故障时发送的故障消息,所述故障消息用于指示第一设备传输数据时的第一监测指标的值大于或等于第一监测指标对应的第一监测阈值;然后,管理设备获取第一设备传输数据关联的至少一个配置信息,并分别获取每一个配置信息关联的第一监测指标的历史异常数据,从而根据历史异常数据,确定是否获取导致第一设备故障的被攻击设备的地址信息。

由此可知,在本发明实施例中,管理设备在接收到第一设备发送的故障消息之后,并不是立即获取导致第一设备故障的被攻击设备的地址信息,即并不是立即进行故障溯源,而是获取第一设备传输数据关联的至少一个配置信息,从而从不同配置信息代表的不同方向,获取第一监测指标的历史异常数据,进而根据历史异常数据,来决策是否需要进行故障溯源,从而能够在更加合理的时机进行故障溯源,而不是发生故障就立即溯源,降低了不合理溯源的几率,从而可以进一步节省网络资源。

可选的,前述步骤101:“接收第一设备发生故障时发送的故障消息”之前,所述方法还包括:

将监测周期、监测指标、与所述监测指标对应的监测阈值转换为网络配置NETCONF协议接受的数据结构文件;

将所述数据结构文件发送给所述第一设备;

其中,所述第一监测指标为所述数据结构文件中的监测指标中的其中一个。

这里监测指标可以包括CPU使用率、内存占用率、端口信息、设备IP、板卡信息中的至少一项,这样,监测指标可以比较全面、精准的反应被监测设备的运行状态,其中,板卡信息与CPU使用率具有对应关系,可以精准的知晓是哪一块板卡出现了问题。

另外,NETCONF的远程过程调用协议(Remote Procedure Cal,RPC)层为RPC模块的编码提供了一个简单,且与传输协议无关的机制。即通过使用元素,对NETCONF协议的被监测设备和管理设备的请求和响应数据(即操作层和内容层的内容)进行封装,正常情况下元素封装管理设备所需配置的数据,当管理设备请求报文存在错误或服务器处理不成功时,服务器在元素中会封装一个包含详细错误信息的元素来反馈给管理设备。

并且,NETCONF协议的命令集由读取、修改设备配置数据,以及读取状态数据的一系列命令组成。命令通过RPCs进行沟通,并以RPC回复来应答。即一个RPC回复必须响应一个RPC才能返回。一个配置操作必须由一系列RPC组成,每个都有与其对应的应答RPC。

由此可知,在本发明实施例中,可以通过采用NETCONF协议来管理组网内的被监测设备,在支持NETCONF协议的设备上将NETCONF的远程过程调用RPC消息相关指令的集合编写到程序中来执行接收和响应消息。这样,实现了通过NETCONF协议为被监测设备配置监测指标、监测周期、监测阈值,即实现了对被监测设备的监控事件的订阅。

另外,一旦NETCONF会话开始,管理设备和被监测设备就会交换一组“特性”。这组“特性”包括一些信息,如NETCONF协议版本支持列表、备选数据是否存在、运行中的数据存储可修改的方式。除此之外,“特性”在NETCONF请求评论(Request For Comments,RFC)中定义:开发人员可以通过遵循RFC中描述的规范格式添加额外的“特性”。这样,采用NETCONF协议,还可以更加灵活地设置监测指标(例如增加、减少或修改监测指标)、监测周期和监测阈值,进而可以采集更加多样的数据。

此外,通过NETCONF协议订阅监控事件,可以实现秒级监控。

可选的,前述步骤101“接收第一设备发生故障时发送的故障消息”之后,所述方法还包括:

将所述数据结构文件重新发送给所述第一设备。

其中,通过NETCONF协议订阅监控事件之后,若被监测设备监测到某个监测指标的值超过该监测指标对应的监测阈值,则本次订阅就会失效。因此,为了后续仍然可以在某个监测指标超过该监测指标对应的监测阈值时,被监测设备可以向管理设备发送故障消息,管理设备在接收到故障消息之后,重新通过NETCONF协议订阅监控事件。

可以理解的是,管理设备接收到上述故障消息之后,可以仅将所述数据结构文件重新发送给第一设备,也可以将所述数据结构文件重新发生给其管理的所有被监测设备。

可选的,前述步骤102“获取所述第一设备传输数据关联的至少一个配置信息”,包括:

在所述数据结构文件发送给所述第一设备的次数达到预设次数时,所述第一设备传输数据时的所述第一监测指标的值仍然大于或等于所述第一监测阈值的情况下,获取所述第一设备传输数据关联的至少一个配置信息。

其中,若所述数据结构文件发送给所述第一设备的次数达到预设次数时,所述第一设备传输数据时的所述第一监测指标的值仍然大于或等于所述第一监测阈值,则表示重新订阅监控事件的次数达到预设次数时,第一设备的故障仍未解决,说明本次故障并非是由于网络抖动引起的,从而在此种情况下,需要进行故障溯源,即需要“获取所述第一设备传输数据关联的至少一个配置信息”

而若所述数据结构文件发送给所述第一设备的次数达到预设次数时,所述第一设备传输数据时的所述第一监测指标的值小于所述第一监测阈值,则表示重新订阅监控事件的次数达到预设次数时,第一设备的故障已经解决,说明本次故障并是由于网络抖动引起的,说明网络抖动引起的故障已经解决,无需进行故障溯源,从而在此种情况下不需要“获取所述第一设备传输数据关联的至少一个配置信息”。

由此可知,在本发明的实施例中,可以采用程序重复执行NETCONF协议的RPC消息再次订阅告警,防止由于网络抖动造成的告警订阅失效问题。

可选的,前述步骤104“根据所述历史异常数据,确定是否获取导致所述第一设备故障的被攻击设备的地址信息”,包括:

将与第i个配置信息相关联的所述历史异常数据存储至第i个集合中,i为1至N的整数,N表示所述至少一个配置信息的数量;

根据目标阈值,并采用k近邻算法预测模型,对所述第i个集合中的所述历史异常数据进行分类,获取所述第i个集合中大于或等于所述目标阈值的历史异常数据的第i数量;

在所述第i数量与所述第i个集合中的历史异常数据的数量之比大于或等于预设比值的情况下,确定所述第i个集合为异常集合;

在所述异常集合的数量大于或等于预设数量的情况下,确定获取导致所述第一设备故障的被攻击设备的地址信息;

在所述异常集合的数量小于所述预设数量的情况下,确定跳过获取导致所述第一设备故障的被攻击设备的地址信息的步骤。

例如当所述配置信息包括源地址、目的地址、源端口、目的端口、采用的协议时,可以得到上述所述的五个集合,若这五个集合中存在三个异常集合,则需要对故障进行溯源。

其中,k近邻算法预测模型,即为k最近邻分类器,其基本思想是给定一个未确定类别的样本x,在样本空间搜索,找出与未确定类别样本距离最近的k个样本,待分类的样本属于哪一类由k个近邻中的样本大多数所属的类别确定。

从中可以看出,k最近邻分类主要的问题是确定合适的样本集、距离函数、组合函数和k值。对于多种类型的属性,距离函数可参照聚类分析中样本相似性的度量公式,而组合函数可以用简单无加权投票(voting)或加权投票的方法。在简单无加权投票中,每个近邻x1对x分类的影响都被认为是相同的。通过对k个近邻x所属的类别计数,把x归为计数最多的类。

其中,

另外,

此外,k最近邻分类器基于局部的数据进行预测,对噪声比较敏感。k值的选择与数据有关。过大的k值可以减小噪声的影响,但使未确定类别样本点的近邻样本数量很大,可能导致分类错误。而过小的k值可能导致投票失效或者受噪声影响。一个较好的k值可通过各种启发式技术来获取。

找出某样本的最近邻样本可能计算所有样本对之间的距离。为有效地发现最近邻,可以利用聚类算法对训样集进行类,如果两个的中心相距比较远,则对应簇中的样本一般不可能成为近邻。只要计算相邻簇的样本之间的距离即可寻找某样本的近邻。

由上述可知,关于前述“根据目标阈值,并采用k近邻算法预测模型,对所述第i个集合中的所述历史异常数据进行分类,获取所述第i个集合中大于或等于所述目标阈值的历史异常数据的第i数量”步骤,若目前阈值是X,第i个集合中的数据包括{Y1~Y100},则基于目标阈值X,并采用k近邻算法预测模型对第i个集合中的历史异常数据进行分类,即为:

在Y1~Y100中,找出与目标阈值X距离最近的k个样本,其中,k即为第i个集合中大于或等于目标阈值X的历史异常数据的第i数量。

这里,需要说明的是,对于上述集合,若某个集合中包括海量历史异常数据,则通过遍历该集合中的数据,并与目标阈值进行对比,来获取该集合中大于或等于目标阈值的数据,则会花费较多时间,从而会延长故障处理时间。而本发明实施例中,采用k近邻算法预测模型,来获取该集合中大于或等于目标阈值的数据,则可以缩短该过程的处理时间,从而缩短故障处理时间。

可选的,所述方法还包括:

在确定获取导致所述第一设备故障的被攻击设备的地址信息,执行攻击溯源策略,获取所述被攻击设备的地址信息。

这里执行攻击溯源策略的过程可包括如下所述:

首先,查询与攻击溯源策略关联的依赖信息,即与该溯源策略关联的痕迹和位置,然后把得到的痕迹和位置的信息分别保存到e和d变量中,根据溯源策略的过程(process)属性和e、d,执行攻击溯源策略,最终则可以得到被攻击设备的地址信息(例如IP地址)。

示例性的,可以使用Neo4j作为图数据,存储网络安全知识库(MDATA),利用声明式(Cypher)查询语言查询数据,使用计算机编程(Python)语言实现攻击溯源算法。如图3所示,其原理是模拟了攻击者利用一个被攻击者远程控制的计算机(192.168.134.128)作为攻击主机,发现了服务器(10.2.1.35)具有结构化查询语言(Structured Query Language,S Q L)注入漏洞,并利用该漏洞向服务器注人一个反弹窗口,实现了让服务器通过反弹端口主动与控制主机(192.168.134.130)相互通信的攻击。

其中,在攻击事件之后,溯源人员想要找出是谁攻击了服务器,又是谁在控制服务器。假设服务器安装了Apache服务器应用软件,溯源人员首先通过MDATA网络安全知识库查询与Apache服务器有关的溯源策略,然后利用攻击溯源算法,就可以直观地获取攻击主机和控制主机的IP地址。

图2示出了本发明实施例提供的一种故障处理方法的流程示意图,该方法可以应用于管理设备,如图2所示,该方法可以包括以下步骤201至202:

步骤201:向管理设备发送故障消息。

其中,所述故障消息用于指示所述被监测设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值。

这里,被监测设备可以包括服务器、其他非服务器的设备(例如终端设备)中的至少一项。

另外,第一监测指标可以为CPU使用率或内存占用率。例如被监测设备监测到CPU使用率大于或等于CPU使用率对应的监测阈值时,可以向管理设备发送故障消息;或者,被监测设备监测到内存占用率大于或等于内存占用率对应的监测阈值时,可以向管理设备发送故障消息。

此外,管理设备接收到故障消息之后,则可以获取发送故障消息的被监测设备传输数据关联的至少一个配置信息,并分别获取每一个配置信息关联的第一监测指标的历史异常数据,进而根据历史异常数据,确定是否获取发送故障消息的被监测设备的故障的被攻击设备的地址信息。

由此可知,在本发明实施例中,管理设备在接收到第一设备发送的故障消息之后,并不是立即获取导致第一设备故障的被攻击设备的地址信息,即并不是立即进行故障溯源,而是获取第一设备传输数据关联的至少一个配置信息,从而从不同配置信息代表的不同方向,获取第一监测指标的历史异常数据,进而根据历史异常数据,来决策是否需要进行故障溯源,从而能够在更加合理的时机进行故障溯源,而不是发生故障就立即溯源,降低了不合理溯源的几率,从而可以进一步节省网络资源。

可选的,步骤201“向管理设备发送故障消息”之前,所述方法还包括:

接收所述管理设备发送的数据结构文件,其中,所述数据结构文件是监测周期、监测指标、与所述监测指标对应的监测阈值转换为网络配置NETCONF协议接受的数据结构文件;

解析所述数据结构文件,获得所述监测周期、所述监测指标、所述监测阈值;

根据所述监测周期,采集所述监测指标的值,并将所述监测指标的值与所述监测指标对应的所述监测阈值进行对比;

其中,所述第一监测指标为所述数据结构文件中的监测指标中的其中一个。

这里监测指标可以包括CPU使用率、内存占用率、端口信息、设备IP、板卡信息中的至少一项,这样,监测指标可以比较全面、精准的反应被监测设备的运行状态,其中,板卡信息与CPU使用率具有对应关系,可以精准的知晓是哪一块板卡出现了问题。

由此可知,在本发明实施例中,可以通过采用NETCONF协议来管理组网内的被监测设备,实现了通过NETCONF协议为被监测设备配置监测指标、监测周期、监测阈值,即实现了对被监测设备的监控事件的订阅。

可选的,步骤201“向管理设备发送故障消息”之后,所述方法还包括:

接收所述管理设备重新发送的所述数据结构文件。

其中,通过NETCONF协议订阅监控事件之后,若被监测设备监测到某个监测指标的值超过该监测指标对应的监测阈值,则本次订阅就会失效。因此,为了后续仍然可以在某个监测指标超过该监测指标对应的监测阈值时,被监测设备可以向管理设备发送故障消息,管理设备在接收到故障消息之后,重新通过NETCONF协议订阅监控事件。

可以理解的是,管理设备接收到上述故障消息之后,可以仅将所述结构文件重新发送给第一设备,也可以将所述数据结构文件重新发生给其管理的所有被监测设备。

由此可知,在本发明的实施例中,可以采用程序重复执行NETCONF协议的RPC消息再次订阅告警,防止由于网络抖动造成的告警订阅失效问题。

可选的,步骤201“向管理设备发送故障消息”之后,所述方法还包括:

在所述被监测设备传输数据时的所述第一监测指标的值小于所述第一监测阈值的情况下,将故障信息存储至历史数据库中;

其中,所述故障信息包括所述第一监测指标的值、发生时间、恢复时间、故障内容中的至少一项。这里故障内容用于指示第一监测指标的值大于或等于第一监测阈值产生的网络效果(例如网络卡顿等)。

由此可知,被监测设备将故障信息存储至历史数据库中后,若需要查询该故障的相关信息,则可以调用该历史数据库中的相关信息。

另外,在管理设备接收到发生故障的被监测设备发送的故障消息之后,可以获取发生故障的被监测设备传输数据关联的至少一个配置信息,从而分别获取每一个所述配置信息关联的所述第一监测指标的历史异常数据。这里,管理设备可以从上述历史数据库中提取与各个配置信息关联的第一监测指标的历史异常数据。

综上所述,本发明实施例的故障处理方法的具体实施方式可如下所述:

管理设备将监测指标、监测周期以及与监测指标对应的监测阈值转换为NETCONF协议接受的数据结构文件,然后下发给该管理设备管理的多个服务器,实现一次对监控事件的订阅;(例如通过程序命令执行对服务器订阅监控事件,即为“ColumnCondition”字段设置监测阈值;以及设置参数的“interval”取值为1秒,从而从而完成对服务器的秒级巡检设置。)

服务器解析该数据结构文件,得到监测指标、监测周期、监测阈值,并按照监测周期,采集监测指标的值,从而判断监测指标是否超过对应的监测阈值;其中,若第一监测指标超过第一监测指标对应的第一监测阈值,则服务器向管理设备发送故障消息,以指示第一监测指标的值超过第一监测阈值;

其中,当发生故障的服务器的故障处理恢复后,服务器将故障信息存储至历史数据库,该故障信息包括超过监测阈值的监测指标的值、故障内容、发生时间、恢复时间。

另外,管理设备接收到故障消息后,对服务器重新订阅监控事件(即重新向服务器发送上述数据结构文件);

当管理设备检测到重新订阅监控事件的次数达到预设次数后,获取发生故障的被监测设备传输数据关联的配置信息,例如五元组信息(源地址、目的地址、源端口、目的端口、采用的协议),从而从历史数据库中提取五元组信息中每一个信息关联的第一监测指标的历史异常数据,并分别存储至五个集合中;

然后,管理设备根据当前的阈值,采用预先建立的k近邻算法预测模型,将各个集合中的数据分为异常数据和正常数据,其中,某个集合中的异常数据的占比大于预设比值时,该集合为异常集合;

当异常集合的数量大于预设数量时,执行攻击溯源策略,获取导致发生故障的被监测设备故障的被攻击设备的地址信息。

其中,执行攻击溯源策略的过程请参见前文所述,此处不再赘述。

综上所述,本发明的实施例,针对本地监测设备及关联的异地设备之间发生故障溯源及定位本地还是异地时效性差、溯源效率低的实际情况,采用如下方案:

一、通过采用NETCONF管理协议来管理组网内本地及异地的服务器(CPE),在支持NETCONF协议的CPE上,将NETCONF的RPC消息相关指令的集合编写到程序中来执行接收和响应消息,并订阅监控事件及设置秒级监控。

二、当管理设备接收到故障消息且NETCONF协议重复订阅次数超出预设次数后,故障仍未恢复,则通过分析网络流量五元组(即源地址、目的地址、源端口、目的端口、采用的协议),并通过构建的k近邻算法预测模型,结合当前的监测阈值综合判定各数据集合的异常数据的比例,从而来确定是否进行故障溯源,进而在确定需要执行故障溯源时,通过查询MDATA网络安全知识库,执行与该攻击威胁相对应的溯源策略,找出攻击所留下的痕迹和位置,最后定位到被攻击的设备。

由此可知,本发明实施例的故障处理方法,引入了更高效的NETCONF协议结合秒级监控及告警订阅防止网络抖动。可以更智能化、高效进行故障溯源,从而提高管理网络设备的运维保障能力。

以上介绍了本发明实施例提供的业务切换方法,下面将结合附图介绍本发明实施例提供的业务切换装置。

参见图4,本发明实施例还提供了一种故障处理装置,应用于管理设备,该故障处理装置包括如下模块:

第一接收模块401,用于接收第一设备发生故障时发送的故障消息,其中,所述第一设备为所述管理设备管理的多个被监测设备中的至少一个,所述故障消息用于指示所述第一设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值;

第一获取模块402,用于获取所述第一设备传输数据关联的至少一个配置信息;

第二获取模块403,用于分别获取每一个所述配置信息关联的所述第一监测指标的历史异常数据;

确定模块404,用于根据所述历史异常数据,确定是否获取导致所述第一设备故障的被攻击设备的地址信息。

可选的,所述装置还包括:

转换模块,用于将监测周期、监测指标、与所述监测指标对应的监测阈值转换为网络配置NETCONF协议接受的数据结构文件;

第二发送模块,用于将所述数据结构文件发送给所述第一设备;

其中,所述第一监测指标为所述数据结构文件中的监测指标中的其中一个。

可选的,所述装置还包括:

第三发送模块,用于将所述数据结构文件重新发送给所述第一设备。

可选的,所述第一获取模块402具体用于:

在所述数据结构文件发送给所述第一设备的次数达到预设次数时,所述第一设备传输数据时的所述第一监测指标的值仍然大于或等于所述第一监测阈值的情况下,获取所述第一设备传输数据关联的至少一个配置信息。

可选的,所述确定模块404具体用于:

将与第i个配置信息相关联的所述历史异常数据存储至第i个集合中,i为1至N的整数,N表示所述至少一个配置信息的数量;

根据目标阈值,并采用k近邻算法预测模型,对所述第i个集合中的所述历史异常数据进行分类,获取所述第i个集合中大于或等于所述目标阈值的历史异常数据的第i数量;

在所述第i数量与所述第i个集合中的历史异常数据的数量之比大于或等于预设比值的情况下,确定所述第i个集合为异常集合;

在所述异常集合的数量大于或等于预设数量的情况下,确定获取导致所述第一设备故障的被攻击设备的地址信息;

在所述异常集合的数量小于所述预设数量的情况下,确定跳过获取导致所述第一设备故障的被攻击设备的地址信息的步骤。

可选的,所述装置还包括:

第三获取模块,用于在确定获取导致所述第一设备故障的被攻击设备的地址信息,执行攻击溯源策略,获取所述被攻击设备的地址信息。

可选的,所述至少一个配置信息包括:源地址、目的地址、源端口、目的端口、传输数据时采用的协议中的至少一项。

参见图5,本发明实施例还提供了一种故障处理装置,应用于被监测装置,该故障处理装置可以包括如下模块:

第一发送模块501,用于向管理设备发送故障消息,其中,所述故障消息用于指示所述被监测设备传输数据时的第一监测指标的值大于或等于所述第一监测指标对应的第一监测阈值。

可选的,所述装置还包括:

第二接收模块,用于接收所述管理设备发送的数据结构文件,其中,所述数据结构文件是监测周期、监测指标、与所述监测指标对应的监测阈值转换为网络配置NETCONF协议接受的数据结构文件;

解析模块,用于解析所述数据结构文件,获得所述监测周期、所述监测指标、所述监测阈值;

采集模块,用于根据所述监测周期,采集所述监测指标的值,并将所述监测指标的值与所述监测指标对应的所述监测阈值进行对比;

其中,所述第一监测指标为所述数据结构文件中的监测指标中的其中一个。

可选的,所述装置还包括:

第三接收模块,用于接收所述管理设备重新发送的所述数据结构文件。

可选的,所述装置还包括:

存储模块,用于在所述被监测设备传输数据时的所述第一监测指标的值小于所述第一监测阈值的情况下,将故障信息存储至历史数据库中;

其中,所述故障信息包括所述第一监测指标的值、发生时间、恢复时间、故障内容中的至少一项。

由上述可知,在本发明的实施例中,管理设备可以接收第一设备(即管理设备管理的多个被)发生故障时发送的故障消息,所述故障消息用于指示第一设备传输数据时的第一监测指标的值大于或等于第一监测指标对应的第一监测阈值;然后,管理设备获取第一设备传输数据关联的至少一个配置信息,并分别获取每一个配置信息关联的第一监测指标的历史异常数据,从而根据历史异常数据,确定是否获取导致第一设备故障的被攻击设备的地址信息。

由此可知,在本发明实施例中,管理设备在接收到第一设备发送的故障消息之后,并不是立即获取导致第一设备故障的被攻击设备的地址信息,即并不是立即进行故障溯源,而是获取第一设备传输数据关联的至少一个配置信息,从而从不同配置信息代表的不同方向,获取第一监测指标的历史异常数据,进而根据历史异常数据,来决策是否需要进行故障溯源,从而能够在更加合理的时机进行故障溯源,而不是发生故障就立即溯源,降低了不合理溯源的几率,从而可以进一步节省网络资源。

需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

本发明的实施例还提供了一种电子设备,如图6所示,该电子设备包括存储器620、收发机610、处理器600;

存储器620,用于存储计算机程序;

收发机610,用于在处理器600的控制下接收和发送数据;

处理器600用于读取所述存储器620中的计算机程序并执行前述第一方面或第二方面所述的故障处理方法。

其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元,这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器600负责管理总线架构和通常的处理,存储器620可以存储处理器600在执行操作时所使用的数据。

处理器600可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD),处理器600也可以采用多核架构。

在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

本发明的实施例还提供了一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述第一方面或第二方面所述的故障处理方法。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 内核故障诊断信息处理方法、装置、存储介质及电子设备
  • 一种模型轻量化处理方法、装置及电子设备
  • 一种样本数据处理方法、样本数据处理装置及电子设备
  • 一种消息处理方法、装置、电子设备及存储介质
  • 一种应用程序处理方法、装置、电子设备及可读存储介质
  • 故障处理方法、故障处理装置、电子设备及存储介质
  • 一种电子设备的系统故障处理方法及电子设备
技术分类

06120115890992