掌桥专利:专业的专利平台
掌桥专利
首页

网络设备的故障检测方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:04:00


网络设备的故障检测方法、装置、电子设备及存储介质

技术领域

本申请涉及设备故障检测领域,尤其涉及一种网络设备的故障检测方法、装置、电子设备及存储介质。

背景技术

现有技术多采用下发执行脚本至待测机,检测部件在服务器上的链路质量,通过对服务器进行指定的测试,每次测试结束时读取设备的PCIe信息再与标准的设备信息表进行对比,判断是否出现部件丢失、设备降带宽等问题。测试是由总控机下发单机脚本至目标机器进行测试,并提前准备标准配置表,进行压力测试时,目标机器在一次压测后执行测试脚本,检查部件的数量,以及部件链路信息是否与标准配置表相同,逐行读取进行对照,若有不同,则认为这次压测出现故障,并上报工程师进行分析。

现有技术中对PCIe标准配置表的制定采用逐行配置,缺少参考的配置模板,导致容易出现参数溢出、匹配错误等情况,增加了测试风险以及现网问题定位和运维难度。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种网络设备的故障检测方法、装置、电子设备及存储介质。

根据本申请实施例的一个方面,提供了一种网络设备的故障检测方法,包括:

获取当前待进行故障检测的至少一个第一网络设备对应的PCIe标准配置表,其中,所述PCIe标准配置表是基于所述第一网络设备对应的设备配置信息生成的;

获取所述第一网络设备执行测试后输出的PCIe测试配置表;

对比所述PCIe标准配置表与所述PCIe测试配置表,得到所述PCIe标准配置表与所述PCIe测试配置表之间的差异信息;

基于所述差异信息生成所述第一网络设备对应的故障检测结果。

进一步的,在获取当前待进行故障检测的第一网络设备对应的PCIe标准配置表之前,所述方法还包括:

检测当前是否存在通过轮询接口接入的网络设备;

在存在接入的网络设备的情况下,将接入的网络设备确定为待进行故障检测的第一网络设备;

获取所述第一网络设备对应的第一设备标识以及第一设备配置信息,并为所述第一网络设备分配通信地址。

进一步的,所述获取当前待进行故障检测的第一网络设备对应的PCIe标准配置表,包括:

从所述第一设备配置信息中获取所述第一网络设备对应的至少一个测试对象;

查询所述第一网络设备对应的订单信息,并从所述订单信息中查询所述第一网络设备各个测试对象对应的标准配置参数;

基于所述测试对象以及每个所述测试对象对应的标准配置参数生成所述PCIe标准配置表。

进一步的,所述获取所述第一网络设备执行测试后输出的PCIe测试配置表,包括:

基于所述通信地址向所述第一网络设备下发检测指令,以使所述第一网络设备基于检测指令检测各个测试对象对应的实际配置参数,并基于所述测试对象以及所述实际配置参数生成并输出所述PCIe测试配置表;

接收所述第一网络设备基于所述检测指令反馈的所述PCIe测试配置表。

进一步的,所述对比所述PCIe标准配置表与所述PCIe测试配置表,得到所述PCIe标准配置表与所述PCIe测试配置表之间的差异信息,包括:

获取所述PCIe标准配置表中各个测试对象对应的标准配置参数,以及所述PCIe测试配置表中各个测试对象对应的实际配置参数;

对比每个测试对象的所述标准配置参数以及所述实际配置参数得到所述差异信息。

进一步的,所述方法还包括:

从所述第一网络设备对应的订单信息中查询与所述第一网络设备相关联的其他网络设备对应的设备标识;

将所述PCIe标准配置表与所述设备标识关联存储。

进一步的,所述方法还包括:

在检测到存在待进行故障检测的第二网络设备的情况下,获取所述第二网络设备对应的第二设备标识;

对比所述第二设备标识与所述其他网络设备对应的设备标识;

在所述第二设备标识与所述其他网络设备对应的设备标识相匹配的情况下,将所述PCIe标准配置表确定为所述第二网络设备的PCIe标准配置表。

根据本申请实施例的另一方面,还提供了一种网络设备的故障检测装置,包括:

获取模块,用于获取当前待进行故障检测的至少一个第一网络设备对应的PCIe标准配置表,其中,所述PCIe标准配置表是基于所述第一网络设备对应的设备配置信息生成的;

处理模块,用于获取所述第一网络设备执行测试后输出的PCIe测试配置表;

分析模块,用于对比所述PCIe标准配置表与所述PCIe测试配置表中的配置参数,得到所述PCIe标准配置表与所述PCIe测试配置表之间的差异信息;

生成模块,用于基于所述差异信息生成所述第一网络设备对应的故障检测结果。

根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。

根据本申请实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供方法通过利用网络设备的设备配置信息生成PCIe标准配置表,实现了所生成PCIe标准配置表的准确性以及灵活性,同时通过对比PCIe标准配置表以及PCIe测试配置表能够快速进行故障定位,提高了故障排查效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种网络设备的故障检测方法的流程图;

图2为本申请实施例提供的PCIe标准配置表的配置示意图;

图3为本申请实施例提供的PCIe标准配置表与PCIe测试配置表的对比示意图;

图4为本申请另一实施例提供的一种网络设备的故障检测方法的流程图;

图5为本申请实施例提供的一种网络设备的故障检测装置的框图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种网络设备的故障检测方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。

根据本申请实施例的一方面,提供了一种网络设备的故障检测方法的方法实施例,图1为本申请实施例提供的一种网络设备的故障检测方法的流程图,如图1所示,该方法包括:

步骤S11,获取当前待进行故障检测的至少一个第一网络设备对应的PCIe标准配置表,其中,PCIe标准配置表是基于第一网络设备对应的设备配置信息生成的。

本申请实施例提供的方法应用于故障检测设备,故障检测设备用于获取当前接入的待测网络设备的设备配置信息,利用设备配置信息生成待测网络设备的PCIe标准配置表,同时下发指令至待测网络设备,得到其PCIe测试配置表,最终,基于PCIe标准配置表和PCIe测试配置表对进行待测网络设备进行故障检测。其中,网络设备可以是服务器、交换机等用于网络传输的设备。

在本申请实施例中,在获取当前待进行故障检测的第一网络设备对应的PCIe标准配置表之前,方法还包括以下步骤A1-A3:

步骤A1,检测当前是否存在通过轮询接口接入的网络设备。

步骤A2,在存在接入的网络设备的情况下,将接入的网络设备确定为待进行故障检测的第一网络设备。

步骤A3,获取第一网络设备对应的第一设备标识以及第一设备配置信息,并为第一网络设备分配通信地址。

在本申请实施例中,故障检测设备在运维和现网使用环境中开放可供待测设备集群访问的轮询接口,当网络设备需要进行故障检测时,会通过轮询接口接入故障检测设备,故障检测设备通过轮询接口检测到接入的网络设备后,将接入的网络设备确定为待进行故障检测的第一网络设备,此时故障检测设备首先为第一网络设备分配通信地址(即IP地址),目的是便于后续基于该通信地址向第一网络设备下发指令。同时故障检测设备还通过轮询接口获取第一网络设备的第一设备配置信息以及第一设备标识,其中,第一设备配置信息中包括第一网络设备的多个测试对象,测试对象可以是CPU、GPU、内存等等。第一设备标识为第一网络设备的设备序列号。

需要说明的是,通过轮询接口的方式管理待检测的网络设备,可以实现网络设备的批量测试,提高运维和现网使用的测试效率,降低了网络设备故障检测的时间。

在本申请实施例中,获取当前待进行故障检测的第一网络设备对应的PCIe标准配置表,包括以下步骤B1-B3:

步骤B1,从第一设备配置信息中获取第一网络设备对应的至少一个测试对象。

步骤B2,查询第一网络设备对应的订单信息,并从订单信息中查询第一网络设备各个测试对象对应的标准配置参数。

在本申请实施例中,故障检测设备会利用第一设备标识从订单系统中查询第一网络设备对应的订单信息,订单信息中包括:同一批次的网络设备,以及网络设备对应的标准配置参数,例如:网络设备对应的标准配置参数为:网络设备A,CPU:数量x1,核数y1。GPU:数量x2,带宽y2。网络设备B,CPU:数量x1,核数y1。GPU:数量x2,带宽y2。

步骤B3,基于测试对象以及每个测试对象对应的标准配置参数生成PCIe标准配置表。

在本申请实施例中,故障检测设备基于通过第一设备配置信息得到的测试对象以及订单信息得到的标准配置参数,生成PCIe标准配置表,并存储该PCIe标准配置表。PCIe标准配置表中的设备键为测试对象,设备键对应的设备值为标准配置参数。

作为一个示例,如图2所述,故障检测设备首先获取第一网络设备的第一设备配置信息,从第一设备配置信息中提取多个测试对象(CPU、GPU等),基于多个测试对象生成初始PCIe标准配置表,其中初始PCIe标准配置表中测试对象作为设备键,设备键对应的设备值为空。其次,查询订单信息,从订单信息中获取第一网络设备中各个测试对象的标准配置参数,将各个测试对象的标准配置参数作为设备值写入初始PCIe标准配置表,得到最终的PCIe标准配置表。

步骤S12,获取第一网络设备执行测试后输出的PCIe测试配置表。

在本申请实施例中,获取第一网络设备执行测试后输出的PCIe测试配置表,包括以下步骤B1-B2:

步骤B1,基于通信地址向第一网络设备下发检测指令,以使第一网络设备基于检测指令检测各个测试对象对应的实际配置参数,并基于测试对象以及实际配置参数生成并输出PCIe测试配置表。

步骤B2,接收第一网络设备基于检测指令反馈的PCIe测试配置表。

在本申请实施例中,故障检测设备在得到PCIe标准配置表后,会基于通信地址向第一网络设备下发检测指令,第一网络设备在收到检测指令后,基于检测指令检测自身各个测试对象对应的实际配置参数,然后将测试对象作为设备键,实际配置参数作为设备值生成PCIe测试配置表,并将该PCIe测试配置表传输给故障检测设备。或者,第一网络设备直接将测试得到的各个测试对象的实际配置参数反馈至故障检测设备,故障检测设备基于各个测试对象,以及各个测试对象对应的实际配置参数生成PCIe测试配置表。

步骤S13,对比PCIe标准配置表与PCIe测试配置表,得到PCIe标准配置表与PCIe测试配置表之间的差异信息。

在本申请实施例中,步骤S13,对比PCIe标准配置表与PCIe测试配置表,得到PCIe标准配置表与PCIe测试配置表之间的差异信息,包括以下步骤C1-C2:

步骤C1,获取PCIe标准配置表中各个测试对象对应的标准配置参数,以及PCIe测试配置表中各个测试对象对应的实际配置参数。

步骤C2,对比每个测试对象的标准配置参数以及实际配置参数得到差异信息。

在本申请实施例中,在得到PCIe标准配置表和PCIe测试配置表后,会从两个配置表中提取相同测试对象分别对应的标准配置参数以及实际配置参数,然后将相同测试对象分别对应的标准配置参数以及实际配置参数进行对比,得到差异信息。

作为一个示例,如图3所示,从PCIe标准配置表与PCIe测试配5表中分别抽取设备键为CPU的标准配置参数以及实际配置参数,对比CPU的标准配置参数与实际配置参数中的数量(x1,x2)以及核数(y1,y2)是否一致,得到CPU的差异信息1。从PCIe标准配置表与PCIe测试配表中分别抽取设备键为GPU的标准配置参数以及实际配

置参数,对比GPU的标准配置参数与实际配置参数中的数量(m1,m2)0以及带宽(n1,n2)是否一致,得到GPU的差异信息2。从PCIe标准配置表与PCIe测试配表中分别抽取设备键为内存的标准配置参数以及实际配置参数,对比GPU的标准配置参数与实际配置参数中的数量(p1,p2)以及大小(q1,q2)是否一致,得到内存的差异信息3。

步骤S14,基于差异信息生成第一网络设备对应的故障检测结果。5在本申请实施例中,故障检测设备汇总每个测试对象的标准配置参数与实际配置参数之间的差异信息,并基于差异信息生成第一网络设备对应的故障检测结果,其中,当所有测试对象的差异信息显示为0时,故障检测结果显示第一网络设备无故障。当存在至少一个测试对

象的差异信息显示不为0时,将该测试对象确定为标记为故障状态,0此时故障检测结果显示标记有故障状态的测试对象。

本申请实施例提供方法通过利用网络设备的设备配置信息生成PCIe标准配置表,实现了所生成PCIe标准配置表的准确性以及灵活性,同时通过对比PCIe标准配置表以及PCIe测试配置表能够快速进行故障定位,提高了故障排查效率。

在本申请实施例中,如图4所示,方法还包括:

步骤S21,从第一网络设备对应的订单信息中查询与第一网络设备相关联的其他网络设备对应的设备标识;

步骤S22,将PCIe标准配置表与设备标识关联存储。

在本申请实施例中,故障检测设备在生成第一网络设备的PCIe标准配置表后,还可以从第一网络设备所属的订单信息中查询是否存在与第一网络设备属于同一批次的其他网络设备,如存在与第一网络设备属于同一批次的其他网络设备,则将第一网络设备的PCIe标准配置表与其他网络设备的设备标识进行关联存储。

需要说明的,本申请实施例在进行网络设备的故障检测时,通过查询是否存在网络设备同订单的其他网络设备,直接关联存储PCIe标准配置表与其他网络设备的设备标识关联存储。目的是后续同订单的其他网络设备进行故障检测时,无需重新生成PCIe标准配置表,可以直接使用预先生成好的PCIe标准配置表,进一步提高了故障检测效率。

在本申请实施例中,方法还包括以下步骤D1-D3:

步骤D1,在检测到存在待进行故障检测的第二网络设备的情况下,获取第二网络设备对应的第二设备标识。

步骤D2,对比第二设备标识与其他网络设备对应的设备标识。

步骤D3,在第二设备标识与其他网络设备对应的设备标识相匹配的情况下,将PCIe标准配置表确定为第二网络设备的PCIe标准配置表。

在本申请实施例中,当故障检测设备检测到第二网络设备通过轮询接口接入的情况下,获取第二网络设备对应的第二设备标识。然后

判断第二设备标识是否与其他网络设备对应的设备标识相匹配,从而5确定第二网络设备是否与第一网络设备属于同一订单的网络设备。如

果第二设备标识与其他网络设备对应的设备标识相匹配,则确定第二网络设备与第一网络设备属于同一订单的网络设备,此时可以直接使用第一网络设备的PCIe标准配置表作为第二网络设备的PCIe标准配置表。

0另外,由于同一订单信息中可能会有多种不同规格的网络设备,

因此查询订单信息确定第二网络设备是否与第一网络设备的规格是否相同(例如查询第二网络设备的第二设备标识对应的规则),如果不同,则利用订单信息对第二网络设备的PCIe标准配置表进行更新。

作为一个示例,订单信息中包括规格为K的网络设备,以及规格5为L的网络设备,当第一网络设备为规格K时,其对应的PCIe标准配

置表为K。当后续属于同一订单信息的第二网络设备进行故障检测时,则通过订单信息判断第二网络设备的规格是否为L,如果第二网络设备的规格为L,则利用规格L对第一网络设备的PCIe标准配置表进行改

写,并将改写后的PCIe标准配置表作为第二网络设备的PCIe标准配0置表。

图5为本申请实施例提供的一种网络设备的故障检测装置,的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,该装置包括:

获取模块51,用于获取当前待进行故障检测的至少一个第一网络设备对应的PCIe标准配置表,其中,PCIe标准配置表是基于第一网络设备对应的设备配置信息生成的;

处理模块52,用于获取第一网络设备执行测试后输出的PCIe测试配置表;

分析模块53,用于对比PCIe标准配置表与PCIe测试配置表中的配置参数,得到PCIe标准配置表与PCIe测试配置表之间的差异信息;

生成模块54,用于基于差异信息生成第一网络设备对应的故障检测结果。

在本申请实施例中,网络设备的故障检测装置还包括:分配模块,用于检测当前是否存在通过轮询接口接入的网络设备;在存在接入的网络设备的情况下,将接入的网络设备确定为待进行故障检测的第一网络设备;获取第一网络设备对应的第一设备标识以及第一设备配置信息,并为第一网络设备分配通信地址。

在本申请实施例中,获取模块,用于从第一设备配置信息中获取第一网络设备对应的至少一个测试对象;查询第一网络设备对应的订单信息,并从订单信息中查询第一网络设备各个测试对象对应的标准配置参数;基于测试对象以及每个测试对象对应的标准配置参数生成PCIe标准配置表。

在本申请实施例中,处理模块,用于基于通信地址向第一网络设备下发检测指令,以使第一网络设备基于检测指令检测各个测试对象对应的实际配置参数,并基于测试对象以及实际配置参数生成并输出PCIe测试配置表;接收第一网络设备基于检测指令反馈的PCIe测试配置表。

在本申请实施例中,分析模块,用于获取PCIe标准配置表中各个测试对象对应的标准配置参数,以及PCIe测试配置表中各个测试对象对应的实际配置参数;对比每个测试对象的标准配置参数以及实际配置参数得到差异信息。

在本申请实施例中,网络设备的故障检测装置还包括:存储模块,用于从第一网络设备对应的订单信息中查询与第一网络设备相关联的其他网络设备对应的设备标识;将PCIe标准配置表与设备标识关联存储。

在本申请实施例中,网络设备的故障检测装置还包括:执行模块,用于在检测到存在待进行故障检测的第二网络设备的情况下,获取第二网络设备对应的第二设备标识;对比第二设备标识与其他网络设备对应的设备标识;在第二设备标识与其他网络设备对应的设备标识相匹配的情况下,将PCIe标准配置表确定为第二网络设备的PCIe标准配置表。

本申请实施例还提供一种电子设备,如图6所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。

存储器1503,用于存放计算机程序;

处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的网络设备的故障检测方法。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的网络设备的故障检测方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk)等。

以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 电子设备控制方法及装置、电子设备及存储介质
  • 数据分布存储方法、装置、存储介质及电子设备
  • 存储清理方法、装置、电子设备及存储介质
  • 多版本数据存储管理方法及装置、电子设备、存储介质
  • 一种故障检测模型的训练方法、装置、故障检测方法、电子设备和可读存储介质
  • 路径故障检测方法、装置、系统、网络设备及存储介质
技术分类

06120115783518