掌桥专利:专业的专利平台
掌桥专利
首页

一种智能网卡VR状态监控装置、方法、终端及存储介质

文献发布时间:2023-06-19 18:46:07


一种智能网卡VR状态监控装置、方法、终端及存储介质

技术领域

本发明涉及智能网卡VR状态监控领域,具体涉及一种智能网卡VR状态监控装置、方法、终端及存储介质。

背景技术

在当今主流的智能网卡中,使用了数量较多的VR(voltage regulation,电压转换)芯片,用于给网卡内部的各种器件供电。由于电源方案的不同以及VR芯片厂商的多样化,在实际使用时可能会遇到power drop(异常掉电)的现象。由于板内的电源环环相扣,在排查问题的发生原因时会陷入无从下手的窘境。

针对智能网卡的电源状态检测,目前最常用的方法是对最后一级电的状态进行检测,通常将最后一级(PVTT)的power good(PWRGD)被视为检测标志。这里以PVTT为例,检测机制的简化示意图如下图1所示。当网卡中环环相扣的电源出现某一级电power drop时,会导致该VR芯片之后的各级电均出现跌落,因此当CPLD检测到最后一级电(以PVTT为例)出现PWRGD_PVTT异常拉低时,CPLD便会将中断信号发给智能网卡的BMC,BMC发出告警,用户得知网卡出现power drop。然而这种机制存在很多缺点和不足:

1)CPLD仅仅是检测最后一级的电源状态,尽管能够及时通知BMC告警 powerdrop,却无法明确提供具体是哪一级出现了问题导致的power drop,因此无法给运维和研发人员提供进一步的分析依据;

2)某一级电的PWRGD出现跌落的原因是多样的,如图1所示,可以是该级VR芯片的PWRGD本身跌落、上一级电的PWRGD(常作为本级电的EN)跌落导致本级电的EN拉低从而导致power drop。因此只检测PWRGD的状态也无法提供更全面的现象。

发明内容

为解决上述问题,本发明提供一种智能网卡VR状态监控装置、方法、终端及存储介质,对每一个VR芯片均采集PWRGD信号,根据每一个VR芯片的PWRGD信号定位到具体故障点,为工作人员排查网卡工作状态及调试工作提供有效支持,提高检测效率。

第一方面,本发明的技术方案提供一种智能网卡VR状态监控装置,前一级VR芯片的PWRGD信号输入到后一级VR芯片的使能端,为后一级VR芯片的使能信号,该装置包括VR状态监控器,每一个VR芯片的PWRGD信号均传输至VR状态监控器,实时监测每一个VR芯片的PWRGD信号状态;当某一个VR芯片的PWRGD信号异常时,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点。

进一步地,若某一个VR芯片的前一级VR芯片为单个VR芯片时,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点,具体包括:

若前一级VR芯片的PWRGD信号状态正常,则故障点在本VR芯片;

若前一级VR芯片的PWRGD信号状态异常,则检测前两级VR芯片的PWRGD信号,若前两级VR芯片的PWRGD信号状态正常,则故障点在前一级VR芯片,否则检测前三级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

进一步地,若某一个VR芯片的前一级VR芯片为多个VR芯片时,则其使能信号为前一级多个VR芯片的PWRGD信号的与信号,相应的,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点具体包括:

若前一级多个VR芯片的PWRGD信号均正常,则故障点在本VR芯片;

若前一级多个VR芯片中出现PWRGD信号异常,则PWRGD信号异常的VR芯片为故障点。

进一步地,VR状态监控器为CPLD。

进一步地,智能网卡所在设备包括BMC,CPLD监测到PWRGD信号异常时,发送报警信号至BMC,并将定位的具体故障点信息发送至BMC;同时将实时监测信息记录到日志。

第二方面,本发明的技术方案提供一种智能网卡VR状态监控方法,包括以下步骤:

接收每一个VR芯片的PWRGD信号;

实时监测每一个VR芯片的PWRGD信号状态;

当某一个VR芯片的PWRGD信号异常时,根据其前一级VR芯片的PWRGD信号状态定位具体故障点。

进一步地,若某一个VR芯片的前一级VR芯片为单个VR芯片时,根据其前一级VR芯片的PWRGD信号的状态定位具体故障点,具体包括:

若前一级VR芯片的PWRGD信号状态正常,则故障点在本VR芯片;

若前一级VR芯片的PWRGD信号状态异常,则检测前两级VR芯片的PWRGD信号,若前两级VR芯片的PWRGD信号状态正常,则故障点在前一级VR芯片,否则检测前三级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

进一步地,若某一个VR芯片的前一级VR芯片为多个VR芯片时,则其使能信号为前一级多个VR芯片的PWRGD信号的与信号,相应的,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点具体包括:

若前一级多个VR芯片的PWRGD信号均正常,则故障点在本VR芯片;

若前一级多个VR芯片中出现PWRGD信号异常,则记PWRGD信号异常的VR芯片为异常VR芯片,检测异常VR芯片的前一级VR芯片的PWRGD信号,若正常,则故障点在异常VR芯片,若异常则检测再前一级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

第三方面,本发明的技术方案提供一种终端,包括:

存储器,用于存储智能网卡VR状态监控程序;

处理器,用于执行所述智能网卡VR状态监控程序时实现如上述任一项所述智能网卡VR状态监控方法的步骤。

第四方面,本发明的技术方案提供一种计算机可读存储介质,所述可读存储介质上存储有智能网卡VR状态监控程序,所述智能网卡VR状态监控程序被处理器执行时实现如上述任一项所述智能网卡VR状态监控方法的步骤。

本发明提供的一种智能网卡VR状态监控装置、方法、终端及存储介质,相对于现有技术,具有以下有益效果:将每一个VR芯片的PWRGD信号均传输至VR状态监控器,由VR状态监控器根据每一个的VR信芯片的PWRGD信号定位到具体故障点。本发明对每一个VR芯片均采集PWRGD信号,根据每一个VR芯片的PWRGD信号定位到具体故障点,为工作人员排查网卡工作状态及调试工作提供有效支持,提高检测效率。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是当前检测机制原理示意图。

图2是本发明实施例提供的一种智能网卡VR状态监控装置结构示意图。

图3是本发明实施例提供的一种智能网卡VR状态监控装置的一具体实施例两级VR芯片结构示意图。

图4是本发明实施例提供的一种智能网卡VR状态监控方法流程示意图。

图5是本发明实施例提供的一种终端的结构示意图。

具体实施方式

以下对本发明涉及的部分术语进行解释。

VR芯片:voltage regulation,电压转换芯片。

PWRGD:用于表征VR芯片是否完成电压建立的信号,若PWRGD为高电平,则表征电压建立完成,若PWRGD为低电平,则表征电压未输出。

CPLD:Complex Programmable Logic Device,复杂可编程逻辑器件。

BMC:BaseboardManager Controller,基板管理控制器。

为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图2是本发明实施例提供的一种智能网卡VR状态监控装置结构示意图,智能网卡有多个VR芯片对电源进行处理,前一级VR芯片的PWRGD信号输入到后一级VR芯片的使能端,即前一级VR芯片的PWRGD信号为后一级VR芯片的使能信号。需要说明的是,每一级VR芯片可以包括至少一个VR芯片,即某一级VR芯片可能是一个VR芯片,也可能是多个VR芯片,当某一级VR芯片有多个VR芯片时,这多个VR芯片的PWRGD信号进行与运算后输入到后一级VR芯片,作为后一级VR芯片的使能信号。

为在出现异常掉电时,可快速定位出具体故障点,本实施例还设置VR状态监控器,每一个VR芯片的PWPWRGD信号均传输至VR状态监控器,实时监测每一个VR芯片的PWRGD信号状态;当某一个VR芯片的PWRGD信号异常时,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点。

本发明实施例将每一个VR芯片的PWRGD信号均传输至VR状态监控器,由VR状态监控器根据每一个的VR信芯片的PWRGD信号定位到具体故障点。本发明对每一个VR芯片均采集PWRGD信号,根据每一个VR芯片的PWRGD信号定位到具体故障点,为工作人员排查网卡工作状态及调试工作提供有效支持,提高检测效率。

当某一个VR芯片的前一级VR芯片为单个VR芯片时,直接检测前一级VR芯片的PWRGD信号来定位故障点,相应的,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点,具体包括:

若前一级VR芯片的PWRGD信号状态正常,则故障点在本VR芯片;

若前一级VR芯片的PWRGD信号状态异常,则检测前两级VR芯片的PWRGD信号,若前两级VR芯片的PWRGD信号状态正常,则故障点在前一级VR芯片,否则检测前三级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

即先检测前一级VR芯片的PWRGD信号,如果前一级VR芯片的PWRGD信号正常,则可直接确定当前VR芯片为故障点,如果前一级VR芯片的PWRGD信号异常,则再检测再前一级VR芯片的PWRGD信号,以此类推,直到找到某个VR芯片的PWRGD信异常,而其前一级VR芯片的PWRGD信号正常,那么该VR芯片即为故障点。

若某一个VR芯片的前一级VR芯片为多个VR芯片时,则其使能信号为前一级多个VR芯片的PWRGD信号的与信号。相应的,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点具体包括:

若前一级多个VR芯片的PWRGD信号均正常,则故障点在本VR芯片;

若前一级多个VR芯片中出现PWRGD信号异常,则记PWRGD信号异常的VR芯片为异常VR芯片,检测异常VR芯片的前一级VR芯片的PWRGD信号,若正常,则故障点在异常VR芯片,若异常则检测再前一级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

即先检测前一级各个VR芯片的PWRGD信号是不是都正常,如果都正常,那么当前VR芯片即为故障点。如果前一级多个VR芯片中出现有VR芯片的PWRGD信号异常,那么对该异常的VR芯片再检测其前一级VR芯片的PWRGD信号,以此类推,直到找到某个VR芯片的PWRGD信异常,而其前一级VR芯片的PWRGD信号正常,那么该VR芯片即为故障点。

在一些具体实施例中,VR状态监控器可采用CPLD。智能网卡所在设备一般包括BMC,CPLD监测到PWRGD信号异常时,发送报警信号至BMC,并将定位的具体故障点信息发送至BMC,使设备可快速获知报警信息。另外,可实时将监测信息记录到日志,便于后续分析。

为进一步理解本发明,以下提供一具体实施例对本发明进一步详细说明,该具体实施例在整个电源方案中截取部分来介绍,图3是该具体实施例两级VR芯片结构示意图,其中PVCCH为本级电,PVCCL_SDM为上级电。

该具体实施例中,将各级电的PWRGD引入CPLD,由CPLD检测PWRGD的状态,若前一级电的PWRGD正常,本级电PWRGD出现跌落,则报本级电power drop;若原本本级电的EN是由多个电的PWRGD通过与电路给出的,可以将这多路PWRGD引入CPLD,在CPLD判断几路PWRGD均为高后,由CPLD发出本级电的EN。

该具体实施例检测机制中,每一级电的PWRGD均被引到CPLD,在出现power drop时,由CPLD来判断。如果这个电的EN(上一级电的PWRGD)为高,而PWRGD为低,那么便是这一级电出现power drop;若这个电的EN(上一级电的PWRGD)为低,则为上一级电power drop(在实际环环相扣的电源中,还需要继续由CPLD往上级检测具体到哪一级电是EN正常,PWRGD跌落,从而定位到具体故障点)。以图3的电源方案为例,如果PWRGD_PVCCL_SDM高,而PWRGD_PVCCH为低,判断为PVCCH power drop,从而通知BMC报PVCCH power drop,而不是PVCCL_SDM power drop 。

在某些电源方案中,以PVCCH为例,该级电的EN由P12V_A_PWRGD & P12V_B_PWRGD& P1V15_AUX_PWRGD提供,只有这三个PWRGD均为高时,PVCCH EN才为高。在这种情况下利用该具体实施例的检测方案,将这三路PWRGD均引至CPLD,由CPLD判断三路均为高后,由CPLD发出PVCCH EN,使能下级电。

该具体实施例将检测任务交与CPLD,因此在实现power drop时快速准确的定位故障位置,并发送中断给BMC,进行故障报错外,还能够实现每隔一定时间,检测一次各级电的状态,并记录在系统日志里,为后续运维与研发人员分析定位问题提供辅助。

上文中对于一种智能网卡VR状态监控装置的实施例进行了详细描述,基于上述实施例描述的智能网卡VR状态监控装置,本发明实施例还提供了一种与该装置对应的智能网卡VR状态监控方法。

图4是本发明实施例提供的一种智能网卡VR状态监控方法流程示意图,如图4所示,该方法包括以下步骤。

S1,接收每一个VR芯片的PWRGD信号。

S2,实时监测每一个VR芯片的PWRGD信号状态。

S3,当某一个VR芯片的PWRGD信号异常时,根据其前一级VR芯片的PWRGD信号状态定位具体故障点。

某一个VR芯片的前一级VR芯片的个数不同,相应的定位具体故障点的具体方法也不同。

第一种情况,若某一个VR芯片的前一级VR芯片为单个VR芯片时,根据其前一级VR芯片的PWRGD信号的状态定位具体故障点,具体包括:

若前一级VR芯片的PWRGD信号状态正常,则故障点在本VR芯片;

若前一级VR芯片的PWRGD信号状态异常,则检测前两级VR芯片的PWRGD信号,若前两级VR芯片的PWRGD信号状态正常,则故障点在前一级VR芯片,否则检测前三级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

第二种情况,若某一个VR芯片的前一级VR芯片为多个VR芯片时,则其使能信号为前一级多个VR芯片的PWRGD信号的与信号,相应的,VR状态监控器根据其前一级VR芯片的PWRGD信号的状态定位具体故障点具体包括:

若前一级多个VR芯片的PWRGD信号均正常,则故障点在本VR芯片;

若前一级多个VR芯片中出现PWRGD信号异常,则记PWRGD信号异常的VR芯片为异常VR芯片,检测异常VR芯片的前一级VR芯片的PWRGD信号,若正常,则故障点在异常VR芯片,若异常则检测再前一级VR芯片的PWRGD信号,以此类推,直至定位出具体故障点。

本实施例的智能网卡VR状态监控方法基于前述的智能网卡VR状态监控装置实现,因此该方法中的具体实施方式可见前文中的智能网卡VR状态监控装置的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。

另外,由于本实施例的智能网卡VR状态监控方法基于前述的智能网卡VR状态监控装置实现,因此其作用与上述装置的作用相对应,这里不再赘述。

图5为本发明实施例提供的一种终端装置500的结构示意图,包括:处理器510、存储器520及通信单元530。所述处理器510用于实现存储器520中保存的智能网卡VR状态监控程序时实现以下步骤:

S1,接收每一个VR芯片的PWRGD信号;

S2,实时监测每一个VR芯片的PWRGD信号状态;

S3,当某一个VR芯片的PWRGD信号异常时,根据其前一级VR芯片的PWRGD信号状态定位具体故障点。

本发明将每一个VR芯片的PWRGD信号均传输至VR状态监控器,由VR状态监控器根据每一个的VR信芯片的PWRGD信号定位到具体故障点。本发明对每一个VR芯片均采集PWRGD信号,根据每一个VR芯片的PWRGD信号定位到具体故障点,为工作人员排查网卡工作状态及调试工作提供有效支持,提高检测效率。

该终端装置500包括处理器510、存储器520及通信单元530。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

其中,该存储器520可以用于存储处理器510的执行指令,存储器520可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器520中的执行指令由处理器510执行时,使得终端500能够执行以下上述方法实施例中的部分或全部步骤。

处理器510为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC) 组成,例如可以由单颗封装的IC 所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器510可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。

通信单元530,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质,这里所说的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random accessmemory,简称:RAM)等。

计算机存储介质存储有智能网卡VR状态监控程序,所述智能网卡VR状态监控程序被处理器执行时实现以下步骤:

S1,接收每一个VR芯片的PWRGD信号;

S2,实时监测每一个VR芯片的PWRGD信号状态;

S3,当某一个VR芯片的PWRGD信号异常时,根据其前一级VR芯片的PWRGD信号状态定位具体故障点。

本发明将每一个VR芯片的PWRGD信号均传输至VR状态监控器,由VR状态监控器根据每一个的VR信芯片的PWRGD信号定位到具体故障点。本发明对每一个VR芯片均采集PWRGD信号,根据每一个VR芯片的PWRGD信号定位到具体故障点,为工作人员排查网卡工作状态及调试工作提供有效支持,提高检测效率。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

技术分类

06120115686423