掌桥专利:专业的专利平台
掌桥专利
首页

一种主板电源异常定位保护方法及装置

文献发布时间:2023-06-19 11:57:35


一种主板电源异常定位保护方法及装置

技术领域

本发明涉及服务器监控技术领域,特别涉及一种主板电源异常定位保护方法及装置。

背景技术

BMC(英文全称:Baseboard Management Controller,中文全称:基板管理控制器)是独立于设备主处理器的具有自备电源的微处理器,它可以通过传感器芯片实时地采集计算机硬件设备的温度、电压、电源状态等信息。BMC将设备维护端和硬件设备紧密地联系起来,通过BMC的通信接口,设备维护人员可以在设备维护端实时地观察设备的健康状况,在设备工作状态出现异常时及时查看,并排除故障,维护设备的良好运行状况。

现有技术中,当主板电源出现异常时,设备维护人员通过BMC虽然可以及时了解到故障发生,然而并不能第一时间找到电路异常的地方以切除故障,还需要通过万用表或者示波器等来查找,不仅工作量大、效率低,而且耗时长,容易导致主板芯片出现损坏风险;此外,直接让主电源模块掉电虽然可以第一时间切除故障,但是会导致整个系统无法正常运行。

发明内容

为解决上述技术问题,本发明提供一种主板电源异常定位保护方法及装置,能够防止主板电源异常时导致主板芯片损坏情况,同时避免让主电源模块掉电导致整个系统无法正常运行。

本发明一方面提供一种主板电源异常定位保护方法,包括:

主板上电后监测各路电源的电压值;

判断所述电源的电压值是否在电压预设范围内;

若所述电源的电压值不在所述电压预设范围内,锁定所述电源关联的电路功能模块区域,并监测所述电源关联的电路功能模块区域内各个电源芯片的温度值;

判断所述电源芯片的温度值是否大于预设温度阈值;

若所述电源芯片的温度值大于所述预设温度阈值,开启定时器进行计时,并生成计时时间值;

判断所述计时时间值是否达到第一预设时间阈值;

若所述计时时间值达到所述第一预设时间阈值,发送掉电指令,以关闭所述电源关联的电路功能模块。

优选地,在所述主板上电后监测各路电源的电压值之前,所述方法还包括:

监测主板各路电源的阻抗值;

判断所述电源的阻抗值是否在阻抗预设范围内;

若所述电源的阻抗值在所述阻抗预设范围内,发送主板电源正常信号,以使所述主板上电。

优选地,若所述电源的阻抗值不在所述阻抗预设范围内,所述方法还包括:

发送主板电源管理控制信号,以阻止所述主板上电。

优选地,所述方法还包括:

记录所述电源关联的电路功能模块区域内各个电源芯片的位号,并生成故障日志。

优选地,在判断出所述计时时间值没有达到所述第一预设时间阈值之后,所述方法还包括:

若判断出所述电源芯片的温度值不大于所述预设温度阈值,令所述计时时间值清零,并返回所述判断各个所述电源芯片的温度值是否大于预设温度阈值。

优选地,若所述计时时间值没有达到所述第一预设时间阈值,所述方法还包括:

判断所述计时时间值是否达到第二预设时间阈值;

若所述计时时间值达到所述第二预设时间阈值,输出预警信号。

优选地,所述方法还包括:

接收对所述电压预设范围、所述预设温度阈值、所述第一预设时间阈值、所述阻抗预设范围和所述第二预设时间阈值的设置。

本发明另一方面提供一种主板电源异常定位保护装置,包括:

第一监测模块,用于主板上电后监测各路电源的电压值;

第一判断模块,用于判断所述电源的电压值是否在电压预设范围内;

第二监测模块,用于若所述电源的电压值不在所述电压预设范围内,锁定所述电源关联的电路功能模块区域,并监测所述电源关联的电路功能模块区域内各个电源芯片的温度值;

第二判断模块,用于判断所述电源芯片的温度值是否大于预设温度阈值;

计时模块,用于若所述电源芯片的温度值大于所述预设温度阈值,开启定时器进行计时,并生成计时时间值;

第三判断模块,用于判断所述计时时间值是否达到第一预设时间阈值;

第一发送模块,用于若所述计时时间值达到所述第一预设时间阈值,发送掉电指令,以关闭所述电源关联的电路功能模块。

优选地,所述装置还包括:

第三监测模块,用于监测主板各路电源的阻抗值;

第四判断模块,用于判断所述电源的阻抗值是否在阻抗预设范围内;

第二发送模块,用于若所述电源的阻抗值在所述阻抗预设范围内,发送主板电源正常信号,以使所述主板上电。

优选地,所述装置还包括:

第三发送模块,用于若所述电源的阻抗值不在所述阻抗预设范围内,发送主板电源管理控制信号,以阻止所述主板上电。

本发明至少具有以下有益效果:

本发明通过在主板上电后监测各路电源的电压值,并判断各路电源的电压值是否在电压预设范围内,若某路电源的电压值不在电压预设范围内,则锁定该路电源关联的电路功能模块区域,同时监测该路电源关联的电路功能模块区域内各个电源芯片的温度值,并判断各个电源芯片的温度值是否大于预设温度阈值,若电源芯片的温度值大于预设温度阈值,则开启定时器进行计时,并生成计时时间值,当计时时间值达到第一预设时间阈值时,发送掉电指令,以关闭该路电源关联的电路功能模块,从而能够防止主板电源异常时导致主板芯片损坏情况,同时避免让主电源模块掉电导致整个系统无法正常运行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种主板电源异常定位保护方法的流程示意图;

图2为本发明实施例提供的一种主板电源异常定位保护装置的结构示意图。

具体实施方式

本发明的核心是提供一种主板电源异常定位保护方法及装置,能够在某路电源的电压出现异常时,锁定该路电源关联的电路功能模块区域,同时监测该路电源关联的电路功能模块区域内各个电源芯片的温度值,并在电源芯片的温度也出现异常时,发送掉电指令以关闭该路电源关联的电路功能模块,从而能够防止主板电源异常时导致主板芯片损坏情况,同时避免让主电源模块掉电导致整个系统无法正常运行。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明实施例提供的主板电源异常定位保护方法及装置,主要基于基板管理控制器BMC,通过BMC对主板电源异常进行定位和保护。其中,主板包括主电源模块和若干电源芯片等,主电源模块通过各个电源芯片向主板其他电路功能模块提供电源。

请参阅图1,本发明实施例一方面提供一种主板电源异常定位保护方法,包括:

S110、主板上电后监测各路电源的电压值。

本发明实施例中,基板管理控制器BMC具有ADC电压监测模块,在主板上电后,ADC电压监测模块监测主板各路电源的电压输入输出数据,基板管理控制器BMC通过ADC电压监测接口获取主板各路电源的的电压值。

S120、判断电源的电压值是否在电压预设范围内,若否,则执行步骤S130。

本发明实施例中,电压预设范围为维护人员设置的主板各路电源能够正常工作的电压上限临界值和下限临界值。具体实施时,基板管理控制器BMC分别采集主板各路电源在工作过程中的输入输出电压值,维护人员通过分析历史数据,可以得到各路电源的该电压上限临界值和下限临界值。

S130、锁定电源关联的电路功能模块区域,并监测电源关联的电路功能模块区域内各个电源芯片的温度值。

本发明实施例中,当主板电源的电压出现异常时,往往会导致电源芯片的温度过高。因此,当判断出某路电源的电压不在电压预设范围内时,锁定该路电源关联的电路功能模块区域,同时监测该路电源关联的电路功能模块区域内各个电源芯片的温度值。具体的,基板管理控制器BMC还具有温度监测模块,温度监测模块监测电源关联的电路功能模块区域内各个电源芯片的工作温度数据,基板管理控制器BMC通过I2C接口获取各个电源芯片的温度值。

S140、判断电源芯片的温度值是否大于预设温度阈值,若是,则执行步骤S150。

本发明实施例中,预设温度阈值为维护人员设置的各个电源芯片能够正常工作的温度临界值。具体的,基板管理控制器BMC分别采集各个电源芯片在工作过程中的工作温度值,维护人员通过分析历史数据,可以得到各个电源芯片的该温度临界值。其中,预设温度阈值可以是一个确定的范围,也可以是一个确定的范围中的某个值。

S150、开启定时器进行计时,并生成计时时间值。

本发明实施例中,当电源芯片短时间内过热时,并不会影响电源芯片的正常工作,因此,当基板管理控制器BMC判断电源芯片的温度值大于预设温度阈值,可以开启定时器进行计时,并根据定时器的计时时间生成计时时间值,用于作为判断电源芯片是否发生异常的时间范围标准。其中,由于定时器计时所产生的时间值是逐渐增加的,故生成的计时时间值也随其一起增加。

举例说明,当开启定时器进行计时后,该定时器会从0开始计时,且当前计时时间逐渐增加到3s时,在此过程中,对应所生成的计时时间值也增加到3s,作为后续是否达到第一预设时间阈值的判断标准。

S160、判断计时时间值是否达到第一预设时间阈值,若达到,则执行步骤S170。

本发明实施例中,第一预设时间阈值为维护人员设置的使各个电源芯片在超出温度临界值时维持正常工作的时间临界值。具体实施时,基板管理控制器BMC分别采集各个电源芯片在工作过程中超出温度临界值时的维持正常工作的时间值,维护人员通过分析历史数据,可以得到各个电源芯片的该时间临界值。其中,第一预设时间阈值同样可以是一个确定的范围,也可以是一个确定的范围中的某个值。

S170、发送掉电指令,以关闭电源关联的电路功能模块。

本发明实施例中,当基板管理控制器BMC判断出某路电源的电压值不在电压预设范围内,同时该路电源关联的电路功能模块区域内电源芯片的温度值大于预设温度阈值且计时时间值达到第一预设时间阈值时,则发送掉电指令以关闭该路电源关联的电路功能模块,从而防止主板电源异常时导致主板芯片损坏情况,同时避免让主电源模块掉电导致整个系统无法正常运行。

以上可知,本发明实施例提供的主板电源异常定位保护方法,通过在主板上电后监测各路电源的电压值,并判断各路电源的电压值是否在电压预设范围内,若某路电源的电压值不在电压预设范围内,则锁定该路电源关联的电路功能模块区域,同时监测该路电源关联的电路功能模块区域内各个电源芯片的温度值,并判断各个电源芯片的温度值是否大于预设温度阈值,若电源芯片的温度值大于预设温度阈值,则开启定时器进行计时,并生成计时时间值,当计时时间值达到第一预设时间阈值时,发送掉电指令,以关闭该路电源关联的电路功能模块,从而能够防止主板电源异常时导致主板芯片损坏情况,同时避免让主电源模块掉电导致整个系统无法正常运行。

具体实施时,基板管理控制器BMC可以采用AST2500芯片,支持IPMI2.0技术,基板管理控制器BMC提供ADC电压和温度监测、远程监控、管理功能等先进功能。基板管理控制器BMC对处理器内核电源、处理器PCIE内核电源、处理器DDR模块IO电源、处理器IO电源、网络控制器内核电源、第一DDR4芯片供电电源、第二DDR4芯片供电电源、纽扣电池电源、PCIE桥片电源、USB控制器电源、12V电源、5V电源、3.3V电源、3.3V待机电源、BMC核电压电源、SATA供电电源等服务器主板关键电源进行电压及温度监测。

进一步地,上述实施例中,在步骤S110之前,该方法还包括:

S101、监测主板各路电源的阻抗值。

本发明实施例中,通过外部监测装置监测主板各路电源的阻抗值,其中,外部监测装置使用外置独立电源供电,监测主板各路电源的对地直流阻抗。

S102、判断电源的阻抗值是否在阻抗预设范围内,若是,则执行步骤S103,若否,则执行步骤S104。

本发明实施例中,阻抗预设范围为维护人员设置的主板各路电源正常工作时的阻抗上限临界值和下限临界值。其中,当主板某路电源出现短路故障时,其对地直流阻抗接近于0,而当主板某路电源出现断路故障时,其对地直流阻抗接近于无穷大。因此,维护人员可以将上限临界值设置为接近无穷大的数值,将下限临界值设置为接近0的数值。

S103、发送主板电源正常信号,以使主板上电。

本发明实施例中,当主板各路电源的阻抗值均在正常阻抗范围内时,表示主板各路电源均未出现短路或断路故障,此时,外部监测装置输出主板电源正常信号,以使主板正常上电。

S104、发送主板电源管理控制信号,以阻止主板上电。

本发明实施例中,当主板某路电源的阻抗值不在正常阻抗范围内时,表示主板该路电源出现短路或断路故障,此时,外部监测装置输出主板电源管理控制信号,并一直保持,以阻止主板上电。需要维护人员查找并修复短路或断路故障,然后断开外部监测装置,才能使主板上电。用户即使强行按开机按钮,由于有外部监测装置输出的主板电源管理控制信号,主板也无法上电,从而保护主板和CPU。

进一步地,上述实施例中,该方法还包括:

记录电源关联的电路功能模块区域内各个电源芯片的位号,并生成故障日志。

本发明实施例中,当基板管理控制器BMC判断出主板某路电源出现异常时,则记录该路电源关联的电路功能模块区域内各个电源芯片的位号,并生成故障日志,从而方便维护人员进行故障查找和修复。

可选的,在本发明的一些实施例中,在判断出计时时间值没有达到第一预设时间阈值之后,该方法还包括:

若判断出电源芯片的温度值不大于预设温度阈值,令计时时间值清零,并返回判断各个电源芯片的温度值是否大于预设温度阈值。

本发明实施例中,若在计时时间值没有达到第一预设时间阈值时,基板管理控制器BMC判断该电源芯片的温度值不大于预设温度阈值,即该电源芯片的温度值下降到预设温度阈值以下,则表示该电源芯片只是短时间内过热,并不会影响该电源芯片的正常工作,此时需要将当前的计时时间值清零,并继续监测各个电源芯片的温度值是否大于预设温度阈值,当判断某个电源芯片的温度值再次大于预设温度阈值时,重新利用定时器,生成一个新的计时时间值,进而开始新一轮对各个电源芯片是否出现温度异常的判断。

进一步地,上述实施例中,若计时时间值没有达到第一预设时间阈值,该方法还包括:

判断计时时间值是否达到第二预设时间阈值;

若所述计时时间值达到所述第二预设时间阈值,输出预警信号。

本发明实施例中,当基板管理控制器BMC判断计时时间值达到第二预设时间阈值且没有达到第一预设时间阈值时,输出预警信号,提醒维护人员提前对该路电源关联的电路功能模块区域内各个电源芯片进行分析和查看,防止出现主板芯片损坏情况。

更进一步地,上述各实施例中,该方法还包括:

接收对电压预设范围、预设温度阈值、第一预设时间阈值、阻抗预设范围和第二预设时间阈值的设置。

本发明实施例中,维护人员在基板管理控制器BMC中预先设置电压预设范围、预设温度阈值、第一预设时间阈值和第二预设时间阈值,并在外部监测装置中预先设置阻抗预设范围。

请参阅图2,本发明实施例另一方面提供一种主板电源异常定位保护装置,包括:

第一监测模块110,用于主板上电后监测各路电源的电压值;

第一判断模块120,用于判断电源的电压值是否在电压预设范围内;

第二监测模块130,用于若电源的电压值不在电压预设范围内,锁定电源关联的电路功能模块区域,并监测电源关联的电路功能模块区域内各个电源芯片的温度值;

第二判断模块140,用于判断电源芯片的温度值是否大于预设温度阈值;

计时模块150,用于若电源芯片的温度值大于预设温度阈值,开启定时器进行计时,并生成计时时间值;

第三判断模块160,用于判断计时时间值是否达到第一预设时间阈值;

第一发送模块170,用于若计时时间值达到第一预设时间阈值,发送掉电指令,以关闭电源关联的电路功能模块。

进一步地,上述实施例中,该装置还包括:

第三监测模块,用于监测主板各路电源的阻抗值;

第四判断模块,用于判断电源的阻抗值是否在阻抗预设范围内;

第二发送模块,用于若电源的阻抗值在阻抗预设范围内,发送主板电源正常信号,以使主板上电。

进一步地,上述实施例中,该装置还包括:

第三发送模块,用于若电源的阻抗值不在阻抗预设范围内,发送主板电源管理控制信号,以阻止主板上电。

进一步地,上述实施例中,该装置还包括:

故障日志生成模块,用于记录电源关联的电路功能模块区域内各个电源芯片的位号,并生成故障日志。

进一步地,上述实施例中,该装置还包括:

计时清零模块,用于在判断出计时时间值没有达到第一预设时间阈值之后,若判断出电源芯片的温度值不大于预设温度阈值,令计时时间值清零,并返回判断各个电源芯片的温度值是否大于预设温度阈值。

进一步地,上述实施例中,该装置还包括:

第五判断模块,用于若计时时间值没有达到第一预设时间阈值,判断计时时间值是否达到第二预设时间阈值;

预警信号输出模块,用于若计时时间值达到第二预设时间阈值,输出预警信号。

进一步地,上述实施例中,该装置还包括:

设置接收模块,用于接收对电压预设范围、预设温度阈值、第一预设时间阈值、阻抗预设范围和第二预设时间阈值的设置。

本发明实施例提供的一种主板电源异常定位保护装置中相关部分的说明请参见本发明实施例提供的一种主板电源异常定位保护方法中对应部分的详细说明,且均具有本发明实施例提供的一种主板电源异常定位保护方法具有的对应效果,在此不再赘述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种主板电源异常定位保护方法及装置
  • 一种异常电源精确定位报警装置
技术分类

06120113112964