掌桥专利:专业的专利平台
掌桥专利
首页

存储设备及其机框共享部件访问方法、装置、存储介质

文献发布时间:2023-06-19 09:24:30


存储设备及其机框共享部件访问方法、装置、存储介质

技术领域

本申请涉及计算机应用技术领域,特别是涉及一种存储设备及其机框共享部件访问方法、装置、存储介质。

背景技术

随着计算机技术的快速发展,各种存储设备在各行业的应用越来越广泛。存储设备,其控制框、JBOD(Just a Bunch Of Disks,磁盘簇)框的硬件通常设计为双控/四控架构,即一个机框内有2/4个主板。机箱管理功能由主板上的通用管理芯片BMC(BaseboardManagement Controller,基板管理控制器)实现。存储设备机框设置有公共的FRU(FieldReplace Unit,现场可更换单元),如PSU(Power Supply Unit,供电单元)、BBU(BatteryBackup Unit,备用电池单元)、背板等,这些也称为机框共享部件。

目前,多个主板的BMC协商可以得到主BMC,主BMC通过通信链路可以访问机框共享部件,除了主BMC外的其他BMC为从BMC,各个从BMC通过主BMC实现对机框共享部件的管理。如果主BMC与机框共享部件之间出现通信故障,则将会导致各个BMC均无法对机框共享部件进行访问,对机框共享部件的管理失效,存储系统将会进入异常状态。

综上所述,如何有效地解决对机框共享部件管理失效等问题,是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种存储设备及其机框共享部件访问方法、装置、存储介质,以实现对机框共享部件的冗余访问,避免对机框共享部件管理失效影响存储系统的正常运行。

为解决上述技术问题,本申请提供如下技术方案:

一种机框共享部件访问方法,应用于存储设备的主基板管理控制器BMC,所述存储设备的机框内设置有多个主板,每个主板对应一个BMC,多个BMC协商得到所述主BMC,其他BMC为从BMC;所述方法包括:

对所述存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC;

接收各个从BMC对所述机框共享部件的配置命令,下发给所述机框共享部件;

在监测到与所述机框共享部件出现通信故障的情况下,按照预设的主从切换规则,在多个从BMC中确定新主BMC,以使所述新主BMC对所述机框共享部件进行访问管理。

在本申请的一种具体实施方式中,通过以下步骤确定与所述机框共享部件是否出现通信故障:

对所述机框共享部件发起访问请求;

如果连续发起N次访问请求均未获得响应,则确定与所述机框共享部件出现通信故障,N为正整数。

在本申请的一种具体实施方式中,在连续发起N次访问请求均未获得响应的情况下,在所述确定与所述机框共享部件出现通信故障之前,还包括:

对与所述机框共享部件之间的通信链路进行复位修复;

如果修复失败,则对自身的链路控制单元进行复位修复;

如果仍修复失败,则执行所述确定与所述机框共享部件出现通信故障的步骤。

在本申请的一种具体实施方式中,所述按照预设的主从切换规则,在多个从BMC中确定新主BMC,包括:

按照机框对主板的编号,在多个从BMC中选择一个从BMC;

将选择出的从BMC确定为新主BMC。

在本申请的一种具体实施方式中,所述将选择出的从BMC确定为新主BMC,包括:

向选择出的从BMC发起板间通信数据帧;

在接收到该从BMC返回的确认数据帧后,确定该从BMC为新主BMC。

在本申请的一种具体实施方式中,在所述按照预设的主从切换规则,在多个从BMC中确定新主BMC之后,还包括:

输出针对自身的链路控制单元故障的第一告警信息。

在本申请的一种具体实施方式中,在监测到与所述机框共享部件出现通信故障的情况下,还包括:

如果确定各个BMC均无法对所述机框共享部件进行访问,则输出针对所述机框共享部件故障的第二告警信息。

一种机框共享部件访问装置,应用于存储设备的主基板管理控制器BMC,所述存储设备的机框内设置有多个主板,每个主板对应一个BMC,多个BMC协商得到所述主BMC,其他BMC为从BMC;所述装置包括:

采集结果分发模块,用于对所述存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC;

配置命令下发模块,用于接收各个从BMC对所述机框共享部件的配置命令,下发给所述机框共享部件;

新主BMC确定模块,用于在监测到与所述机框共享部件出现通信故障的情况下,按照预设的主从切换规则,在多个从BMC中确定新主BMC,以使所述新主BMC对所述机框共享部件进行访问管理。

一种存储设备,包括:

在机框内设置的多个主板,每个主板对应一个BMC,多个BMC协商得到主BMC,其他BMC为从BMC;

存储器,用于存储计算机程序;

所述主BMC,用于执行所述计算机程序时实现上述任一项所述机框共享部件访问方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述机框共享部件访问方法的步骤。

应用本申请实施例所提供的技术方案,存储设备的主BMC在正常工作过程中,对存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC,接收各个从BMC对机框共享部件的配置命令,下发给机框共享部件,在监测到与机框共享部件出现通信故障时,按照预设的主从切换规则,在多个从BMC中确定新主BMC,由新主BMC对机框共享部件进行访问管理。实现了对机框共享部件的冗余访问,增强了访问可靠性,避免了对机框共享部件管理失效影响存储系统的正常运行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种存储设备的结构示意图;

图2为本申请实施例中一种机框共享部件访问方法的实施流程图;

图3为本申请实施例中一种机框共享部件访问装置的结构示意图;

具体实施方式

本申请的核心是提供一种机框共享部件访问方法,该方法可以应用于存储设备的主BMC。

如图1所示,存储设备的机框内设置有多个主板,如主板0、主板1、主板2、主板3,每个主板对应一个BMC,如主板0的BMC0、主板1的BMC1、主板2的BMC2、主板3的BMC3。多个BMC协商可以得到主BMC,其他BMC为从BMC。图1中BMC0为主BMC,其他为从BMC。

多个主板的BMC通过通信链路,如IIC((Inter-Integrated Circuit,集成电路总线)链路分别连接到机框共享部件,如PSU/BBU/背板EEPROM(Electrically ErasableProgrammable read only memory,带电可擦可编程只读存储器),BMC之间通过IIC合路并接到一起。针对IIC链路只能串行访问特性,多个BMC通过软件仲裁可以协商出一个主BMC,负责对机框共享部件的访问。

在相关技术中,当主BMC或者主BMC和机框共享部件之间的通信链路出现故障,将会导致各个BMC均无法对机框共享部件进行访问,对机框共享部件的管理失效,存储系统将会进入异常状态。

基于此,本申请实施例在监测到与机框共享部件出现通信故障时,按照预设的主从切换规则,在多个从BMC中确定新主BMC,新主BMC对机框共享部件进行访问管理。以实现对机框共享部件的冗余访问,避免对机框共享部件管理失效影响存储系统的正常运行。

为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

参见图2所示,为本申请实施例所提供的一种机框共享部件访问方法的实施流程图,该方法可以包括以下步骤:

S210:对存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC;

S220:接收各个从BMC对机框共享部件的配置命令,下发给机框共享部件。

在本申请实施例中,在存储设备初始运行时,多个主板的BMC经过协商得到主BMC,除主BMC外的其他BMC为从BMC。每个从BMC都是通过主BMC对机框共享部件进行访问。

主BMC通过通信链路对存储设备的机框共享部件进行信息采集,获得采集结果后,将采集结果分发给各个从BMC。各个从BMC有对机框共享部件的配置诉求时,可以将配置命令传递给主BMC。主BMC接收各个从BMC对机框共享部件的配置命令,下发给机框共享部件,完成配置实施。

S230:在监测到与机框共享部件出现通信故障的情况下,按照预设的主从切换规则,在多个从BMC中确定新主BMC,以使新主BMC对机框共享部件进行访问管理。

主BMC可以对自身及自身与机框共享部件的连接状态等进行实时监测。在监测到与机框共享部件出现通信故障的情况下,可以按照预设的主从切换规则,在多个从BMC中确定出新主BMC,这样新主BMC可以对机框共享部件进行访问管理。

在本申请的一种具体实施方式中,可以通过以下步骤确定与机框共享部件是否出现通信故障:

步骤一:对机框共享部件发起访问请求;

步骤二:如果连续发起N次访问请求均未获得响应,则确定与机框共享部件出现通信故障,N为正整数。

在本申请实施例中,主BMC可以按照设定时间间隔向机框共享部件发起访问请求。如果连续发起N次访问请求均未获得机框共享部件的响应,则可以认为与机框共享部件的连接出现问题,可能是自身的链路控制单元出现问题,还可能是与机框共享部件之间的通信链路出现问题。在这种情况下,都可以确定与机框共享部件出现通信故障。

N可以根据实际情况进行设定和调整,如设定为5或者10等。连续发起多次访问请求均未获得响应后,才确定与机框共享部件出现通信故障,可以避免偶然的信号波动导致判断不准确的情况发生。

在本申请的一种具体实施方式中,在连续发起N次访问请求均未获得响应的情况下,在确定与机框共享部件出现通信故障之前,该方法还可以包括以下步骤:

第一个步骤:对与机框共享部件之间的通信链路进行复位修复,如果修复失败,则执行第二个步骤;

第二个步骤:对自身的链路控制单元进行复位修复,如果仍修复失败,则执行确定与机框共享部件出现通信故障的操作。

在本申请实施例中,主BMC对机框共享部件发起访问请求,在连续发起N次访问请求均未获得响应的情况下,可以先对机框共享部件之间的通信链路,如IIC链路进行复位修复。如按照协议标准,可以执行9个时钟的复位修复。如果修复成功,则不再进行本申请后续步骤的操作,可以继续对机框共享部件进行访问管理。如果修复失败,则可以对自身的链路控制单元,如IIC控制单元进行复位修复。如果修复成功,同样可以不再进行本申请后续步骤的操作,可以继续对机框共享部件进行访问管理。如果仍修复失败,则可以确定与机框共享部件出现通信故障,可以置故障状态,启动主BMC切换。

通过对通信链路9个时钟的复位修复,到对链路控制单元的复位修复,进行逐级复位修复,可以增强判定的准确性,避免误判导致BMC主从切换浪费资源。

在本申请的一种具体实施方式中,按照预设的主从切换规则,在多个BMC中确定新主BMC,可以包括以下步骤:

按照机框对主板的编号,在多个从BMC中选择一个从BMC;

将选择出的从BMC确定为新主BMC。

在实际应用中,存储设备的机框内设置有多个主板,机框对每个主板会进行相应编号,如board0、board1、board2、board3等。主从切换规则可以根据机框对主板的编号进行设定。按照机框对主板的编号,可以在多个从BMC中选择一个从BMC。具体的,可以按照board0→board1→board2→board3→board0的顺序选择。举例而言,如果当前主BMC的主板编号为board0,则可以选择编号为board1的主板的BMC,如果当前主BMC的主板编号为board2,则可以选择编号为board3的主板的BMC。或者,可以按照board0→board3→board2→board1→board0的顺序选择。每次选择基于同一主从切换规则即可。

在多个从BMC中选择出一个从BMC后,可以将选择出的从BMC确定为新主BMC。具体的,可以向选择出的从BMC发起板间通信数据帧,主动将主BMC身份转让给选择出的该从BMC,在接收到该从BMC返回的确认数据帧后,确定该从BMC为新主BMC,协商完成。原主BMC可以自动降级为从BMC,新主BMC启动对机框共享部件的访问管理。

应用本申请实施例所提供的方法,存储设备的主BMC在正常工作过程中,对存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC,接收各个从BMC对机框共享部件的配置命令,下发给机框共享部件,在监测到与机框共享部件出现通信故障时,按照预设的主从切换规则,在多个从BMC中确定新主BMC,由新主BMC对机框共享部件进行访问管理。实现了对机框共享部件的冗余访问,增强了访问可靠性,避免了对机框共享部件管理失效影响存储系统的正常运行。

在本申请的一个实施例中,在按照预设的主从切换规则,在多个从BMC中确定新主BMC之后,该方法还可以包括以下步骤:

输出针对自身的链路控制单元故障的第一告警信息。

在本申请实施例中,主BMC在监测到与机框共享部件出现通信故障的情况下,在多个从BMC中确定新主BMC之后,可以输出针对自身的链路控制单元故障的第一告警信息,以报告硬件故障,提示用户更换链路控制单元。

在实际应用中,可能存在各个BMC均无法对机框共享部件进行访问的情况。如BMC0作为主BMC时,监测到与机框共享部件出现通信故障时,选择BMC1作为新主BMC。作为新主BMC的BMC1监测到与机框共享部件出现通信故障时,选择BMC2作为新主BMC。作为新主BMC的BMC2监测到与机框共享部件出现通信故障时,选择BMC3作为新主BMC。作为新主BMC的BMC3监测到与机框共享部件出现通信故障时,选择BMC0作为新主BMC。也就是说,如果BMC0在较短时间(该时长可以根据实际情况进行设定和调整)内再次被选为新主BMC,则可以认为各个BMC均无法对机框共享部件进行访问。

如果确定各个BMC均无法对机框共享部件进行访问,则可以认为是机框共享部件出现了故障,可以输出针对机框共享部件故障的第二告警信息,以提示用户更换机框共享部件。

相应于上面的方法实施例,本申请实施例还提供了一种机框共享部件访问装置,应用于存储设备的主基板管理控制器BMC,存储设备的机框内设置有多个主板,每个主板对应一个BMC,多个BMC协商得到主BMC,其他BMC为从BMC,下文描述的机框共享部件访问装置与上文描述的机框共享部件访问方法可相互对应参照。

参见图3所示,该装置可以包括以下模块:

采集结果分发模块310,用于对存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC;

配置命令下发模块320,用于接收各个从BMC对机框共享部件的配置命令,下发给机框共享部件;

新主BMC确定模块330,用于在监测到与机框共享部件出现通信故障的情况下,按照预设的主从切换规则,在多个从BMC中确定新主BMC,以使新主BMC对机框共享部件进行访问管理。

应用本申请实施例所提供的装置,存储设备的主BMC在正常工作过程中,对存储设备的机框共享部件进行信息采集,将采集结果分发给各个从BMC,接收各个从BMC对机框共享部件的配置命令,下发给机框共享部件,在监测到与机框共享部件出现通信故障时,按照预设的主从切换规则,在多个从BMC中确定新主BMC,由新主BMC对机框共享部件进行访问管理。实现了对机框共享部件的冗余访问,增强了访问可靠性,避免了对机框共享部件管理失效影响存储系统的正常运行。

在本申请的一种具体实施方式中,还包括通信故障确定模块,用于通过以下步骤确定与机框共享部件是否出现通信故障:

对机框共享部件发起访问请求;

如果连续发起N次访问请求均未获得响应,则确定与机框共享部件出现通信故障,N为正整数。

在本申请的一种具体实施方式中,通信故障确定模块,还用于:

在连续发起N次访问请求均未获得响应的情况下,在确定与机框共享部件出现通信故障之前,对与机框共享部件之间的通信链路进行复位修复;

如果修复失败,则对自身的链路控制单元进行复位修复;

如果仍修复失败,则执行确定与机框共享部件出现通信故障的步骤。

在本申请的一种具体实施方式中,新主BMC确定模块330,用于:

按照机框对主板的编号,在多个从BMC中选择一个从BMC;

将选择出的从BMC确定为新主BMC。

在本申请的一种具体实施方式中,新主BMC确定模块330,用于:

向选择出的从BMC发起板间通信数据帧;

在接收到该从BMC返回的确认数据帧后,确定该从BMC为新主BMC。

在本申请的一种具体实施方式中,还包括第一告警信息输出模块,用于:

在按照预设的主从切换规则,在多个从BMC中确定新主BMC之后,输出针对自身的链路控制单元故障的第一告警信息。

在本申请的一种具体实施方式中,还包括第二告警信息输出模块,用于:

在监测到与机框共享部件出现通信故障的情况下,如果确定各个BMC均无法对机框共享部件进行访问,则输出针对机框共享部件故障的第二告警信息。

相应于上面的方法实施例,本申请实施例还提供了一种存储设备,包括:

在机框内设置的多个主板,每个主板对应一个BMC,多个BMC协商得到主BMC,其他BMC为从BMC;

存储器,用于存储计算机程序;

主BMC,用于执行计算机程序时实现上述机框共享部件访问方法的步骤。

如图1所示,主板0的BMC0为主BMC,主板1的BMC1、主板2的BMC2和主板3的BMC3为从BMC,主板0中设置的存储器中存储有计算机程序,作为主BMC的BMC0可以在执行计算机程序时实现上述机框共享部件访问方法的步骤。当然,图1所示的主板个数仅为示例,在实际应用中,可能设置有较少或者更多的主板。

相应于上面的方法实施例,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述机框共享部件访问方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

相关技术
  • 存储设备及其机框共享部件访问方法、装置、存储介质
  • 异构系统存储设备的访问方法、装置、设备及存储介质
技术分类

06120112150734