用于管理存储系统的方法、设备和计算机程序产品

文献发布时间：2023-06-19 10:54:12

技术领域

本公开的各实现方式涉及存储管理，更具体地，涉及用于在存储系统中出现故障存储设备时针对该存储系统进行重建(rebuild)的方法、设备和计算机程序产品。

背景技术

随着数据存储技术的发展，各种数据存储设备已经能够向用户提供越来越高的数据存储能力，并且数据访问速度也有了很大程度的提高。在提高数据存储能力的同时，用户对于数据可靠性和存储系统的响应时间也提供了越来越高的需求。目前，已经开发出了基于独立磁盘冗余阵列(Redundant Array of Independent Disks，RAID)的多种数据存储系统来提高数据的可靠性。当存储系统中的一个或者多个磁盘出现故障时，可以从其他正常操作的磁盘上的数据来重建故障磁盘中的数据。

目前已经开发出了映射独立磁盘冗余阵列(Mapped RAID)。在该映射RAID中，磁盘是一个逻辑概念并且可以包括多个区块(extent)。一个逻辑磁盘中包括的多个区块可以分布在资源池中的不同物理存储设备上。对于映射RAID的一个条带中的多个区块而言，该多个区块应当分布在不同的物理存储设备上，以便当该多个区块中的一个或者多个区块所在的物理存储设备出现故障时，可以执行重建操作以便从其他区块所在的物理存储设备中恢复数据。

由于资源池中的各个存储设备投入使用的时间以及使用状态等存在差异，某个存储设备可能会出现故障。将会理解，基于存储系统中的冗余存储设备的数量的不同，在不损失数据的情况下，存储系统能够包括的故障存储设备的数量也是不同的。此时，如何尽快重建故障存储设备中的数据，进而避免存储系统中的数据丢失，成为一个技术难题。

发明内容

因而，期望能够开发并实现一种以更为有效的方式来重建存储系统的技术方案。期望该技术方案能够与现有的存储系统相兼容，并且通过改造现有存储系统的各种配置，来以更为有效的方式管理存储系统。

根据本公开的第一方面，提供了一种用于管理存储系统的方法。存储系统包括多个条带，多个条带中的一个条带中包括的多个区块分别位于存储系统中的多个存储设备，存储系统包括表示条带和多个区块分别所位于的多个存储设备之间的地址映射。在该方法中，针对多个区块中的一个区块，基于地址映射确定多个存储设备中的区块所位于的存储设备。根据确定存储设备为故障存储设备，将条带加入存储系统的重建列表，重建列表包括存储系统中的将要被重建的条带。

根据本公开的第二方面，提供了一种用于管理存储系统的设备。存储系统包括多个条带，多个条带中的一个条带中包括的多个区块分别位于存储系统中的多个存储设备，存储系统包括表示条带和多个区块分别所位于的多个存储设备之间的地址映射。该设备包括：至少一个处理器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：基于地址映射确定多个存储设备中的区块所位于的存储设备；根据确定存储设备为故障存储设备，将条带加入存储系统的重建列表，重建列表包括存储系统中的将要被重建的条带；以及基于重建列表中的条带来重建存储系统。

根据本公开的第三方面，提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令用于执行根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中：

图1A和1B分别示意性示出了其中可以实现本公开的方法的存储系统的示意图；

图2示意性示出了其中可以实现本公开的方法的示例性环境的框图；

图3示意性示出了图2中的存储资源池的图示；

图4A示意性示出了根据一个技术方案的用于管理存储系统的框图；

图4B示意性示出了根据本公开的一个实现方式的用于管理存储系统的框图；

图5示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法的流程图；

图6示意性示出了根据本公开的一个实现方式的元数据位图的框图；

图7示意性示出了根据本公开的一个实现方式的存储设备中的设备区块与条带中的区块之间的关系的框图；

图8示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法的流程图；

图9示意性示出了根据本公开一个实现方式的针对重建列表中的条带进行重建的过程的框图；

图10示意性示出了根据本公开一个实现方式的基于重建的条带而更新的地址映射的框图；以及

图11示意性示出了根据本公开的示例性实现的用于管理存储系统的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的上下文中，存储系统可以是基于RAID的存储系统。基于RAID的存储系统可以将多个存储设备组合起来，成为一个磁盘阵列。通过提供冗余的存储设备，可以使得整个磁盘组的可靠性大大超过单一的存储设备。RAID可以提供优于单一的存储设备的各种优势，例如，增强数据整合度，增强容错功能，增加吞吐量或容量，等等。RAID存在多个标准，例如RAID-1，RAID-2，RAID-3，RAID-4，RAID-5，RAID-6，RAID-10，RAID-50等等。关于RAID级别的更多细节，本领域技术人员例如可以参见https://en.wikipedia.org/wiki/Standard_RAID_levels、以及https://en.wikipedia.org/wiki/Nested_RAID_levels等。

图1A示意性示出了其中可以实现本公开的方法的存储系统100A的示意图。在图1A所示的存储系统中，以包括五个独立存储设备(110、112、114、116以及118)的RAID-5(4D+1P，其中4D表示存储系统中包括四个存储设备来用于存储数据，1P表示存储系统中包括一个存储设备来用于存储P校验)阵列为示例，来说明RAID的工作原理。应当注意，尽管图1A中示意性示出了五个存储设备，在其他的实现方式中，根据RAID的等级不同，还可以包括更多或者更少的存储设备。尽管图1A中示出了条带120、122、124、…、126，在其他的示例中，RAID系统还可以包括不同数量的条带。

在RAID中，条带可以跨越多个物理存储设备(例如，条带120跨越存储设备110、112、114、116以及118)。可以简单地将条带理解为多个存储设备中的满足一定地址范围的存储区域。在条带120中存储的数据包括多个部分：存储在存储设备110上的数据块D00、存储在存储设备112上的数据块D01、存储在存储设备114上的数据块D02、存储在存储设备116上的数据块D03、以及存储在存储设备118上的数据块P0。在此示例中，数据块D00、D01、D02、以及D03是被存储的数据，而数据块P0是被存储数据的P校验。

在其他条带122和124中存储数据的方式也类似于条带120，不同之处在于，有关其他数据块的校验可以存储在不同于存储设备118的存储设备上。以此方式，当多个存储设备110、112、114、116以及118中的一个存储设备出现故障时，可以从其他的正常的存储设备中恢复出故障设备中的数据。

图1B示意性示出了存储系统110A的重建过程的示意图100B。如图1B所示，当一个存储设备(例如，以阴影示出的存储设备116)出现故障时，可以从其余的正常操作的多个存储设备110、112、114、118中恢复数据。此时，可以向RAID中加入新的后备存储设备118B来替代存储设备118，以此方式，可以将恢复的数据写入118B并实现系统的重建。

应当注意，尽管在上文中参见图1A和图1B描述了包括5个存储设备(其中4个存储设备用于存储数据，1个存储设备用于存储校验)的RAID-5的存储系统，根据其他RAID等级的定义，还可以存在包括其他数量的存储设备的存储系统。例如，基于RAID-6的定义，可以利用两个存储设备来分别存储校验P和Q。又例如，基于三重校验RAID的定义，可以利用三个存储设备来分别存储校验P、Q和R。

随着分布式存储技术的发展，图1A和1B所示的存储系统中的各个存储设备110、112、114、116以及118可以不再局限于物理存储设备，而是可以是虚拟存储设备。例如，存储设备110上的各个区块可以分别来自于资源池中的不同的物理存储设备(在下文中将简称为存储设备)。图2示意性示出了其中可以实现本公开的方法的示例性环境的框图。如图2所示，存储资源池270可以包括多个物理存储设备210、220、230、240、250、…、260。此时，该多个存储设备中的存储空间可以被分配给多个存储系统290、…、292。此时，存储系统290、…、292可以经由网络280来访问存储资源池270中的各个存储设备中的存储空间。

图3示意性示出了如图2所示的存储资源池270的更多信息的图示。资源池270可以包括多个存储设备210、220、230、240、250、…、260。每个存储设备可以包括多个区块，其中空白区块(如图例320所示)表示空闲的区块，以阴影示出的区块(如图例322所示)表示用于图1中的存储系统110A的RAID条带1的区块，以条纹示出的区块(如图例324所示)表示用于图1中的存储系统110A的RAID条带2的区块。此时，用于RAID条带1的区块D11、D22、D33、D44分别用于存储该条带的数据块，而区块D55用于存储数据的校验。用于RAID条带2的区块D01、D12、D23、D34分别用于存储第二条带的数据块，而区块D45用于存储数据的校验。

如图3中所示，地址映射330示出了条带与条带中的区块所在地址之间的关联关系。例如，RAID条带1可以包括5个区块：D11、D22、D33、D44和D55，这5个区块分别位于存储设备210、220、230、240和250。具体地如图3所示，区块D11是存储设备220中的第一个区块，区块D22是存储设备230中的第二个区块。如图3所示，在各个存储设备中还可以存在预留的空闲部分310，以便用于在资源池中的一个存储设备出现故障时，可以选择各个存储设备中的空闲部分310中的区块，来重建故障存储设备中的各个区块。

应当注意，图3仅以4D+1P的RAID-5存储系统为示例示出了各个条带中的区块如何分布在资源池的多个存储系统中。当采用基于其他RAID等级时，本领域技术人员可以基于上文的原理来实现具体细节。例如，在6D+1P+1Q的RAID-6存储系统中，每个条带中的8个区块可以分布在多个存储设备上，进而保证多个存储设备的负载均衡。

将会理解，随着存储系统的使用，多个存储设备中的一个或多个存储设备可能会出现故障，此时需要启动重建操作来将故障存储设备中的数据恢复至正常的存储设备，以避免数据丢失。目前已经提出了用于存储系统重建的技术方案。例如，图4A示意性示出了根据一个技术方案的用于管理存储系统的框图400A。如图4A所示，假设存储设备220出现故障，则需要遍历存储设备220中的每个区块。基于地址映射330可知，RAID条带1使用了故障存储设备中的区块D11，则此时需要重建RAID条带1。进一步，基于地址映射330可知，RAID条带2使用了故障存储设备中的区块D12，则此时需要重建RAID条带2。可以逐一遍历存储设备220中的每个区块，以便找到使用了故障的存储设备220中的区块的一个或多个条带，并针对找到的一个或多个条带执行重建。

尽管图4A所示的技术方案可以重建存储系统中的数据，然而由于该技术方案的执行时间较长。例如，存储设备220中可能会存在大量的未被分配用于构建RAID条带的区块。此时，仍然需要遍历存储设备220中的每个区块，这导致重建效率低下并且重建时间较长。如果在重建期间其他存储设备中出现了故障，则在4D+1P的存储系统中将会出现不可恢复的数据丢失。因而，期望可以提高重建操作的性能，并且尽量降低重建操作的时间。

为了解决上述缺陷，本公开的实现方式提供了一种用于管理存储系统的方法、设备和计算机程序产品。在下文中，将详细描述本公开的具体实现方式。根据本公开内容的一个实现方式，提供了一种用于管理存储系统的方法。存储系统包括多个条带，多个条带中的一个条带中包括的多个区块分别位于存储系统中的多个存储设备，存储系统包括表示条带和多个区块分别所位于的多个存储设备之间的地址映射。在该方法中，提出了重建队列的概念，在此的重建列表包括存储系统中的将要被重建的条带。

一方面，存储设备中可能会存在未被分配用于构建RAID条带的区块，此时通过遍历地址映射中的RAID条带来构建重建队列，可以避免处理存储设备中的未被分配的区块的额外开销。另一方面，利用重建队列可以并行地针对重建队列中的多个条带执行重建操作，因而可以以更为有效的方式重建存储系统中的条带。利用本公开的示例性实现方式，可以提高重建操作的性能并且降低重建操作的时间开销。

在下文中，将参见图4B描述本公开的示意性实现的概要。图4B示意性示出了根据本公开的一个实现方式的用于管理存储系统的框图400B。如图4B所示，可以遍历地址映射330中的多个条带。在此条带可以包括多个区块，该区块的数量是基于所采用的RAID的而确定的。对于4D+1P的存储系统而言，条带可以包括4+1＝5个区块。针对多个区块中的一个区块，可以基于地址映射确定多个存储设备中的区块所位于的存储设备。例如，RAID条带1可以包括5个区块，并且可以逐一处理每个区块。可以首先基于地址映射330确定区块D11位于多个存储设备中的哪个存储设备，此时可以确定D11位于设备220。

继而，可以确定存储设备220是否为故障存储设备。假设存储设备220出现故障，则可以将RAID条带1加入存储系统的重建列表410。将会理解，在4D+1P的存储系统中，仅能允许一个存储设备出现故障，当存在两个或者两个以上的存储设备出现故障时，则将出现不可恢复的错误。因而，在发现一个存储设备出现故障时，则需要启动重建操作。如果采用4D+2P的存储系统，则允许两个存储设备同时出现故障。此时，可以在发现一个故障存储设备时或者在发现两个故障存储设备时，启动重建操作。

继而，可以继续处理地址映射330中的后续条带，例如，RAID条带2包括区块D01、D12、D23、D34、D45。可以逐一确定每个区块所在的存储设备是否出现故障。区块D01所在的存储设备没有出现故障，则可以处理下一区块D12。由于区块D12位于故障存储设备220，可以将RAID条带2加入重建列表410。可以以类似方式处理地址映射330中的其他条带。进一步，可以基于重建列表410中的条带来重建存储系统。

将会理解，尽管在本公开的上下文中以基于RAID的存储系统的资源池270为示例来描述了用于管理存储系统的实现方式。根据本公开的示例性实现还可以被实现在包括其他数量存储设备的其他资源池中。

图5示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法500的流程图。在此的存储系统可以包括多个条带，例如存储系统可以包括如图4B所示的RAID条带1和RAID条带2。多个条带中的一个条带中包括的多个区块分别位于存储系统中的多个存储设备。例如，RAID条带1中的区块D11可以位于存储设备220、区块D22可以位于存储设备230、区块D33可以位于存储设备240、以及区块D44可以位于存储设备250、并且区块D55可以位于存储设备260。存储系统包括表示条带和多个区块分别所位于的多个存储设备之间的地址映射330。

在框510处，针对多个区块中的一个区块，基于地址映射330确定多个存储设备中的区块所位于的存储设备。基于地址映射330可知，区块标识符的后缀可以分别表示区块所位于的存储设备的标识符、以及该区块在存储设备中的地址。例如，对于区块D01而言，第一个后缀“0”可以表示该区块D01位于标识符为“0”的存储设备，并且第二个后缀“1”可以表示该区块D01是存储设备中的第1个区块。又例如，对于区块D21而言，第一个后缀“2”可以表示该区块D21位于标识符为“2”的存储设备，并且第二个后缀“1”可以表示该区块D21是存储设备中的第1个区块。

在框520处，可以确定存储设备是否为故障存储设备。可以基于在框520中确定的存储设备的标识符，来确定在该存储设备中是否出现故障。如果出现故障，则该存储设备为故障存储设备，此时方法500前进至框530。在框530处，如果确定存储设备为故障存储设备，则将条带加入存储系统的重建列表410，在此的重建列表410可以包括存储系统中的将要被重建的条带。

根据本公开的示例性实现方式，可以遍历地址映射330中的每个条带，并且针对存储系统的每个条带执行在框510、520和530处描述的过程。此时，重建队列410中可以包括将要被重建的一个或多个条带。继而，在框540处，基于重建列表410中的条带来重建存储系统。在重建操作期间，可以以并行、串行、或者并行和串行相结合的方式来针对重建列表410中的每个条带执行重建操作。为了基于重建列表410中的条带来重建存储系统，可以从多个存储设备中的故障存储设备以外的一组存储设备中，选择用于重建区块的空闲区块，并且将区块中的数据重建至选择的空闲区块。

根据本公开的示例性实现方式，由于需要确保多个存储设备的负载平衡，因而可以优先地从工作负载较低的存储设备中选择空闲区块。具体地，可以首先确定一组存储设备的工作负载。在此的工作负载可以包括多方面的内容，例如，可以基于存储设备中的已经被使用的存储空间来确定存储设备的工作负载。备选地和/或附加地，还可以基于存储设备的处理资源、带宽等其他状态来确定工作负载。在此的预定条件可以是选择具有最低工作负载的存储设备。备选地和/或附加地，预定条件还可以是选择具有较低工作负载的存储设备。可以确定一组存储设备中的具有最低/较低工作负载的存储设备，并且从确定的存储设备中选择空闲区块。

利用本公开的示例性实现方式，可以确保存储系统的重建过程可以朝向使得多个存储设备的工作负载尽可能均衡的方式来工作。一方面可以尽可能地利用多个存储设备中的工作负载较低的存储设备以提高响应速度，另一方面还可以确保多个存储设备的磨损状态尽量一致。

根据本公开的示例性实现方式，重建操作应当符合RAID标准。换言之，重建后的RAID条带中的多个区块应当位于不同的存储设备。因而，需要确保空闲区块与条带中的其他区块分别位于不同的存储设备。具体地，如果确定具有较低工作负载的存储设备不同于条带中的任一区块所在的存储设备，则可以从该存储设备中选择空闲区块。利用本公开的示例性实现方式，可以确保重建后的条带中的多个区块位于不同的存储设备。以此方式，当重建后的条带中的某个区块所在的存储设备出现故障时，可以再次基于本公开的方法500来执行重建。

将会理解，在存储系统的初始化阶段，可能已经建立了地址映射330(即，向RAID条带分配了区块)，然而并没有向条带中写入数据。此时，可以认为条带尚未被使用。如果写入请求已经向条带中写入了数据，则可以认为条带已经被使用。根据本公开的示例性实现方式，可以建立元数据位图，在此的元数据位图中的一个位用于指示多个条带中的一个条带是否被使用。在下文中，将参见图6提供有关元数据位图的更多细节。

图6示意性示出了根据本公开的一个实现方式的元数据位图的框图600。如图6所示，元数据位图610可以包括多个位，其中一个位可以用于指示多个条带中的一个条带是否被使用。在存储系统的初始化操作期间，设置元数据位图以指示多个条带均未被使用(例如，以空白图例表示)。在存储系统的运行期间，如果接收到向条带中写入目标数据的写入请求，则可以向条带写入目标数据。例如，如果接收到向RAID条带1写入数据的写入请求，则可以向该RAID条带1写入数据，并且更新元数据位图610中的与RAID条带1相对应的位612，以指示该条带已经被使用。如图6所示，以阴影图例示出了更新后的位612。根据本公开的示例性实现方式，例如可以以1来表示条带未被使用，并以0来表示条带已经被使用。根据本公开的示例性实现方式，还可以采用其他表示方式。

在存储系统的运行期间，还可以向存储系统中的其他RAID条带写入数据。如果接收到向RAID条带2写入数据的写入请求，则可以向该RAID条带2写入数据，并且更新元数据位图610中的与RAID条带2相对应的位614，以指示条带已经被使用。利用本公开的示例性实现方式，可以采用元数据位图610来表示条带是否被使用。因而在遍历地址映射330的过程中，可以基于元数据位图来判断条带是否已经被使用，并且仅针对已经被使用的条带来执行后续操作。

利用本公开的示例性实现方式，无需针对没有被使用的条带执行重建操作，因而可以跳过未被使用条带并且提高重建操作的整体性能。在存储系统刚开始运行的时候，可能会存在大量未被使用的条带并且仅有少数条带被写入了数据。利用元数据位图，可以在执行方法500时便于区分哪些条带已经被使用，进而提高重建操作的性能。

根据本公开的示例性实现方式，为了将区块中的数据重建至选择的空闲区块，可以根据元数据位图610确定条带是否被使用。如果确定条带已经被使用，基于条带中的区块以外的一组区块中的数据，将区块中的数据重建至选择的空闲区块。例如，对于重建列表中的RAID条带1，基于元数据位图610中的位612可知，该RAID条带1已经被使用。则此时需要重建该条带中的数据。由于区块D11位于故障存储设备导致该区块D11中的数据已经被损坏，可以基于位于正常存储设备的区块D22、D33、D44和D55中的数据，来恢复区块D11中的数据(例如，可以基于异或运算来进行)。

又例如，对于重建列表中的RAID条带2，基于元数据位图610中的位614可知，该RAID条带2已经被使用。则此时需要重建该条带中的数据。由于区块D12位于故障存储设备导致该区块D12中的数据已经被损坏，可以基于区块D01、D23、D34和D45中的数据来恢复区块D12中的数据。

根据本公开的示例性实现方式，如果确定条带未被使用，向空闲区块中写入“空”。在此并不需要实际执行异或运算来恢复数据，而是只需要标记空闲区块中的数据是无效的即可。尽管附图中未示出，地址映射330还可以包括更多的条带。假设地址映射330包括RAID条带3(D02，D13，D24，D35，D46)，并且该条带3并未被使用。尽管该条带3包括位于故障存储设备220中的区块D13，基于元数据位图610可以确定该条带3并未被使用，则此时可以向空闲区块中写入“空”。

将会理解，由于仅有实际的数据重建(例如，基于异或操作实现)会导致存储系统中的计算资源和时间开销，而写入“空”并不会产生额外的计算资源和时间的开销，利用本公开的示例性实现方式，可以跳过针对未使用区块的重建操作以降低重建时间。

根据本公开的示例性实现方式，为了提高存储系统的访问性能，可以采用多个服务器来向存储系统的用户提供数据写入服务和数据读取服务。例如，存储系统可以包括第一服务器和第二服务器，此时两个服务器可以以并行方式来服务于多个数据访问请求。每个服务器可以包括自身的元数据位图，例如，第一服务器可以包括第一元数据位图，并且第二服务器可以包括第二元数据位图。

将会理解，由于两个服务器可以并行地服务于不同的写入请求，此时需要确保第一元数据位图和第二元数据位图的一致性。根据本公开的示例性实现方式，如果一个服务器处的元数据位图被更新，则可以向另一服务器同步已经更新的元数据位图。利用本公开的示例性实现方式，一方面可以确保多个服务器可以并行地提供数据访问服务，另一方面还可以确保每个服务器都可以基于RAID条带的最新使用状态来运行。以此方式，可以确保存储系统运行的稳定性和数据一致性。

将会理解，尽管图4B中示意性示出了条带中的区块与存储设备中的区块具有相同大小的情况，条带中的区块的大小还可以小于存储设备中的区块。根据本公开的示例性实现方式，条带中的区块可以是将多个设备区块中的一个设备区块进行划分而获得的。在下文中，将参见图7描述更多细节。

图7示意性示出了根据本公开的一个实现方式的存储设备中的设备区块与条带中的区块之间的关系的框图700。为了便于描述，图7仅示意性示出了用于构建4D+1P的RAID存储系统的5个存储设备710、720、730、740和750。每个存储设备可以包括一个或多个设备区块，图7仅示意性示出了一个设备区块中的一个设备区块。

如图7所示，存储设备710、720、730、740和750可以分别包括设备区块712、722、732、742和752。可以基于上述设备区块712、722、732、742和752来构建RAID条带。例如，设备区块712、722、732、742可以用于存储数据，而设备区块752可以用于存储校验。将会理解，由于设备区块通常具有较大的容量，为了便于管理可以将设备区块划分为子块。例如，可以将每个设备区块划分为N(N为整数)个子块，此时每个子块的大小为设备区块的1/N。

子块714、724、734、744和754分别来自于设备区块712、722、732、742和752。可以基于子块714、724、734、744和754来构建RAID条带，以便提供更细粒度的存储空间管理单元。换言之，可以基于跨越多个存储设备的子块来构建RAID条带760、762、……、以及764。此时，地址映射330中的RAID条带的存储空间可以具有更细的粒度。

利用本公开的示例性实现方式，当遍历地址映射330时，由于此时RAID条带具有更细的粒度，因而可以以更细的粒度来控制重建的过程。对于针对整个设备区块来执行重建的现有技术方案而言，一旦设备区块中一部分被使用(例如，仅有1％的空间被使用)，则需要重建整个设备区块。不同于现有技术方案，由于本公开中的RAID条带是基于设备区块的子块来构建的，此时仅需针对被使用部分所在的RAID条带执行重建。对于未被使用的条带而言，并不需要实际执行重建操作，而是只要向空闲区块中写入“空”即可。

具体地，假设设备区块中的1％被使用，而其余的99％未被使用。如果将设备区块划分为100个子块，此时可以生成100个RAID条带。当需要执行重建操作时，只需要针对100个RAID条带中的1个被使用的条带执行重建操作即可。利用本公开的示例性实现方式，可以以更细的粒度来管理重建操作，进而提高重建操作的性能并降低重建操作的时间。

在上文中已经描述了如何针对RAID条带中的一个区块进行处理，在下文中，将参见图8描述如何遍历地址映射中的每个RAID条带并执行处理。图8示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法800的流程图。可以遍历地址映射中的每个RAID条带，并且针对每个条带执行方法800。

在框810处，可以获取存储系统中的一个RAID条带中的多个区块。在框820处，可以设置计数器i以便逐个处理多个区块中的每个区块。初始时，可以将i设置为1。在框830处，可以确定第i个区块所在的存储设备中是否出现故障。如果确定出现故障，则方法800前进至框840处以便将该RAID条带加入重建队列。如果确定未出现故障，则方法800前进至框850处，以判断是否已经处理了RAID条带中的全部区块。如果判断结果为否，则方法800前进至框850以便判断是否已经处理了全部区块。在框850处，如果判断结果为否，则方法800前进至框860以处理下一区块。如果判断结果为是，则方法800前进至框870以便处理存储系统中的下一RAID条带。

利用本公开的示例性实现方式，可以按照方法800来逐一处理多个RAID条带中的每个RAID条带中的区块。以此方式，可以将存储系统中的包括位于故障存储设备中的区块的全部RAID条带加入重建队列410。将会理解，重建列表410可以包括多个条带，此时可以并行地重建多个条带。在下文中，将参见图9描述有关重建操作的更多细节。

图9示意性示出了根据本公开一个实现方式的针对重建列表410中的条带进行重建的过程的框图900。假设地址映射中仅包括分别如附图标记910和920所示的RAID条带1和2，此时可以并行地重建两个条带。如图9所示，RAID条带1包括区块D11、D22、D33、D44和D55，由于区块D11所在的存储设备220出现故障，可以从存储系统中选择空闲区块来用于重建。基于负载平衡以及RAID的要求，可以选择位于存储设备210中的空闲区块D09，并且可以基于异或运算来重建区块D11中的数据。以此方式，可以重建RAID条带1。

RAID条带2包括区块D01、D12、D23、D34和D45，由于区块D12所在的存储设备220出现故障，需要从存储系统中选择空闲区块来用于重建。基于负载平衡以及RAID的要求，可以选择位于存储设备260中的空闲区块D59，并且可以基于异或运算来重建区块D12中的数据。可以并行地执行分别用于重建条带1和条带2的操作，利用本公开的示例性实现方式，可以提高重建操作的并行性，进而提高重建操作的性能。

将会理解，尽管上文仅参见图9示意性示出了重建列表仅包括两个条带的情况。重建列表410可以包括更多的条带，此时可以以串行、并行、或者串行和并行相结合的方式来重建多个条带。进一步，尽管图9仅示意性示出了重建列表仅包括已经被使用的条带的情况，重建列表410还可以包括未被使用的条带。此时，在重建未被使用的条带时，可以向选择的空闲区块中写入“空”，而并不需要执行异或运算。

根据本公开的示例性实现方式，还可以首先判断涉及故障存储设备的条带是否被使用，如果条带被使用则将该条带加入重建列表410，如果该条带未被使用，则可以直接选择空闲区块并且向该空闲区块中写入“空”。

将会理解，在已经执行重建操作之后，条带中所包括的区块将会改变，因而需要基于RAID条带当前包括的区块来更新地址映射。图10示意性示出了根据本公开一个实现方式的基于重建的条带而更新的地址映射的框图1000。由于已经使用区块D09来替换了RAID条带1中的区块D11，已经使用区块D59来替换了RAID条带2中的区块D12，因而在更新的地址映射1010中，RAID条带1将包括区块(D09，D22，D33，D44，D55)，RAID条带2将包括区块(D01，D59，D23，D34，D45)。

利用本公开的示例性实现方式，更新的地址映射1010可以反应存储系统中的各个RAID条带和区块之间的最新映射关系。基于更新的地址映射1010，可以服务于后续的数据读取请求和数据写入请求。

根据本公开的示例性实现方式，可以在确定多个存储设备中的一个存储设备出现故障时，执行上文描述的方法500。将会理解，本公开提供了用于重建数据的技术方案，只有在存储系统中出现故障存储设备时，才会启动重建操作。因而，如果在存储系统中没有出现故障存储设备，则存储系统可以按照常规的方式来运行。一旦发现存储系统中出现故障存储设备，则可以执行上文描述的方法500。

根据本公开的示例性实现方式，方法500可以以更高的性能执行重建操作，一方面可以降低重建操作的时间开销，另一方面还可以尽量减少在重建操作期间在存储系统中出现另一存储设备故障的可能性。以此方式，可以确保存储系统以更高的性能和可靠性来运行。

在上文中已经参见图2至图10详细描述了根据本公开的方法的示例，在下文中将描述相应的装置的实现。根据本公开的示例性实现，提供了用于管理存储系统的装置。存储系统包括多个条带，多个条带中的一个条带中包括的多个区块分别位于存储系统中的多个存储设备，存储系统包括表示条带和多个区块分别所位于的多个存储设备之间的地址映射。该装置包括：确定模块，配置用于针对多个区块中的一个区块，基于地址映射确定多个存储设备中的区块所位于的存储设备；加入模块，配置用于根据确定存储设备为故障存储设备，将条带加入存储系统的重建列表，重建列表包括存储系统中的将要被重建的条带；以及重建模块，配置用于基于重建列表中的条带来重建存储系统。

根据本公开的示例性实现方式，重建模块包括：选择模块，配置用于从多个存储设备中的故障存储设备以外的一组存储设备中，选择用于重建区块的空闲区块；数据重建模块，配置用于将区块中的数据重建至选择的空闲区块；以及更新模块，配置用于基于空闲区块的地址，更新地址映射。

根据本公开的示例性实现方式，选择模块包括：负载模块，配置用于确定一组存储设备的工作负载；存储设备选择模块，配置用于确定一组存储设备中的工作负载满足预定条件的存储设备；以及区块选择模块，配置用于从确定的存储设备中选择空闲区块。

根据本公开的示例性实现方式，存储设备选择模块进一步配置用于根据确定存储设备不同于条带中的任一区块所在的存储设备，确定存储设备。

根据本公开的示例性实现方式，存储系统进一步包括元数据位图，元数据位图中的一个位用于指示多个条带中的一个条带是否被使用，该装置进一步包括：设置模块，配置用于在存储系统的初始化操作期间，设置元数据位图以指示多个条带均未被使用；写入模块，配置用于根据接收到向条带中写入目标数据的写入请求，向条带写入目标数据；以及元数据更新模块，配置用于更新元数据位图中的与条带相对应的位，以指示条带已经被使用。

根据本公开的示例性实现方式，数据重建模块包括：使用状态确定模块，配置用于根据元数据位图确定条带是否被使用；实际重建模块，配置用于根据确定条带已经被使用，基于条带中的区块以外的一组区块中的数据，将区块中的数据重建至选择的空闲区块；以及虚拟重建模块，配置用于根据确定条带未被使用，向空闲区块中写入“空”。

根据本公开的示例性实现方式，元数据位图位于存储系统中的用于处理针对存储系统的读取请求和写入请求的一个服务器处，存储系统进一步包括另一服务器，该装置进一步包括：同步模块，配置用于根据确定元数据位图被更新，向另一服务器同步更新的元数据位图。

根据本公开的示例性实现方式，多个存储设备中的存储设备包括多个设备区块，其中区块是将多个设备区块中的一个设备区块进行划分而获得的。

根据本公开的示例性实现方式，重建模块包括：并行模块，配置用于根据确定重建列表中包括多个条带，并行地重建多个条带。

根据本公开的示例性实现方式，该装置根据确定多个存储设备中的一个存储设备出现故障而被调用。

图11示意性示出了根据本公开的示例性实现的用于管理存储系统的设备1100的框图。如图所示，设备1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。CPU 1101、ROM1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法500和800，可由处理单元1101执行。例如，在一些实现中，方法500和800可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实现中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序被加载到RAM 1103并由CPU 1101执行时，可以执行上文描述的方法500和800的一个或多个步骤。备选地，在其他实现中，CPU 1101也可以以其他任何适当的方式被配置以实现上述过程/方法。

根据本公开的示例性实现方式，提供了一种用于管理存储系统的设备。存储系统包括多个条带，多个条带中的一个条带中包括的多个区块分别位于存储系统中的多个存储设备，存储系统包括表示条带和多个区块分别所位于的多个存储设备之间的地址映射。该设备包括：至少一个处理器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：基于地址映射确定多个存储设备中的区块所位于的存储设备；根据确定存储设备为故障存储设备，将条带加入存储系统的重建列表，重建列表包括存储系统中的将要被重建的条带；以及基于重建列表中的条带来重建存储系统。

根据本公开的示例性实现方式，基于重建列表中的条带来重建存储系统包括：从多个存储设备中的故障存储设备以外的一组存储设备中，选择用于重建区块的空闲区块；将区块中的数据重建至选择的空闲区块；以及基于空闲区块的地址，更新地址映射。

根据本公开的示例性实现方式，选择用于重建区块的空闲区块包括：确定一组存储设备的工作负载；确定一组存储设备中的工作负载满足预定条件的存储设备；以及从确定的存储设备中选择空闲区块。

根据本公开的示例性实现方式，确定一组存储设备中的工作负载满足预定条件的存储设备包括：根据确定存储设备不同于条带中的任一区块所在的存储设备，确定存储设备。

根据本公开的示例性实现方式，存储系统进一步包括元数据位图，元数据位图中的一个位用于指示多个条带中的一个条带是否被使用，动作进一步包括：在存储系统的初始化操作期间，设置元数据位图以指示多个条带均未被使用；根据接收到向条带中写入目标数据的写入请求，向条带写入目标数据；以及更新元数据位图中的与条带相对应的位，以指示条带已经被使用。

根据本公开的示例性实现方式，将区块中的数据重建至选择的空闲区块包括：根据元数据位图确定条带是否被使用；根据确定条带已经被使用，基于条带中的区块以外的一组区块中的数据，将区块中的数据重建至选择的空闲区块；以及根据确定条带未被使用，向空闲区块中写入“空”。

根据本公开的示例性实现方式，元数据位图位于存储系统中的用于处理针对存储系统的读取请求和写入请求的一个服务器处，存储系统进一步包括另一服务器，动作进一步包括：根据确定元数据位图被更新，向另一服务器同步更新的元数据位图。

根据本公开的示例性实现方式，多个存储设备中的存储设备包括多个设备区块，其中区块是将多个设备区块中的一个设备区块进行划分而获得的。

根据本公开的示例性实现方式，基于重建列表中的条带来重建存储系统包括：根据确定重建列表中包括多个条带，并行地重建多个条带。

根据本公开的示例性实现方式，该动作进一步包括：根据确定多个存储设备中的一个存储设备出现故障，执行该动作。

根据本公开的示例性实现，提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令用于执行根据本公开的方法。

根据本公开的示例性实现，提供了一种计算机可读介质。计算机可读介质上存储有机器可执行指令，当机器可执行指令在被至少一个处理器执行时，使得至少一个处理器实现根据本公开方法。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实现中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吕烁;刘青云;
专利申请人：伊姆西IP控股有限责任公司;