掌桥专利:专业的专利平台
掌桥专利
首页

固态硬盘的状态监控方法和装置

文献发布时间:2023-06-19 11:16:08


固态硬盘的状态监控方法和装置

技术领域

本公开涉及计算机和互联网领域,特别涉及一种固态硬盘的状态监控方法和装置。

背景技术

固态硬盘(SSD),是指用固态电子存储芯片阵列而制成的硬盘,由控制单元和存储单元(FLASH芯片、DRAM芯片)组成。和机械硬盘不一样,固态硬盘的擦写次数是固定的,所以寿命有限,完全擦写一次叫做1次P/E,闪存的寿命就以P/E作单位,每次写入都在消耗P/E数,一旦用完,固态硬盘就会“挂”掉,即到达寿命终点。

SSD寿命有限,而且一旦SSD损坏,SSD的数据将无法恢复,因此SSD什么时候临近寿命终点、什么时候需要更换,就成为用户和系统管理员非常关心的事情。相关的SSD寿命监控工具或系统是采用剩余可擦写次数与总的可擦写次数的比值表示SSD剩余使用寿命。

发明内容

发明人发现:在实际使用中,闪存在写入新数据的时候,必须擦除改写的闪存部分,导致执行的数据量大大高出理论写入的数据量,即存在“写入放大”现象,这样会增加请求写入的次数,缩短SSD的寿命。因此,SSD的使用寿命受很多因素的影响,例如用户总写入数据量、用户行为、SSD磨损程度、SSD的性能指标等。相关的寿命监控方案仅根据剩余使用寿命进行监控,无法及时发现SSD临近寿命极限,因而无法及时预警。

鉴于此,本公开提供一种状态监控方法,能够及时发现SSD临近寿命极限,从而及时预警,以便有效保障数据安全。

根据本公开实施例的第一方面,提供一种固态硬盘的状态监控方法,包括:

实时检测固态硬盘的关键性能指标,关键性能指标包括擦写次数、擦写错误次数、磨损程度、写入量中的至少一个;

获取用户的历史数据,历史数据包括历史业务量和历史行为中的至少一种;

根据关键性能指标和用户的历史数据,预测固态硬盘的剩余生命周期;

根据剩余生命周期,输出状态预警信息。

在一些实施例中,状态预警信息包括更换时间、更换原因、或危险级别中至少一项的提示信息。

在一些实施例中,当剩余生命周期小于阀值时,输出状态预警信息。

在一些实施例中,根据关键性能指标和用户的历史数据,预测固态硬盘的剩余生命周期包括:

根据用户的历史数据,预测用户的未来数据;

根据预测的未来数据和关键性能指标,预测固态硬盘的剩余生命周期。

根据本公开实施例的第二方面,提供一种固态硬盘的状态监控方法,包括:

实时检测与待监控业务系统相关的多个固态硬盘的关键性能指标,关键性能指标包括擦写次数、擦写错误次数、磨损程度、写入量中的至少一个;

获取与待监控业务系统相关的历史数据,历史数据包括历史业务量和历史行为中的至少一种;

根据每个固态硬盘的关键性能指标和历史数据,预测每个固态硬盘的剩余生命周期;

根据各个固态硬盘的剩余生命周期,输出状态预警信息。

在一些实施例中,所述状态监控方法还包括:根据各个固态硬盘的剩余生命周期,输出更换时间计划表。

在一些实施例中,状态预警信息包括更换时间、更换原因、或危险级别中至少一项的提示信息。

在一些实施例中,当某个固态硬盘的剩余生命周期小于阀值时,输出状态预警信息。

在一些实施例中,根据每个固态硬盘的关键性能指标和历史数据,预测每个固态硬盘的剩余生命周期包括:

根据历史数据,预测未来数据;

根据预测的未来数据和关键性能指标,预测每个固态硬盘的剩余生命周期。

根据本公开实施例的第三方面,提供一种固态硬盘的状态监控装置,包括:

检测模块,被配置为实时检测固态硬盘的关键性能指标,关键性能指标包括擦写次数、擦写错误次数、磨损程度、写入量中的至少一个;

获取模块,被配置为获取用户的历史数据,历史数据包括历史业务量和历史行为中的至少一种;

预测模块,被配置为根据关键性能指标和用户的历史数据,预测固态硬盘的剩余生命周期;

输出模块,被配置为根据剩余生命周期,输出状态预警信息。

根据本公开实施例的第四方面,提供一种固态硬盘的状态监控装置,包括:

检测模块,被配置为实时检测与待监控业务系统相关的多个固态硬盘的关键性能指标,关键性能指标包括擦写次数、擦写错误次数、磨损程度、写入量中的至少一个;

获取模块,被配置为获取与待监控业务系统相关的历史数据,历史数据包括历史业务量和历史行为中的至少一种;

预测模块,被配置为根据每个固态硬盘的关键性能指标和历史数据,预测每个固态硬盘的剩余生命周期;

输出模块,被配置为根据各个固态硬盘的剩余生命周期,输出状态预警信息。

根据本公开实施例的第五方面,提供一种固态硬盘的状态监控装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的状态监控方法。

根据本公开实施例的第六方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的状态监控方法。

通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:

图1是根据本公开一些实施例的SSD的状态监控方法的流程示意图;

图2是根据本公开一些实施例的SSD的状态监控装置的结构示意图;

图3是根据本公开另一些实施例的SSD的状态监控装置的结构示意图。

应当明白,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外,相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现,不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整,并且向本领域技术人员充分表达本公开的范围。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分和数值应被解释为仅仅是示例性的,而不是作为限制。

本公开中使用的“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

相关的寿命监控方案功能单一,是采用剩余可擦写次数与总的可擦写次数的比值表示SSD剩余使用寿命,用户无法直观理解。由于没有考虑用户的行为,在用户的业务量激增时,无法及时预警。

本公开提供一种SSD的状态监控方案,能够及时预警,有效保障数据安全。

图1是根据本公开一些实施例的SSD的状态监控方法的流程示意图。在一些实施例中,状态监控方法包括步骤101-107。

在步骤101,实时检测SSD的关键性能指标。

在一些实施例中,通过SSD自带的监控工具来实时检测SSD的各项关键性能指标。关键性能指标可以包括擦写次数、擦写错误次数、磨损程度、写入量(TBW,terabyteswritten)中的至少一个。

实时检测的关键性能指标例如为:SSD的擦写错误次数达到多少次、SSD的磨损程度达到多少百分比、或TBW与SSD的标称值(即,SSD的自带参数,表示理论生命周期)的差值为多少、等等。

这里的SSD可以为一个SSD,也可以为与待监控业务系统相关的多个SSD,即多个系统成员盘。系统成员盘是存储指业务系统相关数据的所有SSD盘。

在步骤103,获取历史数据。

在一些实施例中,可以获取过去一定时间段内用户的历史数据。历史数据可以包括历史业务量和历史行为中的至少一种。

这里的历史数据可以为使用该SSD的用户的历史数据,也可以是与待监控业务系统相关的历史数据。与待监控业务系统相关的历史数据可以基于业务层面,例如业务相关的流量、行为轨迹等。

在步骤105,根据关键性能指标和历史数据,预测SSD的剩余生命周期。

在一些实施例中,根据关键性能指标和历史数据,预测SSD的剩余生命周期包括:根据历史数据,预测未来数据;根据预测的未来数据和关键性能指标,预测SSD的剩余生命周期。

对于单个SSD,在步骤105,根据该SSD的关键性能指标和使用该SSD的用户的历史数据,来预测SSD的剩余生命周期。

对用户的历史数据的分析,包括对用户的业务量和用户行为的统计分析。例如,用户在过去的3个月(如3月-6月)内的平均业务量是每天2个G,峰值通常在每月的3日出现,大概5个G。假设在6月底预测7月的SSD的使用情况。基于用户的历史数据,可以预测用户的未来数据:SSD在7月1日、2日各使用2G,3日使用5G。假设根据关键性能指标,SSD的TBW剩下10个G。那么可以预测:SSD会在7月4日将达到临界值。即,可以预测SSD的剩余生命周期为4天。这种情况下,为了保证数据安全,至少应在7月4日之前提醒用户更换SSD。

又例如,根据用户的历史数据,用户在过去的3个月内的平均业务量仍是每天2个G,但峰值通常在每月的1日出现,为10个G。仍然假设在6月底预测7月的SSD的使用情况,可以得到:SSD在7月1日将使用10个G。仍以SSD的TBW剩下10个G为例,那么可以预测:SSD会在7月1日会发生用户的业务量激增,且将达到临界值。即,可以预测SSD的剩余生命周期为1天。这种情况下,为了保证数据安全,应该提前提醒用户更换SSD。

对于与待监控业务系统相关的多个SSD,在步骤105,根据各个SSD的关键性能指标和与待监控业务系统相关的历史数据,来预测各个SSD的剩余生命周期。

例如,对于某待监控业务系统,历史数据显示在过去的3个月内给业务系统的各个成员盘的平均业务量是每天2个G,该业务系统在每个月的1日有大数据业务需求,需要每个成员盘10个G的TBW。仍然假设在6月底预测7月的使用情况。对于TBW剩下10个G的成员盘,可以得到该成员盘会在7月1日会发生业务量激增,且将达到临界值。即,可以预测该成员盘的剩余生命周期仅为1天。而对于TBW剩下70个G的成员盘,由于可以预测该成员盘在7月将使用10×1+2×30=70个G的TBW,由此,可以预测该成员盘的剩余生命周期为31天。

在步骤107,根据剩余生命周期,输出状态预警信息。

在一些实施例中,当剩余生命周期小于阀值时,输出状态预警信息。例如,如果检测的关键性能指标为SSD的擦写错误次数达到千位数、SSD的磨损程度达80%以上、TBW接近SSD的标称值的90%、或其他表示SSD已经处于临近寿命极限的危险状态的指标,则即使不考虑用户的行为,预测SSD的剩余生命周期也已经小于阈值。这种情况下,输出状态预警信息。应当理解,这里的阈值在仅考虑关键性能指标的情况下与还考虑用户行为的情况下可能是不同的。

当然,如果预测的剩余生命周期远大于阈值,则可以不输出状态预警信息。例如,预测的剩余生命周期大于SSD的状态排查周期,则不输出状态预警信息。

状态预警信息包括更换时间(如何时更换SSD)、更换原因(如业务量即将激增或临近寿命极限)、或危险级别(如危险、非常危险等)中至少一项的提示信息。

例如,对于单个SSD,在描述步骤105时所示出的第1个例子中,预测的剩余生命周期为4天,可以在7月4日前的任何一天输出“请在7月4日前更换SSD”的提醒信息,当然也可以及时输出“危险,请在3天内更换SSD”的提醒信息。在第2个例子中,预测的剩余生命周期为1天,可以及时输出“非常危险,业务量即将激增,请立即更换SSD”的提醒信息。

在上述实施例中,除了分析SSD的关键性能指标外,还结合用户业务量、用户行为等历史数据进行综合分析,能够全面评估SSD的健康状态,由此能够在SSD临近寿命极限时对用户进行预警,并且也能够在用户的业务量将发生较大变化时,提前提醒用户将大流量的数据写入业务等及时迁移到其他存储器上。

对于与待监控业务系统相关的多个SSD,在步骤107根据各个固态硬盘的剩余生命周期,输出相应的状态预警信息。在一些实施例中,输出模块207还根据各个固态硬盘的剩余生命周期,输出更换时间计划表。例如,待监控业务系统共使用了100块SSD,其中10块SSD将在2019年11月底达到生命周期临界值,30块SSD将在2019年底达到生命周期临界值,还有60块SSD将在三年后达到生命周期临界值。相比于以单个SSD为监控对象,以业务系统为单位进行监控,能够评估业务系统层面的所有SSD的健康状态,及时掌握需要更换系统成员盘的时间计划表,便于及时采购和更换,以有效保障IT应用系统的数据安全。

图2是根据本公开一个实施例的SSD的状态监控装置的结构示意图。如图2所示,SSD的状态监控装置包括检测模块201、获取模块203、预测模块205、输出模块207。

检测模块201,被配置为实时检测SSD的关键性能指标,例如执行步骤101。关键性能指标包括擦写次数、擦写错误次数、磨损程度、写入量中的至少一个。这里的SSD可以为一个SSD,也可以为与待监控业务系统相关的多个SSD,即多个系统成员盘。系统成员盘是存储指业务系统相关数据的所有SSD盘。

获取模块203,被配置为获取历史数据,例如执行步骤103。历史数据包括历史业务量和历史行为中的至少一种。这里的历史数据可以为使用该SSD的用户的历史数据,也可以是与待监控业务系统相关的历史数据。与待监控业务系统相关的历史数据可以基于业务层面,例如业务相关的流量、行为轨迹等。

预测模块205,被配置为根据关键性能指标和历史数据,预测SSD的剩余生命周期,例如执行步骤105。

对于单个SSD,预测模块205根据该SSD的关键性能指标和使用该SSD的用户的历史数据,来预测SSD的剩余生命周期。

对于与待监控业务系统相关的多个SSD,预测模块205根据各个SSD的关键性能指标和与待监控业务系统相关的历史数据,来预测各个SSD的剩余生命周期。

输出模块207,被配置为根据剩余生命周期,输出状态预警信息,例如执行步骤107。状态预警信息包括更换时间、更换原因、或危险级别中至少一项的提示信息。

对于单个SSD,输出模块207根据该SSD的剩余生命周期,输出状态预警信息。

对于与待监控业务系统相关的多个SSD,输出模块207根据各个固态硬盘的剩余生命周期,输出状态预警信息。在一些实施例中,输出模块207还根据各个固态硬盘的剩余生命周期,输出更换时间计划表。例如,待监控业务系统共使用了100块SSD,其中10块SSD将在2019年11月底达到生命周期临界值,30块SSD将在2019年底达到生命周期临界值,还有60块SSD将在三年后达到生命周期临界值。基于此,可以确定SSD的更换时间表,便于及时采购和更换,以有效保障IT应用系统的数据安全。

图3是根据本公开另一个实施例的SSD的状态监控装置的结构示意图。如图3所示,该装置包括存储器31和处理器32。

存储器31用于存储指令。处理器32耦合到存储器31。处理器32被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的状态监控方法。

如图3所示,该装置还包括通信接口33,用于与其它设备进行信息交互。同时,该装置还包括总线34,处理器32、通信接口33、以及存储器31通过总线34完成相互间的通信。

存储器31可以包含高速RAM(Random Access Memory,随机存取存储器),也可还包括NVM(Non-Volatile Memory,非易失性存储器)。例如至少一个磁盘存储器。存储器31也可以是存储器阵列。存储器31还可能被分块,并且块可按一定的规则组合成虚拟卷。

此外,处理器32可以是一个中央处理器,或者可以是ASIC(Application SpecificIntegrated Circuit,专用集成电路),或者是被配置成实施本公开实施例的一个或多个集成电路。

本公开还提供一种计算机可读存储介质。计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述任一实施例涉及的状态监控方法。

在一些实施例中,上述功能模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller,简称:PLC)、数字信号处理器(Digital Signal Processor,简称:DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称:ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

至此,已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

相关技术
  • 固态硬盘的状态监控方法和装置
  • 无人机及其状态监控方法、状态监控系统、状态监控装置
技术分类

06120112859906