掌桥专利:专业的专利平台
掌桥专利
首页

基于分布式存储和蓝光存储相结合的数据文件存储系统

文献发布时间:2023-06-19 18:46:07


基于分布式存储和蓝光存储相结合的数据文件存储系统

技术领域

本发明涉及数据文件存储领域,尤其涉及一种基于分布式存储和蓝光存储相结合的数据文件存储系统。

背景技术

目前,伴随废钢循环经济业务发展,平台存储的数据文件量越来越多,而且当前的存储系统采用磁、电作为物理存储介质,磁、电介质能够保持数据一直在线,提高数据相应速度,但同时也带来能耗巨大、存储寿命短,存储方式单一,易出故障等诸多问题。分布式存储系统,是将数据分散存储在多台独立的设备上。然而,传统的网络存储系统采用集中的存储服务器存放所有数据,由于存储服务器存储容量限制,使得存储服务器成为系统存储性能的瓶颈,进而导致所存储的数据文件存在可靠性和安全性的问题,不能满足大规模数据存储应用的需要。

发明内容

本发明提供一种基于分布式存储和蓝光存储相结合的数据文件存储系统,以克服传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要的问题。

为了实现上述目的,本发明的技术方案是:

一种基于分布式存储和蓝光存储相结合的数据文件存储系统,包括检索模块、分布式存储模块、蓝光存储模块、数据文件处理模块;

所述分布式存储模块能够依据第一数据存储策略,对上传的数据文件进行存储时间监测,并依据监测结果确定当前预存储的数据文件对应的数据存储位置以及类型,所述第一数据存储策略包括若当前监测结果反馈预存储的数据文件对应的存储时间未超限,则确定其存储位置为将其存储至本分布式存储模块并确定其存储文件类型为分布式存储,同时若存储时间超限则发送数据文件存储通知至数据文件处理模块;

所述数据文件处理模块能够接收所述数据文件存储通知,并将通知蓝光存储模块存储上传的数据文件,确定其存储文件类型为蓝光存储;该数据文件处理模块还能够基于所述检索模块发布的数据文件检索通知自所述述分布式存储模块或蓝光存储模块内查询与数据文件检索通知相匹配的数据文件,并对所述相匹配的数据文件进行存储管理;

所述检索模块基于设定的数据文件检索需求生成并向所述数据文件处理模块数据文件检索通知。

进一步的,所述分布式存储模块还能够在对数据文件进行存储时构建数据文件索引,且将数据文件存储为分布式文件类型;所述数据文件索引内容包括数据文件ID、数据文件名称、数据文件大小、数据文件类型、数据文件存储类型、数据文件检索链接、数据文件最新检索时间;

进一步的,所述数据文件索引的构建策略是依据数据文件的字节大小、数据文件格式种类、数据文件检索链接url地址以及文件内容的MD5值,并根据数据文件内容和MD5算法生成32位MD5值获取数据文件索引。

进一步的,所述检索模块能够依据数据检索索引在存储系统中进行检索,并根据数据标识确认数据文件存储类型和数据文件检索链接,所述检索模块依据数据文件存储类型和数据文件检索链接检索到相匹配的数据文件,并根据第二数据文件存储策略修改数据文件最新检索时间,同时将数据文件检索通知到数据文件处理模块。

进一步的,所述第二数据文件存储策略包括若所述数据文件检索通知相匹配的数据文件类型为分布式存储,则从分布式存储模块确认相匹配的数据文件并记录数据文件最新检索时间,同时数据文件检索链接指向分布式文件存储路径;

若数据文件检索通知相匹配的数据文件类型为蓝光存储,则从蓝光存储模块确认相匹配的数据文件,且数据文件检索链接指向蓝光存储路径,同时蓝光存储模块发送数据文件迁移通知至数据文件处理模块,所述数据文件处理模块基于蓝光存储模块发送的数据文件迁移通知自蓝光存储模块迁移至分布式存储模块,确认其存储类型为分布式存储,则从分布式存储模块确认相匹配的数据文件并记录数据文件最新检索时间。

进一步的,所述数据文件处理模块基于检索模块发送数据文件检索通知,同时根据数据文件最新检索时间确认检索系数f(t);

f(t)=(1-(当前检索时间-t)/365)*权值a+文件最近一年检索频次/文件检索频次阀值M*权值b;

所述数据文件处理模块能够依据第三数据存储策略对数据文件进行存储,所述第三数据存储策略包括若检索系数f(t)大于等于第一预设阀组N,且数据文件存储类型为蓝光存储,则数据文件处理模块将数据文件从蓝光存储模块同步到分布式文件存储模块,同时更新数据文件索引的数据文件存储类型为分布式文件存储,且数据文件检索链接指向分布式文件存储路径;

若检索系数f(t)小于第一预设阀组N,且数据文件存储类型为分布式文件存储,则数据文件处理模块将数据文件从分布式文件存储模块转移至蓝光存储模块,同时更新数据文件索引的数据文件存储类型为蓝光存储,且数据文件检索链接指向蓝光存储路径,同时清理分布式存储文件;

所述数据文件处理模块还用于定时检测数据文件,同时若数据文件最新检索时间t小于第二预设阀值P,且数据文件存储类型为分布式文件存储,将数据文件从分布式文件存储模块同步到蓝光存储模块,同时清理分布式存储模块的文件。

进一步的,所述分布式文件存储模块包括分布式文件存储集群与AMQP消息队列,所述分布式文件存储集群用于数据文件存储,且分布式文件存储集群的监控机制监控数据文件存储到指定的存储位置,并发送触发消息通知事件至AMQP消息队列,所述数据文件处理模块根据AMQP消息队列确认数据文件检索链接的最新数据文件检索时间,并根据最新数据文件检索时间获取检索系数f(t)。

有益效果:本发明提供一种基于分布式存储和蓝光存储相结合的数据文件存储系统,能够将数据采用不同的存储策略分别在分布式文件存储模块和蓝光存储模块中进行存储,基于分布式文件存储和蓝光存储的存储特性,实现了高效的文件检索和访问,根据用户数据访问检索频次值对数据进行转移,在满足了数据存储需求,也提高数据访问速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于分布式存储和蓝光存储相结合的数据文件存储系统得模块图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例提供了一种基于分布式存储和蓝光存储相结合的数据文件存储系统,如图1所示,包括检索模块、分布式存储模块、蓝光存储模块、数据文件处理模块;

所述蓝光存储模块包括存储阵列和控制单元;所述存储阵列包括多个光盘匣和光驱阵列,所述控制单元包括I/O处理芯片和RAID控制芯片,所述I/O处理芯片和RAID控制芯片为蓝光存储模块内的光驱阵列进行数据刻录与读取时提供性能支持,并完成RAID冗余、离线管理和数据读取,蓝光存储模块以蓝光光盘为存储介质,蓝光光盘具备数据一经写入不可篡改即不可逆性,防病毒、防黑客、防电磁攻击等特性,保障数据完整;

所述分布式存储模块能够依据第一数据存储策略,对上传的数据文件进行存储时间监测,并依据监测结果确定当前预存储的数据文件对应的数据存储位置以及类型,所述第一数据存储策略包括若当前监测结果反馈预存储的数据文件对应的存储时间未超限,则确定其存储位置为将其存储至本分布式存储模块并确定其存储文件类型为分布式存储,同时若存储时间超限则发送数据文件存储通知至数据文件处理模块;所述数据文件处理模块定期对分布式文件存储模块中存储的用户数据进行转移,所述定期是指以分布式文件存储模块中存储的数据文件最新访问时间超过预设存储时间阀值,所述进行转移是指当数据同时存储在分布式存储模块和蓝光存储模块时,将分布式存储模块的数据文件进行删除,保留蓝光存储模块中的数据文件;所述分布式文件存储模块,采用分布式Minio集群存储方式,将不同机器多块硬盘组成一个对象存储服务。由于硬盘分布在不同的节点上,分布式Minio避免了单点故障。Minio可创建每组4到16个磁盘组成的纠删码集合。Minio会根据给定的磁盘总数或者节点总数选择最大的纠删码集合大小,确保统一分布,即每个节点参与每个集合的磁盘数量相等,每个对象被写入一个EC集合中,因此该对象分布在不超过16个磁盘上。优选地,所述分布式文件存储模块包括分布式文件存储集群与AMQP消息队列,所述分布式文件存储集群用于数据文件存储,且分布式文件存储集群的监控机制监控数据文件存储到指定的存储位置,并发送触发消息通知事件至AMQP消息队列,所述数据文件处理模块根据AMQP消息队列确认数据文件检索链接的最新数据文件检索时间,并根据最新数据文件检索时间获取检索系数f(t)。

所述数据文件处理模块能够接收所述数据文件存储通知,并将通知蓝光存储模块存储上传的数据文件,确定其存储文件类型为蓝光存储;该数据文件处理模块还能够基于所述检索模块发布的数据文件检索通知自所述述分布式存储模块或蓝光存储模块内查询与数据文件检索通知相匹配的数据文件,并对所述相匹配的数据文件进行存储管理;

所述检索模块基于设定的数据文件检索需求生成并向所述数据文件处理模块数据文件检索通知。

本发明通过将数据采用不同的存储策略分别在分布式文件存储模块和蓝光存储模块中进行存储,基于分布式文件存储将数据文件存储在不同节点不同硬盘上,分布式避免了单点故障,同时基于检索频次值将用户访问数据文件的最新时间超过预设阀值时将数据文件进行转移,以减少分布式文件存储模块存储空间和存储数据量,提高数据访问速度。

在具体实施例中,所述分布式存储模块还能够在对数据文件进行存储时构建数据文件索引,且将数据文件存储为分布式文件类型;所述数据文件索引内容包括数据文件ID、数据文件名称、数据文件大小、数据文件类型、数据文件存储类型、数据文件检索链接、数据文件最新检索时间;

在具体实施例中,所述数据文件索引的构建策略是按照如下结构构表1建文件索引:

表1:建立索引结构表

其中,数据文件类型包括doc、docx、pdf、xls、xlsx、jpg、jpeg、png、mp3、mp4;数据文件大小单位为字节B;数据文件类型为蓝光存储或分布式文件存储、数据文件检索链接为存储在蓝光存储模块或分布式文件存储模块的url地址;数据文件最新检索时间格式为yyyy-MM-dd hh24:mm:ss.xxx;MD5即文件内容的MD5值,根据文件内容和MD5算法生成32位MD5值,以确保文件数据信息的完整一致。

在具体实施例中,所述检索模块能够在存储系统中进行检索,并根据数据索引确认数据文件存储类型和数据文件检索链接,所述检索模块依据数据文件存储类型和数据文件检索链接检索到相匹配的数据文件,并根据第二数据文件存储策略修改数据文件最新检索时间,同时将数据文件检索通知到数据文件处理模块。

在具体实施例中,所述第二数据文件存储策略包括若所述数据文件检索通知相匹配的数据文件类型为分布式存储,则从分布式存储模块确认相匹配的数据文件并记录数据文件最新检索时间,同时数据文件检索链接指向分布式文件存储路径;

若数据文件检索通知相匹配的数据文件类型为蓝光存储,则从蓝光存储模块确认相匹配的数据文件,且数据文件检索链接指向蓝光存储路径,同时蓝光存储模块发送数据文件迁移通知至数据文件处理模块,所述数据文件处理模块基于蓝光存储模块发送的数据文件迁移通知自蓝光存储模块迁移至分布式存储模块,确认其存储类型为分布式存储,则从分布式存储模块确认相匹配的数据文件并记录数据文件最新检索时间。

在具体实施例中,所述数据文件处理模块基于检索模块发送数据文件检索通知,同时根据数据文件最新检索时间确认检索系数f(t);

f(t)=(1-(当前检索时间-t)/365)*权值a+文件最近一年检索频次/文件检索频次阀值M*权值b;

所述数据文件处理模块能够依据第三数据存储策略对数据文件进行存储,所述第三数据存储策略包括若检索系数f(t)大于等于第一预设阀组N,且数据文件存储类型为蓝光存储,则数据文件处理模块将数据文件从蓝光存储模块同步到分布式文件存储模块,同时更新数据文件索引的数据文件存储类型为分布式文件存储,且数据文件检索链接指向分布式文件存储路径;

若检索系数f(t)小于第一预设阀组N,且数据文件存储类型为分布式文件存储,则数据文件处理模块将数据文件从分布式文件存储模块转移至蓝光存储模块,同时更新数据文件索引的数据文件存储类型为蓝光存储,且数据文件检索链接指向蓝光存储路径,同时清理分布式存储文件;

所述数据文件处理模块还用于定时检测数据文件,同时若数据文件最新检索时间t小于第二预设阀值P,且数据文件存储类型为分布式文件存储,将数据文件从分布式文件存储模块同步到蓝光存储模块,同时清理分布式存储模块的文件。

分布式存储模块采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。蓝光存储模块以海量、绿色、安全、节能、可靠等特点广泛应用于金融领域,系统通过以太网协议接入客户现有LAN网络,支持通过CIFS、NFS或S3协议进行数据交互,设备采用模块化设计,并支持单点部署和集群部署,可以覆盖用户所有容量需求。在海量电子影像、双录系统等数据归档存储时,蓝光存储系统可以实现100年安全存储,在100年内无需进行介质更换和数据迁移,提供极高的可靠性和性价比。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术分类

06120115687264