掌桥专利:专业的专利平台
掌桥专利
首页

一种热点文件分流缓存方法及系统

文献发布时间:2024-04-18 20:02:40


一种热点文件分流缓存方法及系统

技术领域

本发明属于信息技术领域,尤其涉及一种热点文件分流缓存方法及系统。

背景技术

随着互联网应用的快速发展,对热点文件的高并发访问成为了一个常见的挑战。在大量用户同时下载部分热点文件的时候,会对本地存储系统的存储集群造成较大的冲击,会将存储集群带宽跑满,导致本地存储集群的负载超过设计能力,使得下载这些文件的网络速度明显下降,严重的时候还会影响到其他客户的业务。目前常见的方案是在本地存储系统的接入层对热点文件进行内存缓存或者磁盘缓存,但这样可能会跟接入层组件相互争抢资源,或者为了满足高并发时的峰值需求而带来额外的硬件资源闲置成本。

因此,需要一种新的缓存方法及系统解决以上问题。

发明内容

鉴于以上现有技术的不足,本发明的目的在于提供一种热点文件分流缓存方法及系统,既最大限度地保护本地存储集群的负载水平,又能快速下载热点文件。

本发明的第一方面,提出了一种热点文件分流缓存方法,应用于对象存储,包括以下步骤:

S1,基于热点文件标准,在本地存储系统中生成热点文件库;

S2,建立与所述热点文件库对应的高性能存储集群;

S3,所述高性能存储集群中的文件以镜像回源方式与所述本地存储系统保持一致;

S4,当所述热点文件库中的热点文件被下载时,引流至所述高性能存储集群。

进一步地,S1中的所述热点文件标准为,单位时间的下载次数超过热点阈值的文件。

进一步地,所述热点阈值由负反馈回路动态调整。

进一步地,所述负反馈回路计算所述高性能存储集群的实时并发指标,并与设定的并发性能期望值求差值,将所述差值带入负反馈控制器,以所述负反馈控制器的输出值调节所述热点阈值,从而调节所述热点文件库中的文件数,反过来又影响所述高性能存储集群的实时并发指标,并不断趋近于所述并发性能期望值。

进一步地,所述负反馈控制器为PID控制器。

进一步地,所述本地存储系统的用户信息、桶元数据信息及权限控制策略定期同步至所述高性能存储集群。

进一步地,当所述热点文件库中的文件被更新或删除后,由所述本地存储系统通知所述高性能存储集群,删除所述高性能存储集群中对应的文件。

进一步地,一个所述本地存储系统中的热点文件库数量≥2,每个所述热点文件库分别对应一个所述高性能存储集群。

进一步地,至少两个所述本地存储系统共用一个所述高性能存储集群。

本发明的第二方面,提出了一种热点文件分流缓存系统,用于实现上述热点文件分流缓存方法。所述热点文件分流缓存系统包括本地存储系统、高性能存储集群和镜像回源组件;其中,所述本地存储系统,包括存储集群、对象存储网关和接入层,热点文件库设置于所述接入层,所述接入层将热点文件的下载请求引流至所述高性能存储集群;所述高性能存储集群用于提供高带宽、低延迟的文件下载能力;所述镜像回源组件通过所述对象存储网关使所述高性能存储集群中的文件与所述本地存储系统的存储集群保持一致。

本发明有益效果如下:

本发明所述的热点文件分流缓存方法及系统,提供一种将热点文件集中存储于高性能存储集群的解决方案,通过本地热点文件库管理、镜像回源、事件通知和负反馈机制,基于高性能存储集群的承载能力进行热点文件智能引流,既最大限度地保护本地存储系统的负载水平,又充分利用高性能存储集群的承载能力,高速下载热点文件,获得性能与成本的最优解。

附图说明

附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种热点文件分流缓存方法的控制流程图;

图2为本发明实施例的一种热点文件分流缓存系统的模块结构示意图;

图3为本发明实施例的两个本地存储系统共用一个高性能存储集群的架构示意图;

图4为本发明实施例的一种热点文件分流缓存系统的初始化流程图;

图5为本发明实施例的一种热点文件分流缓存系统的热点文件引流流程图;

图6为本发明实施例的一种热点文件分流缓存系统的一致性维护流程图;

图7为本发明实施例的一种热点文件分流缓存系统的负反馈回路示意图。

附图标记:

①负反馈;②智能引流;③事件通知;④源文件拉取。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应该理解,这些描述只是示例性的,并非用于限定本发明的范围。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明公开的概念。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的方法和系统的例子。

本发明提出了一种热点文件分流缓存方法及系统,解决了大量热点文件并发下载场景下本地存储系统负载突增的问题。

方法实施例

由于流媒体应用、物联网部署以及高分辨率视频和图像的兴起,各种规模的组织都在产生大量非结构化数据,使用正确的存储架构来管理和保护大型数据集的需求比以往任何时候都更为迫切。

对象存储是支持快速增长的非结构化数据的优秀选择,因为它具有可扩展性、灵活性、公共云兼容性和强大的元数据,并且节约大量成本。随着大数据分析、人工智能和建模语言变得越来越重要,各种组织需要能够轻松地管理和访问这些海量数据。对象存储是一种独特的存储架构,在云计算时代已经发展成熟,它提供的功能可以满足面临数据量飞速增长挑战的各种组织的需求。

对象存储有两个重要的概念:桶(Bucket)和对象(Object)。桶(Bucket)引申为存放文件的容器。每个用户可以创建多个桶(Bucket),并向其添加对象(Object)。每个对象(Object)都要放在一个特定的桶(Bucket)内,不存在一个脱离桶(Bucket)的对象(Object)。

当为桶(Bucket)配置了镜像回源,用户访问该桶(Bucket)中某一对象(Object)时,发现该对象(Object)在本地存储系统并不存在,则对象存储会立刻向预先配置好的回源地址请求该对象(Object),保证访问正常进行。在请求过程中,源站返回的数据会自动给到请求用户,而用户对该过程无感。同时,该数据也会自动存入本地存储系统,提升日后该类请求的流畅性。

本发明提供的一种热点文件分流缓存方法,应用于对象存储,将热点文件集中存储于高性能存储集群,通过本地热点文件库管理、镜像回源、事件通知和负反馈机制,基于高性能存储集群的承载能力进行热点文件智能引流。

具体地,参考图1所示的本发明一种热点文件分流缓存方法的控制流程图,该方法包括步骤S1至步骤S4。

步骤S1、基于热点文件标准,在本地存储系统中生成热点文件库。

步骤S2、建立与热点文件库对应的高性能存储集群。

步骤S3、高性能存储集群中的文件以镜像回源方式与本地存储系统保持一致。

步骤S4、当热点文件库中的热点文件被下载时,引流至高性能存储集群。

存储集群是多台存储设备中的存储空间聚合成能够提供统一访问接口和管理界面的存储池。高性能存储集群是指具有高带宽、低延迟的存储集群。在互联网应用中,存储系统通常采用存储集群的方案。

存储集群中的某些文件有可能非常热门,被大量用户同时下载,称为热点文件。具体地,本发明的热点文件分流缓存方法步骤S1中的热点文件标准为,单位时间的下载次数超过热点阈值的文件。以热点文件标准筛选出的热点文件被集中在一起,在本地存储系统中生成热点文件库。其中的热点阈值决定了某个热点文件库中热点文件的数量,通过调节该热点阈值就能动态调节该热点文件库中热点文件的数量。在一些实施例中,热点文件库设置于本地存储系统的接入层,以便于接入层快速获取热点文件的信息并执行相关操作。当出现符合热点文件标准的热点文件的时候,本地存储集群接入层识别到该文件并将其加入到本地热点文件库。当收到客户对于热点文件库中文件的下载请求时,接入层通过特定的引流策略自动将热点文件的下载流量切到其他节点。

本发明的热点文件分流缓存方法步骤S2建立与热点文件库对应的高性能存储集群,旨在于高性能存储集群中存储热点文件库所有的热点文件,利用高性能存储集群的“高性能”(即,高带宽、低延迟)特性提升热点文件的下载速度。

高性能存储集群并不取代本地存储系统中的存储集群,只是将本地存储系统存储集群中的源文件复制一份,存储于高性能存储集群中。

具体地,本发明的热点文件分流缓存方法以镜像回源方式实现高性能存储集群中的文件与本地存储系统的存储集群中源文件之间的同步。当本地存储系统的存储集群中的热点文件被更新的时候,只需由本地存储系统通知高性能存储集群删除对应的文件,然后高性能存储集群会通过镜像回源组件重新从本地存储集群拉取最新的热点文件。当热点文件变为非热点文件时,该文件同时从热点文件库和高性能存储集群中删除。当热点文件库中出现一个新的热点文件并被请求下载时,本地存储系统接入层会将该下载请求引流至高性能存储集群;但是,此时高性能存储集群中并不存在该文件,高性能存储集群会通过镜像回源组件从本地存储系统的存储集群中拉取热点文件并存储于高性能存储集群,同时返回给请求端。

在一些实施例中,本地存储系统定期将系统中的用户信息、桶元数据信息及各类权限控制策略同步至高性能存储集群。如此,用于热点文件下载的签名、鉴权等逻辑可以在高性能存储集群完成,进一步提升了效率。

在一些实施例中,本发明通过负反馈回路实现热点阈值的动态调整。具体地,首先基于高性能存储集群的设计并发能力,设定一个高性能存储集群并发性能期望值。然后,负反馈回路计算高性能存储集群的实时并发指标,并与设定的并发性能期望值求差值,将所得差值带入负反馈控制器,以负反馈控制器的输出值来调节热点阈值。本地存储系统接入层会基于新的热点阈值自动调节热点文件库中的文件数,反过来又影响高性能存储集群的实时并发指标。最终,热点文件库中的文件数会不断趋近于符合高性能存储集群并发性能期望值的数目,从而使高性能存储集群的设计并发能力得到充分的利用。其中,所述并发指标可以是QPS(Query Per Second,每秒查询率),是指单位时间内查询或访问服务器的次数。

进一步地,负反馈回路中的负反馈控制器可以是PID控制器(ProportionIntegration Differentiation,比例-积分-微分控制器)。PID控制器,由比例单元P、积分单元I和微分单元D组成;比例-控制当前,积分-控制过去,微分-控制将来。PID控制器既有比例作用的及时迅速,又有积分作用的消除余差能力,还有微分作用的超前控制功能。当偏差阶跃出现时,微分立即大幅度动作,抑制偏差的这种跃变;比例也同时起消除偏差的作用,使偏差幅度减小,由于比例作用是持久和起主要作用的控制规律,因此可使系统比较稳定;而积分作用慢慢把余差克服掉。

上述实施例中的负反馈回路是以高性能存储集群并发性能期望值为基准,动态调节热点阈值。但是,当热点文件库分流的流量仍然不能根本性缓解本地存储系统的超负荷状况时,就有必要建立另外的热点文件库,进一步分流更多的文件下载流量至其他高性能存储集群。因此,在一些实施例中,一个本地存储系统中的热点文件库数量≥2,每个热点文件库分别对应一个高性能存储集群,即,一个本地存储系统由至少2个高性能存储集群负责分流缓存该本地存储系统中的热点文件,达到最大限度地保护本地存储系统免受热点文件下载冲击的目的。

此外,不同本地存储系统的热点文件下载大概率不会同时出现,因此,在一些实施例中,可以由至少两个本地存储系统共用一个高性能存储集群,使高性能存储集群的硬件投资得到充分的利用,达到经济效益最大化。

系统实施例

本发明的另一个具体实施例,公开了一种热点文件分流缓存系统,用于实现上述实施例中的热点文件分流缓存方法。

参考图2所示的一种热点文件分流缓存系统的模块结构示意图,所述热点文件分流缓存系统包括本地存储系统、高性能存储集群和镜像回源组件。其中,本地存储系统包括存储集群、对象存储网关和接入层。热点文件库设置于接入层,接入层将热点文件的下载请求由智能引流②连接至高性能存储集群。高性能存储集群用于提供高带宽、低延迟的文件下载能力,通过负反馈①连接至热点文件库。镜像回源组件与对象存储网关通过源文件拉取④使高性能存储集群中的文件与本地存储系统的存储集群保持一致。对象存储网关通过事件通知③向高性能存储集群发送指令,例如,删除文件指令。

具体地,在本地存储系统的接入层建立热点文件库,其益处是在接入层收到文件下载请求时,可以直接判断该文件是否为热点文件,如果是热点文件,则直接将热点文件的下载请求通过智能引流②连接至高性能存储集群,可以获得最佳的执行效率。当高性能存储集群不存在该文件时,高性能存储集群由镜像回源组件通过源文件拉取④从本地存储系统的对象存储网关拉取源文件返回给请求端,并同时存储于高性能存储集群中。当热点文件被更新的时候,本地存储系统的对象存储网关会通过事件通知③发出一条指令将高性能集群中对应的文件删除,然后高性能存储集群会通过镜像回源组件重新从本地存储系统拉取最新的热点文件。高性能存储集群的实时并发指标通过负反馈①连接至热点文件库,通过调整热点阈值来动态调节热点文件库中的热点文件数量,反过来又影响高性能存储集群的实时并发指标,从而形成一个稳定的负反馈回路。

进一步地,参考图3所示的两个本地存储系统共用一个高性能存储集群的架构示意图,基于不同本地存储系统的热点文件同时下载大概率不会同时出现的事实,在一些实施例中,可以由至少两个本地存储系统共用一个高性能存储集群,使高性能存储集群的硬件投资得到充分的利用,达到经济效益最大化。

在一些实施例中,本发明的热点文件分流缓存系统包括四个主要控制流程:初始化流程、热点文件引流流程、一致性维护流程和负反馈流程。

具体地,参考图4所示,初始化流程包括以下步骤:

S11、定期将本地存储系统的用户信息、桶元数据信息同步至高性能存储集群,以便高性能存储集群能够对来源于本地存储系统的请求流量进行签名、鉴权等操作。

S12、配置镜像回源,与高性能存储集群共址部署镜像回源组件,将回源的源站指向本地存储系统,以便在高性能存储集群不存在某个文件的时候从本地存储系统(源站)拉取。

S13、配置事件通知,以便将本地存储系统中热点文件的变更信息同步到高性能存储集群,保持一致性。

S14、配置负反馈系统,以便在高性能存储集群与热点文件库之间建立稳定的负反馈回路。

具体地,参考图5所示,热点文件引流流程包括以下步骤:

S21、通过统计单位时间的下载次数,将超过热点阈值的热点文件加入到本地存储系统的热点文件库。

S22、对于热点文件库中文件的下载请求,会被引流到高性能存储集群进行处理。

S23、如果高性能存储集群存在该文件,则直接返回给请求端。

S24、如果高性能存储集群不存在该文件,则通过镜像回源组件从本地存储系统下载该文件并写入到高性能存储集群同时返回给请求端。

具体地,参考图6所示,一致性维护流程包括以下步骤:

S31、当热点文件库中的文件被删除时,对象存储网关会通过事件通知将该文件从高性能存储集群删除,当需要再次下载该文件的时候,该文件的下载请求不会被引流到高性能存储集群,而是在本地存储集群直接返回给请求端。

S32、当热点文件库中的文件被覆盖(即更新)时,对象存储网关会通过事件通知将该文件从高性能存储集群删除,当需要再次下载该文件的时候,该文件的下载请求会被继续引流到高性能存储集群;高性能存储集群发现该文件没有在高性能存储集群中缓存,于是通过镜像回源组件到源站(即本地存储系统的存储集群)拉取最新的文件并存储在高性能存储集群中,保证了一致性。

具体地,参考图7所示,负反馈流程说明如下:通过实时计算高性能存储集群的并发指标,并与设定的高性能存储集群并发性能期望值求差,将这个差值带入PID控制器,将PID控制器的输出值作用于本地存储系统的热点文件库,形成一个负反馈回路。当高性能存储集群的负载过高时,会通过负反馈回路作用于本地存储系统,将一部分热点文件下载流量切走;当高性能存储集群的负载降低时,也会通过负反馈回路作用于本地存储系统,将一部分热点文件下载流量切回到高性能存储集群,以充分利用高性能存储集群的硬件能力。在一些实施例中,采用QPS作为高性能存储集群的并发指标。

综上所述,本发明一种热点文件分流缓存方法及系统,通过本地存储系统热点文件库管理、镜像回源和事件通知机制实现了热点文件的异地集中缓存。高性能存储集群为热点文件的高速下载提供了保障。通过智能引流和负反馈回路将高性能存储集群的资源利用率维持在期望水平,充分利用高性能存储集群硬件能力的同时使得本地存储系统的负载维持在合理水平。因此,本发明有效克服了现有技术中的各种缺点而具高度产业利用价值。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

最后应说明的是,以上实施例仅用以说明本发明实施例的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种自动清理缓存文件的方法、存储介质、设备及系统
  • 一种文件系统快照回滚后客户端缓存失效的实现方法
  • 一种基于DPDK的高速网络数据包捕获分流及缓存方法
  • 一种清理日志文件缓存的方法及装置
  • 一种热点内容缓存系统及缓存方法
  • 一种预缓存文件处理方法、装置及文件预缓存系统
技术分类

06120116588163