掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多维度特征的数据管理方法和装置

文献发布时间:2023-06-19 18:37:28


一种基于多维度特征的数据管理方法和装置

技术领域

本申请涉及数据管理领域,特别是一种基于多维度特征的数据管理方法和装置。

背景技术

随着移动互联网以及企业数字化转型的发展,企业需要管理的数据越来越大,主要呈现出对变化数据的实时感知、业务对数据分析要求敏捷、以及需要存储的数据周期变长等诉求,为了实现这些需求,企业往往需要投入较大的人力成本去搭建一个非常复杂的数据管理系统,并投资大量的资源去存放这些海量的数据,这负担对大型企业来说都越来越难于承受,更何况是中小企业,这导致大数据变成少数有财力和技术力的企业独有,而一般企业无法真正享受大数据带来的生产力的提升。

数据是有生命周期的,数据在其各个不同阶段体现出不同特征,需要支撑的业务负载特征也不同,企业为了管理其企业数据,一般采用多个系统来管理不同时期和不同业务需求的数据,并通过数据集成、数据转换、数据迁移等工具,使数据在不同系统间流动。采用上述的数据管理方案,主要的问题是:1、同一个数据冗余存放在多个系统中,成本比较高,且很难保证数据全局一致性;2、数据在各个系统之间迁移需要用户利用第三方工具等进行实施,需要专业的技术人员来实施,门槛高,数据流动的时延比较高,且在异常情况下往往很难高效的进行处理。

由于数据已经成为生产要素之一,企业开始认识到数据的价值,并希望将企业生产过程中产生的各种数据都保存下来,如何用最低的成本来管理这些海量数据,并提供实时的数据访问能力,是数字化转型企业的关键能力,也是企业是否能够在激烈的竞争环境中立于不败之地的关键,为了降低企业的数据管理成本和门槛,开始出现出一些融合管理的数据管理系统方案,现有的所有这些方案都只考虑到某一个维度,而不能实现多维度。

发明内容

鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于多维度特征的数据管理方法和装置,包括:

一种基于多维度特征的数据管理方法,所述方法涉及存储端、路由端、管理端和执行端,其方法包括:

所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;

所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;

所述管理端依据所述第一处理指令将所述目标存储端对应的目标数据特征统计信息进行更新或删除。

进一步地,所述依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件的步骤,包括:

所述管理端依据所述数据访问请求在所述存储端中确定访问数据;

所述管理端依据所述访问数据在所述存储端内确定对应于所述访问数据的数据粒度信息;

所述管理端依据所述数据粒度信息生成对应于所述存储端的初始数据特征统计信息和所述触发条件。

进一步地,所述依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端的步骤,包括:

所述管理端依据获取所述存储端内的所有数据,并确定是否存在满足所述触发条件的目标数据;

当所述存储端内的所述所有数据存在对应满足所述触发条件的目标数据时,所述管理端依据所述目标数据生成所述任务执行请求;

所述管理端将所述任务执行请求发送至所述执行端。

本发明实施例还提供了一种基于多维度特征的数据管理方法,所述方法涉及存储端、路由端、管理端和执行端,所述方法包括:

当所述执行端接收到所述管理端发送的任务执行请求时,则所述执行端依据所述任务执行请求确定对应于所述任务执行请求的任务类型;

所述执行端依据所述任务执行请求内的触发条件在所述存储端中获取目标数据;

所述执行端依据所述任务类型和目标存储端对所述目标数据进行数据处理,其中,所述任务类型包括迁移或删除;

所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述管理端的第一处理指令,并将所述第一处理指令发送至所述管理端;所述第一处理指令用于在所述管理端更新或删除对应于所述目标存储端中的目标数据特征统计信息;

所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述路由端的第二处理指令,并将所述第二处理指令发送至所述路由端;所述第二处理指令用于在所述路由端添加或删除对应于所述目标存储端中由所述目标数据到所述目标存储端形成的目标访问路径。

进一步地,所述依据所述任务类型和目标存储端对所述目标数据进行数据处理,其中,所述任务类型包括迁移或删除的步骤,包括:

当所述任务类型为所述迁移时,所述执行端依据所述任务类型将所述目标数据从所述存储端迁移至所述目标存储端;

或,

当所述任务类型为所述删除时,所述执行端依据所述任务类型将所述目标数据从所述目标存储端中进行删除,其中,所述目标存储端为对应于所述目标数据的初始存储端。

本发明实施例还提供了一种基于多维度特征的数据管理方法,所述方法涉及存储端、路由端、管理端和执行端,所述方法包括:

所述路由端响应于针对上层数据的数据访问信息确定访问路径;

所述路由端依据所述访问路径生成所述数据访问请求,并将所述数据访问请求发送至所述管理端;

所述路由端依据所述执行端发送的第二处理指令将目标访问路径从所述目标存储端中添加或删除。

本发明实施例还提供了一种基于多维度特征的数据管理装置所述装置涉及存储端、路由端、管理端和执行端,所述装置包括:

接收模块,用于所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;

第一生成模块,用于所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;

第一数据处理模块,用于所述管理端依据所述第一处理指令将所述目标存储端对应的所述目标数据特征统计信息进行更新或删除。

本发明实施例还提供了一种基于多维度特征的数据管理装置,所述装置涉及存储端、路由端、管理端和执行端,所述装置包括:

第一确定模块,用于当所述执行端接收到所述管理端发送的任务执行请求时,则所述执行端依据所述任务执行请求确定对应于所述任务执行请求的任务类型;

获取模块,用于所述执行端依据所述任务执行请求内的触发条件在所述存储端中获取目标数据;

第二数据处理模块,用于所述执行端依据所述任务类型和目标存储端对所述目标数据进行数据处理,其中,所述任务类型包括迁移或删除;

第三数据处理模块,用于所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述管理端的第一处理指令,并将所述第一处理指令发送至所述管理端;所述第一处理指令用于在所述管理端更新或删除对应于所述目标存储端中的目标数据特征统计信息;

第四数据处理模块,用于所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述路由端的第二处理指令,并将所述第二处理指令发送至所述路由端;所述第二处理指令用于在所述路由端添加或删除对应于所述目标存储端中由所述目标数据到所述目标存储端形成的目标访问路径。

本发明实施例还提供了一种基于多维度特征的数据管理装置,所述装置涉及存储端、路由端、管理端和执行端,所述装置包括:

第二确定模块,用于所述路由端响应于针对上层数据的数据访问信息确定访问路径;

第二生成模块,用于所述路由端依据所述访问路径生成所述数据访问请求,并将所述数据访问请求发送至所述管理端;

第五数据处理模块,用于所述路由端依据所述执行端发送的第二处理指令将目标访问路径从所述目标存储端中添加或删除。

本发明实施例还提供了一种计算机设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的一种基于多维度特征的数据管理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于多维度特征的数据管理的步骤。

本申请具有以下优点:

在本申请的实施例中,相对于现有技术中的只考虑到某一个维度,而不能实现多维度;数据冗余存放在多个系统中,成本比较高,且很难保证数据全局一致性;以及数据流动的时延比较高,且在异常情况下往往很难高效的进行处理的问题,本申请提供了一种基于多维度特征的数据管理方法的解决方案,具体为:所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;所述管理端依据所述第一处理指令将所述目标存储端对应的目标数据特征统计信息进行更新或删除。通过依据所述目标存储端和所述触发条件生成所述任务执行请求解决了不能多维度、无法保证数据一致性、成本高和数据处理低效率的问题达到了并按照数据和业务等多个不同的维度对数据进行自动的迁移和管理,使得以相对最优的成本和简单的一站式解决方案来满足用户业务需求;解决读写优化互斥的矛盾和数据冷热与存储成本的矛盾,对用户提供了最优的性能和成本;对上层用户透明,用户无需部署多个系统或者增加外部工具来完成数据的生命周期管理。

附图说明

为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种基于多维度特征的数据管理方法的步骤流程图;

图2是本申请一实施例提供的一种基于多维度特征的数据管理方法的步骤流程图;

图3是本申请一实施例提供的一种基于多维度特征的数据管理方法的步骤流程图;

图4是本申请一实施例提供的一种基于多维度特征的数据管理装置的结构框图;

图5是本申请一实施例提供的一种基于多维度特征的数据管理装置的结构框图;

图6是本申请一实施例提供的一种基于多维度特征的数据管理装置的结构框图;

图7是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

发明人通过分析现有技术发现:数据是有生命周期的,数据在其各个不同阶段体现出不同特征,需要支撑的业务负载特征也不同,企业为了管理其企业数据,一般采用多个系统来管理不同时期和不同业务需求的数据,并通过数据集成、数据转换、数据迁移等工具,使数据在不同系统间流动,比如,数据刚产生时,一般在生产系统中,这时需要支持事务,支持低时延的点查点改,一般采用传统的OLTP(On-Line Transaction Processing,联机事务处理过程)数据库来支持,接着数据为了满足用户的历史详情查询,会将数据实时集成到历史归档数据库中,这种归档库一般需要按用户进行集中存储,以便按用户维度进行数据检索;接着,为了支持报表和业务智能等,又会通过ETL(Extract-Transform-Load,用来描述将数据从来源端经过extract即抽取、transform即转换、load即加载至目的端的过程)等工具将数据转换并存储到数据仓库中。采用这样的数据管理方案,主要的问题是:

1、同一个数据冗余存放在多个系统中,成本比较高,且很难保证数据全局一致性。

2、数据在各个系统之间迁移需要用户利用第三方工具等进行实施,需要专业的技术人员来实施,门槛高,数据流动的时延比较高,且在异常情况下往往很难高效的进行处理。

现有技术方案一:

C-Store(Mike Stonebraker,et,al.C-store:a column-oriented DBMS.InVLDB,pages 553–564,2005.)

面向写入优化的存储和面向查询优化的存储在设计和实现上是存在互斥的,比如面向写入的,一般采用Rowstore(行存储),面向查询的,一般采用Column Store(columnsstore是基于列式的数据库系统),C-Store论文首次提出了混合架构方案来解决,其架构实现了两个模块。一个模块负责处理快速写入即Writeable Store(可写存储器,简称WS),一个模块负责提供高效的查询即Read-Optimized Store(读取优化存储,简称RS),同时中间运行了一个Tuple Mover,将WS中的数据不断的迁移到RS中。

这一方法已经广泛应用在很多大数据系统中,像商业系统中的SAP HANA、Vertica等都采用了此方法。该方案的缺点:

只能按一个维度,且固定是按读写进行区分,只解决这一特定问题。

Tuple Mover采用周期性的方式将数据从WS合并到RS,如果数据变更比较频繁,可能导致数据频繁的来回合并。

现有技术方案二:

冷热数据分层存储:一种基于时序数据冷热分类的分层存储方法,公告号号:CN108268217A;公开(公告)日:2021年04月30日;该专利是通过特定的时间规则将数据分为实时数据、周天数据、历史数据以及冷数据,建立实时数据层、周天数据层、历史数据层以及冷数据层,依次分别存储在内存、SSD存储硬盘、HDD存储硬盘、分布式存储系统HDFS中,其中实时数据为24小时以内数据,周天数据为两周以内数据,历史数据为两年以内数据,冷数据为10年以内数据。各种数据定期通过批量转移服务定期批量的从存储上层将数据导入到下层。

该方案的缺点:只能按照数据的时间窗口进行简单的划分与迁移,数据迁移粒度比较粗;只支持数据的追加和查询,不支持对数据修改。

综上所述,可得知现有技术中存在只考虑到某一个维度,而不能实现多维度;数据冗余存放在多个系统中,成本比较高,且很难保证数据全局一致性;以及数据流动的时延比较高,且在异常情况下往往很难高效的进行处理的问题,因此本发明提供了一种基于多维度特征的数据管理方法用于解决上述问题;具体如下所述:

参照图1,示出了本申请一实施例提供的一种基于多维度特征的数据管理方法的步骤流程图;

一种基于多维度特征的数据管理方法,所述方法涉及存储端、路由端、管理端和执行端,其方法包括:

S110、所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;

S120、所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;

S130、所述管理端依据所述第一处理指令将所述目标存储端对应的目标数据特征统计信息进行更新或删除。

在本申请的实施例中,相对于现有技术中的只考虑到某一个维度,而不能实现多维度;数据冗余存放在多个系统中,成本比较高,且很难保证数据全局一致性;以及数据流动的时延比较高,且在异常情况下往往很难高效的进行处理的问题,本申请提供了一种基于多维度特征的数据管理方法的解决方案,具体为:所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;所述管理端依据所述第一处理指令将所述目标存储端对应的目标数据特征统计信息进行更新或删除。通过依据所述目标存储端和所述触发条件生成所述任务执行请求解决了不能多维度、无法保证数据一致性、成本高和数据处理低效率的问题达到了并按照数据和业务等多个不同的维度对数据进行自动的迁移和管理,使得以相对最优的成本和简单的一站式解决方案来满足用户业务需求;解决读写优化互斥的矛盾和数据冷热与存储成本的矛盾,对用户提供了最优的性能和成本;对上层用户透明,用户无需部署多个系统或者增加外部工具来完成数据的生命周期管理。

下面,将对本示例性实施例中一种基于多维度特征的数据管理方法作进一步地说明。

在本发明一实施例中,存储端内包括2个以上的存储引擎,每个存储引擎提供面向不同维度的数据特征优化的数据管理能力。

在本发明一实施例中,所述管理端用于管理定义每个存储引擎即存储端的数据管理能力和生命周期管理策略,并跟踪每个存储引擎的数据优化特征信息即数据特征统计信息,满足定义规则即触发条件时触发数据迁移等数据管理任务。

在本发明一实施例中,所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件,其中,初始数据特征统计信息包括对应于所述存储端的初始维度信息、初始优化特征信息和初始粒度信息;根据执行过程中路由端发送的数据访问请求中的数据,映射到该引擎定义的数据粒度,并更新该数据粒度即粒度信息;其中,每个存储端都有与之对应的数据特征统计信息。

在本发明一实施例中,数据访问请求包括但不限于数据查询、数据访问、数据新增、数据删除。

在本发明一实施例中,所述依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件的步骤,包括:

所述管理端依据所述数据访问请求在所述存储端中确定访问数据;

所述管理端依据所述访问数据在所述存储端内确定对应于所述访问数据的数据粒度信息;

所述管理端依据所述数据粒度信息生成对应于所述存储端的初始数据特征统计信息和所述触发条件。

在一具体实施例中,根据执行过程中路由端发送的数据访问请求中需要访问的数据即访问数据,映射到该存储引擎即存储端定义的数据粒度即粒度信息,并更新该数据粒度即粒度信息。

在一具体实施例中,当数据访问请求为新增数据时,通过新增数据能够生成用于存储新增数据的所述存储端对应的初始数据特征统计信息。

在一具体实施例中,通过维度信息对数据的特征进行分类定义,包含但不限于:

维度一:按数据的变化维度,将数据定义为动态数据和静态数据,即数据变化维度;

维度二:按数据的访问频率,将数据定义为热数据、温数据和冷数据,即数据访问频率维度;

维度三:按数据的业务特点,将数据定义为检索数据和分析数据数据,即数据查询业务维度。

在一具体实施例中,优化特征信息指的是引擎的优化特征,包含但不限于:

基于热数据特征性能优化;基于冷数据特征成本优化;基于动态数据特征优化;基于静态数据特征优化;基于检索访问特征优化。

在一具体实施例中,粒度信息指的是数据的统计单元粒度,包含但不限于:

按数据表格的每一行统计;按数据表格的每一页/块统计;按数据表格的某个范围区间统计,如时间;按数据表格的数据片统计;按数据表格的分区统计。

在本发明一实施例中,当数据访问请求为新增数据时,通过新增数据能够生成用于存储新增数据的所述存储端对应的初始数据特征统计信息,其中,初始数据特征统计信息包括初始维度信息、初始优化特征信息以及初始粒度信息用于定义存储新增数据的所述存储端对应的特征统计管理结构;即每个存储端内都有与之对应的数据特征统计信息。

在本发明一实施例中,所述依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端的步骤,包括:

所述管理端依据获取所述存储端内的所有数据,并确定是否存在满足所述触发条件的目标数据;

当所述存储端内的所述所有数据存在对应满足所述触发条件的目标数据时,所述管理端依据所述目标数据生成所述任务执行请求;

所述管理端将所述任务执行请求发送至所述执行端。

在本发明一实施例中,通过存储端内的触发条件在存储端内的所有数据中确定是否存在满足触发条件的数据,其中,触发条件包括周期性或外部事件,具体地:周期性指的是时间周期,比如:按每分钟触发、按每小时触发、按每天某一特定时刻触发、按月;外部事件一般指由上层数据访问引起的统计信息变化达到某个阈值触发,比如:统计到连续两周对某数据没有过访问,则触发将这一数据迁移到某一个引擎。

在本发明一实施例中,所述管理端依据所述第一处理指令将所述目标存储端对应的数据特征统计信息进行更新或删除;其中,管理端通过接收执行端返回的第一处理指令,对目标存储端进行数据特征统计信息的更新或删除,其中依据第一处理指令对应的任务类型作出更新或删除;

在一具体实施例中,任务类型为迁移时,在该目标存储端内更新数据特征统计信息。

在另一具体实施例中,任务类型为删除时,在该目标存储端中删除数据特征统计信息。

参照图2,示出了本申请一实施例提供的一种基于多维度特征的数据管理方法的步骤流程图;

一种基于多维度特征的数据管理方法,所述方法涉及存储端、路由端、管理端和执行端,其方法包括:

S210、当所述执行端接收到所述管理端发送的任务执行请求时,则所述执行端依据所述任务执行请求确定对应于所述任务执行请求的任务类型;

S220、所述执行端依据所述任务执行请求内的触发条件在所述存储端中获取目标数据;

S230、所述执行端依据所述任务类型和目标存储端对所述目标数据进行数据处理,其中,所述任务类型包括迁移或删除;

S240、所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述管理端的第一处理指令,并将所述第一处理指令发送至所述管理端;所述第一处理指令用于在所述管理端更新或删除对应于所述目标存储端中的目标数据特征统计信息;

S250、所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述路由端的第二处理指令,并将所述第二处理指令发送至所述路由端;所述第二处理指令用于在所述路由端添加或删除对应于所述目标存储端中由所述目标数据到所述目标存储端形成的目标访问路径。

在本发明一实施例中,所述依据所述任务类型和目标存储端对所述目标数据进行数据处理,其中,所述任务类型包括迁移或删除的步骤,包括:

当所述任务类型为所述迁移时,所述执行端依据所述任务类型将所述目标数据从所述存储端迁移至所述目标存储端;

或,

当所述任务类型为所述删除时,所述执行端依据所述任务类型将所述目标数据从所述目标存储端中进行删除,其中,所述目标存储端为对应于所述目标数据的初始存储端。

在本发明一实施例中,所述执行端依据所述触发条件在所述存储端中获取所述目标数据;通过触发条件在存储端内获取目标数据;在一具体实施例中,获取存储端内的所有数据,通过触发条件在所有数据中筛选目标数据,其中,触发条件可以是预设阈值,将大于预设阈值的数据确定为目标数据。

在本发明一实施例中,当所述任务类型为所述迁移时,所述执行端依据所述任务类型将所述目标数据从所述存储端迁移至所述目标存储端;在一具体实施例中,当任务类型为迁移时,则在所述存储端内以定义的数据粒度即粒度信息,将所述存储端达到阈值的所有数据即目标数据,复制到目的存储端中。

在本发明一实施例中,当所述任务类型为所述删除时,所述执行端依据所述任务类型将所述目标数据从所述目标存储端中进行删除,其中,所述目标存储端为对应于所述目标数据的初始存储端;在一具体实施例中,当任务类型为删除时,则在目标存储端内以定义的数据粒度即粒度信息,将目标存储端达到阈值的所有数据即目标数据删除;具体地,在任务类型为删除时,目标存储端为对应于目标数据的初始存储端。

在本发明一实施例中,所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述管理端的第一处理指令;

所述执行端将所述第一处理指令发送至所述管理端;所述第一处理指令用于在所述管理端更新或删除对应于所述目标存储端中对应的数据特征统计信息。

在一具体实施例中,当完成将所述存储端达到阈值的所有数据即目标数据,复制到目标存储端后,依据任务类型生成第一处理指令并发送至管理端;

在本发明一实施例中,所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述路由端的第二处理指令;

所述执行端将所述第二处理指令发送至所述路由端;所述第二处理指令用于在所述路由端添加或删除对应于所述目标存储端中由所述目标数据到所述目标存储端形成的目标访问路径;

在一具体实施例中,当完成目标存储端内达到阈值的所有数据即目标数据删除后,依据任务类型生成第二处理指令并发送至路由端。

参照图3,示出了本申请一实施例提供的一种基于多维度特征的数据管理方法的步骤流程图;

一种基于多维度特征的数据管理方法,所述方法涉及存储端、路由端、管理端和执行端,其方法包括:

S310、所述路由端响应于针对上层数据的数据访问信息确定访问路径;

S320、所述路由端依据所述访问路径生成所述数据访问请求,并将所述数据访问请求发送至所述管理端;

S330、所述路由端依据所述执行端发送的第二处理指令将目标访问路径从所述目标存储端中添加或删除。

在本发明一实施例中,路由端用于决定数据存储在哪个存储端,可以将上层数据访问请求透明的路由到对应的存储端中进行执行,对于新增数据路由到所述存储端上;在一具体实施例这个,存储端包括初始存储端和若干个目标存储端,对于新增数据将其路由至初始存储端。

在本发明一实施例中,所述路由端响应于针对上层数据的数据访问信息确定访问路径;通过访问路径能够得知需要访问哪些存储端;即依据需要访问的数据条件,根据路由端中数据访问信息来决定访问哪个存储端;比如:对于首次新增数据,会放入初始存储端,并在初始存储端内记录路由信息即访问路径,数据发生存储端之间的迁移会更新路由信息;对于后续访问,根据路由端即可知道要访问的数据在哪个存储端。

在本发明一实施例中,数据访问请求指的是数据的访问一般包含数据增删改查(数据库一般用DML表示),以及数据定义的变更(数据库一般用DDL表示);依据数据增删改查或变更生成对应的目标请求。

在本发明一实施例中,所述路由端依据所述访问路径生成所述数据访问请求,并将所述数据访问请求发送至所述管理端。

在本发明一实施例中,所述路由端依据所述执行端发送的第二处理指令将目标访问路径从所述目标存储端中添加或删除;在一具体实施例中,任务类型为迁移时,将目标数据从存储端到目标存储端之间形成的访问路径添加到目标存储端中;在另一具体实施例中,数据任务的任务类型为删除任务时,将在所述存储端中删除对应目标数据的所有访问路径。

实施例一

下面以3个不同维度特性优化的存储引擎即存储端进行举例说明,可以很容易将此扩展到更多数量的存储引擎即存储端中,同时维度特征也只是举了3个维度,也应该很容易将其扩展到更多维度或者进行相应的变形。

新增如下三个存储引擎即存储端,其相关属性分别如下:

存储引擎1:变更维度,动态数据特征,记录级粒度,触发阈值为30天无变更,数据任务为迁移,目标存储端为存储引擎2;

存储引擎2:访问频率维度,热数据特征,数据批次粒度,触发阈值为数据温度为20(访问频次低),衰减周期为每小时降1度,每次访问增加10度,最高720度(简化下面描述,也可以用复杂的模型,如牛顿冷却定律来进行衰减),数据任务为迁移,目标存储端为存储引擎3;

存储引擎3:访问时间维度,热数据特征,数据文件粒度,触发阈值为10年老化,数据任务为删除,目标存储端无。

为存储引擎1建立了每条更新过的记录的最近更新时间的数据结构,作为存储引擎1的数据特征统计信息;

为存储引擎2建立了每个批次数据的访问温度的数据结构,作为存储引擎2的数据特征统计信息;

为存储引擎3建立了每个数据文件创建时间的数据结构,作为存储引擎3的数据特征统计信息;

假设2012年8月1日插入如下10条数据:

初始时,会将这10条数据全部插入到存储引擎1即所述存储端,并更新对应的路由信息。

2012年8月8日,ID为8的数据做了更新,如将Salary从7000更新到10000,这时,存储引擎1的数据特征统计信息将新增ID为8,更新时间为2012年8月8日,后续到2012年8月31日,其它数据都没有做过更新。

这时定期任务触发存储引擎1的数据任务,将除了ID为8的记录外,全部迁移到存储引擎2中,并将这些数据从存储引擎1中删除,并更新路由信息,将ID为1~7和ID为9~10的路由更新到存储引擎2中,并将ID为1~5作为一个数据批次A,ID为6、7、9和10数据作为数据批次B,初始化数据批次A和数据批次2的温度为100。

这时如果用户要访问数据,但访问ID为8的数据时,将自动路由到存储引擎1,其它数据将访问存储引擎2;假设在2012年8月31日当天查询了10次数据批次B的数据,这时会将数据批次B的数据特征统计信息中的温度变为200度,而数据批次A的数据温度为100度。

从31日开始,将每天衰减10度,当批次的温度降到20度时,触发了数据迁移任务,将数据批次A的数据从存储引擎2中迁移到存储引擎3,并更新路由,即ID为1~5的路由变为路由到存储引擎3,存储引擎3将ID为1~5作为一个整体存储到数据文件Z,并更新特征统计性为数据文件Z的创建时间为2012年9月4日。

这时如果用户访问数据,将实现自动路由:ID为8的数据在存储引擎1(假设这期间ID为8一直在更新),ID为6、7、9和10的数据在存储引擎2(假设这期间批次2一直在查询),ID为1~5的数据在存储引擎3。

最后,在2022年9月4日,数据文件Z因为达到10年的阈值条件,将触发数据删除任务,从存储引擎3直接删除,并删除相关的路由信息和特征统计信息。这时,用户再访问ID为1~5的数据将不再访问到。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

参照图4,示出了本申请一实施例提供的一种基于多维度特征的数据管理装置的结构框图;

一种基于多维度特征的数据管理装置,所述装置涉及存储端、路由端、管理端和执行端,所述装置包括:

接收模块410,用于所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;

第一生成模块420,用于所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;

第一数据处理模块430,用于所述管理端依据所述第一处理指令将所述目标存储端对应的所述目标数据特征统计信息进行更新或删除。

在本发明一实施例中,所述接收模块410,包括:

第一确定子模块,用于所述管理端依据所述数据访问请求在所述存储端中确定访问数据;

第二确定子模块,用于所述管理端依据所述访问数据在所述存储端内确定对应于所述访问数据的数据粒度信息;

第一更新子模块,用于所述管理端依据所述数据粒度信息生成对应于所述存储端的初始数据特征统计信息和所述触发条件。

在本发明一实施例中,所述第一生成模块420,包括:

第三确定子模块,用于所述管理端依据获取所述存储端内的所有数据,并确定是否存在满足所述触发条件的目标数据;

第一生成子模块,用于当所述存储端内的所述所有数据存在对应满足所述触发条件的目标数据时,所述管理端依据所述目标数据生成所述任务执行请求;

第一发送子模块,用于所述管理端将所述任务执行请求发送至所述执行端。

参照图5,示出了本申请一实施例提供的一种基于多维度特征的数据管理装置的结构框图;

一种基于多维度特征的数据管理装置,所述装置涉及存储端、路由端、管理端和执行端,所述装置包括:

第一确定模块510,用于当所述执行端接收到所述管理端发送的任务执行请求时,则所述执行端依据所述任务执行请求确定对应于所述任务执行请求的任务类型;

获取模块520,用于所述执行端依据所述任务执行请求内的触发条件在所述存储端中获取目标数据;

第二数据处理模块530,用于所述执行端依据所述任务类型和目标存储端对所述目标数据进行数据处理,其中,所述任务类型包括迁移或删除;

第三数据处理模块540,用于所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述管理端的第一处理指令,并将所述第一处理指令发送至所述管理端;所述第一处理指令用于在所述管理端更新或删除对应于所述目标存储端中的目标数据特征统计信息;

第四数据处理模块550,用于所述执行端依据所述目标数据、所述目标存储端和所述任务类型生成响应于所述路由端的第二处理指令,并将所述第二处理指令发送至所述路由端;所述第二处理指令用于在所述路由端添加或删除对应于所述目标存储端中由所述目标数据到所述目标存储端形成的目标访问路径。

在本发明一实施例中,所述第二数据处理模块530,包括:

第一执行子模块,用于当所述任务类型为所述迁移时,所述执行端依据所述任务类型将所述目标数据从所述存储端迁移至所述目标存储端;

或,

第二执行子模块,用于当所述任务类型为所述删除时,所述执行端依据所述任务类型将所述目标数据从所述目标存储端中进行删除,其中,所述目标存储端为对应于所述目标数据的初始存储端

参照图6,示出了本申请一实施例提供的一种基于多维度特征的数据管理装置的结构框图;

一种基于多维度特征的数据管理装置,所述装置涉及存储端、路由端、管理端和执行端,所述装置包括:

第二确定模块610,用于所述路由端响应于针对上层数据的数据访问信息确定访问路径;

第二生成模块620,用于所述路由端依据所述访问路径生成所述数据访问请求,并将所述数据访问请求发送至所述管理端;

第五数据处理模块630,用于所述路由端依据所述执行端发送的第二处理指令将目标访问路径从所述目标存储端中添加或删除。

参照图7,示出了本发明的一种基于多维度特征的数据管理方法的计算机设备,具体可以包括如下:

上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种基于多维度特征的数据管理方法。

也即,上述处理单元16执行上述程序时实现:所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;所述管理端依据所述第一处理指令将所述目标存储端对应的目标数据特征统计信息进行更新或删除。

在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种基于多维度特征的数据管理方法:

也即,给程序被处理器执行时实现:所述管理端接收所述路由端发送的数据访问请求,并依据所述数据访问请求生成对应于所述存储端的初始数据特征统计信息和触发条件;所述管理端依据所述触发条件确定目标存储端,并依据所述目标存储端和所述触发条件生成所述任务执行请求,将所述任务执行请求发送至所述执行端,并接收所述执行端发送的第一处理指令;所述管理端依据所述第一处理指令将所述目标存储端对应的目标数据特征统计信息进行更新或删除。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于多维度特征的数据管理方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

技术分类

06120115635831