掌桥专利:专业的专利平台
掌桥专利
首页

一种数据分区归档方法、系统、设备和介质

文献发布时间:2024-04-18 19:58:30


一种数据分区归档方法、系统、设备和介质

技术领域

本申请涉及智慧医疗领域,尤其涉及一种数据分区归档方法、系统、设备和介质。

背景技术

在医疗相关业务数据库中,随着时间推移,数据表中的数据会逐渐增多。为了避免越来越多的数据影响在线医疗数据处理的性能,一般会将时间比较久远的数据保存到一个归档数据库中,然后删除业务数据库中相应数据。目前业内没有成熟的工具,能够实现对数字医疗相关的数据库分区归档,基本上都是通过人手工操作,随之带来的风险是无法规避人为误操作,同时目前业务所处的环境中有大量的数据表,如果只是通过人工操作则会消耗运维人员的大量时间。

申请内容

鉴于以上现有技术存在的问题,本申请提出一种数据分区归档方法、系统设备和介质,主要解决现有数据分区归档依赖与人工,工作量大且存在误操作风险的问题。

为了实现上述目的及其他目的,本申请采用的技术方案如下。

本申请提供一种数据分区归档方法,包括:

获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;

在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;

通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

在本申请一实施例中,获取待分区数据表,包括:

获取各数据分区中数据表的访问频次以及最近访问时间;

根据所述访问频次和最近访问时间计算对应数据表的热度值;

若存在数据表的热度值大于归属的数据分区的预设热度上限,则将对应的数据表作为所述待分区数据表。

在本申请一实施例中,根据所述访问频次和最近访问时间计算对应数据表的热度值之后,还包括:

若存在数据表的热度值小于归属的数据分区的预设热度下限,则将对应的数据表作为所述待分区数据表。

在本申请一实施例中,将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区之前,还包括:

将所述待分区数据表的热度值与各数据分区的预设热度范围进行比较,若所述待分区数据表的热度值在所述预设热度范围内,则将对应的数据分区归入第一集合,以将所述第一集合内的数据分区用于进行特征匹配得到所述目标分区。

在本申请一实施例中,根据所述待分区数据表的数据项生成属性特征,包括:

获取所述待分区数据表中的所有数据项,将与预设基础特征库中的基础特征匹配的数据项剔除,通过剩余数据项构建数据序列得到所述属性特征,其中所述基础特征库中记录通用数据项作为基础特征。

在本申请一实施例中,在所述目标分区创建影子表之前,还包括:

将所述待分区数据表的各数据项与所述目标分区中各数据表的数据项进行逐项比对,在所述待分区数据表的数据项与所述目标分区中每一个数据表的数据项均不完全相同时,创建所述影子表。

在本申请一实施例中,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档之后,还包括:

获取所述目标分区的预设分区特征对应的特征词库;

将所述属性特征包含的多个子特征与所述特征词库中的特征词进行相似度比对,若所述子特征与所述特征词的相似度低于预设阈值,则将所述子特征用于更新所述特征词库,以基于更新后的特征词库生成新的分区特征,其中,每一个子特征对应一个数据项。

本申请还提供一种数据分区归档系统,包括:

分区确定模块,用于获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;

影子表创建模块,用于在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;

数据归档模块,用于通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

本申请还提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的数据分区归档方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据分区归档方法的步骤。

如上所述,本申请一种数据分区归档方法、系统、设备和介质,具有以下有益效果。

本申请通过获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。本申请根据待分区数据表的属性特征确定需要进行数据交换的数据分区,并创建影子表进行数据交换,自动完成待分区数据表的分区归档存储,减少对人工分区归档的依赖,提高数据稳定性和可靠性,保证数据业务的正常有序。

附图说明

图1为本申请一实施例中数据分区归档系统的一个可选的架构示意图。

图2为本申请一实施例中终端的结构示意图。

图3为本申请一实施例中数据分区归档方法的流程示意图。

图4为本申请一实施例中数据分区归档系统的模块图。

图5为本申请一实施例中设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

参见图1,图1是本申请实施例提供的数据分区归档系统的一个可选的架构示意图,终端400(示例性示出了终端400-1)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。

终端400-1为业务端,可通过终端400-1与患者或具有医疗咨询需求的用户进行业务数据交互。终端400-1提供医院、药店或药企等的业务数据库,业务数据库中数据以表的形式存在,可将业务数据库划分为多个数据分区,用户可在终端400-1上与业务系统进行交互调用业务数据库中对应数据分区的数据。不同数据分区之间可基于不同的访问热度进行数据交换,将数据分区中热度较低或者不常用的数据通过网络300上传至服务器200。终端400-1可根据业务场景需求进行选择,这里不作限制。

服务器200,用于接收终端400-1传输的数据并根据数据表的属性特征进行数据的归档存储。用户可通过终端400-1向服务器200发起数据访问请求,远程调用服务器端数据库中归档的数据。

在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电和车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。

参见图2,图2是本申请实施例提供的终端400-1的结构示意图,图2所示的终端400-1包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400-1中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;

呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的数据分区归档系统455,其可以是程序和插件等形式的软件,包括以下软件模块:分区确定模块4551、影子表创建模块4552和数据归档模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的系统可以采用硬件方式实现,作为示例,本申请实施例提供的系统可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据分区归档方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-ProgrammableGateArray)或其他电子元件。

在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的数据分区归档方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如社交应用APP或者消息分享APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序或者网页客户端程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。

请参阅图3,图3为本申请一实施例中数据分区归档方法的流程示意图。本申请提供一种数据分区归档方法,该方法包括以下步骤:

步骤S300,获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;

步骤S310,在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;

步骤S320,通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

在步骤S300中,获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区。具体地,业务数据通常以数据表的存在于业务数据库中,以Oracle数据库为例,单表的数据量如果太大,会影响到读写性能。可以使用分库分表来解决单表的性能问题。Oracle的分区表是将一张大表在物理上分成几张较小的表,从逻辑上来看仍然是一张完整的表。这样每次DML(Data Manipulation Language)操作可以只考虑其中一张分区表。分区功能能够将表、索引或索引组织表进一步细分为段,从而能够更精确地管理和访问这些数据库对象。这些数据库对象的段叫做数据分区。每个数据分区也可包含多个数据表,可通过不同远程数据库作为数据分区的表空间,用于针对对应数据分区的数据进行归档存储。

在一实施例中,针对每个数据分区包含的数据项构建特征词库。具体地,可提取对应数据分区中包含的所有数据项,得到各数据项的特征词,将特征词存储在预设数据库中,得到每个数据分区对应的特征词库。

在一实施例中,可遍历所有数据分区的数据项,记录相同数据项覆盖的数据分区数量以及出现频次,将覆盖数据分区数量超出预设数量阈值或者出现频次高于预设频率阈值的数据项作为通用数据项,以通用数据项作为基础特征构建基础特征库。当然基础特征库中的基础特征可也通过特定权限的目标对象进行配置,具体举出特征库包含的基础特征可根据应用场景不同进行调整,这里不做限制。基于基础特征库对每个数据分区的特征词库进行过滤,将特征词库中通用数据项对应的特征词剔除,仅保留区别特征词。基于区别特征词生成对应数据分区的分区特征。该分区特征可包含特征词库中的全部或部分特征词。

在一实施例中,获取待分区数据表,包括以下步骤:

步骤S301,获取各数据分区中数据表的访问频次以及最近访问时间。

在一实施例中,可定期或按一定的频次统计各数据分区数据表的访问记录,其中,访问记录包括最近一次访问数据表的时间节点、访问数据表的时间间隔以及预设时间段内访问数据表的频次等。

步骤S302,根据所述访问频次和最近访问时间计算对应数据表的热度值;

在一实施例中,可计算最近访问时间与当前时间节点的时间差,进一步计算时间差与预设时间间隔的比值,作为第一比值。将访问频次与预设访问次数阈值的比值作为第二比值,通过第一比值和第二比值进行加权,得到数据表的热度值。也可加入其他访问数据如访问时间间隔等用于计算数据表的热度值,具体计算过程与前述步骤相似,这里不做限制。

步骤S303,若存在数据表的热度值大于归属的数据分区的预设热度上限,则将对应的数据表作为所述待分区数据表。

在一实施例中,可针对每个数据分区设置分区对应的热度范围。基于数据表的热度和分区的热度范围判断不同数据分区的数据是否需要进行交换。具体地,当数据表处于低热度数据分区时,通过统计得到数据表的热度值超出当前归属的数据分区的热度上限时,可将对应数据表作为待分区数据表,可将待分区数据表交换到热度更高的数据分区。业务数据库可只在本地保留热度值稿的数据分区数据,针对热度值低的数据分区可通过远程数据库进行归档存储,在进行数据调用时,通过访问对应的远程数据库获取相应的数据。因此,通过分区数据交换,将低热度数据分区数据转换到高热度数据分区,可保证用户使用频次高的数据响应速度快,增强用户体验,同时一些热度低的数据可通过响应速度较慢的介质存储,降低系统成本。

在一实施例中,根据所述访问频次和最近访问时间计算对应数据表的热度值之后,还包括:

若存在数据表的热度值小于归属的数据分区的预设热度下限,则将对应的数据表作为所述待分区数据表。

在一实施例中,针对高热度数据分区的数据表,通过前述统计方式得到数据表的热度之后,若数据表的热度值低于归属的数据分区的热度下限,则可认为该数据表被使用的频率交底,应当将对应数据表转换到低热度的数据分区进行归档存储,避免长期暂用业务数据库的存储空间,影响业务数据的响应速度和整体使用体验。将需要交换的数据表作为待分区数据表。

在一实施例中,通过前述步骤获取待分区数据表后,可根据待分区数据表中的数据项生成待分区数据表的属性特征。基于属性特征进行分区匹配确定待分区数据表中数据需要切换到的目标分区。

在一实施例中,根据所述待分区数据表的数据项生成属性特征,包括:

获取所述待分区数据表中的所有数据项,将与预设基础特征库中的基础特征匹配的数据项剔除,通过剩余数据项构建数据序列得到所述属性特征,其中所述基础特征库中记录通用数据项作为基础特征。

在一实施例中,可根据前述步骤构建的基础特征库对待分区数据表的数据项进行过滤。具体地,可通过逐项比对的方式将待分区数据表中的数据项与基础特征库中的基础特征进行比对,若待分区数据表中的数据项与基础特征的相似度达到预设相似度阈值,则认为该数据项为通用数据项,可将该数据项过滤。将待分区数据表中所有数据项经过前述步骤过滤后,剩余的数据项用于依次串接形成一维向量作为数据项对应的数据序列,对数据序列进行编码可得到待分区数据表对应的属性特征。

在一实施例中,将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区之前,还包括:

将所述待分区数据表的热度值与各数据分区的预设热度范围进行比较,若所述待分区数据表的热度值在所述预设热度范围内,则将对应的数据分区归入第一集合,以将所述第一集合内的数据分区用于进行特征匹配得到所述目标分区。

在一实施例中,根据前述步骤得到待分区数据表的热度值后,可基于待分区数据表的热度值与其他数据分区的预设热度范围进行比较。具体地,可将待分区数据表的热度值与各数据分区的预设热度范围的上限或下限进行比较,以判断待分区数据表的热度值是否落入其他数据分区的预设热度范围内。若待分区数据表的热度值落入多个数据分区的预设热度范围内,则将对应的多个数据分区归入第一集合。待分区数据表可从第一集合的数据分区中选择一个数据分区作为目标分区。具体地,可通过待分区数据表的属性特征与第一集合中各数据分区的分区特征进行特征匹配以确定待分区数据表需要完成数据交换的目标分区。可通过余弦相似度或者范式距离计算属性特征与分区特征的相似度,若相似度达到预设相似度阈值,则判定对应的分区特征与属性特征匹配。当存在多个达到预设相似度阈值的分区特征时,可根据相似度值由高到低对分区特征进行排序,选择相似度最高的分区特征对应的数据分区作为目标分区。如存在排序最前的两个以上分区特征相似度值相同,则可随机选择其中一个分区特征对应的数据分区作为目标分区。

在步骤S310中,在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中。

在一实施例中,可通过在目标分区创建待分区数据表的影子表,将待分区数据表中的数据转换到影子表中,用户可直接访问目标分区中的影子表获取待分区数据表的数据。

在一实施例中,在所述目标分区创建影子表之前,还包括:

将所述待分区数据表的各数据项与所述目标分区中各数据表的数据项进行逐项比对,在所述待分区数据表的数据项与所述目标分区中每一个数据表的数据项均不完全相同时,创建所述影子表。

在一实施例中,在创建影子表之前需要验证待创建影子表的唯一性。具体地,可提取待分区数据表的数据项,将待分区数据表的数据项与目标分区中各数据项进行逐项比对,判断目标分区中是否包含待分区数据表中所有数据项。若待分区数据表中存在一项或多项数据项不包含于目标分区中,则判定待分区数据表不存在与目标分区中,可在目标分区中创建待分区数据表的影子表。完成待分区数据表到影子数据表的数据转换后,可将待分区数据表从归属的原数据分区中删除。仅保留目标分区中的影子数据表。

在步骤S320中,通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

在一实施例中,当目标分区为低热度数据分区时,可生成目标分区的数据库链接,通过数据库链接连通远程数据库,将影子表中的数据传输至目标分区对应的远程数据库中进行数据归档。通过数据库链接对接远程数据库,可直接通过网络的方式将数据插入归档库中,同时数据库链接由远程数据库发起,远程数据库作为备用库,不会影响业务数据库的业务访问等操作。远程数据库中每个归档库通过特征表示库类别,可通过属性特征与库类别进行相似度比对,基于相似度进行聚类,将影子表中数据归入对应聚类类别中,完成数据归档。在进行远程数据调用时,可基于聚类类别的关键词进行数据查找,以提高远程数据访问的效率。进一步地,属性特征可作为聚类类别下的子类别特征,形成基于属性特征的分层归档数据库。

在一实施例中,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档之后,还包括:

获取所述目标分区的预设分区特征对应的特征词库;

将所述属性特征包含的多个子特征与所述特征词库中的特征词进行相似度比对,若所述子特征与所述特征词的相似度低于预设阈值,则将所述子特征用于更新所述特征词库,以基于更新后的特征词库生成新的分区特征,其中,每一个子特征对应一个数据项。

在一实施例中,由于前述步骤中针对每个数据分区设置了对应的特征词库,基于特征词库生成对应数据分区的分区特征。可获取目标分区的特征词库。属性特征为由多个数据项的特征组合得到的特征序列,可将属性特征拆分为多个子特征,每个子特征对应一待分区数据表的数据项。将每个子特征分别与目标分区的特征词库中的特征词进行相似度比对,选出属性特征中与特征词相似度低于预设阈值的子特征,将子特征对应的特征词输入特征词库中用于更新特征词库。目标分区的特征词库每完成一次更新则基于更新后的特征词库重新生成分区特征,进行分区特征更新,以便后续进行分区归档时保证分区及归档数据的准确性,方便进行精准的数据查找或检索,为业务数据提供可靠的数据支撑。

请参阅图4,图4为本申请一实施例中数据分区归档的模块图,该系统包括:分区确定模块4551,用于获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;影子表创建模块4552,用于在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;数据归档模块4553,用于通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

在一实施例中,分区确定模块4551还用于获取待分区数据表,包括:获取各数据分区中数据表的访问频次以及最近访问时间;根据所述访问频次和最近访问时间计算对应数据表的热度值;若存在数据表的热度值大于归属的数据分区的预设热度上限,则将对应的数据表作为所述待分区数据表。

在一实施例中,分区确定模块4551还用于根据所述访问频次和最近访问时间计算对应数据表的热度值之后,还包括:若存在数据表的热度值小于归属的数据分区的预设热度下限,则将对应的数据表作为所述待分区数据表。

在一实施例中,分区确定模块4551还用于将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区之前,还包括:将所述待分区数据表的热度值与各数据分区的预设热度范围进行比较,若所述待分区数据表的热度值在所述预设热度范围内,则将对应的数据分区归入第一集合,以将所述第一集合内的数据分区用于进行特征匹配得到所述目标分区。

在一实施例中,分区确定模块4551还用于根据所述待分区数据表的数据项生成属性特征,包括:获取所述待分区数据表中的所有数据项,将与预设基础特征库中的基础特征匹配的数据项剔除,通过剩余数据项构建数据序列得到所述属性特征,其中所述基础特征库中记录通用数据项作为基础特征。

在一实施例中,影子表创建模块4552还用于在所述目标分区创建影子表之前,还包括:将所述待分区数据表的各数据项与所述目标分区中各数据表的数据项进行逐项比对,在所述待分区数据表的数据项与所述目标分区中每一个数据表的数据项均不完全相同时,创建所述影子表。

在一实施例中,数据归档模块4553还用于基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档之后,还包括:获取所述目标分区的预设分区特征对应的特征词库;将所述属性特征包含的多个子特征与所述特征词库中的特征词进行相似度比对,若所述子特征与所述特征词的相似度低于预设阈值,则将所述子特征用于更新所述特征词库,以基于更新后的特征词库生成新的分区特征,其中,每一个子特征对应一个数据项。

上述数据分区归档系统可以以一种计算机程序的形式实现,计算机程序可以在如图5所示的计算机设备上运行。计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

上述数据分区归档系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端的存储器中,也可以以软件形式存储于终端的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。

如图5所示,为一个实施例中计算机设备的内部结构示意图。提供了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

在一实施例中,上述处理器执行时,所实现的获取待分区数据表,包括:获取各数据分区中数据表的访问频次以及最近访问时间;根据所述访问频次和最近访问时间计算对应数据表的热度值;若存在数据表的热度值大于归属的数据分区的预设热度上限,则将对应的数据表作为所述待分区数据表。

在一实施例中,上述处理器执行时,所实现的根据所述访问频次和最近访问时间计算对应数据表的热度值之后,还包括:若存在数据表的热度值小于归属的数据分区的预设热度下限,则将对应的数据表作为所述待分区数据表。

在一实施例中,上述处理器执行时,所实现的将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区之前,还包括:将所述待分区数据表的热度值与各数据分区的预设热度范围进行比较,若所述待分区数据表的热度值在所述预设热度范围内,则将对应的数据分区归入第一集合,以将所述第一集合内的数据分区用于进行特征匹配得到所述目标分区。

在一实施例中,上述处理器执行时,所实现的根据所述待分区数据表的数据项生成属性特征,包括:获取所述待分区数据表中的所有数据项,将与预设基础特征库中的基础特征匹配的数据项剔除,通过剩余数据项构建数据序列得到所述属性特征,其中所述基础特征库中记录通用数据项作为基础特征。

在一实施例中,上述处理器执行时,所实现的在所述目标分区创建影子表之前,还包括:将所述待分区数据表的各数据项与所述目标分区中各数据表的数据项进行逐项比对,在所述待分区数据表的数据项与所述目标分区中每一个数据表的数据项均不完全相同时,创建所述影子表。

在一实施例中,上述处理器执行时,所实现的基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档之后,还包括:获取所述目标分区的预设分区特征对应的特征词库;将所述属性特征包含的多个子特征与所述特征词库中的特征词进行相似度比对,若所述子特征与所述特征词的相似度低于预设阈值,则将所述子特征用于更新所述特征词库,以基于更新后的特征词库生成新的分区特征,其中,每一个子特征对应一个数据项。

在一个实施例中,上述的计算机设备可用作服务器,包括但不限于独立的物理服务器,或者是多个物理服务器构成的服务器集群,该计算机设备还可用作终端,包括但不限手机、平板电脑、个人数字助理或者智能设备等。如图5所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、显示屏和网络接口。

其中,该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。计算机设备的非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,以用于实现以上各个实施例所提供的一种数据分区归档方法。计算机设备中的内存储器为非易失性存储介质中的操作系统和计算机程序提供高速缓存的运行环境。显示界面可通过显示屏进行数据展示。显示屏可以是触摸屏,比如为电容屏或电子屏,可通过接收作用于该触摸屏上显示的控件的点击操作,生成相应的指令。

本领域技术人员可以理解,图5中示出的计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待分区数据表,根据所述待分区数据表的数据项生成属性特征,并将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区;在所述目标分区创建影子表,将所述待分区数据表中的数据转换到所述影子表中;通过链接所述目标分区的表空间,基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档,得到所述待分区数据表对应的目标数据档案。

在一实施例中,该计算机程序被处理器执行时,所实现的获取待分区数据表,包括:获取各数据分区中数据表的访问频次以及最近访问时间;根据所述访问频次和最近访问时间计算对应数据表的热度值;若存在数据表的热度值大于归属的数据分区的预设热度上限,则将对应的数据表作为所述待分区数据表。

在一实施例中,该计算机程序被处理器执行时,所实现的根据所述访问频次和最近访问时间计算对应数据表的热度值之后,还包括:若存在数据表的热度值小于归属的数据分区的预设热度下限,则将对应的数据表作为所述待分区数据表。

在一实施例中,该计算机程序被处理器执行时,所实现的将所述属性特征与各数据分区预设的分区特征进行特征匹配以确定所述待分区数据表归属的目标分区之前,还包括:将所述待分区数据表的热度值与各数据分区的预设热度范围进行比较,若所述待分区数据表的热度值在所述预设热度范围内,则将对应的数据分区归入第一集合,以将所述第一集合内的数据分区用于进行特征匹配得到所述目标分区。

在一实施例中,该计算机程序被处理器执行时,所实现的根据所述待分区数据表的数据项生成属性特征,包括:获取所述待分区数据表中的所有数据项,将与预设基础特征库中的基础特征匹配的数据项剔除,通过剩余数据项构建数据序列得到所述属性特征,其中所述基础特征库中记录通用数据项作为基础特征。

在一实施例中,该计算机程序被处理器执行时,所实现的在所述目标分区创建影子表之前,还包括:将所述待分区数据表的各数据项与所述目标分区中各数据表的数据项进行逐项比对,在所述待分区数据表的数据项与所述目标分区中每一个数据表的数据项均不完全相同时,创建所述影子表。

在一实施例中,该指令被处理器执行时,所实现的基于所述待分区数据表的所述属性特征对所述影子表中的数据进行归档之后,还包括:获取所述目标分区的预设分区特征对应的特征词库;将所述属性特征包含的多个子特征与所述特征词库中的特征词进行相似度比对,若所述子特征与所述特征词的相似度低于预设阈值,则将所述子特征用于更新所述特征词库,以基于更新后的特征词库生成新的分区特征,其中,每一个子特征对应一个数据项。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

相关技术
  • 一种数据立方体的分区方法、系统及终端设备
  • 一种数据存储方法、调度装置、系统、设备及存储介质
  • 一种服务器的数据保护方法、系统、设备及存储介质
  • 一种连接数据库的方法、装置、系统、设备和存储介质
  • 一种数据处理方法、设备、系统和介质
  • 一种基于数据库的分区归档方法及装置、存储介质、设备
  • 一种数据归档查询方法、系统、存储介质及设备
技术分类

06120116499980