掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 18:30:43


一种数据处理方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着各行业信息化和数字化的发展,建设一套高效的完备数据体系非常重要。

目前,数据的数据量越来越大,而各类数据混杂在一起,缺少高效的数据处理方式对数据进行划分,不利于对数据的管理和使用,有待改进。

发明内容

本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质,以实现高效的划分区域存储数据,从而便于对数据的管理和使用。

根据本发明的一方面,提供了一种数据处理方法,可以包括:

响应于数据存储请求,获取初始待存储数据;

确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域;

确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域;

将初始待存储数据存储入初始敏感度区域。

根据本发明的另一方面,提供了一种数据处理装置,可以包括:

待存储数据获取模块,用于响应于数据存储请求,获取初始待存储数据;

初始热度区域确定模块,用于确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域;

初始敏感度区域确定模块,用于确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域;

初始待存储数据存储模块,用于将初始待存储数据存储入初始敏感度区域。

根据本发明的另一方面,提供了一种电子设备,可以包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本发明任意实施例所提供的数据处理方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本发明任意实施例所提供的数据处理方法。

本发明实施例的技术方案,响应于数据存储请求,获取初始待存储数据;确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域;确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域;将初始待存储数据存储入初始敏感度区域。本发明实施例的技术方案,可以高效的数据处理方式对数据进行划分,便于对数据的管理和使用。上述技术方案,通过将数据存入根据数据处理阶段、热度类型以及敏感度等多个维度划分的存储区域,由此实现了高效的划分区域存储数据,从而便于对数据的管理和使用。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一中所提供的一种数据处理方法的流程图;

图2是本发明实施例二中所提供的一种数据处理方法的流程图;

图3是本发明实施例二中所提供的一种在数据湖中采用多个维度的数据存储方式对应的区域划分结构图;

图4是本发明实施例三中所提供的一种数据处理方法的流程图;

图5是本发明实施例三中提供的一种数据处理方法中的可选示例的流程图;

图6是本发明实施例四所提供的数据处理装置的结构框图;

图7是实现本发明实施例的数据处理方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一中所提供的一种数据处理方法的流程图。本实施例可适用于对数据进行处理的情况,具体来说是在数据湖的基础上对数据进行处理的情况。该方法可以由本发明实施例提供的数据处理装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是数据湖平台、各种用户终端或服务器。

参见图1,本发明实施例的方法具体包括如下步骤:

S110、响应于数据存储请求,获取初始待存储数据。

其中,数据存储请求可以理解为指示存储数据的请求。初始待存储数据可以理解为待存储入数据湖中的数据。

需要理解的是,数据湖是一种集中式的存储库,是一种以原生格式存储各种大型原始数据集的数据库,数据湖允许以任意规模存储所有结构化或非结构化数据。

在本发明实施例中,还可以在获取初始待存储数据之后,将初始待存储数据转化为字符串的形式,以保证初始待存储数据存入的完整性。

S120、确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域。

其中,第一热度类型是初始待存储数据的热度类型。热度类型可以理解为能够反应数据的存取频次的数据类型。数据的热度类型可以由数据的数据状态以及在预设时长内的存取频次确定。存取频次例如可以是根据数据访问审计机制确定,在本发明实施例中,对存取频次的确定方法不做具体限定。数据状态可以理解为数据位于的工作周期,数据状态例如可以包括:开始期、工作期、结束期或预后服务期等。热度类型可以包括冷数据、温数据或热数据。冷数据可以理解为存取频次较低的的数据类型,例如在预设时长内存取频次较低且数据状态位于结束期的数据为冷数据。热数据可以理解为存取频次较高的的数据类型,例如在预设时长内存取频次较高且数据状态位于工作期的数据为热数据。温数据可以理解为存取频次居中的的数据类型,例如在预设时长内存取频次一般且数据状态位于工作期的数据为温数据。可以通过在预设时长内存取频次的预设阈值范围确定数据热度类型,例如数据在预设时长内存取频次小于预设阈值范围中的最小值,则数据为冷数据;数据在预设时长内存取频次位于预设阈值范围内,则数据为温数据;数据在预设时长内存取频次大于预设阈值范围中的最大值,则数据为热数据。初始热度区域可以理解为初始待存储数据在入湖时需求存入的热度区域。入湖即为将数据存入数据湖的操作。热度区域可以理解为与热度类型分别对应的存储数据的存储区域,例如在热度类型可以包括冷数据、温数据或热数据的情况下,热度区域可以包括与冷数据对应的冷数据区域、与冷温数据对应的温数据区域,或与热数据对应的热数据区域。

需要注意的是,可能存在数据存取频次较高,且该数据当前数据状态刚好到达结束期的情况,在这种情况下,虽然该数据在预设时间内存取频次较高,但是该数据所用于的工作已经结束,可能之后并不会再高频次的存取数据,因此该数据的热度类型可以为冷数据。还可能存在数据存取频次较低,且该数据当前数据状态为结束期的情况,但是在结束期之后还可能存在预后服务期,在这种情况下,虽然该数据已经位于结束前,且在预设时间内存取频次较低,但是该数据可能在预后服务期还会被适量存取,因此该数据的热度类型可以为温数据。

需要注意的是,在本发明实施例中,在数据湖中采用多个维度的数据存储方式,即可以在数据湖中按照数据的处理阶段,为待存储数据入湖阶段设置第一存储区域,第一存储区域即为数据湖中设置的初始待存储数据入湖时存储的区域,例如第一存储区域可以是原始区,设置的原始区可以保留初始待存储数据的原貌,对初始待存储数据不进行任何加工处理,且严格管控访问权限,为后续的数据回溯和验证提供保障。在第一存储区域中,还可以按照数据的热度类型再次划分区域,例如可以将第一存储区域划分为冷数据区域、热数据区域以及温数据区域,以使按照第一热度类型将初始待存储数据存入相应的初始热度区域,从而便于后续在数据存储时实现有效的数据划分存储。

在本发明实施例中,可以确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域,例如第一热度类型为冷数据,则确定的初始热度区域为冷数据区域。

可以理解的是,若初始待存储数据携带有热度类型的相关字段或标签,或者是能够确定初始待存储数据的数据状态,以及在预设时长内的的存取频次,则可以根据热度类型的相关字段或标签,或者是初始待存储数据的的数据状态,以及在预设时长内的的存取频次确定出第一热度类型。但是可能存在初始待存储数据没有携带有热度类型的相关字段或标签,且不能确定初始待存储数据的的数据状态,以及在预设时长内的的存取频次,即无法确定第一热度类型的情况,则可以将根据第一存储区域的性质预设的默认热度类型作为第一热度类型,以防止无法确定第一热度类型的情况。其中,默认热度类型为根据第一存储区域的性质预设的热度类型,例如若第一存储区域为原始区,原始区的数据由于是存储为后续的数据回溯和验证提供保障的原始数据,以使该区域的大部分数据的存取频次很低,即原始区中存储的数据大部分为冷数据,基于这一性质,可以为原始区预设热度类型为冷数据。

在本发明实施例中,还以为不同类型的热度区域设置不同类型的存储介质或数据存储方式,例如,由于热数据区域内存储的数据存取频次较高,且固态硬盘(Solid StateDisk,SSD)具有闪存的特性,因此可以为热数据区域设置SSD作为存储介质;由于冷数据区域内存储的数据存取频次较低,且机械硬盘(Hard Disk Drive,HDD)具有存储空间较大且成本相对较低,因此可以为冷数据区域设置SSD作为存储介质。即一个对数据湖进行分区的区域可以对应有多个不同类型的存储介质。再例如,由于热数据区域内存储的数据存取频次较高,可以为热数据区域设置适用于大量存取的数据的内存数据库作为存储方式;由于冷数据区域内存储的数据存取频次较低,可以为冷数据区域设置适用于存储海量数据的关系型数据库作为存储方式。

在本发明实施例中,由于还可以是根据数据处理阶段对数据湖进行分区,例如第一存储区域。根据数据处理阶段所分的存储区域,可以基于存储区域的性质确定其中不同热度区域所占据的空间大小,例如数据湖包括原始区,由于原始区中的数据大多数为冷数据,因此可以使原始区中的冷数据区域占据更多的存储空间。

在本发明实施例中,根据数据处理阶段所分的存储区域,在一个存储区域只能采用一个存储介质的情况下,还可以基于存储区域的性质确定其对应的存储介质,例如原始区的大多数数据存储频次较低,以冷数据较多,可以以HDD作为原始区的存储介质。

S130、确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域。

其中,第一敏感程度是初始待存储数据的敏感程度。敏感程度可以反应数据的机密程度。数据的敏感程度可以由机器学习或聚类算法的方式确定,例如可以根据预先训练好的敏感度确定模型确定;还可以由数据中涉及敏感程度的关键词确定,例如数据中存在“姓名”、“性别”或“电话”等关键词,则敏感程度为机密数据;还可以是根据初始待存储数据自身携带的敏感标签确定。敏感程度可以包括公共数据、内部数据或机密数据。公共数据可以理解为不涉及较为机密的数据,可以是公共可见或由数据持有方自行选择公开的数据。内部数据可以理解为一般为授权用户可见,或经数据访问方申请且拥有方授权之后可见的数据;内部数据可以作为初始待存储数据入湖时默认的敏感程度。机密数据可以理解为涵盖机密内容的数据,这类数据不仅需要进行脱敏和加密,且访问机制也会更加严格。初始敏感度区域可以理解为初始待存储数据在入湖时需求存入的敏感度区域。敏感度区域可以理解为与敏感程度分别对应的存储数据的存储区域,例如在敏感程度可以包括公共数据、内部数据或机密数据的情况下,热度区域可以包括与公共数据对应的公共数据区域、与内部温数据对应的内部数据区域,或与机密数据对应的机密数据区域。

需要注意的是,在本发明实施例中,由于在数据湖中采用多个维度的数据存储方式,即可以在热度区域中按照数据的敏感程度,再次划分区域,例如可以将热度区域划分为公共数据区域、内部数据区域以及机密数据区域,以使按照第一敏感程度将初始待存储数据存入相应的敏感度区域,从而便于后续在数据存储时进一步实现有效的数据划分存储。

S140、将初始待存储数据存储入初始敏感度区域。

在本发明实施例中,可以将初始待存储数据存入数据湖中的初始热度区域中的初始敏感度区域,从而实现将初始待存储数据存入划分为多个维度的数据湖中,实现了高效的划分区域存储数据。

在本发明实施例中,在将初始待存储数据存储入初始敏感度区域之后,可以基于最近最少使用算法(Least Recently Used,LRU)进行动态的数据热度区域调整,例如可以基于最近使用的次数为3次的LRU-3算法进行动态的数据热度区域调整。

本发明实施例的技术方案,响应于数据存储请求,获取初始待存储数据;确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域;确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域;将初始待存储数据存储入初始敏感度区域。本发明实施例的技术方案,可以高效的数据处理方式对数据进行划分,便于对数据的管理和使用。上述技术方案,通过将数据存入根据数据处理阶段、热度类型以及敏感度等多个维度划分的存储区域,由此实现了高效的划分区域存储数据,从而便于对数据的管理和使用。

一种可选的技术方案,确定初始待存储数据的第一敏感程度,包括:将初始待存储数据输入预先训练好的敏感度确定模型,根据敏感度确定模型的输出结果确定初始待存储数据的第一敏感程度。

在本发明实施例中,可以预先根据已有的或者是自行设置的训练样本训练出敏感度确定模型。在响应于数据存储请求,获取初始待存储数据之后,将初始待存储数据输入预先训练好的敏感度确定模型,根据敏感度确定模型的输出结果确定初始待存储数据的第一敏感程度,以提高确定出的第一敏感程度的准确率。

需要注意的是,可以在确定出第一敏感程度之后,为初始待存储数据建立相应的敏感程度标签,以便于在需求获知数据的敏感程度时,只需根据敏感程度标签即可得知数据的敏感程度,无需再通过敏感度确定模型再次确定敏感程度。

实施例二

图2是本发明实施例二中提供的一种数据处理方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,数据湖还包括第二存储区域;上述数据处理方法还包括:响应于第一处理指令,从第一存储区域中确定第一待存储数据,以及确定第一待存储数据在第一存储区域中对应的第一热度区域以及第一敏感度区域,其中,第一待存储数据存储在第一热度区域中的第一敏感度区域中;从第二存储区域中确定与第一热度区域对应的第二热度区域,以及从第二热度区域中确定与第一敏感度区域对应的第二敏感度区域;确定第一待存储数据的结构化数据,将结构化数据存入第二敏感度区域。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2,本实施例的方法具体可以包括如下步骤:

S210、响应于数据存储请求,获取初始待存储数据。

S220、确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域,其中,数据湖还包括第二存储区域。

需要注意的是,在本发明实施例中,由于在数据湖中采用多个维度的数据存储方式,即可以在数据湖中按照数据的处理阶段,除了为待存储数据入湖阶段设置第一存储区域,还可以为数据汇聚阶段设置第二存储区域,第二存储区域即为数据湖中设置的第一待存储数据汇聚为结构化数据时存储的区域,例如第二存储区域可以是汇聚区,设置的汇聚区可以结合元数据中心进行必要的元数据解析和提取,以及将半结构化数据转换为结构化数据。第二存储区域可以按照数据的热度类型再次划分热度区域,在热度区域中再按照数据的敏感程度,划分敏感度区域,对第二存储区域多维度划分区域的方式与对第一存储区域的划分方式相同,在此不做具体赘述。其中,第一待存储数据可以理解为需求存入第二存储区域的第一存储区域中的数据。

S230、确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域。

S240、将初始待存储数据存储入初始敏感度区域。

S250、响应于第一处理指令,从第一存储区域中确定第一待存储数据,以及确定第一待存储数据在第一存储区域中对应的第一热度区域以及第一敏感度区域,其中,第一待存储数据存储在第一热度区域中的第一敏感度区域中。

其中,第一处理指令可以理解为指示从第一存储区域中确定第一待存储数据存入第二存储区域中的指令。第一热度区域可以理解为第一待存储数据在第一存储区域中所位于的热度区域。第一敏感度区域可以理解为第一待存储数据在第一热度区域中所位于的敏感度区域。

S260、从第二存储区域中确定与第一热度区域对应的第二热度区域,以及从第二热度区域中确定与第一敏感度区域对应的第二敏感度区域。

其中,第二热度区域可以理解为第一待存储数据需求存入的第二存储区域中的热度区域。第二敏感度区域可以理解为第一待存储数据需求存入的第二热度区域中的敏感度区域。

可以理解的是,由于第一热度区域可以表征第一待存储数据的热度类型,且在第一待存储数据存入第二存储区域时也需求将其存入与其热度类型对应的热度区域,因此与第一热度区域对应的热度类型相同的第二存储区域中的热度区域,即为第一待存储数据需求存入的第二热度区域。由于第一敏感度区域即可表征第一待存储数据的敏感度类型,且在第一待存储数据存入第一热度区域时也需求将其存入与其敏感度类型对应的敏感度区域,因此与第一敏感度区域对应的敏感度类型相同的第二热度区域中的敏感度区域,即为第一待存储数据需求存入的第二敏感度区域。

S270、确定第一待存储数据的结构化数据,将结构化数据存入第二敏感度区域。

可以理解的是,第二存储区域存储的数据为结构化数据,因此可以在第一待存储数据为非结构化数据时,确定第一待存储数据对应的结构化数据;在第一待存储数据为结构化数据时,将第一待存储数据作为结构化数据。再将结构化数据存入第二敏感度区域。

本发明实施例的技术方案,数据湖还包括第二存储区域;响应于第一处理指令,从第一存储区域中确定第一待存储数据,以及确定第一待存储数据在第一存储区域中对应的第一热度区域以及第一敏感度区域,其中,第一待存储数据存储在第一热度区域中的第一敏感度区域中;从第二存储区域中确定与第一热度区域对应的第二热度区域,以及从第二热度区域中确定与第一敏感度区域对应的第二敏感度区域;确定第一待存储数据的结构化数据,将结构化数据存入第二敏感度区域。上述技术方案,根据数据处理阶段进一步划分数据湖中的区域,通过将数据存入根据数据处理阶段进一步划分的区域,再将数据存入根据热度类型以及敏感度等多个维度划分的存储区域,由此进一步实现了高效的划分区域存储数据,从而便于对数据的管理和使用。

一种可选的技术方案,在将结构化数据存入第二敏感度区域之前,还包括:在结构化数据对应的第一待存储数据的第二敏感程度为预设程度的情况下,对结构化数据进行脱敏处理。

可以理解的是,部分较为敏感的数据可能涵盖机密内容,这类数据需要进行脱敏处理,才能保证数据的安全性。因此可以预设出预设程度,预设程度即为存在敏感内容,需求进行脱敏处理的敏感程度,例如机密数据;在结构化数据对应的第一待存储数据的第二敏感程度为预设程度的情况下,对结构化数据进行脱敏处理,以保证数据的安全性,避免对敏感内容的泄露。

另一种可选的技术方案,数据湖还包括第三存储区域;在将结构化数据存入第二敏感度区域之后,还包括:响应于第二处理指令,从第二存储区域中确定第二待存储数据,以及确定第二待存储数据在第二存储区域中对应的第三热度区域以及第三敏感度区域,其中,第二待存储数据存储在第三热度区域中的第三敏感度区域中;从第三存储区域中确定与第三热度区域对应的第四热度区域,以及从第四热度区域中确定与第三敏感度区域对应的第四敏感度区域;将第二待存储数据存入第四敏感度区域。

需要注意的是,在本发明实施例中,由于在数据湖中采用多个维度的数据存储方式,即可以在数据湖中按照数据的处理阶段,除了为待存储数据入湖阶段设置第一存储区域和第二存储区域,还可以为数据使用设置第三存储区域,第三存储区域即为数据湖中设置的需求使用第二待存储数据时存储的区域,例如第三存储区域可以是工作区或服务区,工作区可以伴随着大量的数据存取操作,例如需求大量的数据存取操作使用第二待存储数据的数仓分层建模存取等核心工作在工作区中完成;服务区可以对外提供数据服务,数据的高效存取、权限管理与数据共享是该层的核心,因此服务区也需求通过大量的数据存取操作使用第二待存储数据。第三存储区域可以按照数据的热度类型再次划分热度区域,在热度区域中再按照数据的敏感程度,划分敏感度区域,对第三存储区域多维度划分区域的方式与对第一存储区域以及第二存储区域的划分方式相同,在此不做具体赘述。其中,第二待存储数据可以理解为需求存入第三存储区域的第二存储区域中的数据。

图3是本发明实施例二中所提供的一种在数据湖中采用多个维度的数据存储方式对应的区域划分结构图。参见图3,数据湖可以划分为原始区、汇聚区、工作区和服务区这四个存储区域,由于原始区冷数据较多,可以以HDD作为其存储介质;由于汇聚区冷数据较多,可以以HDD作为存储介质;由于工作区热数据较多,可以以SSD作为其存储介质;由于服务区热数据较多,可以以SSD作为其存储介质;每个存储区域中又分别划分为热数据区域、温数据区域和冷数据区域;每个热度区域中又分别划分为公共数据区域、内部数据区域以及机密数据区域。

其中,第二处理指令可以理解为指示从第二存储区域中确定第二待存储数据存入第三存储区域中的指令。第三热度区域可以理解为第二待存储数据在第二存储区域中所位于的热度区域。第三敏感度区域可以理解为第二待存储数据在第三热度区域中所位于的敏感度区域。第四热度区域可以理解为第二待存储数据需求存入的第三存储区域中的热度区域。第四敏感度区域可以理解为第二待存储数据需求存入的第四热度区域中的敏感度区域。

可以理解的是,由于第三热度区域可以表征第二待存储数据的热度类型,且在第二待存储数据存入第三存储区域时也需求将其存入与其热度类型对应的热度区域,因此与第三热度区域对应的热度类型相同的第三存储区域中的热度区域,即为第二待存储数据需求存入的第四热度区域。由于第三敏感度区域即可表征第二待存储数据的敏感度类型,且在第二待存储数据存入第三热度区域时也需求将其存入与其敏感度类型对应的敏感度区域,因此与第三敏感度区域对应的敏感度类型相同的第四热度区域中的敏感度区域,即为第二待存储数据需求存入的第四敏感度区域。

在本发明实施例中,数据湖还包括第三存储区域;响应于第二处理指令,从第二存储区域中确定第二待存储数据,以及确定第二待存储数据在第二存储区域中对应的第三热度区域以及第三敏感度区域,其中,第二待存储数据存储在第三热度区域中的第三敏感度区域中;从第三存储区域中确定与第三热度区域对应的第四热度区域,以及从第四热度区域中确定与第三敏感度区域对应的第四敏感度区域;将第二待存储数据存入第四敏感度区域。上述技术方案,根据数据处理阶段再次进一步划分数据湖中的区域,通过将数据存入根据数据处理阶段再次进一步划分的区域,再将数据存入根据热度类型以及敏感度等多个维度划分的存储区域,由此进一步实现了高效的划分区域存储数据,从而便于对数据的管理和使用。

实施例三

图4是本发明实施例三中提供的一种数据处理方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,上述数据处理方法,还包括:响应于第三处理指令,确定每个湖数据的第三敏感程度,并根据已存储至数据湖中每个湖数据的数据状态,以及在预设时长内的存取频次,确定每个湖数据的第二热度类型;根据每个湖数据的第二热度类型,确定每个湖数据在原存储区域内的目标热度区域,并根据每个湖数据的第三敏感程度,确定每个湖数据在目标热度区域内的目标敏感度区域;将每个湖数据由原存储区域中的原热度区域中的原敏感度区域,存入原存储区域中的目标热度区域中的目标敏感度区域。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图4,本实施例的方法具体可以包括如下步骤:

S310、响应于数据存储请求,获取初始待存储数据。

S320、确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域。

S330、确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域。

S340、将初始待存储数据存储入初始敏感度区域。

S350、响应于第三处理指令,确定已存储至数据湖中每个湖数据的第三敏感程度,并根据每个湖数据的数据状态,以及在预设时长内的存取频次,确定每个湖数据的第二热度类型。

其中,第三处理指令可以理解为指示更新湖数据存储区域的的指令。湖数据可以理解为存储在数据湖中的数据。第三敏感程度可以理解为是湖数据的敏感程度。第二热度类型是湖数据的热度类型。

需要注意的是,数据湖中的各个湖数据的数据状态、在预设时长内的存取频次以及敏感程度随时可能发生改变,因此,可以是响应于周期性产生的第三处理指令,以实现在湖数据的热度类型以及敏感程度发生改变时及时的存入与其热度类型以及敏感程度对应的存储区域;还可以是响应于人工发出的第三处理指令。

在本发明实施例中,可以响应于第三处理指令,确定已存储至所述数据湖中每个湖数据的第三敏感程度,可以是将湖数据输入预先训练好的敏感度确定模型确定敏感程度;在数据存在敏感程度标签的情况下,数据的敏感程度发生改变时,敏感程度标签也会随之发生改变,因此还可以直接读取湖数据的敏感程度标签作为第三敏感程度。并根据每个湖数据的数据状态,以及在预设时长内的存取频次,确定每个湖数据的第二热度类型,确定第二热度类型的方式与确定第一热度类型的方式相同,在此不做具体赘述。

S360、根据每个湖数据的第二热度类型,确定每个湖数据在原存储区域内的目标热度区域,并根据每个湖数据的第三敏感程度,确定每个湖数据在目标热度区域内的目标敏感度区域。

其中,原存储区域可以理解为湖数据在响应于第三处理指令之前,位于的根据数据处理阶段划分的存储区域,原存储区域可以是第一存储区域、第二存储区域或第三存储区域。目标热度区域可以理解为湖数据需求存入的热度区域。目标敏感度区域可以理解为湖数据需求存入的敏感度区域。

S370、将每个湖数据由原存储区域中的原热度区域中的原敏感度区域,存入原存储区域中的目标热度区域中的目标敏感度区域。

需要注意的是,确定出的第二热度类型和第三敏感程度仅仅只能决定湖数据热度区域和敏感度区域的更新改变,因此湖数据还是存储于原存储区域中的,可能只有湖数据存储的热度区域和敏感度区域发生改变。

本发明实施例的技术方案,响应于第三处理指令,确定每个湖数据的第三敏感程度,并根据已存储至数据湖中每个湖数据的数据状态,以及在预设时长内的存取频次,确定每个湖数据的第二热度类型;根据每个湖数据的第二热度类型,确定每个湖数据在原存储区域内的目标热度区域,并根据每个湖数据的第三敏感程度,确定每个湖数据在目标热度区域内的目标敏感度区域;将每个湖数据由原存储区域中的原热度区域中的原敏感度区域,存入原存储区域中的目标热度区域中的目标敏感度区域。上述技术方案,实现了在湖数据的热度类型以及敏感程度发生改变时及时的存入与其热度类型以及敏感程度对应的存储区域。

一种可选的技术方案,上述数据处理方法,还包括:响应于湖数据的元数据的变动指令,提取湖数据的变动后的元数据;根据变动后的元数据,更新数据湖对应的目录。

其中,湖数据的元数据的变动指令可以理解为指示湖数据的元数据发生变动的指令。

在本发明实施例中,可以是响应于监测到存在有湖数据的元数据发生变动时产生的湖数据的元数据的变动指令,例如可以是通过钩子(Hook)机制,监测到存在有湖数据的元数据发生变动时产生的湖数据的元数据的变动指令。提取湖数据的变动后的元数据;由于通过元数据可以获取湖数据的存储位置、历史数据、资源查找和文件记录等信息,因此可以根据变动后的元数据,更新数据湖对应的目录。

在本发明实施例中,还可以预先提取已存储至数据湖中的湖数据的元数据,在数据湖平台的层面,根据提取出的已存储至数据湖中的湖数据的元数据补全元数据管理中心构建目录,以供后续在湖数据的元数据发生改变时更新目录。

在本发明实施例中,通过响应于湖数据的元数据的变动指令,提取湖数据的变动后的元数据;根据变动后的元数据,更新数据湖对应的目录,可以实现低成本的构建以及更新目录。

在上述方案的基础上,另一种可选的技术方案,上述数据处理方法,还包括:响应于查看请求,确定目录中的目标条目对象;根据目标条目对象对应的湖数据所存储的第六敏感度区域、查看方的标识以及预设查看策略,校验查看方是否具有查看权限;在查看方具有查看权限的情况下,展示目标条目对象对应的湖数据。

其中,查看请求可以理解为指示查看目标条目对象对应的湖数据的请求。查看请求可以包括查看方选中目标条目对象指示查看相应湖数据的请求;还可以时包括指示查看目录的请求,以及选中目录中的目标条目对象指示查看相应湖数据的请求这两部分。目标条目对象可以理解为查看方选中的需求查看对应的湖数据在目录中对应的条目对象。第六敏感度区域可以理解为目标条目对象对应的湖数据所存储的敏感度区域。查看方的标识可以理解为能够表征查看方身份的标识,查看方标识可以通过办公自动化(OfficeAutomation,OA)系统确定。预设查看策略可以理解为预先设置的能够确定查看方是否具有查看权限的策略,例如预设查看策略可以包括若查看方标识为内部人员,第六敏感度区域为机密数据区域,则查看方不具有查看权限。

在本发明实施例中,可以响应于查看请求,确定目录中的目标条目对象,目标条目对象对应的湖数据即为查看方需求查看的湖数据;根据目标条目对象对应的湖数据所存储的第六敏感度区域、查看方的标识以及预设查看策略,可以校验查看方是否具有查看权限,具有查看权限即说明查看方具有查看目标条目对象对应的湖数据的资格;在查看方具有查看权限的情况下,展示目标条目对象对应的湖数据。

在本发明实施例中,在查看方不有查看权限的情况下,可以展示提示查看方并不具有查看权限的相关信息。

在本发明实施例中,通过响应于查看请求,确定目录中的目标条目对象;根据目标条目对象对应的湖数据所存储的第六敏感度区域、查看方的标识以及预设查看策略,校验查看方是否具有查看权限;在查看方具有查看权限的情况下,展示目标条目对象对应的湖数据,实现了可以根据查看方的身份为查看方提供展示内容,提高了对湖数据访问的安全性。

图5是本发明实施例三中提供的一种数据处理方法中的可选示例的流程图.为了更好的理解上述本发明实施例的技术方案,在此提供一种可选示例。示例性的,参见图5,响应于数据存储请求,获取初始待存储数据;确定初始待存储数据的热度类型,并根据热度类型确定数据湖中的第一存储区域中的初始热度区域;确定初始待存储数据的敏感程度,并根据敏感程度确定初始热度区域中的初始敏感度区域;将初始待存储数据存储入初始敏感度区域。

响应于第一处理指令,从第一存储区域中确定第一待存储数据,以及确定第一待存储数据的热度类型以及敏感程度;将第一待存储数据转化为结构化数据,判断结构化数据是否为机密数据,在结构化数据是机密数据的情况下,对结构化数据进行脱敏处理并更新为结构化数据;根据第一待存储数据的热度类型以及敏感程度,确定第二热度区域以及第二敏感度区域;将结构化数据存入第二热度区域中的第二敏感度区域。

响应于第三处理指令,确定每个湖数据的敏感程度以及热度类型;判断各个湖数据的敏感程度以及热度类型是否相较于之前的原热度类型和原敏感程度发生了改变;如果发生了改变,则将发生改变的湖数据由原存储区域中的原热度区域中的原敏感度区域,存入发生了改变后的敏感程度以及热度类型对应的原存储区域中的目标热度区域中的目标敏感度区域内。

响应于湖数据的元数据的变动指令,提取湖数据的变动后的元数据;并根据变动后的元数据,更新数据湖对应的目录。

实施例四

图6是本发明实施例四所提供的数据处理装置的结构框图,该装置用于执行上述任意实施例所提供的数据处理方法。该装置与上述各实施例的数据处理方法属于同一个发明构思,在数据处理装置的实施例中未详尽描述的细节内容,可以参考上述数据处理方法的实施例。参见图6,该装置具体可包括:待存储数据获取模块410、初始热度区域确定模块420、初始敏感度区域确定模块430和初始待存储数据存储模块440。

其中,待存储数据获取模块410,用于响应于数据存储请求,获取初始待存储数据;

初始热度区域确定模块420,用于确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域;

初始敏感度区域确定模块430,用于确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域;

初始待存储数据存储模块440,用于将初始待存储数据存储入初始敏感度区域。

可选的,初始敏感度区域确定模块430,包括:

敏感程度确定单元,用于将初始待存储数据输入预先训练好的敏感度确定模型,根据敏感度确定模型的输出结果确定初始待存储数据的第一敏感程度。

可选的,数据湖还包括第二存储区域;数据处理装置,还包括:

第一敏感度区域确定模块,用于响应于第一处理指令,从第一存储区域中确定第一待存储数据,以及确定第一待存储数据在第一存储区域中对应的第一热度区域以及第一敏感度区域,其中,第一待存储数据存储在第一热度区域中的第一敏感度区域中;

第二敏感度区域确定模块,用于从第二存储区域中确定与第一热度区域对应的第二热度区域,以及从第二热度区域中确定与第一敏感度区域对应的第二敏感度区域;

结构化数据存入模块,用于确定第一待存储数据的结构化数据,将结构化数据存入第二敏感度区域。

在上述方案的基础上,可选的,数据处理装置,还包括:

结构化数据脱敏模块,用于在将结构化数据存入第二敏感度区域之前,在结构化数据对应的第一待存储数据的第二敏感程度为预设程度的情况下,对结构化数据进行脱敏处理。

在上述方案的基础上,可选的,数据湖还包括第三存储区域;数据处理装置,还包括:

第三敏感度区域确定模块,用于在将结构化数据存入第二敏感度区域之后,响应于第二处理指令,从第二存储区域中确定第二待存储数据,以及确定第二待存储数据在第二存储区域中对应的第三热度区域以及第三敏感度区域,其中,第二待存储数据存储在第三热度区域中的第三敏感度区域中;

第四敏感度区域确定模块,用于从第三存储区域中确定与第三热度区域对应的第四热度区域,以及从第四热度区域中确定与第三敏感度区域对应的第四敏感度区域;

待存储数据存入模块,用于将第二待存储数据存入第四敏感度区域。

在上述方案的基础上,可选的,数据处理装置,还包括:

第二热度类型确定模块,用于响应于第三处理指令,确定已存储至所述数据湖中每个湖数据的第三敏感程度,并根据每个湖数据的数据状态,以及在预设时长内的存取频次,确定每个湖数据的第二热度类型;

目标敏感度区域确定模块,用于根据每个湖数据的第二热度类型,确定每个湖数据在原存储区域内的目标热度区域,并根据每个湖数据的第三敏感程度,确定每个湖数据在目标热度区域内的目标敏感度区域;

湖数据存入模块,用于将每个湖数据由原存储区域中的原热度区域中的原敏感度区域,存入原存储区域中的目标热度区域中的目标敏感度区域。

在上述方案的基础上,可选的,数据处理装置,还包括:

元数据提取模块,用于响应于湖数据的元数据的变动指令,提取湖数据的变动后的元数据;

目录更新模块,用于根据变动后的元数据,更新数据湖对应的目录。

在上述方案的基础上,可选的,数据处理装置,还包括:

目标条目对象确定模块,用于响应于查看请求,确定目录中的目标条目对象;

查看权限校验模块,用于根据目标条目对象对应的湖数据所存储的第六敏感度区域、查看方的标识以及预设查看策略,校验查看方是否具有查看权限;

湖数据展示模块,用于在查看方具有查看权限的情况下,展示目标条目对象对应的湖数据。

本发明实施例四所提供的数据处理装置,通过待存储数据获取模块响应于数据存储请求,获取初始待存储数据;通过初始热度区域确定模块确定初始待存储数据的第一热度类型,并根据第一热度类型确定数据湖中的第一存储区域中的初始热度区域;通过初始敏感度区域确定模块确定初始待存储数据的第一敏感程度,并根据第一敏感程度确定初始热度区域中的初始敏感度区域;通过初始待存储数据存储模块将初始待存储数据存储入初始敏感度区域。上述装置,通过将数据存入根据数据处理阶段、热度类型以及敏感度等多个维度划分的存储区域,由此实现了高效的划分区域存储数据,从而便于对数据的管理和使用。。

本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。

值得注意的是,上述数据处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

实施例五

图7示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图7所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据处理方法。

在一些实施例中,数据处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、以及至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、以及该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或是其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行并且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,数据状态扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种材质的数据处理方法、装置、电子设备及存储介质
  • 一种数据处理方法、装置、电子设备及存储介质
  • 一种方控数据处理方法、装置、电子设备及存储介质
  • 音频数据处理方法、装置、电子设备和存储介质
  • 数据处理方法及装置、电子设备及存储介质
  • 数据加密处理方法、数据解密处理方法、装置、电子设备及可读存储介质
  • 一种数据存储系统、数据处理方法、电子设备和存储介质
技术分类

06120115596376