掌桥专利:专业的专利平台
掌桥专利
首页

一种数据去重管理装置、系统、方法及存储介质

文献发布时间:2024-01-17 01:21:27


一种数据去重管理装置、系统、方法及存储介质

技术领域

本发明属于数据处理技术领域,尤其涉及一种数据去重管理装置、系统、方法及存储介质。

背景技术

目前,用户将文件上传到云服务器中,云服务器根据预定的检测方法查询此文件是否已存在于云端,若为重复上传文件,则进行重复数据删除操作。此时,云服务器可能正在进行其他的IO操作,导致重复数据删除操作不得不暂时挂起,等到计算机处于空档期时,再对计算机进行调度,指导云服务器进行重复数据删除操作。大量的计算机调度冲突严重制约了重复数据删除操作的执行效率,等待时间过长也使得整个去重过程效率低下。

发明内容

有鉴于此,本发明提供了一种数据去重管理装置、系统、方法及存储介质,解决了在去重操作过程中的调度冲突的问题,提高了重复数据删除操作的执行效率,大幅降低了服务器的性能开销,具体采用以下技术方案来实现。

第一方面,本发明提供了一种数据去重管理装置,包括:

数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据

预测模块,用于接收预先训练生成的网络TW和二元组数据

去重操作模块,用于根据三元组数据

作为上述技术方案的进一步改进,预测模块包括预测生成单元和序列生成单元;

数据检测模块,用于根据加密文件C生成文件规模标识AMO,并获取云服务器的操作的调度情况D(OS);根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据

预测生成单元,用于接收所述二元组数据

序列生成单元,用于根据三元组数据

第二方面,本发明提供了一种数据去重管理系统,包括数据上传端、数据访问端、云服务器和上述的数据去重管理装置;

数据上传端,将各上传用户的加密文件C上传至云服务器;

云服务器,通过所述数据去重管理装置对所述加密文件C进行数据重复检测,以及,计算各上传用户之间的属性距离,根据所述属性距离确定各上传用户的用户属性,以及,根据所述用户属性对预设的流行度阈值进行调整;

数据访问端,向云服务器提交访问请求,接收所述云服务器基于所述访问请求反馈的所述加密文件C的访问链接。

作为上述技术方案的进一步改进,所述用户属性包括个人用户和集团用户。

作为上述技术方案的进一步改进,所述云服务器,用于对上传用户进行聚类,得到多个上传用户群组;当一个上传用户群组中的上传用户的数量超过密度阈值时,则将所述上传用户群组确定为集团;其中,将聚类中产生的噪点对应的上传用户作为个人用户。

作为上述技术方案的进一步改进,所述云服务器,用于判断新上传用户的用户属性时,计算所述新上传用户的数值集团核心点的距离;

当数值集团核心点的距离处于集团领域r内,则判断所述新上传用户为个人用户;其中,r为云服务器中当前所有上传用户之间的距离的平均值;

若所述新上传用户为个人用户且形成一个新上传用户的数量大于密度阈值的群组,则建立新集团;其中,所述新上传用户为新集团中的集团用户。

作为上述技术方案的进一步改进,所述云服务器,用于将云服务器中的上传用户划分为不同的集团后,得到集团核心点的属性信息;

云服务器,判断新上传用户的用户属性时,将新上传用户的属性信息与集团核心点的属性信息进行相似度计算,通过相似度计算结果判别所述新上传用户是否为集团用户,或,所述新上传用户属于哪个集团;

云服务器,用于在新上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,用于在新上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。

作为上述技术方案的进一步改进,所述云服务器,用于在新上传用户为个人用户时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度阈值,则进行去重操作;以及,用于在新上传用户为集团用户时,更新文件规模标识

第三方面,本发明还提供了一种数据去重管理方法,包括以下步骤:

获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据

接收预先训练生成的网络TW和二元组数据

根据三元组数据

第四方面,本发明还提供了一种计算机可读程序存储介质,其存储有计算机程序指令,但计算机程序指令被计算机执行时,使计算机执行上述的数据去重管理方法。

本发明提供了一种数据去重管理装置、系统、方法及存储介质,数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的数据去重管理装置的结构框图;

图2为本发明实施例提供的数据去重管理系统的结构框图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。相反,当元件被称作“直接在”另一元件“上”时,不存在中间元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

参阅图1,本发明提供了一种数据去重管理装置,包括:

数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据

预测模块,用于接收预先训练生成的网络TW和二元组数据

去重操作模块,用于根据三元组数据

本实施例中,预测模块包括预测生成单元和序列生成单元;

数据检测模块,用于根据加密文件C生成文件规模标识AMO,并获取云服务器的操作的调度情况D(OS);根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据

预测生成单元,用于接收所述二元组数据

序列生成单元,用于根据三元组数据

本实施例中,数据检测模块、预测生成单元和序列生成单元均可由云服务器执行。

其中,可以根据加密文件C或加密文件C相关信息得到文件规模标识AMO和云服务器的操作的调度情况D(OS)。

其中,可以根据加密文件C的数据量,设定文件规模标识AMO,文件规模标识AMO包括大规模数据、中规模数据和小规模数据。获取云服务器当前操作的调度情况,并赋值给D(OS)。根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据

预测生成单元由预测器P执行,输入二元组数据

其中,当前服务器繁忙等级M包括High等级和Low等级。理想操作状态N包括True状态和False状态。

其中,将预先训练生成的网络TW输入到预测器P中,对预设时间内的云服务器的操作的调度情况进行预测。

需要说明的是,预测器P是采用长短记忆网络训练得到。对用户的数据文件进行加密生成加密文件C,并将加密文件C上传至云服务器,或者,将用户的数据文件上传至云服务器,云服务器对数据文件进行加密生成加密文件C。数据去重管理装置对加密文件C进行数据重复检测,若检测到加密文件C为重复数据(也可以称之为冗余数据),则进行重复数据删除准备,向预测器P发送调度请求,预测器P根据云服务器的操作的调度情况(如,当前操作的一些反馈数据),预测出在未来一段时间云服务器的服务器繁忙等级M,根据调度策略S、当前服务器繁忙等级M和理想操作状态N组成三元组数据

其中,删除重复数据之前需要预先对加密文件C进行预处理(如解密处理),如,在区分流行度的加密数据去重时,需要将非流行数据转化为流行数据,并采用收敛加密进行数据处理,这些操作与云服务器正常的数据操作之间的调度变化,能显著提升数据去重的执行效率。

参阅图2,本发明提供了一种数据去重管理系统,包括数据上传端、数据访问端、云服务器和上述的数据去重管理装置;

数据上传端,将各上传用户的加密文件C上传至云服务器;

云服务器,通过所述数据去重管理装置对所述加密文件C进行数据重复检测,以及,计算各上传用户之间的属性距离,根据所述属性距离确定各上传用户的用户属性,以及,根据所述用户属性对预设的流行度阈值进行调整;

数据访问端,向云服务器提交访问请求,接收所述云服务器基于所述访问请求反馈的所述加密文件C的访问链接。

其中,数据访问端向云服务器提交访问请求后,云服务器判断数据访问端是否属于集团用户,若属于集团用户,则返回给其加密文件C的访问链接。

进一步的,所述用户属性包括个人用户和集团用户。

进一步的,所述云服务器,用于对上传用户进行聚类,得到多个上传用户群组;当一个上传用户群组中的上传用户的数量超过密度阈值时,则将所述上传用户群组确定为集团;其中,将聚类中产生的噪点对应的上传用户作为个人用户。

进一步的,所述云服务器,用于判断新上传用户的用户属性时,计算所述新上传用户的数值集团核心点的距离;

当数值集团核心点的距离处于集团领域r内,则判断所述新上传用户为个人用户;其中,r为云服务器中当前所有上传用户之间的距离的平均值;可选的,r可通过三维空间内的欧式距离

若所述新上传用户为个人用户且形成一个新上传用户的数量大于密度阈值的群组,则建立新集团;其中,所述新上传用户为新集团中的集团用户。

本实施例中,当数值集团核心点的距离处于集团领域r内,则判定新上传用户为离散点,即噪点,判断新上传用户为个人用户。若新上传用户的到来经判别不属于任何一个集团,且形成一个新上传用户的数量大于密度阈值的群组,则设定建立新集团。

进一步的,所述云服务器,用于将云服务器中的上传用户划分为不同的集团后,得到集团核心点的属性信息;

云服务器,判断新上传用户的用户属性时,将新上传用户的属性信息与集团核心点的属性信息进行相似度计算,通过相似度计算结果判别所述新上传用户是否为集团用户,或,所述新上传用户属于哪个集团;

云服务器,用于在新上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,用于在新上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。可选的,确保当前的文件规模标识AMO低于流行度阈值。

进一步的,所述云服务器,用于在新上传用户为个人用户时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度阈值,则进行去重操作;以及,用于在新上传用户为集团用户时,更新文件规模标识

其中,上传用户

当上传用户

当上传用户

其中,通过云服务器中确定的已持有数据的上传用户

本实施例中,数据上传端将需要上传的加密文件C和数据标签上传至云服务器中,云服务器通过数据去重管理装置检测该加密文件C是否为重复数据,以及,上传当前加密文件C的上传用户是集团用户还是个人用户。在上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,在上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。具体地:在上传用户为个人用户时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度阈值,则进行去重操作;以及,用于在上传用户为集团用户时,更新文件规模标识AMO,

本实施例中,根据上传用户之间的属性距离确定不同的上传用户的用户属性,和/或,确定不同的上传用户是否属于同一集团,具体包括:

由于属性信息的形式各不相同,无法用统一的标准进行划分,需要将用户的各种属性信息进行数值化,便于后续进行计算和集团划分。如性别、爱好等语义化的属性信息,年龄等数字型的属性信息,优秀、良好等评价性的区间类的属性信息,对上述属性信息进行数值化,之后根据数值化后的属性信息进行属性距离的计算,以提高用户分类的准确率。具体地:

将上传用户的各种属性信息进行数值化。语义型的属性信息采用汉字编码,将汉字内码第一字节和第二字节分别用x和y表示,将汉字数值化成D,

其中,可以通过费雷器计算上传用户之间的属性距离,通过属性距离判断不同的上传用户是否属于同一集团,判断上传用户是集团用户还是个人用户。

本实施例中,将汉字数值化运用到重复数据删除中,给出了合理的数值化运算过程,并将数值化后的属性信息传递给分类算法进行是否为集团用户的判别分析,运用该分类算法实现了用户的属性信息的相似度检测,提高了去重过程的安全性和效率。

本实施例中,通过分类算法实现集团用户的判别和分类,并根据判别和分结果指导云服务提供者调整集团用户的计数方式,保证集团数据的流行度不会因为新上传用户上传的文件(也可称之为数据)发生改变,从而有效解决在对公司、企业等集团的内部数据进行去重操作时,可能将该公司的数据泄露出去的问题。

需要说明的是,当出现新上传用户的加入,在判别所属集团时,可能出现划分不明确引起的判断上的不确定性,如对新上传用户作所属集团的判别时,通过新上传用户与各集团核心点的属性距离计算得出同时处于各个集团的集团领域r内,此时无法对新上传用户的归属集团做出判断,会出现划分不明确所引起的判断上的不确定性。因此,可以计算新上传用户与各个集团之间的指数,进一步对新上传用户属于哪个集团进行判别,解决了用户分类不清的问题。其中,将每个集团的集团核心点和每个用户属于哪个集团进行实时记录,当用户丢失集团数据时,可以通过记录查询该用户属于某个集团或个人,通过身份验证可以将该集团的数据反问链接发送给用户,将集团数据的访问使用权限授权给该用户,帮助其进行数据恢复,更好地解决了集团内由于个人造成的数据丢失问题。

可选的一个实施例,当上传用户向云服务器中上传文件时,云服务器采用椭圆曲线函数来生成该文件的查询标签,用于检测当前上传文件是否已经存储在云服务器中;

本实施例中,云服务器采用椭圆曲线函数来生成该文件的查询标签,包括:获取数据去重管理系统中的密钥生成中心的参数并在系统初始化时发布参数列表,上传用户

本发明还提供了一种数据去重管理方法,包括以下步骤:

获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据

接收预先训练生成的网络TW和二元组数据

根据三元组数据

上述数据去重管理方法的相关内容的描述具体参见数据去重管理装置和数据去重管理系统的相关描述,此处不加以赘述。

现有技术中,企业或公司内部存储有大量的重要数据,攻击者可以通过尝试删除操作的返回结果来判断数据是否存在从而推断数据内容,使得公司内部的数据有很大概率被泄露。此外,大量的计算机调度冲突严重制约了重复数据删除操作的执行效率,等待时间过长也使得整个去重过程效率低下,同时也影响了数据管理的安全性。

本实施例中,通过在数据去重管理装置中设置数据检测模块、预测模块和去重操作模块,预测模块接收预先训练生成的网络TW和二元组数据

本实施例中,若确定新上传用户为集团用户且属于某个集团,对某个集团内部数据采用动态技术的方式,确保新上传用户的加入不会改变该集团内部数据的当前的流行度状态,从而避免集团内部数据的泄露,此外,可以在集团用户数据发生丢失时帮助其进行数据恢复,提高用户的工作效率,保护内部信息不被泄露,即提高信息的安全性。

本发明还提供了一种计算机可读程序存储介质,其存储有计算机程序指令,但计算机程序指令被计算机执行时,使计算机执行上述的数据去重管理方法。

本实施例中,各个方面还可以时限为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“数据去重管理方法”部分中描述的根据本发明各种示例性实施方式的步骤。

需要说明的是,程序产品可以采用一个或多个可读介质的任意组合,可读介质可以是可读信号介质或者可读存储介质,可读存储介质如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

以上可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术分类

06120116150803