掌桥专利:专业的专利平台
掌桥专利
首页

一种基于组间损失优化压缩友好度量学习的文件压缩方法

文献发布时间:2024-04-18 20:01:55


一种基于组间损失优化压缩友好度量学习的文件压缩方法

技术领域

本发明属于文件压缩存储领域,更为具体地将,涉及一种基于组间损失优化压缩友好度量学习的方法来对文件切片进行聚类合并压缩。

背景技术

在当前的数据时代,数据中心每日生成庞大的数据量,特别是在互联网产业,因此如何以一种经济的方式存储如此大量的数据非常关键。传统数据中心通过采用数据缩减技术、数据压缩技术、数据去重技术和Delta压缩技术等压缩技术对数据进行减少压缩使得能够利用更少设备或服务器处理大量的数据。其中主要采用Delta压缩技术对数据进行压缩,Delta压缩类方法克服了数据压缩和数据去重的局限性,它将要压缩的数据块与索引数据块进行比较,只抽取两个数据块之间的不同位模式,然后使用无损压缩。

根据数据块与索引块越相似,获得合并压缩比率越高,但是在寻找数据块与索引块的相似关系的时间复杂度高,空间开销大,启发本专利对寻找多个相似文件的切片数据进行合并压缩,提升压缩比的想法。需要解决的一个关键的问题是怎么找到多个相似的文件数据切片用于合并压缩,即如何度量多个文件数据切片的相似性,进一步而言如何找到能够用于合并压缩的文件数据切片。相比较与传统人工提取模式特征的方式,耗费大量人工成本且收益很低,本专利采用深度学习技术自动寻找适合用于合并压缩的文件数据切片,可以广泛推广的文件压缩领域。深度度量学习应用到文件压缩领域,通过训练模型学得能够获得衡量数据切片相似性的表征空间的模型,然后通过谱聚类对得到的文件切片表征向量进行聚类,将聚类结果为同一类的切片进行合并压缩,使得能够实现高压缩比的压缩存储。

在深度度量学习中,现阶段取得比较好结果的方法都是在使用对比损失或者三元组损失的孪生网络上训练得到的,相比较传统人工提取特征的方式获得比较大的压缩增益提升。但是这些损失的一个明显的问题是它们仅考虑了数据点成对或者三元组的情况,忽视一个小批次里面所有数据点之间联系的关键信息。在一个大小为n的小批次中,尽管所有样本间的成对联系是Ο(n

发明内容

本发明的目的在于克服现有技术的不足,提出一种基于组间损失优化压缩友好度量学习的方法来对文件切片进行聚类合并压缩方法,以补全在使用合并文件切片压缩方法时不能很好找到相似的数据块,其可以显著提升文件的压缩比,明显提升压缩时间,减少需要的存储空间。

为了实现上述发明目的,本发明基于组间损失优化压缩友好度量学习的方法,其特征在于在无标签的文件切片数据下,利用伪标签的方式生成训练数据集,通过训练得到一个能够获得将同组的文件切片拉近的度量空间的模型,将待压缩文件数据输入模型获得表征向量,然后再通过谱聚类对表征向量进行聚类,对同属于一类的文件进行合并压缩,实现高压缩比的压缩存储,具体包括以下步骤:

(1)数据收集

收集用于压缩存储的文件数据集,包括但不限于游戏应用文件、图片文件、文本文件、视频文件、系统镜像文件等。

(2)数据预处理

将收集的文件数据进行以8KB固定大小的切片,并将切片数据通过转换成二进制的原始数据集;对原始数据采用动态K-means进行聚类生成聚类伪标签信息。从每个类中采样固定数量的样本,来自于同一个类的样本形成一个组,每个小批次的数据就是随机选择的一些组,每个组有固定数量的样本,这些采样得到的样本构成训练集。

(3)建立同组损失度量学习模型

首先是初始化过程。将采样成小批次组形式的训练集输入到ResNet网络中提取特征,ResNet易优化,随着层数增加精度提升,能够很好提取文件切片的特征,获得文件切片对应的表征向量,把表征向量通过softmax获得切片对应的标签矩阵X(0)。随机将初始化标签矩阵X中的样本替换成one-hot标签,把这些样本当做是锚点,锚点的赋值在迭代优化过程中不会改变,不直接影响损失函数。通过使用锚点的标签,而不是使用softmax预测的标签,能指导剩下的样本拉近到对应的标签。相似性矩阵计算,使用皮特森相关系数计算小批次中样本间的相似性矩阵W:

相关系数使用数据标准化,提供了缩放和转换不变性,不需要额外超参数。

然后是增强阶段。联合迭代标签矩阵X(0)和相似性矩阵W,标签矩阵X随着迭代相似的文件切片有相同的标签:

Π=WX

其中Π是支持计算矩阵,表示当前批次中第i个切片属于λ类的概率,当第i个切片属于λ类时,π

最后是同组损失计算。根据小批量样本之间的相似性和样本的局部信息将相似的样本分组在一起,使用迭代的过程将属于同一类的样本嵌入到一起。

(4)模型训练。

将数据划分为训练集、验证集和测试集。优化器使用优化器使用Adam优化器,多轮次迭代后达到收敛状态。使用验证集进行超参数的验证,多轮调优后,超参数达到最优。

(5)模型测试

使用经过训练、验证的模型,固定参数,把测试集输入到模型,获得保留了拉近相似文件切片表征向量特性的文件切片表征向量,对表征向量进行谱聚类,把同属于一类的文件切片进行合并压缩,评估压缩比。

本发明的目的是这样实现的。

本发明利用深度神经网络,基于组间损失优化压缩友好度量学习的方法来对文件切片进行聚类合并压缩的方法。首先采集用于文件合并压缩的待压缩文件数据集,将文件按照8kb大小切片,对原始数据采用动态K-means进行聚类生成聚类伪标签信息。从每个类中采样固定数量的样本,来自于同一个类的样本形成一个组,每个小批次的数据就是随机选择的一些组,每个组有固定数量的样本,这些采样得到的样本构成训练集,并利用该数据集进行模型训练,得到能够获得度量文件切片相似性表征空间的模型。之后将需要压缩的文件按照8kb进行切片放入到获得的模型中,输出切片的表征向量,这些表征向量具有在同类属于一个组的性质,不同组之间不相似。最后通过谱聚类,将这些向量进行聚类,合并同类的文件切片并压缩,实现高压缩比。降低人工提取文件切片相似模式和特征的需求,使用无标签的方式,减少人工标注成本,保持较高的文件压缩比,为实现文件高压缩比的压缩提供了一种新方法。

附图说明

图1是本发明一种基于组间损失优化压缩友好度量学习的方法的一种具体实施方式流程图;

图2是模型整体训练图;

图3是Resnet模型结构示意图;

图4是谱聚类合并压缩示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。

图1是本发明一种基于组间损失优化压缩友好度量学习的方法的一种具体实施方式流程图;

在本实施例中,如图1所示,本发明一种基于组间损失优化压缩友好度量学习的方法包括以下步骤:

S1:待压缩文件数据收集

收集用于压缩存储的文件数据集,包括但不限于游戏应用文件、图片文件、文本文件、视频文件、系统镜像文件等。

S2:数据预处理

在整理数据的过程中,将收集的文件数据进行以8KB固定大小的切片,并将切片数据通过转换成二进制的原始数据集;对原始数据采用动态K-means进行聚类生成聚类伪标签信息。从每个类中采样固定数量的样本,来自于同一个类的样本形成一个组,每个小批次的数据就是随机选择的一些组,每个组有固定数量的样本,这些采样得到的样本构成训练集。

S3:建立学习模型

学习模型的构建过程如图2是模型整体训练图所示。

首先是初始化过程。将采样成小批次组形式的训练集输入到ResNet网络中提取特征,ResNet网络结构如图3所示,ResNet易优化,随着层数增加精度提升,能够很好提取文件切片的特征,获得文件切片对应的表征向量,把表征向量通过softmax获得切片对应的标签矩阵X(0)。随机将初始化标签矩阵X中的样本替换成one-hot标签,把这些样本当做是锚点,锚点的赋值在迭代优化过程中不会改变,不直接影响损失函数。通过使用锚点的标签,而不是使用softmax预测的标签,能指导剩下的样本拉近到对应的标签。相似性矩阵计算,使用皮特森相关系数计算小批次中样本间的相似性矩阵W:

相关系数使用数据标准化,提供了缩放和转换不变性,不需要额外超参数。

然后是增强阶段。联合迭代标签矩阵X(0)和相似性矩阵W,标签矩阵X随着迭代相似的文件切片有相同的标签:

Π=WX

其中Π是支持计算矩阵,表示当前批次中第i个切片属于λ类的概率,当第i个切片属于λ类时,π

最后是同组损失计算。根据小批量样本之间的相似性和样本的局部信息将相似的样本分组在一起,使用迭代的过程将属于同一类的样本嵌入到一起。

S4:模型训练

将数据划分为训练集、验证集和测试集。优化器使用优化器使用Adam优化器,多轮次迭代后达到收敛状态。使用验证集进行超参数的验证,多轮调优后,超参数达到最优。

S5:文件压缩

在模型中输入测试集的数据,模型输出低维的文件切片表征向量,对文件切片表征向量进行谱聚类,如图4谱聚类合并压缩示意图所示,谱聚类的过程对数据结构没有太多的假设而且可以通过构造稀疏的相似图,使得在更大的数据集上有更快的聚类速度;然后对同类下的文件切片进行文件压缩,根据压缩比的提升,对模型效果进行评估,以验证模型的合理性,按照如下方式评估:

其中LZ()为压缩方法,k为聚类后同一类的切片数量,压缩比为文件切片分开压缩的值和比上合并压缩的值,压缩比越大表明模型在度量文件切片的相似性时,效果越好,对文件压缩比的提升越大。

本发明中,针对传统文件压缩方法人工提取模式与特征的问题提出来一种基于组间损失优化压缩友好度量学习的方法。本发明在组间损失优化度量学习和谱聚类等关键技术的基础上做出了创新。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

技术分类

06120116571618