导航：首页> 石油、煤气及炼焦工业；含一氧化碳的工业气体；燃料；润滑剂；泥煤>一种基于大数据的数据压缩存储方法

一种基于大数据的数据压缩存储方法

文献发布时间：2024-04-18 19:52:40

技术领域

本发明涉及数据压缩技术领域，具体为一种基于大数据的数据压缩存储方法。

背景技术

数据压缩是一种将原始数据转换为更紧凑形式的过程，以减少数据占用的存储空间或传输带宽，数据压缩可以通过消除数据中的冗余信息、利用统计规律、使用压缩算法等方式来实现，压缩后的数据可以在存储、传输和处理过程中节省资源和时间，数据压缩广泛应用于各种领域，包括文件压缩、图像压缩、音频压缩以及视频压缩，其中还存在一种可以在大数据环境下实现高效的数据压缩存储的方法。

现有技术中，在进行大数据压缩过程通常采用的是使用深度学习模型进行数据压缩和存储，然而深度学习模型通常被认为是黑盒模型，其内部的特征表示和决策过程难以解释。这可能导致在数据解压缩过程中出现问题时难以进行调试和修复，并且深度学习模型的性能和效果受到训练数据的影响。如果训练数据不充分或不具有代表性，可能会导致模型的性能下降，从而影响数据的准确性。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于大数据的数据压缩存储方法，解决了使用深度学习模型进行数据压缩和存储的过程中可能会导致压缩过程中出现问题时难以进行调试和修复，以及模型的性能下降时会影响数据准确性的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于大数据的数据压缩存储方法，具体包括以下步骤：

S1.大数据预处理

首先对大数据进行预处理，其中包括数据清洗以及特征提取的步骤；

S2.数据在线分类

S3.深度学习模型

对分类后的数据使用深度学习模型进行训练，其中深度学习模型可以学习数据的特征表示，并生成具有较低维度的编码；

S4.模型评估验证

对训练好的深度学习模型进行评估和验证，其中可以使用超参数优化的方法来评估模型的性能，并进行必要的调整和优化；

S5.数据编码压缩

使用训练好的深度学习模型对原始数据进行压缩，通过将原始数据输入深度学习模型，可以获得其对应的编码，通过对应的编码按照分表进行分类压缩；

S6.存储和索引

将压缩后的数据存储在分布式文件系统中，并建立相应的索引，索引建立时根据数据的特征以及分类后的对应编码进行构建；

S7.数据节点解压缩

当需要访问压缩后的数据时，可以使用深度学习模型对编码进行解压缩，从而恢复原始数据，解压缩后的数据可以直接使用或进行进一步的分析和处理。

优选的，所述S1.大数据预处理中，具体的数据清洗是首先对原始数据进行清洗，其中对于缺失值删除包含缺失值的样本或者使用插补方法填充缺失值，对于异常值删除以及修正异常值，对于重复值则删除重复以及合并重复的样本。

优选的，所述S2.数据在线分类中，人工标注后使用共享标签传递模型进行训练，反馈到分片过程后完成分类的详细过程如下：

a.数据准备，首先准备一组已经进行人工标注的样本数据，并且需要包含输入特征和对应的分类标签；

b.模型训练，使用准备好的人工标注数据，训练一个共享标签传递模型；

c.标签传递，使用已训练好的模型对未标注的样本数据进行预测，将模型预测的标签作为这些未标注样本的新标签；

d.分片过程，将已经标注和传递标签的样本数据分成训练集和验证集；

e.模型训练与反馈，使用分片过程中的训练集对模型进行训练，训练过程中，使用已标注的样本数据和传递的标签作为训练数据；

f.模型评估：使用分片过程中的验证集对训练好的模型进行评估，计算模型在验证集上的性能指标；

g.分类预测：使用训练好的模型对新的未标注样本进行分类预测，将模型预测的标签作为这些未标注样本的最终分类结果并输出。

优选的，所述S4.模型评估验证中，具体通过超参数调优对模型进行升级优化，其中依次包括定义超参数范围、设置搜索次数、随机选择超参数组合、模型训练和评估、记录最佳结果、重复步骤最后返回最佳结果，最终实现了在超参数的取值范围较大时可以快速地找到具有较好性能的超参数组合。

(三)有益效果

本发明提供了一种基于大数据的数据压缩存储方法。具备以下有益效果：

1、本发明提供了一种基于大数据的数据压缩存储方法，本存储方法通过使用超参数优化的方法对训练好的深度学习模型进行评估和验证，从而可通过调整超参数的值来找到最佳的组合，以提高模型的性能和泛化能力，最终确保模型的训练数据具有代表性，能够反映实际应用场景中的数据分布和特征，提高了数据的真实性与可视化效果，方便了对数据进行训练模型来压缩的过程中进行调节与修复。

2、本发明提供了一种基于大数据的数据压缩存储方法，接着根据分析和规划的结果，将大数据集按照一定的规则进行分片，将数据分散到不同的表中，其中分片过程中在部分数据上进行人工标注，并且在人工标注后使用共享标签传递模型进行训练，反馈到分片过程后完成分表分类，通过人工标注提高了分类时的准确性以及类别的多样化性，并且在面对大量的数据时，可通过共享标签传递模型进行预测标注，从而提高了准确性的同时，降低了工作强度，最终通过对节点的编码与索引，提高了解压缩过程中对数据调取的方向性，进而提高了对需求数据解压缩的速率。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

本发明实施例提供一种基于大数据的数据压缩存储方法，具体包括以下步骤：

S1.大数据预处理

首先对大数据进行预处理，其中包括数据清洗以及特征提取的步骤，这可以帮助提高数据的质量和可压缩性，具体的数据清洗是首先对原始数据进行清洗，其中对于缺失值删除包含缺失值的样本或者使用插补方法填充缺失值，对于异常值删除以及修正异常值，对于重复值则删除重复以及合并重复的样本；

S2.数据在线分类

对预处理后的数据进行分类，首先对大数据进行分析和规划，了解数据的结构和特点，确定需要进行分表的字段和标准，接着根据分析和规划的结果，将大数据集按照一定的规则进行分片，将数据分散到不同的表中，其中分片过程中在部分数据上进行人工标注，并且在人工标注后使用共享标签传递模型进行训练，反馈到分片过程后完成分表分类，通过人工标注提高了分类时的准确性以及类别的多样化性，并且在面对大量的数据时，可通过共享标签传递模型进行预测标注，从而提高了准确性的同时，降低了工作强度，人工标注后使用共享标签传递模型进行训练，反馈到分片过程后完成分类的详细过程如下：

a.数据准备，首先准备一组已经进行人工标注的样本数据，并且需要包含输入特征和对应的分类标签；

b.模型训练，使用准备好的人工标注数据，训练一个共享标签传递模型；

c.标签传递，使用已训练好的模型对未标注的样本数据进行预测，将模型预测的标签作为这些未标注样本的新标签；

d.分片过程，将已经标注和传递标签的样本数据分成训练集和验证集，通常训练集用于模型的训练，验证集用于模型的评估和超参数调优；

e.模型训练与反馈，使用分片过程中的训练集对模型进行训练，训练过程中，使用已标注的样本数据和传递的标签作为训练数据，通过迭代训练，不断优化模型的参数，使其能够更准确地预测样本的分类标签；

f.模型评估：使用分片过程中的验证集对训练好的模型进行评估，计算模型在验证集上的性能指标，如准确率、精确率、召回率以及F1值，根据评估结果，可以调整模型的超参数或者重新训练模型；

g.分类预测：使用训练好的模型对新的未标注样本进行分类预测，将模型预测的标签作为这些未标注样本的最终分类结果并输出；

具体可通过以下代码实现：

import numpy as np

from sklearn.model_selection import train_test_split

from sklearn.svm import SVC

#假设已经有了人工标注的样本数据和对应的标签

labeled_data＝np.array([[1,2],[2,3],[3,4],[4,5]])

labels＝np.array([0,0,1,1])

#假设已经有了共享标签传递模型进行预测的结果

unlabeled_data＝np.array([[5,6],[6,7],[7,8]])

#分片过程，将数据分为训练集和验证集

X_train,X_val,y_train,y_val＝train_test_split(labeled_data,labels,test_size＝0.2,random_state＝42)

#创建SVM分类器模型

model＝SVC()

#训练模型

model.fit(X_train,y_train)

#在验证集上评估模型性能

accuracy＝model.score(X_val,y_val)

print("Validation Accuracy:",accuracy)

#使用共享标签传递模型对未标注数据进行预测

new_labels＝model.predict(unlabeled_data)

#将预测的标签添加到已标注数据和标签中

labeled_data＝np.concatenate((labeled_data,unlabeled_data),axis＝0)

labels＝np.concatenate((labels,new_labels),axis＝0)

#重新进行分片过程，将更新后的数据分为训练集和验证集

X_train,X_val,y_train,y_val＝train_test_split(labeled_data,labels,test_size＝0.2,random_state＝42)

#重新训练模型

model.fit(X_train,y_train)

#在验证集上评估更新后的模型性能

accuracy＝model.score(X_val,y_val)

print("Updated Validation Accuracy:",accuracy)

#使用训练好的模型进行最终的分类预测

final_predictions＝model.predict(unlabeled_data)

print("Final Predictions:",final_predictions)

具体地，首先将已标注的样本数据和标签分成训练集和验证集，然后使用支持向量机(SVM)分类器进行模型训练和评估。接着，使用已训练好的模型对未标注的数据进行预测，将预测结果作为新的标签添加到已标注的数据和标签中。然后重新进行分片过程，重新训练模型，并在验证集上评估更新后的模型性能。最后使用训练好的模型对未标注的数据进行最终的分类预测。

S3.深度学习模型

对分类后的数据使用深度学习模型进行训练，其中深度学习模型可以学习数据的特征表示，并生成具有较低维度的编码，通过生成具有较低维度的编码可以提高计算效率、降低过拟合风险、提取重要特征以及实现数据可视化的目的，这样可以更好地处理高维度数据，并提高机器学习模型的性能和可解释性；

S4.模型评估验证

对训练好的深度学习模型进行评估和验证，以确保其在压缩和解压缩过程中的可靠性和稳定性，其中可以使用超参数优化的方法来评估模型的性能，并进行必要的调整和优化，具体通过超参数调优对模型进行升级优化，模型的性能往往受到超参数的影响，超参数是在模型训练之前需要手动设置的参数，如学习率、批量大小以及网络结构，通过调整超参数的值，可以找到最佳的组合，以提高模型的性能和泛化能力，其中依次包括定义超参数范围、设置搜索次数、随机选择超参数组合、模型训练和评估、记录最佳结果、重复步骤最后返回最佳结果，最终实现了在超参数的取值范围较大时可以快速地找到具有较好性能的超参数组合；

S5.数据编码压缩

使用训练好的深度学习模型对原始数据进行压缩，通过将原始数据输入深度学习模型，可以获得其对应的编码，通过对应的编码按照分表进行分类压缩，由于深度学习模型已经学习到了数据的特征表示，以及原始数据已经完成了分类，因此生成的编码可以更好地表达数据的信息，以及辨别类别，从而实现更高效的压缩；

S6.存储和索引

将压缩后的数据存储在分布式文件系统中，并建立相应的索引，索引建立时根据数据的特征以及分类后的对应编码进行节点的构建，以便在查询时快速定位到需要的数据；

S7.数据节点解压缩

当需要访问压缩后的数据时，可以使用深度学习模型对编码进行解压缩，从而恢复原始数据，解压缩后的数据可以直接使用或进行进一步的分析和处理，并且通过对节点的编码与索引，提高了解压缩过程中对数据调取的方向性，进而提高了对需求数据解压缩的速率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：深圳市易行网数字科技有限公司;

上一篇：一种生物质液化冷凝喷淋装置
下一篇：燃气热水器的调试方法、装置、计算机设备