导航：首页> 计算；推算；计数>面向设备管理数据库存放地址的清洗方法、装置及设备

面向设备管理数据库存放地址的清洗方法、装置及设备

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及地址数据处理领域，尤其涉及一种面向设备管理数据库存放地址的清洗方法、装置及设备。

背景技术

随着信息化应用的逐步深入，许多企业或单位组织都需要建立了自己的设备管理信息系统，并按照国家规范要求完善凭证管理、数据管理、定额管理和档案资料管理等工作，定期进行统计分析与盘点。设备管理信息系统中的数据存放在设备管理数据库当中，日积月累形成了大量的设备信息。设备管理信息包括诸如：设备使用价值、使用年限、存放地址、购入时间、状态等等不同的属性特征，这些特征虽然数量和种类较多，但是绝大多数特征在数据存储过程中是规范的，比如“使用年限”、“使用价值”等。但是，设备的“存放地址”这一属性特征由于历史变迁以及信息化建设过程中规范性不够，“存放地址”这一属性特征规范性极差，这对设备管理数据库的清洗和数据融合带来了极大工作量。

“存放地址”这一特征是其他数据进行关联的最重要的“枢纽”，各种数据之间进行数据融合一般经过“存放地址”进行关联，但由于这一特征存储的不规范性导致数据融合的工作很难展开。

发明内容

本发明主要解决由于存放地址这一属性特征存储不规范给设备管理数据库的清洗和数据融合造成工作量极大的技术问题。为了解决该技术问题，本发明提出了一种面向设备管理数据库存放地址的清洗方法、装置及设备，该方法首先对特征进行向量化，其次使用决策树算法对向量化的数据进行训练，训练后的模型可以对设备的存放地址进行校验并且对缺失信息进行合理地预测。

根据本发明的第一方面，本发明提供了一种面向设备管理数据库存放地址的清洗方法，包括以下步骤：

获取用于存放地址的原始数据集；

对原始数据集进行预处理；

将预处理后的数据集划分为训练集和测试集；

选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，通过训练集对决策树模型进行优化，并通过测试集对决策树模型进行性能测试，优化及测试完成后，生成预测模型；

获取新的数据集并进行预处理，将预处理后的新数据集输入预测模型，生成每个数据的预测结果；针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，并结束应用。

进一步地，所述预处理包括：缺失值处理和数据变换。

进一步地，所述缺失值处理包括：

观察原始数据集的特征，得到各特征的完整信息表，该信息表中包含各个特征的数据类型以及数量；

将该数据集中的数据缺失大于样本总数的十分之一的属性特征删除；

对于该数据集中的数据缺失量小于样本总数的十分之一的属性特征，则根据历史数据取众数，或在历史记录中找到与缺失样本最近的样本的属性值进行插补。

进一步地，所述数据变换包括：

如果是字符串类型的数据，则基于word2vec工具中的skip-gram模型将每个词表示成一个固定长度的向量，并使得这些向量能够表达不同词之间的相似性和类比关系；

如果是类别类型的数据，则采用顺序编码进行处理，将类别类型的数据分为从1到n的数字类型数据，n的大小和类别的种类数量相同；

如果是数字类型的数据，则不再通过编码处理，但如果数据距离差距大于设定阈值，则通过规范化处理将数据进行压缩。

进一步地，所述选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型的步骤，包括：

选取信息增益作为决策树分支的判定条件，特征A对训练集D的信息增益g(D，A)定义为训练集D的经验熵H(D)与特征A给定条件下的D的经验条件熵H(D|A)之差，即：

g(D，A)＝H(D)-H(D|A)公式一

其评定标准如下，设X是一个取有限个值的离散随机变量，x

P(X＝x

那么随机变量X的熵定义为：

选择ID3算法联合C4.5算法作为决策树分裂算法，选取信息增益作为选择的度量标准；

对训练集中的m个特征属性，第一步，利用公式二计算特征k中的每一个类别对应的概率p

根节点k有m个分支节点，对于其第一个分支节点得到其样例集合D

进一步地，所述通过训练集对决策树模型进行优化的步骤，包括：

A：获取训练集D＝{(x

B：获取验证集

C：获取利用信息增益生成的训练集D的决策树模型；

D：利用验证集T验证决策树预测的准确率，并将验证集的准确率记为A；

E：按照从上至下，从左至右的顺序从1到n逐个标记非叶子节点；

F：将标号最大的非叶子节点剪掉，如果剪掉之后的决策树模型使得验证集的准确率低于或者等于A，则保留此节点，并且其父节点以及父节点的父节点均保留；如果验证集的准确率高于A，则更新A为当前准确率，并且将此节点剪掉，然后将记号减1；

G：循环F操作，直到最后准确率达到最大值，此时决策树模型达到最理想状态。

进一步地，所述通过测试集对决策树模型进行性能测试的步骤，包括：

将测试集输入决策树模型，得到决策树模型的准确率、查准率、召回率、F1-socre以及混淆矩阵。

根据本发明的第二方面，本发明提供了一种面向设备管理数据库存放地址的清洗装置，包括以下模块：

获取模块，用于获取用于存放地址的原始数据集；

预处理模块，用于对原始数据集进行预处理；

划分模块，用于将预处理后的数据集划分为训练集和测试集；

训练模块，用于选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，通过训练集对决策树模型进行优化，并通过测试集对决策树模型进行性能测试，优化及测试完成后，生成预测模型；

应用模块，用于获取新的数据集并进行预处理，将预处理后的新数据集输入预测模型，生成每个数据的预测结果；针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，并结束应用。

根据本发明的第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的面向设备管理数据库存放地址的清洗方法的步骤。

根据本发明的其他方面，本发明还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的面向设备管理数据库存放地址的清洗方法的步骤。

本发明提供的技术方案具有以下有益效果：

本发明提供了一种面向设备管理数据库存放地址的清洗方法，首先获取原始数据集，并进行预处理，删除或补齐缺失数据，并按照特征的类型对每个特征进行编码；其次，选取信息增益作为分支的判定条件，并选择ID3算法联合C4.5算法作为决策树的分裂算法构造决策树模型，并通过训练集对构造完成后的决策树模型进行优化，以及通过测试集进行性能测试，如果模型优化的结果不理想，则继续优化，否则直接生成预测模型，结束训练；最后，将预处理后的新数据集输入预测模型，生成每个数据的预测结果。针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，然后结束应用。因此本发明能够高效、准确地对数据库中地址属性进行清洗和预测，为设备管理数据库的集成共享提供了有效的解决方案。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明提供的一种面向设备管理数据库存放地址的清洗方法的总体流程图；

图2是本发明提供的决策树模型gini系数对应的混淆矩阵；

图3是本发明提供的决策树模型entropy系数对应的混淆矩阵；

图4是本发明提供的一种面向设备管理数据库存放地址的清洗装置的结构示意图；

图5是本发明提供的一种电子设备的结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

请参考图1，本发明提供了一种面向设备管理数据库存放地址的清洗方法，其具体实施步骤如下：

S1：获取用于存放地址的原始数据集；

S2：对原始数据集进行预处理；

S3：将预处理后的数据集划分为训练集和测试集；

S4：选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，通过训练集对决策树模型进行优化，并通过测试集对决策树模型进行性能测试，优化及测试完成后，生成预测模型；

S5：获取新的数据集并进行预处理，将预处理后的新数据集输入预测模型，生成每个数据的预测结果；针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，并结束应用。

基于但不限于上述方法，步骤S2的具体实现过程如下：

数据预处理即进行数据清洗的过程，数据清洗主要是删除原始数据集中的无关数据和重复数据，平滑噪声数据，筛掉与目标无关的数据，处理缺失值、异常值等。

进一步地，缺失值的处理主要分为三种方法：删除记录、数据插补和不处理。

首先观察原始数据集的特征，并且得到一份各特征的完整信息表，这个信息表中包含各个特征的数据类型以及数量。对于该数据集中的数据缺失大于样本总数的十分之一的属性特征，可以将这一特征属性直接删除；对于该数据集中的数据缺失量小于样本总数的十分之一的数据则根据历史数据取众数，也可以在记录中找到与缺失样本最近的样本的该属性值进行插补。

根据上述步骤进行缺失值处理后，再进行数据变换，具体为：

根据数据类型，可以分为三大类进行处理：第一类，如果是字符串类型则是基于word2vec工具中的skip-gram模型，它将每个词表示成一个定长的向量，并使得这些向量能够较好地表达不同词之间的相似和类比关系；第二类，如果是类别类型的数据则采用顺序编码(OrdinalEncoder)进行处理，该编码器会将类别数据分为从1到n的数字类型数据，n的大小和类别的种类数量相同；第三类，如果数据类型正好是数字类型，则不需要再通过编码处理，但如果数据距离差距过大，则可以进行规范化处理，将数据进行压缩。

基于但不限于上述方法，步骤S4中所述选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型的具体实现过程如下：

S4.1：特征选择

选取信息增益作为分支的判定条件。特征A对训练数据集D的信息增益g(D，A)，定义为集合D的经验熵H(D)与特征A给定条件下的D的经验条件熵H(D|A)之差，即

g(D，A)＝H(D)-H(D|A)，(公式一)

其评定标准如下，设X是一个取有限个值的离散随机变量，其概率分布为：

P(X＝x

那么随机变量X的熵定义为

S4.2：节点分裂

节点分为三种：根节点、内部节点、叶子节点。节点分裂最重要的步骤在于选取最优的属性。一般的原则是，希望通过不断划分节点，使得一个分支节点的数据尽可能的属于同一个类别，也就是“纯度”越来越高。本实施例中选择是ID3算法联合C4.5算法作为决策树分裂算法，选取信息增益作为选择的度量标准。

首先，找到最终决策树模型的根节点。对数据集完成预处理之后的数据集有m个特征属性。第一步，利用公式二计算特征k中的每一个类别对应的概率p

其次，构建最终决策树。找到最终根节点k之后，它有m个分支节点，对于其第一个分支节点得到其样例集合D

基于但不限于上述方法，步骤S4中所述通过训练集对决策树模型进行优化的具体实现过程如下：

A：获取训练集D＝{(x

B：获取验证集

C：获取利用信息增益生成的训练集D的决策树模型；

D：利用验证集T验证决策树预测的准确率，并将验证集的准确率记为A；

E：按照从上至下，从左至右的顺序从1到n逐个标记非叶子节点；

G：循环F操作，直到最后准确率达到最大值，此时决策树模型达到最理想状态。

基于但不限于上述方法，步骤S4中，所述通过测试集对决策树模型进行性能测试的具体实现过程如下：

将测试集输入决策树模型，得到决策树模型的准确率、查准率、召回率、F1-socre以及混淆矩阵，将性能指标最优的决策树模型作为预测模型。

此处给出各性能指标准确率(Acc)、召回率(Recall)、查准率(Precision)F1-score的表达式：

其中，TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的实例。

对决策树模型训练结束之后，表示着对于整个数据集的分类已经完成了，那么此时可以对未知的新数据集进行预测，这样的预测会使得原本杂乱无章的数据得到清洗，因为这部分数据标签是未知的，可能准确率和实际情况也会有出入，但是比起没有预测之前的数据变得更加规范，这样的数据可以导入到数据库当中。

进一步地，步骤S5的具体实现过程如下：

获取新的新数据集，采用与步骤S2相同的预处理方法，并将预处理完成之后的数据集输入预测模型。对于所有数据，预测模型都会给出预测结果。对每一条数据的标签特征进行判空处理，如果是空标签数据，利用预测结果进行填补；如果是非空标签数据，将实际结果和预测结果进行检核。

在一种实施例中，一种面向设备管理数据库存放地址的清洗方法的实现过程如下：

1、获取数据集：

利用私人的学校存放地址的数据集进行清洗和训练，该数据集中有几个比较重要的特征，包括：“所属学院”、“存放地址”、“财政六大类”等其他16个特征。

2、数据集预处理：

此数据集样本量为61498。

第一步，“序号”、“财政六大类”、“最低使用年限”、“建帐业务号”这四个特征的数据类型是数字类型的，所以不用对其预处理，除了数字类型之外的其他特征在训练模型之前要进行预处理。但是，其中，“建帐业务号”这一特征有大量的缺失值，标签存在少量缺失值，要分别对这特征和标签进行特殊处理。

第二步，“类别”这一特征的取值只有一种，“编号”、“序号”这两个特征没有实际意义，所以这三个特征对于整个标签的预测或者分类是没有影响的，去之。

第三步，“领用单位编号”和“所属学院”是1对1的关系，所以“所属学院”可以用前者代替而去掉。

第四步，“建帐业务号”存在大量缺失值，由于缺失历史数据，无法对缺失的数据进行填补，否则会导致和实现情况差距过大，选择直接删除“建帐业务号”这一特征属性；另外，“标签”存在极少量的数据缺失，由于有大量的历史数据，所以可以根据历史数据进行填补，选择利用众数进行填充。

最后，前面四步已经对数据集进行清洗完成，对缺失值也实现了填充，接下来对数据集利用顺序编码器进行编码，该编码器会将类别数据分为从1到n的数字类型数据。

3、数据划分：

对数据集进行划分，按照7：3的比例划分，百分之七十的数据训练，剩下的数据拿来测试。并且分出特征和标签分别用x和y表示。

4、模型训练及实验结果：

选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，利用构建的决策树模型对训练集进行分类训练，然后再用这个已经接受过训练的模型对测试集进行预测，得到决策树模型的准确率、召回率、F1-socre以及混淆矩阵，如图2和图3所示，图2、图3分别表示以gini(基尼系数)和entropy(熵系数)作为参数的混淆矩阵结果，并计算了两者对应的评估结果如表1和表2所示，准确率均达到了95％以上，符合预期结果；混淆矩阵表示结果也十分理想，例如图2中的第一行，正确预测个数远大于失误的个数，所以这个预测模型的实验结果是理想的。

表1 gini系数评估结果

表2 entropy系数评估结果

下面对本发明提供的一种面向设备管理数据库存放地址的清洗装置进行描述，下文描述的一种面向设备管理数据库存放地址的清洗装置与上文描述的一种面向设备管理数据库存放地址的清洗方法可相互对应参照。

如图4所示，示例了一种面向设备管理数据库存放地址的清洗装置，包括以下模块：

获取模块410，用于获取用于存放地址的原始数据集；

预处理模块420，用于对原始数据集进行预处理；

划分模块430，用于将预处理后的数据集划分为训练集和测试集；

训练模块440，用于选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，通过训练集对决策树模型进行优化，并通过测试集对决策树模型进行性能测试，优化及测试完成后，生成预测模型；

应用模块450，用于获取新的数据集并进行预处理，将预处理后的新数据集输入预测模型，生成每个数据的预测结果；针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，并结束应用。

如图5所示，示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510、通信接口520、存储器530通过通信总线54O完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行上述面向设备管理数据库存放地址的清洗方法的步骤，具体包括：获取用于存放地址的原始数据集；对原始数据集进行预处理；将预处理后的数据集划分为训练集和测试集；选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，通过训练集对决策树模型进行优化，并通过测试集对决策树模型进行性能测试，优化及测试完成后，生成预测模型；获取新的数据集并进行预处理，将预处理后的新数据集输入预测模型，生成每个数据的预测结果；针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，并结束应用。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述面向设备管理数据库存放地址的清洗方法的步骤，具体包括：获取用于存放地址的原始数据集；对原始数据集进行预处理；将预处理后的数据集划分为训练集和测试集；选择信息增益作为分支的判定条件，并通过ID3算法联合C4.5算法构造决策树模型，通过训练集对决策树模型进行优化，并通过测试集对决策树模型进行性能测试，优化及测试完成后，生成预测模型；获取新的数据集并进行预处理，将预处理后的新数据集输入预测模型，生成每个数据的预测结果；针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，并结束应用。

本发明提出并实施了一种面向设备管理数据库存放地址的清洗方法、装置、设备及对应的存储介质，首先获取原始数据集，进行预处理，删除或补齐缺失数据，并按照特征的类型对每个特征进行编码；其次，选取信息增益作为分支的判定条件，选择ID3算法联合C4.5算法作为决策树的分裂算法构造决策树模型，并通过训练集对构造完成后的决策树模型进行优化，以及通过测试集进行性能测试，如果模型优化的结果不理想，则继续优化，否则直接生成预测模型，结束训练；最后，将预处理后的新数据集输入预测模型，生成每个数据的预测结果。针对空标签数据，利用预测结果进行填补；针对非空标签数据，将实际结果和预测结果进行检核，然后结束应用。本发明能够高效、准确地对数据库中地址属性进行清洗和预测，为设备管理数据库的集成共享提供了有效的解决方案。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国地质大学(武汉);

上一篇：时空数据的预测方法、装置、计算机设备及存储介质
下一篇：地图模块测试方法、装置、设备及可读存储介质