一种基于改进TF-IDF的客户用电安全智能分类方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及一种基于改进TF-IDF的客户用电安全智能分类方法。

背景技术

当前，在文本分类任务中，深度学习的兴起，解决了传统机器学习分类方法人工成本高、适用性差以及分类精度低等问题，但其仍有不足之处。传统的TF-IDF算法没有重视类别区分度高的特征项，如果特征项均匀分布在某一类文档中，说明这个特征项更能代表类中文档主题；如果特征项只分布在某一类的一个文档中，说明这个特征项不具有普遍性，不能代表这个类中文档主题。而传统的TF-IDF算法忽略了这一点，传统的TF-IDF算法未考虑特征项的位置因素，特征项在一篇文档中首次出现的位置、最后出现的位置也包含很多有效信息，通过提取首尾特征项位置相关信息可以反应特征项在文档中的出现范围，更加准确地表示特征项的重要程度。

典型如申请号为CN202110200765.X的中国发明专利公开的一种基于自然语言处理的单细胞相关技术数据分析方法，未考虑特征项的位置因素，难以足够准确地表示特征项的重要程度。

发明内容

为解决上述技术问题，本发明提供了一种基于改进TF-IDF的客户用电安全智能分类方法，该基于改进TF-IDF的客户用电安全智能分类方法通过提出针对于文本分类的改进TF-IDF，并与word2vec词向量结合，既能保留语义又可以体现词语的重要性。

本发明通过以下技术方案得以实现。

本发明提供的一种基于改进TF-IDF的客户用电安全智能分类方法，包括如下步骤：

①预处理：将用检工单中的文本内容分为多个类别，并预处理为隐患内容文本数据集；

②计算权重：通过改进TF-IDF方法计算每一个词语的权重；

③矩阵化：用word2vec模型将原始文本转换为向量矩阵；

④建表：基于向量矩阵建立词汇-索引映射表，并和训练的词向量文件进行组合形成.npz文件；

⑤生成表示向量：将训练数据集中的每个词语用词向量表示，并拼接生成文本表示向量；

⑥分类：以文本表示向量作为输入，用卷积神经网络分类模型进行文本分类；

⑦验证：在验证集上运用准确率和F1值作为评估指标，验证模型的有效性。

所述步骤①中，将每一个类别作为一个整体进行非结构化处理后，再进行预处理。

所述步骤①中，预处理包括：

1)分词：对用检工单中的每一类的隐患内容进行分词处理，对文本内容进行分词之后，将长文本内容划分为词级的单元；

2)去停用词：对用检工单中的隐患内容的分词结果进行进一步处理，将其中重要程度低的词去掉，筛选出对文本分类结果重要性高的关键词；

3)划分数据集：对预处理之后的数据集进行数据集划分，将其划分为训练集、验证集以及测试集，比例为7:2:1。

所述改进TF-IDF方法是TF-IDF-ICP，在TF-IDF的基础上引入类内因子InterC和词距离因子DS，计算公式为：

TF-IDF-ICP＝TF

式中，TF为平均词频，IDF为逆向文件频率。

所述TF-IDF-ICP的具体计算步骤为：

1)计算类内因子，首先统计某一类j中特征项i在文档d中出现的次数，进而计算特征项i在类别j的标准差，最后对标准差求倒数表示特征项在类内的分布均匀程度；

2)计算词距离因子，统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差，然后求差与特征项个数的比值；

3)计算特征项在文档中的平均词频TF，即统计特征项i在类别j所包含文档中出现的总次数；

4)计算逆向文件频率IDF，由总文件数除以包含该词语的文件的数目，再将得到的商取对数得到；

5)将以上计算的类内因子，词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP。

所述步骤③之后，还包括步骤：

结合：将所述步骤②中得到的每一个词语的权重，和所述步骤③中得到的向量矩阵，相结合形成词嵌入。

所述卷积神经网络分类模型，在卷积层之前和卷积层之后，均引入注意力机制。

所述步骤⑦之后，还包括步骤：

后处理：基于验证结果，评估模型是否达到预期模型效果，若达到，则进行后续的模型预测，若未达到，则通过调整指标体系和调整模型参数的操作对模型进行调优处理。

所述模型预测，具体为：在测试集上运用训练模型结果对测试集数据进行文本类型分类预测，获取最后的客户用电安全智能分类结果集。

所述调整指标体系和调整模型参数，分别为：

调整指标体系：根据现有的指标，通过业务专家经验或者统计学统计方法计算衍生变量，丰富指标体系，提供更多的对目标变量具有重要影响的变量，提高模型的准确率；

调整模型参数：通过调整模型参数的数值组合，根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值。

本发明的有益效果在于：通过提出针对于文本分类的改进TF-IDF，并与word2vec词向量结合，既能保留语义又可以体现词语的重要性，在输入层和卷积层之间引入了注意力机制，利用注意力机制处理文本向量得到注意力矩阵，具有良好的泛化能力，可以达到更好的分类结果。

附图说明

图1是本发明至少一种实施方式的流程示意图；

图2是本发明中计算特征项权重的至少一种实施方式的流程示意图；

图3是本发明中卷积神经网络分类模型的模型结构示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

实施例1

如图1～3所示的一种基于改进TF-IDF的客户用电安全智能分类方法，包括如下步骤：

①预处理：将用检工单中的文本内容分为多个类别，并预处理为隐患内容文本数据集；

②计算权重：通过改进TF-IDF方法计算每一个词语的权重；

③矩阵化：用word2vec模型将原始文本转换为向量矩阵；

④建表：基于向量矩阵建立词汇-索引映射表，并和训练的词向量文件进行组合形成.npz文件；

⑤生成表示向量：将训练数据集中的每个词语用词向量表示，并拼接生成文本表示向量；

⑥分类：以文本表示向量作为输入，用卷积神经网络分类模型进行文本分类；

⑦验证：在验证集上运用准确率和F1值作为评估指标，验证模型的有效性。

实施例2

基于实施例1，所述步骤①中，将每一个类别作为一个整体进行非结构化处理后，再进行预处理。

实施例3

基于实施例1，所述步骤①中，预处理包括：

1)分词：对用检工单中的每一类的隐患内容进行分词处理，对文本内容进行分词之后，将长文本内容划分为词级的单元；

2)去停用词：对用检工单中的隐患内容的分词结果进行进一步处理，将其中重要程度低的词去掉，筛选出对文本分类结果重要性高的关键词；

3)划分数据集：对预处理之后的数据集进行数据集划分，将其划分为训练集、验证集以及测试集，比例为7:2:1。

实施例4

基于实施例1，所述改进TF-IDF方法是TF-IDF-ICP，在TF-IDF的基础上引入类内因子InterC和词距离因子DS，计算公式为：

TF-IDF-ICP＝TF

式中，TF为平均词频，IDF为逆向文件频率。

实施例5

基于实施例4，所述TF-IDF-ICP的具体计算步骤为：

2)计算词距离因子，统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差，然后求差与特征项个数的比值；

3)计算特征项在文档中的平均词频TF，即统计特征项i在类别j所包含文档中出现的总次数；

4)计算逆向文件频率IDF，由总文件数除以包含该词语的文件的数目，再将得到的商取对数得到；

5)将以上计算的类内因子，词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP。

实施例6

基于实施例1，所述步骤③之后，还包括步骤：

结合：将所述步骤②中得到的每一个词语的权重，和所述步骤③中得到的向量矩阵，相结合形成词嵌入。

实施例7

基于实施例1，所述卷积神经网络分类模型，在卷积层之前和卷积层之后，均引入注意力机制。

实施例8

基于实施例1，所述步骤⑦之后，还包括步骤：

实施例9

基于实施例8，所述模型预测，具体为：在测试集上运用训练模型结果对测试集数据进行文本类型分类预测，获取最后的客户用电安全智能分类结果集。

实施例10

基于实施例8，所述调整指标体系和调整模型参数，分别为：

调整模型参数：通过调整模型参数的数值组合，根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值。

实施例11

基于上述实施例，具体包括以下步骤：

步骤一、对用检工单中的文本内容分为若干类别，将每一个类作为一个整体进行非结构化处理，预处理隐患内容文本数据集，如分词、去停用词等；

1)分词：对用检工单中的每一类的隐患内容进行分词处理，对文本内容进行分词之后，将长文本内容划分为词级的单元；

2)去停用词：对用检工单中的隐患内容的分词结果进行进一步处理，将其中重要程度低的词去掉，筛选出对文本分类结果重要性高的关键词；

3)对预处理之后的数据集进行数据集划分，将其划分为训练集、验证集以及测试集，比例为7:2:1；

步骤二、通过改进的TF-IDF方法TF-IDF-ICP计算每一个词语的权重，这一方法在传统TF-IDF的基础上引入类内因子InterC和词距离因子DS来优化传统方法的缺陷，计算方式如下所示：

TF-IDF-ICP＝TF

2)计算词距离因子，统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差，然后求差与特征项个数的比值；

3)计算特征项在文档中的平均词频TF，即统计特征项i在类别j所包含文档中出现的总次数；

4)计算逆向文件频率IDF，由总文件数除以包含该词语的文件的数目，再将得到的商取对数得到；

5)将以上计算的类内因子，词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP；

步骤三、运用word2vec模型将原始文本转换为向量矩阵；

步骤四、基于改进的TF-IDF算法TF-IDF-ICP计算的每个词语的权重与word2vec模型转换的词向量进行结合形成词嵌入，既可保留语义又可体现词语的重要性；

步骤五、词向量模型训练完成后是以字典形式存在的，键是词语，值是这个词的词向量，为了方便模型词向量的查询，需要建立词汇-索引映射表，然后和训练的词向量文件进行组合形成.npz文件；

步骤六、利用改进TF-IDF算法和word2vec模型训练形成的词嵌入层，然后将训练数据集中的每个词语用词向量表示，并拼接生成文本表示向量，将拼接生成的文本表示向量作为基于注意力机制的卷积神经网络分类模型的输入；

步骤七、在输入层和卷积层之间引入了注意力机制，利用注意力机制处理文本向量得到的注意力矩阵，提高文本中重要词语的权重进而增加这些词语对文本分类的影响力，同时减小不重要词语的权重，降低不重要词语对文本分类的影响；

1)初始化向量q,w,b；

2)计算v，其中打分函数为为加代模型v＝tanh(wx+b)；

3)计算相似度匹配得分，exps＝vq；

4)归一化获得权重系数，计算公式为a＝exps/sum(exps)；

5)将权重系数和输入序列加权求和获得attention数值；

步骤八、将经过注意力层的文本向量输入至卷积层，卷积层之后再次引入注意力机制，然后进行池化操作，池化操作是一种特殊的卷积操作，进一步降低模型的复杂程度，使用不同尺寸的卷积核卷积池化后得到特征向量进行拼接，提取局部特征，最后通过softmax层得到文本的分类结果；

步骤七、在验证集上运用准确率(Accuracy，acc)和F1值作为评估指标，验证模型的有效性，公式如下所示：

其中n为类别数，acc

步骤八、针对验证集验证结果，评估模型是否达到预期模型效果，若达到，则进行下一步模型预测，若未达到，则通过调整指标体系和模型参数等对模型的调优处理，

1)调整指标体系：根据现有的指标，通过业务专家经验或者统计学统计方法计算衍生变量，丰富指标体系，提供更多的对目标变量具有重要影响的变量，提高模型的准确率；

2)调整模型参数：通过调整模型参数的数值组合，根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值；

步骤九、在测试集上运用训练模型结果对测试集数据进行文本类型分类预测。

由此，本发明针对用电检查执行过程中形成的包含具体检查内容与结果等非结构化的文本数据，结合深度学习算法，研究用电检查工单文本解析技术，依托自然语言处理技术、改进TF-IDF算法计算每个词语的权重并与word2vec词向量结合，既能保留语义又可以体现词语的重要性，并拼接生成文本表示向量。将拼接生成的文本表示向量作为基于注意力机制的卷积神经网络文本分类模型的输入，在输入层和卷积层之间引入了注意力机制，利用注意力机制处理文本向量得到注意力矩阵，提高文本中重要词语的权重进而增加这些词语对文本分类的影响力，同时可以减小不重要词语的权重，降低不重要词语对文本分类的影响，实现客户用电安全智能分类。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李金灿;王冰;黄燕;刘祥吉;杨霞琴;张君;李佩;梁耀元;陈远;
专利申请人：广西电网有限责任公司梧州供电局;

上一篇：用于半导体的地板智能标记方法、系统及智能标记小车
下一篇：一种线路板表面油墨固化装置