导航：首页> 有机高分子化合物；其制备或化学加工；以其为基料的组合物>商品的多标签自动分类方法及系统

商品的多标签自动分类方法及系统

文献发布时间：2023-06-19 19:40:14

技术领域

本发明涉及电商信息技术领域，具体地，涉及一种商品的多标签自动分类方法及系统。

背景技术

通常情况下，商品的属性划分是存在交叉的，不同的分类考虑角度会造成不同的分类结果，例如从用途的分类和从材质的分类，而常见的商品分类方法只能分到唯一的类别下，与实际情况不符，进而会造成下游任务的失效，如基于商品类别的搜索结果缺失等问题。

专利文献CN113792786A(申请号：CN202111073371.9)公开了一种商品对象自动分类方法及其装置、设备、介质、产品，所述方法包括：获取商品对象，提取其相对应的摘要文本及商品图片；分别对所述摘要文本及所述商品图片进行特征提取，相应获得文本特征向量及图片特征向量，将文本特征向量与图片特征向量拼接为综合特征向量；基于所述综合特征向量进行多层次分类处理，获得所述商品对象相对应的标签集，所述标签集包括多层次分类结构中多个构成层次隶属关系的分类标签；为所述商品对象标记所述标签集中的各个分类标签。但该发明没有解决商品信息与类别不正交的情况。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种商品的多标签自动分类方法及系统。

根据本发明提供的一种商品的多标签自动分类方法，包括：

步骤S1：进行数据预处理，对数据进行去重，形成多标签数据，对描述信息进行分词和去停用词，保留与分类相关性高于预设标准的有效词组；

步骤S2：将有效词组转化为向量，对向量组计算平均值，得到特征向量；

步骤S3：将特征向量及其所属的多标签数据作为学习样本，训练多标签分类器，设置阈值过滤输出结果。

优选地，在所述步骤S1中：

对描述信息和类别完全重复的数据进行去重，保留一条数据，将相同描述信息对应不同类别的数据进行标签合并，形成多标签数据；对描述信息进行分词和去停用词操作，保留与分类相关性高于预设标准的有效词组；

去重：对于商品描述信息和所属类别完全相同的商品数据，只保留一条，其余删除；

标签合并：对于商品描述信息相同，但所属类别不同的数据，合并为一条，类别信息为该商品所属的全部类别的集合；

分词：将连续的字序列按照预设规范重新组合成词序列；

去停用词：加载本地的停用词词典，停用词词典的内容是与商品描述信息无关的字词，扫描分词结果中的词组，若是停用词表中的内容，则从分词结果中删除该词。

优选地，在所述步骤S2中：

将有效词转化为向量表示，对由词组得到的向量组进行平均处理，得到能够进行机器计算的特征向量；

采用Word2vec编码方式里的CBOW模式，CBOW根据上下文预测目标词训练得到词向量，CBOW的学习过程如下：

输入层：目标单词上下文的t个单词，每个单词用one-hot编码表示，为1×V大小的矩阵，V表示词汇大小；

将t个词的one-hot矩阵乘以输入权重矩阵W；其中，W是V*N大小的共享矩阵，N是指输出的词的向量维数；将目标单词上下文的单词经过特征向量按维度求平均值，作为隐层向量h，h大小为1×N；将隐层向量h乘以输出权重矩阵W′得到向量y,其中，W′是N×V大小的共享矩阵，y大小为1×V，利用softmax激活函数处理向量y，得到V-dim概率分布；V-dim概率分布中，概率最大的指标所指代的单词为预测出的目标词；将结果与真实标签的one-hot进行比较。

优选地，在所述步骤S3中：

采用有监督的学习方式，将特征向量及特征向量所属的多标签作为学习样本，对于多标签的学习任务，X＝R

h(x)＝{y

t(x)则为阈值函数，把标签空间分为相关标签集和不相关标签集，阈值函数通过训练集产生，阈值函数为常数，输出概率高于阈值函数的类别，使用基于BERT的网络结构实现分类。

优选地，在模型训练阶段采用五折交叉验证，将数据平分成5个部分，每个部分为1折，共进行5轮训练，每轮训练拿1折数据做为验证样本，其余4折数据用做训练，求5轮验证结果的平均值作为最终的验证结果。

根据本发明提供的一种商品的多标签自动分类系统，包括：

模块M1：进行数据预处理，对数据进行去重，形成多标签数据，对描述信息进行分词和去停用词，保留与分类相关性高于预设标准的有效词组；

模块M2：将有效词组转化为向量，对向量组计算平均值，得到特征向量；

模块M3：将特征向量及其所属的多标签数据作为学习样本，训练多标签分类器，设置阈值过滤输出结果。

优选地，在所述模块M1中：

去重：对于商品描述信息和所属类别完全相同的商品数据，只保留一条，其余删除；

标签合并：对于商品描述信息相同，但所属类别不同的数据，合并为一条，类别信息为该商品所属的全部类别的集合；

分词：将连续的字序列按照预设规范重新组合成词序列；

优选地，在所述模块M2中：

将有效词转化为向量表示，对由词组得到的向量组进行平均处理，得到能够进行机器计算的特征向量；

采用Word2vec编码方式里的CBOW模式，CBOW根据上下文预测目标词训练得到词向量，CBOW的学习过程如下：

输入层：目标单词上下文的t个单词，每个单词用one-hot编码表示，为1×V大小的矩阵，V表示词汇大小；

优选地，在所述模块M3中：

采用有监督的学习方式，将特征向量及特征向量所属的多标签作为学习样本，对于多标签的学习任务，X＝R

h(x)＝{y

与现有技术相比，本发明具有如下的有益效果：

1、本发明提出了一种多标签分类方法，允许商品被划分到多个相关类别下，具有更高的使用价值；

2、本发明通过多标签分类的方法，解决了商品信息与类别不正交的情况，使分类结果具有多样性，更能满足实际应用需求；

3、本发明考虑到商品数据分布不均匀问题，采用数据增强和五折交叉验证的方式，提升模型泛化能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明流程示意图；

图2为基于CBOW的Word2vec模型示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的一种商品的多标签自动分类方法，如图1-图2所示，包括：

步骤S1：进行数据预处理，对数据进行去重，形成多标签数据，对描述信息进行分词和去停用词，保留与分类相关性高于预设标准的有效词组；

具体地，在所述步骤S1中：

去重：对于商品描述信息和所属类别完全相同的商品数据，只保留一条，其余删除；

标签合并：对于商品描述信息相同，但所属类别不同的数据，合并为一条，类别信息为该商品所属的全部类别的集合；

分词：将连续的字序列按照预设规范重新组合成词序列；

步骤S2：将有效词组转化为向量，对向量组计算平均值，得到特征向量；

具体地，在所述步骤S2中：

将有效词转化为向量表示，对由词组得到的向量组进行平均处理，得到能够进行机器计算的特征向量；

采用Word2vec编码方式里的CBOW模式，CBOW根据上下文预测目标词训练得到词向量，CBOW的学习过程如下：

输入层：目标单词上下文的t个单词，每个单词用one-hot编码表示，为1×V大小的矩阵，V表示词汇大小；

将t个词的one-hot矩阵乘以输入权重矩阵W；其中，W是V*N大小的共享矩阵，N是指输出的词的向量维数；

将目标单词上下文的单词经过特征向量按维度求平均值，作为隐层向量h，h大小为1×N；

将隐层向量h乘以输出权重矩阵W′,其中，W′是N×V大小的共享矩阵；

h乘以输出权重矩阵W′得到向量y，y大小为1×V，利用softmax激活函数处理向量y，得到V-dim概率分布；

V-dim概率分布中，概率最大的指标所指代的单词为预测出的目标词；

将结果与真实标签的one-hot进行比较。

步骤S3：将特征向量及其所属的多标签数据作为学习样本，训练多标签分类器，设置阈值过滤输出结果。

具体地，在所述步骤S3中：

采用有监督的学习方式，将特征向量及特征向量所属的多标签作为学习样本，对于多标签的学习任务，X＝R

h(x)＝{y

具体地，在模型训练阶段采用五折交叉验证，将数据平分成五个部分，每个部分为一折，共进行5轮训练，每轮训练拿一折数据做为验证样本，其余4折数据用做训练，求5轮验证结果的平均值作为最终的验证结果。

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

本发明还提供一种商品的多标签自动分类系统，所述商品的多标签自动分类系统可以通过执行所述商品的多标签自动分类方法的流程步骤予以实现，即本领域技术人员可以将所述商品的多标签自动分类方法理解为所述商品的多标签自动分类系统的优选实施方式。

根据本发明提供的一种商品的多标签自动分类系统，包括：

模块M1：进行数据预处理，对数据进行去重，形成多标签数据，对描述信息进行分词和去停用词，保留与分类相关性高于预设标准的有效词组；

具体地，在所述模块M1中：

去重：对于商品描述信息和所属类别完全相同的商品数据，只保留一条，其余删除；

标签合并：对于商品描述信息相同，但所属类别不同的数据，合并为一条，类别信息为该商品所属的全部类别的集合；

分词：将连续的字序列按照预设规范重新组合成词序列；

模块M2：将有效词组转化为向量，对向量组计算平均值，得到特征向量；

具体地，在所述模块M2中：

将有效词转化为向量表示，对由词组得到的向量组进行平均处理，得到能够进行机器计算的特征向量；

采用Word2vec编码方式里的CBOW模式，CBOW根据上下文预测目标词训练得到词向量，CBOW的学习过程如下：

输入层：目标单词上下文的t个单词，每个单词用one-hot编码表示，为1×V大小的矩阵，V表示词汇大小；

将t个词的one-hot矩阵乘以输入权重矩阵W；其中，W是V*N大小的共享矩阵，N是指输出的词的向量维数；

将目标单词上下文的单词经过特征向量按维度求平均值，作为隐层向量h，h大小为1×N；

将隐层向量h乘以输出权重矩阵W′,其中，W′是N×V大小的共享矩阵；

h乘以输出权重矩阵W′得到向量y，y大小为1×V，利用softmax激活函数处理向量y，得到V-dim概率分布；

V-dim概率分布中，概率最大的指标所指代的单词为预测出的目标词；

将结果与真实标签的one-hot进行比较。

模块M3：将特征向量及其所属的多标签数据作为学习样本，训练多标签分类器，设置阈值过滤输出结果。

具体地，在所述模块M3中：

采用有监督的学习方式，将特征向量及特征向量所属的多标签作为学习样本，对于多标签的学习任务，X＝R

h(x)＝{y

实施例3：

实施例3为实施例1的优选例，以更为具体地对本发明进行说明。

本发明解决商品从不同角度进行分类的问题，例如管理分类和技术分类时造成的类别不一致问题，对同一商品进行多标签分类，使分类结果更具有可移植性。多标签bert分类用于工业品行业商品分类。

数据预处理：

首先，对商品库中的描述信息和类别完全重复的数据进行去重，只保留一条数据，然后将相同商品描述信息对应不同类别的数据进行标签合并，形成多标签数据。最后对商品描述信息进行分词和去停用词操作，只保留与商品分类相关性高的词组。

去重：对于商品描述信息和所属类别完全相同的商品数据，只保留一条，其余删除；

标签合并：对于商品描述信息相同，但所属类别不同的数据，合并为一条，类别信息为该商品所属的全部类别的集合；

分词：将连续的字序列按照一定的规范重新组合成词序列的过程。采用jieba分词工具，加载工业品行业词典，使分词结果更有价值。

去停用词：加载本地的停用词词典，停用词词典的内容是与商品描述信息无关的字词，例如：“我，总之，无，没有”等等。扫描分词结果中的词组，若是停用词表中的内容，则从分词结果中删除该词。

常用的中文分词工具包括：哈工大语言云(LTP-Cloud)、中科院计算所(NLPIR)、清华大学(THULAC)和jieba等。

文本向量化：

在进行文本去重以及分词优化后，需要将有效词转化为向量来表示，再对由词组得到的向量组做平均，得到可以进行机器计算的特征向量。本发明采用Word2vec编码方式，Word2vec包括CBOW和Skip-gram两种模式，CBOW是根据上下文去预测目标词来训练得到词向量；而Skip-gram是根据目标词去预测周围词来训练得到词向量。根据经验，CBOW用于小型语料库比较适合，而Skip-gram在大型的语料上表现得比较好，因此本发明采用CBOW方式。CBOW是用周围词预测中心词，从而利用中心词的预测结果情况，使用梯度下降方法，不断的去调整周围词的向量。训练时间短，skipgram是用中心词预测周围词，对于生僻词，预测结果更准确。此外，对文本进行向量化还可以采用词集模型/词袋模型、词频-逆文本频率(TF-IDF)等方法。CBOW的结构如图2所示

CBOW的学习过程：

(1)输入层(Input layer)：目标单词上下文的t个单词，每个单词用one-hot编码表示，为[1×V]大小的矩阵，V表示词汇大小；

(2)将t个词的one-hot矩阵乘以输入权重矩阵W,W是[V*N]大小的共享矩阵，N是指输出的词的向量维数；

(3)将目标单词上下文的单词经过(2)得到的特征向量按维度求平均值，作为隐层向量h，大小为[1×N]；

(4)将隐层向量h乘以输出权重矩阵W′,W′是[N×V]大小的共享矩阵；

(5)h乘以输出权重矩阵W′得到向量y，大小为[1×V],然后利用softmax激活函数处理向量y，得到V-dim概率分布；

(6)由于输入的是one-hot编码，即每个维度都代表着一个单词，那么V-dim概率分布中，概率最大的指标所指代的那个单词为预测出的目标词。

(7)将结果与真实标签的one-hot做比较，误差越小越好，这里的误差函数一般选交叉熵代价函数。

误差的调整在训练过程中进行，通过梯度下降反向调节权重矩阵。

梯度下降：利用误差函数求出权重矩阵需要调整的梯度，在原权重的基础上减调整梯度得到更新后的权重矩阵。

训练初始阶段，预测值与真实值之间的误差较大，通过上述方法反复学习之后，误差越来越小，当误差值趋于稳定时，可停止训练。

多标签分类：

本发明采用有监督的学习方式，将商品的特征向量及其所属的多标签作为学习样本。对于多标签的学习任务，X＝R

h(x)＝{y

t(x)则为阈值函数，把标签空间分为相关标签集和不相关标签集。阈值函数可通过训练集产生，本发明中将其设置为常数。在应用模型进行预测时，概率高于阈值的类别都会作为分类结果被输出。本发明使用基于BERT的网络结构实现商品分类，BERT的基本模型结构为Transformer模型的Encoder部分，Transformer是一种双向语言模型，其采用了常见的Encoder-Decoder结构，并创造性的加入了自注意力机制来代替原本的RNN结构，解决RNN模型不能并行运行、运行速度慢等缺点。

此外，商品数据普遍存在数量分布不平衡的情况，针对此问题采本发明在模型训练阶段采用五折交叉验证，即将数据平分成五个部分，每个部分叫做一折，共进行5轮训练，每轮训练拿一折数据做为验证样本，其余4折数据用做训练，求5轮验证结果的平均值作为最终的验证结果。与单次划分相比，模型对数据集中所有样本的泛化性能都更好。

数据增强方法：升采样(增加数据)：1.对商品描述信息进行分词，用同义词替换商品描述中的词，生成模拟商品数据；2.将商品描述信息中，删除部分分词，生成模拟商品数据；降采样(减少数据)：对于个别类中商品数据过多的情况，删除同类别中相似度高的商品。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李燕北;朱俊;姚泽坤;夏竟翔;戴智鑫;闫晨光;
专利申请人：欧冶工业品股份有限公司;