导航：首页> 测量；测试>信息分类方法、模型训练方法、相关装置及电子设备

信息分类方法、模型训练方法、相关装置及电子设备

文献发布时间：2023-06-19 19:27:02

技术领域

本申请属于人工智能技术领域，具体涉及一种信息分类方法、模型训练方法、相关装置及电子设备。

背景技术

随着人工智能技术的高速发展，深度学习模型得到了广泛的应用，在一应用场景中，可以基于深度学习模型实现对多媒体信息如新闻资讯的分类，以基于分类进行信息推荐、搜索等。

目前，深度学习模型通常是对多媒体信息的文本特征或图像特征进行学习，以基于学习到的文本特征或图像特征进行信息分类，这种信息分类方式的分类准确性比较低。

发明内容

本申请实施例的目的是提供一种信息分类方法、模型训练方法、相关装置及电子设备，能够解决信息分类准确性比较低的问题。

第一方面，本申请实施例提供了一种信息分类方法，该方法包括：

获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态，M为大于1的整数；

对所述第一信息进行第一向量表征，得到第一特征向量；以及对所述M个标签信息进行第二向量表征，得到M个第二特征向量；

基于目标模型，基于所述第一特征向量和所述M个第二特征向量进行融合处理，得到所述M个标签信息对应的M个第三特征向量，所述第三特征向量用于表征所述标签信息与所述第一信息之间的关联关系，以及不同标签信息之间的关联关系；

基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。

第二方面，本申请实施例提供了一种模型训练方法，该方法包括：

获取训练样本数据，所述训练样本数据包括第一样本信息和M个预设类别对应的M个第一标签样本信息，所述第一标签样本信息用于指示所述第一样本信息在所述预设类别下的状态，M为大于1的整数；

对所述第一样本信息进行第一向量表征，得到第六特征向量；以及对M个第二标签样本信息进行第二向量表征，得到M个第七特征向量，所述M个第二标签样本信息基于所述M个第一标签样本信息确定；

基于所述第六特征向量和所述M个第七特征向量进行融合处理，得到所述M个第二标签样本信息对应的M个第八特征向量；基于所述M个第八特征向量，确定M个输出信息；

基于所述M个输出信息和所述第一标签样本信息，确定目标模型的网络损失值；

基于所述网络损失值，更新所述目标模型的网络参数。

第三方面，本申请实施例提供了一种信息分类装置，该装置包括：

第一获取模块，用于获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态，M为大于1的整数；

第一向量表征模块，用于对所述第一信息进行第一向量表征，得到第一特征向量；

第二向量表征模块，用于对所述M个标签信息进行第二向量表征，得到M个第二特征向量；

融合处理模块，用于基于目标模型，基于所述第一特征向量和所述M个第二特征向量进行融合处理，得到所述M个标签信息对应的M个第三特征向量，所述第三特征向量用于表征所述标签信息与所述第一信息之间的关联关系，以及不同标签信息之间的关联关系；

分类模块，用于基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。

第四方面，本申请实施例提供了一种模型训练装置，该装置包括：

第二获取模块，用于获取训练样本数据，所述训练样本数据包括第一样本信息和M个预设类别对应的M个第一标签样本信息，所述第一标签样本信息用于指示所述第一样本信息在所述预设类别下的状态，M为大于1的整数；

第一向量表征模块，用于对所述第一样本信息进行第一向量表征，得到第六特征向量；

第二向量表征模块，用于对M个第二标签样本信息进行第二向量表征，得到M个第七特征向量，所述M个第二标签样本信息基于所述M个第一标签样本信息确定；

融合处理模块，用于基于所述第六特征向量和所述M个第七特征向量进行融合处理，得到所述M个第二标签样本信息对应的M个第八特征向量；

第一确定模块，用于基于所述M个第八特征向量，确定M个输出信息；

第二确定模块，用于基于所述M个输出信息和所述第一标签样本信息，确定目标模型的网络损失值；

更新模块，用于基于所述网络损失值，更新所述目标模型的网络参数。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的信息分类方法的步骤，或者如第二方面所述的模型训练方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的信息分类方法的步骤，或者如第二方面所述的模型训练方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的信息分类方法的步骤，或者如第二方面所述的模型训练方法的步骤。

在本申请实施例中，通过获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态；对所述第一信息进行第一向量表征，得到第一特征向量；以及对所述M个标签信息进行第二向量表征，得到M个第二特征向量；基于目标模型，基于所述第一特征向量和所述M个第二特征向量进行融合处理，得到所述M个标签信息对应的M个第三特征向量，所述第三特征向量用于表征所述标签信息与所述第一信息之间的关联关系，以及不同标签信息之间的关联关系；基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。如此，通过目标模型对第一信息和多个预设类别对应的标签信息进行融合处理，使得目标模型可以学习到标签信息与第一信息之间的关联关系，以及不同标签信息之间的关联关系，从而可以提高信息分类的准确性。

附图说明

图1是本申请实施例提供的信息分类方法的流程图；

图2是涉及两个层级的新闻资讯的类别体系的样例示意图；

图3是一示例的目标模型的结构示意图；

图4是第一标签信息的特征解码操作示意图；

图5是第二标签信息的特征解码操作示意图；

图6是本申请实施例提供的模型训练方法的流程图；

图7是本申请实施例提供的信息分类装置的结构图；

图8是本申请实施例提供的模型训练装置的结构图；

图9是本申请实施例提供的电子设备的结构图；

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的信息分类进行详细地说明。

图1是本申请实施例提供的信息分类方法的流程图，如图1所示，包括以下步骤：

步骤101，获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态。

其中，M为大于1的整数。

该步骤中，第一信息可以为多媒体信息，也可以为其他类型的信息，这里不进行具体限定，以下第一信息以多媒体信息为例进行详细说明。

多媒体信息可以为视频、音频或文本等，多媒体信息可以仅包括一种模态的信息，也可以包括多模态的信息，如同时包括视频和音频。

多媒体信息以文本为例，在一分类场景中，多媒体信息可以为新闻资讯，可以对该新闻资讯进行分类，以用于推荐、搜索等应用。

多媒体信息可以包括一个源信息，也可以包括多个源信息，以文本为例，多媒体信息可以包括多个文本源信息，如新闻资讯，可以包括四个文本源，分别为标题、昵称、正文和评论。

可以获取预先存储的多媒体信息，也可以获取实时生产得到的多媒体信息如实时生产得到的新闻资讯，以对新闻资讯进行分类。

在一可选实施方式中，可以对多媒体信息进行预处理，得到输入至目标模型的多媒体信息。以文本为例，在文本内容比较多(如超过最大长度L)的情况下，可以截取文本内容中前M个字符，使得目标模型可处理的文本内容不超过最大长度L。在文本内容比较少(如少于最大长度L)的情况下，可以补充空字符，具体可以在处理的文本尾部补充空字符直到M个字符长度。

M个预设类别可以为预先设置的用于分类多媒体信息的类别，M个预设类别可以仅涉及一级类别，也可以同时涉及两级甚至是多级类别，以下多媒体信息以新闻资讯、M个预设类别涉及到两级类别为例进行详细说明。

在M个预设类别涉及到两级类别的情况下，可以通过这两级类别上下串联得到预设类别，如一级类别为财经，二级类别为企业动态，则M个预设类别中包括财经_企业动态。M个预设类别也可以分别将一级类别作为一个预设类别，二级类别作为一个预设类别，如一级类别为财经，二级类别为企业动态，则M个预设类别中包括财经和财经_企业动态。

图2是涉及两个层级的新闻资讯的类别体系的样例示意图，如图2所示，新闻资讯的类别体系包括：

一级类别，分别为财经、娱乐、农业等；

二级类别，分别为财经_企业动态、财经_投资理财、财经_财经内容、娱乐_影视解说、娱乐_明星名人、农业_三农内容等；

一级类别“财经”的标签释义：包括投资理财、企业动态、国家财经内容等相关的新闻资讯内容；

二级类别“财经”的标签释义：讲述某企业股票涨跌、高层动态、企业内容等跟企业相关的新闻资讯内容。

相应的，该类别体系下的M个预设类别包括：财经、娱乐、农业、财经_企业动态、财经_投资理财、财经_财经内容、娱乐_影视解说、娱乐_明星名人、农业_三农内容。

标签信息可以为多媒体信息在预设类别下的标签信息，其用于指示第一信息在预设类别下的状态，其可以至少包括两个标签内容，分别为标签标识id和标签状态。

其中，该标签标识id可以标识预设类别，比如预设类别位于第几个层级的第几个类别，以如图2所示的类别体系为例，标签标识id可以表示为第一个层级的第一个类别，即财经，可以表示为第二个层级的第一个类别，即财经_企业动态。

标签状态可以指示第一信息在标签标识id指示的预设类别下的状态，其存在三种状态，第一种状态为多媒体信息属于标签标识id对应的预设类别，用数值1表示，第二种状态为多媒体信息不属于标签标识id对应的预设类别，用数值0表示，第三种状态为对于多媒体信息是否属于预设类别的结果未知，可以用数值-1表示。

另外，标签信息还可以包括标签标识id对应的标签释义，以丰富标签信息的内容。

需要说明的是，在对多媒体信息进行分类时，由于多媒体信息的类别是未知的，因此，各个标签信息中的标签状态值均为第二标签状态值，表示多媒体信息是否属于预设类别的结果为未知状态，如第二标签状态值为数值-1，信息分类时，所述标签信息所指示的第一信息在预设类别下的状态为上述第三种状态。

M个标签信息可以通过多媒体信息的类别体系确定。

步骤102，对所述第一信息进行第一向量表征，得到第一特征向量。

该步骤中，可以通过产生词向量的相关模型如Pytorch中的Word2Vec算子，将多媒体信息如新闻资讯的标题、昵称、正文、评论分别进行向量表征，以映射得到第一特征向量，分别用FE

步骤103，对所述M个标签信息进行第二向量表征，得到M个第二特征向量。

该步骤中，可以通过Pytorch中的Embedding算子，分别将每个标签信息进行向量表征，以映射得到一个d维的第二特征向量。在标签信息包括多个标签内容的情况下，如包括标签标识、标签状态和标签释义，可以通过Pytorch中的Embedding算子，可将标签标识id(记为层级i类别j，即第i个层级中的第j个类别)映射为一个d维的第二特征向量，记为IE

之后，可以将上述三个第二特征向量进行特征相加，得到该标签信息对应的第二特征向量，记为LE

步骤104，基于目标模型，基于所述第一特征向量和所述M个第二特征向量进行融合处理，得到所述M个标签信息对应的M个第三特征向量，所述第三特征向量用于表征所述标签信息与所述第一信息之间的关联关系，以及不同标签信息之间的关联关系。

该步骤中，目标模型可以为MMM-Net，全称是Multi-Text Multi-HierarchicalMulti-Label Network，其是一种注意力神经网络，可以用来学习文本与文本之间、文本与标签之间、标签与标签之间的复杂关系。

可以将第一特征向量和M个第二特征向量组合成向量集合，比如向量集合为

可以将向量集合嵌入至目标模型进行特征关联，相应的，该目标模型可以通过基于第一特征向量和M个第二特征向量进行融合处理，以实现不同特征之间的关联，得到M个标签信息对应的M个第三特征向量。

其中，一个标签信息对应一个第三特征向量，该第三特征向量可表征该标签信息与多媒体信息，以及该标签信息与其他标签信息之间的关联关系，在多媒体信息包括多文本的情况下，第三特征向量还可以表征文本与文本之间的关联关系。

在一可选实施方式中，若多媒体信息的类别体系如图2所示，第三特征向量具体可以表征该标签信息与其对应的标签信息之间的关联关系，比如，该标签信息表征为一级类别的标签信息，则与其对应的标签信息为该一级类别下的二级类别的标签信息。

步骤105，基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。

该步骤中，可以基于M个第三特征向量，对多媒体信息进行分类。由于第三特征向量可以表征第三特征向量对应的标签信息与多媒体信息，以及该标签信息与其他标签信息之间的关联关系，因此，在第三特征向量表征该标签信息与多媒体信息关联紧密，和/或，该标签信息与其对应的标签信息关联紧密的情况下，基于该第三特征向量所确定的多媒体信息的类别属于该标签信息对应的预设类别的概率比较高，可以确定第一目标类别包括该预设类别。

其中，第一目标类别可以包括至少一个预设类别，比如，多媒体信息为新闻资讯时，该新闻资讯既可以属于财经类别，又可以属于农业类别。即基于目标模型可以自动地将多媒体信息分类为类别体系中的其中某一类或者某几类(包括一级类别和二级类别)。

本实施例中，通过获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态；对所述第一信息进行第一向量表征，得到第一特征向量；以及对所述M个标签信息进行第二向量表征，得到M个第二特征向量；基于目标模型，基于所述第一特征向量和所述M个第二特征向量进行融合处理，得到所述M个标签信息对应的M个第三特征向量，所述第三特征向量用于表征所述标签信息与所述第一信息之间的关联关系，以及不同标签信息之间的关联关系；基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。如此，通过目标模型对第一信息和多个预设类别对应的标签信息进行融合处理，使得目标模型可以学习到标签信息与第一信息之间，以及不同标签信息之间的关联关系，从而可以提高信息分类的准确性。

可选的，所述步骤104具体包括：

将所述第一特征向量分别与所述M个第二特征向量进行相乘处理，得到M个第一权重；将所述M个第一权重与所述M个第二特征向量进行加权处理，得到第四特征向量；

针对所述M个第二特征向量中的第i个第二特征向量，将所述第i个第二特征向量与所述第一特征向量进行相乘处理，以及将所述第i个第二特征向量与所述M个第二特征向量中，除所述第i个第二特征向量之外的其他第二特征向量进行相乘处理，得到M个第二权重；将所述M个第二权重与所述第一特征向量、所述其他第二特征向量进行加权处理，得到所述第i个第二特征向量对应的第五特征向量，i为小于或等于M的正整数；

基于所述第四特征向量和所述第五特征向量进行融合处理，得到所述M个第三特征向量。

本实施方式中，目标模型可以包括编码器和解码器，编码器用于将所述第一特征向量分别与所述M个第二特征向量进行相乘处理，得到M个第一权重；将所述M个第一权重与所述M个第二特征向量进行加权处理，得到第四特征向量；针对所述M个第二特征向量中的第i个第二特征向量，将所述第i个第二特征向量与所述第一特征向量进行相乘处理，以及将所述第i个第二特征向量与所述M个第二特征向量中，除所述第i个第二特征向量之外的其他第二特征向量进行相乘处理，得到M个第二权重；将所述M个第二权重与所述第一特征向量、所述其他第二特征向量进行加权处理，得到所述第i个第二特征向量对应的第五特征向量，从而得到M个标签信息对应的M个第五特征向量。解码器用于针对每个第五特征向量，基于所述第四特征向量和所述第五特征向量进行融合处理，得到一个第三特征向量，从而得到M个第三特征向量。

其中，编码器的个数可以包括一个、两个甚至是多个，解码器的个数也可以包括一个、两个甚至是多个，以下编码器和解码器的个数均以3个为例进行说明。

图3是一示例的目标模型的结构示意图，如图3所示，目标模型中的3个编码器堆叠，3个解码器堆叠，且解码器串联在编码器之后，其嵌入的向量集合可以为

以第一个编码器layer1为例，其计算过程是将输入的H

其中，上式(1)、(2)和(3)中，W和b均为目标模型的网络参数。

编码器的目的是为了让文本源(如标题、昵称、正文、评论)和标签信息进行充分的交互融合，从而使得文本源包含标签信息，而标签信息又包含文本源信息。

第三个编码器layer3的输出作为第一个解码器layer4的输入，其输出可以记为

可选的，所述标签信息包括第一类型的第一标签信息和第二类型的第二标签信息，所述第一标签信息为位于第一层级的第一预设类别下的标签信息，所述第二标签信息为位于第二层级的第二预设类别下的标签信息，所述第二层级为所述第一层级的子层级，所述M个预设类别包括所述第一预设类别和所述第二预设类别；

所述基于所述第四特征向量和所述第五特征向量进行融合处理，得到所述M个第三特征向量，包括：

在所述第五特征向量用于表征所述第一标签信息的情况下，基于第一目标特征向量和所述第五特征向量进行融合处理，得到一个所述第三特征向量，所述第一目标特征向量包括：所述第四特征向量，以及所述M个第五特征向量中第一目标标签信息对应的特征向量，所述第一目标标签信息为所述第一标签信息对应的第二标签信息；

在所述第五特征向量用于表征所述第二标签信息的情况下，基于第二目标特征向量和所述第五特征向量进行融合处理，得到一个所述第三特征向量，所述第二目标特征向量包括：所述第四特征向量，以及所述M个第五特征向量中第二目标标签信息对应的特征向量，所述第二目标标签信息为所述第二标签信息对应的第一标签信息。

可选的，所述基于第一目标特征向量和所述第五特征向量进行融合处理，得到一个所述第三特征向量，包括：

将所述第五特征向量与所述第四特征向量进行相乘处理，以及将所述第五特征向量与所述第一目标标签信息对应的特征向量进行相乘处理，得到至少两个第三权重；

将所述至少两个第三权重与所述第一目标特征向量进行加权处理，得到一个所述第三特征向量。

可选的，所述基于第二目标特征向量和所述第五特征向量进行融合处理，得到一个所述第三特征向量，包括：

将所述第五特征向量与所述第四特征向量进行相乘处理，以及将所述第五特征向量与所述第二目标标签信息对应的特征向量进行相乘处理，得到至少两个第四权重；

将所述至少两个第四权重与所述第二目标特征向量进行加权处理，得到一个所述第三特征向量。

本实施方式中，第一标签信息可以为

以一级类别“财经”为例，其对应的第五特征向量为

注意力机制的解码操作的计算公式如下式(4)、(5)、(6)和(7)所示。

其中，上式W和b均为目标模型的网络参数。

针对H

以二级类别“财经_企业动态”为例，其对应的第五特征向量为

注意力机制的解码操作的计算公式如下式(8)、(9)、(10)和(11)所示。

其中，上式W和b均为目标模型的网络参数。

经过3个解码器解码后，可以得到M个第三特征向量，分别为

本实施方式中，通过采用注意力机制将第一特征向量和M个第二特征向量进行融合处理，且通过编码阶段让文本源和各层级各标签信息进行充分的交互融合，并通过解码阶段进行标签信息(包括第一标签信息和第二标签信息)的解码，得到M个标签信息对应的M个第三特征向量，从而实现标签信息与多媒体信息之间，以及标签信息之间的关联。

可选的，所述步骤105具体包括：

基于所述第三特征向量，确定第一激活值；

基于所述第一激活值，确定所述第一信息的类别为所述第三特征向量对应的预设类别的第一概率值；

基于所述第一概率值，确定所述第一目标类别。

本实施方式中，可以基于第三特征向量，通过下式(12)，计算第一激活值。

其中，上式(12)中，S

基于第一激活值，通过下式(13)计算多媒体信息的类别为所述第三特征向量对应的预设类别的第一概率值。

其中，上式(13)中，T＝1，δ

在第一概率值大于预设阈值的情况下，可以确定第一目标类别包括层级u中的第v个类别，如此，可以实现对多媒体信息的分类。

需要说明的是，目标模型在使用之前需要预先训练，以固定目标模型的网络参数，其训练过程将在以下实施例进行详细说明。下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的用于信息分类的目标模型的模型训练进行详细地说明。

图6是本申请实施例提供的模型训练方法的流程图，如图6所示，包括以下步骤：

步骤601，获取训练样本数据，所述训练样本数据包括第一样本信息和M个预设类别对应的M个第一标签样本信息，所述第一标签样本信息用于指示所述第一样本信息在所述预设类别下的状态，M为大于1的整数；

步骤602，对所述第一样本信息进行第一向量表征，得到第六特征向量；

步骤603，对M个第二标签样本信息进行第二向量表征，得到M个第七特征向量，所述M个第二标签样本信息基于所述M个第一标签样本信息确定；

步骤604，基于所述第六特征向量和所述M个第七特征向量进行融合处理，得到所述M个第二标签样本信息对应的M个第八特征向量；

步骤605，基于所述M个第八特征向量，确定M个输出信息；

步骤606，基于所述M个输出信息和所述第一标签样本信息，确定目标模型的网络损失值；

步骤607，基于所述网络损失值，更新所述目标模型的网络参数。

本实施例描述的是目标模型的训练过程。

在步骤601中，训练样本数据可以包括至少一个第一样本信息，以及每个第一样本信息对应的M个第一标签样本信息。第一样本信息可以为多媒体信息。

第一样本信息的获取方式与第一信息的获取方式类似，这里不进行赘述。

可以对第一样本信息进行预处理，之后将预处理后的第一样本信息输入至目标模型中。

以新闻资讯为例，其预处理过程如下：

针对一个完整的新闻资讯内容，可以分别对标题(a)、昵称(b)(作者昵称或者机构名称)、正文(c)、评论(d)四种文本信息进行掩码Mask和截取处理，设文本最大长度为M。其中，Mask指的是删除一部分文本或者让标签状态变为未知状态。

以标题为例，针对标题(记为a)：设置一个是否Mask的概率阈值t

上述预处理有两个目的：一是为了模拟真实情况中存在某个文本缺失的情况，二是使得目标模型对文本缺失某个字词不那么敏感，让目标模型具有更强的泛化能力。

第一标签样本信息的结构与上述实施例中标签信息的结构可以相同，包括三个部分，分别为标签标识id、标签状态和标签释义。其中，标签标识id和标签释义的获取方式相同。

而针对标签状态，可以由人工通过标签释义标注得到，在第一样本信息属于标签标识id对应的预设类别的情况下，将标签状态标注为1，即第一标签状态值为1，而在第一样本信息不属于标签标识id对应的预设类别的情况下，将标签状态标注为0，即第一标签状态值为0。

在步骤602中，第一样本信息的向量表征方式可以与第一信息的向量表征方式类似，这里不进行赘述。

在步骤603中，第二标签样本信息可以为第一标签样本信息，也可以由第一标签样本信息对标签进行Mask得到。对第二标签样本信息的向量表征方式可以与对标签信息的向量表征方式类似，这里不进行赘述。

在一可选实施方式中，可以将目标模型的训练阶段分为多个阶段，每个阶段所掩码的标签的数量可以不同，如随着目标模型的训练加深，其掩码的标签的数量呈递增趋势。

上述步骤604是基于目标模型进行特征融合的过程，其处理过程与步骤104类似，这里不进行赘述。

在步骤605中，输出信息可以包括仅基于所述第八特征向量确定的第二激活值，也可以同时包括第二激活值和基于第二激活值确定的第一样本信息的类别为预设类别的第二概率值。

在步骤606中，第一标签状态值为1时，标签为正标签，表示第一样本信息属于该标签标识id对应的预设类别，第一标签状态值为0时，标签为负标签，表示第一样本信息属于该标签标识id对应的预设类别。

可以通过限定基于负标签下的输出信息所确定的网络损失值和基于正标签下的输出信息所确定的网络损失值，来确定目标模型的网络损失值。如，在目标模型预测越准确的情况下，基于负标签下的输出信息所确定的网络损失值可以趋近为0，基于正标签下的输出信息所确定的网络损失值也可以趋近为0。

在步骤607中，可以采用梯度下降法更新目标模型的网络参数，且可以采用循环迭代的方式，不断更新目标模型的网络参数，直至网络损失值小于某一阈值，且达到收敛，此时目标模型可以训练完成。

本实施例中，通过获取训练样本数据，所述训练样本数据包括第一样本信息和M个预设类别对应的M个第一标签样本信息，所述第一标签样本信息用于指示所述第一样本信息在所述预设类别下的状态；对所述第一样本信息进行第一向量表征，得到第六特征向量；以及对M个第二标签样本信息进行第二向量表征，得到M个第七特征向量，所述M个第二标签样本信息基于所述M个第一标签样本信息确定；基于所述第六特征向量和所述M个第七特征向量进行融合处理，得到所述M个第二标签样本信息对应的M个第八特征向量；基于所述M个第八特征向量，确定M个输出信息；基于所述M个输出信息和所述第一标签样本信息，确定目标模型的网络损失值；基于所述网络损失值，更新所述目标模型的网络参数。如此，可以让目标模型学习文本与文本之间、文本与标签之间、标签与标签之间的关系，实现对目标模型的训练，使得该目标模型可以用于进行信息分类，提高信息分类的准确性。

可选的，所述第一标签样本信息的标签内容包括第一标签状态值，所述第一标签状态值用于表征所述第一样本信息是否属于所述预设类别，所述第一标签样本信息包括正标签的标签样本信息和负标签的标签样本信息，所述正标签为所述第一标签状态值指示所述第一样本信息属于所述预设类别的标签，所述负标签为所述第一标签状态值指示所述第一样本信息不属于所述预设类别的标签，所述输出信息包括基于所述第八特征向量确定的第二激活值；

所述步骤606具体包括：

基于第三预设类别对应的第二激活值，确定第一损失值，所述第三预设类别为所述正标签对应的预设类别；

基于第四预设类别对应的第二激活值，确定第二损失值，所述第四预设类别为所述负标签对应的预设类别；

基于所述第一损失值和所述第二损失值，确定所述网络损失值。

本实施方式中，可以采用下式(14)计算目标模型的网络损失值。

其中，上式(14)中，u表示几级类别，u＝1表示一级类别，u＝2表示二级类别，Ω

表示基于第三预设类别对应的第二激活值所确定的第一损失值，/>

可选的，所述第一标签样本信息包括第一类型的第一目标标签样本信息和第二类型的第二目标标签样本信息，所述第一目标标签样本信息为位于第一层级的第一预设类别下的标签信息，所述第二目标标签样本信息为位于第二层级的第二预设类别下的标签信息，所述第二层级为所述第一层级的子层级，所述M个预设类别包括所述第一预设类别和所述第二预设类别；所述输出信息还包括所述第一样本信息的类别为所述预设类别的第二概率值；

所述方法还包括：

将第一目标值与第二目标值进行比对，得到第三损失值，所述第一目标值包括所述第一样本信息的类别为所述正标签对应的第一预设类别的第二概率值，所述第二目标值包括所述第一样本信息的类别为所述正标签对应的第二预设类别的第二概率值；

所述基于所述第一损失值和所述第二损失值，确定所述网络损失值，包括：

将所述第一损失值、所述第二损失值和所述第三损失值进行聚合，得到所述网络损失值。

本实施方式中，可以通过下式(15)将第一目标值与第二目标值进行比对，得到第三损失值L

其中，上式(15)中，n表示一级类别id，m表示二级类别id，U

通过下式(16)将第一损失值、第二损失值和第三损失值聚合，得到目标模型的网络损失值L。

L＝L

其中，λ为权重值，为大于1的实数。

如此，可以进一步提高目标模型的训练效果，从而进一步提高信息分类的准确性。

可选的，所述目标模型的训练阶段包括K个阶段，第一阶段和第二阶段为所述K个阶段中任意相邻的两个阶段，所述第一阶段位于所述第二阶段之前，K为大于1的整数；所述方法还包括：

在所述目标模型的训练阶段位于所述第一阶段的情况下，将所述M个第一标签样本信息中第一数量的第一标签状态值设置为第二标签状态值，得到所述M个第二标签样本信息，所述第二标签状态值指示所述第一样本信息是否属于所述预设类别的结果为未知状态；

在所述目标模型的训练阶段位于所述第二阶段的情况下，将所述M个第一标签样本信息中第二数量的第一标签状态值设置为所述第二标签状态值，得到所述M个第二标签样本信息；

其中，所述第二数量大于所述第一数量。

本实施方式中，第二标签样本信息可以由第一标签样本信息对标签进行Mask得到。

Mask训练策略可以如下：

目标模型的训练阶段可以包括K个阶段，每个阶段可以包括至少一个训练周期Epoch，以10个阶段，且每个阶段包括10个训练周期为例，针对不同训练阶段，Mask掉不同比例的标签的标签状态，将Mask的标签的标签状态值从第一标签状态值设置为第二标签状态值，训练阶段和Mask的标签的比例的关系可以为：

C1即第一个训练阶段：在第1到第10个Epoch内，标签的Mask比例是10％。以第1个Epoch为例，设总训练样本量为N，每次输入1个样本的情况下，针对每个层级，随机Mask掉其中10％的标签，使标签的标签状态值从第一标签状态值变为第二标签状态值，让Mask掉的标签变为未知状态，之后前向传播进行训练。这样，当迭代所有的N个样本之后，则完成一个Epoch的训练。进入下一个训练周期，直到迭代完10个Epoch。

当训练到第11到第20个Epoch(第二个训练阶段)内时，标签的Mask比例是20％。重复第一个训练阶段的Mask操作，以此类推直到第91到第100个Epoch(即第十个训练阶段)时，Mask所有标签为未知状态。而实际模型推理测试阶段就是所有标签都是未知状态，这样可以完成从训练到部署测试阶段的完美过渡，进一步提高目标模型的训练效果。

可选的，所述步骤606具体包括：

基于所述M个输出信息、所述第一标签样本信息和目标参数，确定所述网络损失值；

其中，所述目标参数用于调节所述第一样本信息的类别为所述预设类别的第二概率值与所述第一标签状态值的差异，第一差异大于第二差异，第一差异为：所述目标模型的训练阶段位于所述第一阶段时，所述第一样本信息的类别为所述预设类别的第二概率值与所述第一标签状态值的差异，所述第二差异为：所述目标模型的训练阶段位于所述第二阶段时，所述第一样本信息的类别为所述预设类别的第二概率值与所述第一标签状态值的差异。

本实施方式中，可以采用带有超参数T的损失函数，用于配合分训练阶段进行Mask策略的训练；其可以为称之为sharp-MCE，全称是sharp multi-label cross entropyloss。

如上式(13)和(14)所示，T即为超参数即目标参数，该目标参数用于调节所述第一样本信息的类别为所述预设类别的第二概率值与所述第一标签状态值的差异。比如，若第一样本信息的类别为预设类别时，其理想的概率值即第一标签状态值为1，目标参数可以调节所预测得到的概率值与理想的概率值的差异，当需要加大训练难度时，加大其差异，加大预测得到的概率值与1的偏离程度。当需要减少训练难度时，减少其差异，减少预测得到的概率值与1的偏离程度。

又比如，若第一样本信息的类别不为预设类别时，其理想的概率值即第一标签状态值为0，目标参数可以调节所预测得到的概率值与理想的概率值的差异，当需要加大训练难度时，加大其差异，加大预测得到的概率值与0的偏离程度。当需要减少训练难度时，减少其差异，减少预测得到的概率值与0的偏离程度。

可以设计超参数T和训练周期Epoch的关系，目的是为了调节不同训练周期时的训练难度，让目标模型从训练阶段慢慢过渡到推理阶段，进一步可以提高目标模型的训练效果。当训练周期在1到10期间时，Mask的标签比例是10％，有90％的未Mask标签作为模型的输入，这相当于有90％的标签信息作为已知信息输入到目标模型中，以预测所有的标签，这大大降低了训练难度。为了让目标模型慢慢过渡到不依赖已知输入的标签信息，可以在其他地方提升训练难度，这里T就是起到调节训练难度的作用。

当训练周期在1到10期间时，T可以设置为10，会加大第一样本信息的类别为所述预设类别的第二概率值与所述第一标签状态值的差异，使得网络损失值也加大，进而提升训练难度。当训练周期在11到20期间时，T可以设置为9，依次类推，直至T＝1。当训练到第91至100周期内时，T＝1，Mask标签比例为0，相当于没有已知的标签信息作为输入，跟部署测试阶段保持一致。

另外，当T＝1时，损失函数就是正常的交叉熵损失函数。也就是说当训练到第91至100周期内时，目标模型的训练过程退化为一般的训练过程，而前向推理也就过渡到了跟推理测试阶段一样的情况。

需要说明的是，本申请实施例提供的信息分类方法，执行主体可以为信息分类装置，或者信息分类装置中的用于执行信息分类方法的控制模块。本申请实施例中以信息分类装置执行信息分类方法为例，说明本申请实施例提供的信息分类装置。

参见图7，图7是本申请实施例提供的信息分类装置的结构图，如图7所示，信息分类装置700包括：

第一获取模块701，用于获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态，M为大于1的整数；

第一向量表征模块702，用于对所述第一信息进行第一向量表征，得到第一特征向量；

第二向量表征模块703，用于对所述M个标签信息进行第二向量表征，得到M个第二特征向量；

融合处理模块704，用于基于目标模型，基于所述第一特征向量和所述M个第二特征向量进行融合处理，得到所述M个标签信息对应的M个第三特征向量，所述第三特征向量用于表征所述标签信息与所述第一信息之间的关联关系，以及不同标签信息之间的关联关系；

分类模块705，用于基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。

可选的，所述融合处理模块704包括：

第一融合单元，用于将所述第一特征向量分别与所述M个第二特征向量进行相乘处理，得到M个第一权重；将所述M个第一权重与所述M个第二特征向量进行加权处理，得到第四特征向量；

第二融合单元，用于针对所述M个第二特征向量中的第i个第二特征向量，将所述第i个第二特征向量与所述第一特征向量进行相乘处理，以及将所述第i个第二特征向量与所述M个第二特征向量中，除所述第i个第二特征向量之外的其他第二特征向量进行相乘处理，得到M个第二权重；将所述M个第二权重与所述第一特征向量、所述其他第二特征向量进行加权处理，得到所述第i个第二特征向量对应的第五特征向量，i为小于或等于M的正整数；

第三融合单元，用于基于所述第四特征向量和所述第五特征向量进行融合处理，得到所述M个第三特征向量。

可选的，所述标签信息包括第一类型的第一标签信息和第二类型的第二标签信息，所述第一标签信息为位于第一层级的第一预设类别下的标签信息，所述第二标签信息为位于第二层级的第二预设类别下的标签信息，所述第二层级为所述第一层级的子层级，所述M个预设类别包括所述第一预设类别和所述第二预设类别；所述第三融合单元，具体用于：

可选的，所述基于第一目标特征向量和所述第五特征向量进行融合处理，得到一个所述第三特征向量，包括：

将所述至少两个第三权重与所述第一目标特征向量进行加权处理，得到一个所述第三特征向量。

可选的，所述分类模块705，具体用于：

基于所述第三特征向量，确定第一激活值；

基于所述第一激活值，确定所述第一信息的类别为所述第三特征向量对应的预设类别的第一概率值；

基于所述第一概率值，确定所述第一目标类别。

本申请实施例中的信息分类装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的信息分类装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的信息分类装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

需要说明的是，本申请实施例提供的模型训练方法，执行主体可以为模型训练装置，或者模型训练装置中的用于执行模型训练方法的控制模块。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

参见图8，图8是本申请实施例提供的模型训练装置的结构图，如图8所示，模型训练装置800包括：

第二获取模块801，用于获取训练样本数据，所述训练样本数据包括第一样本信息和M个预设类别对应的M个第一标签样本信息，所述第一标签样本信息用于指示所述第一样本信息在所述预设类别下的状态，M为大于1的整数；

第一向量表征模块802，用于对所述第一样本信息进行第一向量表征，得到第六特征向量；

第二向量表征模块803，用于对M个第二标签样本信息进行第二向量表征，得到M个第七特征向量，所述M个第二标签样本信息基于所述M个第一标签样本信息确定；

融合处理模块804，用于基于所述第六特征向量和所述M个第七特征向量进行融合处理，得到所述M个第二标签样本信息对应的M个第八特征向量；

第一确定模块805，用于基于所述M个第八特征向量，确定M个输出信息；

第二确定模块806，用于基于所述M个输出信息和所述第一标签样本信息，确定目标模型的网络损失值；

更新模块807，用于基于所述网络损失值，更新所述目标模型的网络参数。

第一确定单元，用于基于第三预设类别对应的第二激活值，确定第一损失值，所述第三预设类别为所述正标签对应的预设类别；

第二确定单元，用于基于第四预设类别对应的第二激活值，确定第二损失值，所述第四预设类别为所述负标签对应的预设类别；

第三确定单元，用于基于所述第一损失值和所述第二损失值，确定所述网络损失值。

比对模块，用于将第一目标值与第二目标值进行比对，得到第三损失值，所述第一目标值包括所述第一样本信息的类别为所述正标签对应的第一预设类别的第二概率值，所述第二目标值包括所述第一样本信息的类别为所述正标签对应的第二预设类别的第二概率值；

所述第三确定单元，具体用于将所述第一损失值、所述第二损失值和所述第三损失值进行聚合，得到所述网络损失值。

可选的，所述目标模型的训练阶段包括K个阶段，第一阶段和第二阶段为所述K个阶段中任意相邻的两个阶段，所述第一阶段位于所述第二阶段之前，K为大于1的整数；所述装置还包括：

第一设置模块，用于在所述目标模型的训练阶段位于所述第一阶段的情况下，将所述M个第一标签样本信息中第一数量的第一标签状态值设置为第二标签状态值，得到所述M个第二标签样本信息，所述第二标签状态值指示所述第一样本信息是否属于所述预设类别的结果为未知状态；

第二设置模块，用于在所述目标模型的训练阶段位于所述第二阶段的情况下，将所述M个第一标签样本信息中第二数量的第一标签状态值设置为所述第二标签状态值，得到所述M个第二标签样本信息；

其中，所述第二数量大于所述第一数量。

可选的，所述第二确定模块806，具体用于：

基于所述M个输出信息、所述第一标签样本信息和目标参数，确定所述网络损失值；

本申请实施例中的模型训练装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的模型训练装置能够实现图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901，存储器902，存储在存储器902上并可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述信息分类方法实施例的各个过程，或者，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

该电子设备可用于信息分类方法，其中，处理器1010，用于：

获取第一信息和M个预设类别对应的M个标签信息，所述标签信息用于指示所述第一信息在所述预设类别下的状态，M为大于1的整数；

对所述第一信息进行第一向量表征，得到第一特征向量；以及对所述M个标签信息进行第二向量表征，得到M个第二特征向量；

基于所述M个第三特征向量，对所述第一信息进行分类，得到第一目标类别，所述第一目标类别为所述M个预设类别中的类别。

该电子设备还可以用于实现模型训练方法，其中，处理器1010，用于：

基于所述M个输出信息和所述第一标签样本信息，确定目标模型的网络损失值；

基于所述网络损失值，更新所述目标模型的网络参数。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述信息分类方法实施例的各个过程，或者，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述信息分类方法实施例的各个过程，或者，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：罗龙强;
专利申请人：维沃移动通信有限公司;

上一篇：成像镜头模块、相机模块及电子装置
下一篇：一种永磁同步电机外部线缆连接故障诊断方法