掌桥专利:专业的专利平台
掌桥专利
首页

训练分类模型的方法和装置及分类方法

文献发布时间:2023-06-19 11:02:01


训练分类模型的方法和装置及分类方法

技术领域

本公开涉及信息处理领域,具体涉及一种训练分类模型的方法和装置以及分类方法。

背景技术

近年来,深度卷积神经网络的快速发展极大地改善了图像识别尤其是人脸识别的技术水平。除了不断发展的架构外,大规模的训练样本集的收集在人脸识别中也起着至关重要的作用。然而,在现实世界中,人脸数据样本通常呈现长尾分布。也就是说,只有一小部分人具有足够的样本,而对于其他大部分人来说,只有很少的样本可用。使用这样的呈现长尾分布的训练样本集对人脸识别模型进行训练难以获得识别性能好的模型,从而导致使用这样的模型对人脸进行识别时不能取得较高的准确度。

发明内容

在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。

鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练分类模型的方法和装置以及分类方法。

根据本公开的一方面,提供了一种训练分类模型的方法,包括:使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

根据本公开的另一方面,提供了一种训练分类模型的装置,包括:训练单元,被配置成使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;向量提取单元,被配置成提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;平均向量计算单元,被配置成计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;损失计算单元,被配置成基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;总损失计算单元,被配置成基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及调整单元,被配置成基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

根据本公开的又一方面,提供了一种使用根据上述方法或装置进行训练所获得的分类模型对待分类对象进行分类的分类方法,包括:将所述待分类对象输入到所述分类模型中,并且基于所述分类模型的特征提取层中至少之一的输出对所述待分类对象进行分类。

根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品,以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。

在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:

图1是示出根据本公开的实施例的训练分类模型的方法的流程图;

图2是示出根据本公开的实施例的训练分类模型的装置的框图;

图3是示出根据本公开的实施例的利用分类模型进行分类的方法的流程图;

图4是示出根据本公开的实施例的利用分类模型进行分类的装置的框图;以及

图5是示出作为本公开的实施例中可采用的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先,将参照图1描述根据本公开的实施例的训练分类模型的方法的流程图。如图1所示,根据本公开的实施例的训练分类模型的方法100可以包括步骤S101至S113。

在步骤S102中,可以使用第一样本集和第二样本集对分类模型进行训练,以计算分类模型的分类损失。

根据本公开的一个实施例,第一样本集可以指整个样本集中的头部数据样本集,并且第二样本集可以指整个样本集中的除了第一样本集以外的长尾数据样本集。本领域技术人员可以根据需要,将训练样本集中的样本的数目不小于预定阈值的样本构成的集合用作头部数据样本集,并且将训练样本集中的样本的数目小于该预定阈值的样本构成的集合用作长尾数据样本集。

根据本公开的一个实施例,在步骤S102中,可以使用本领域常用的损失函数如Softmax损失函数来计算分类模型的分类损失。此外,本领域技术人员还可以想到损失函数的其他示例,这里不再累述。

根据本公开的一个实施例,分类模型可以是基于神经网络的模型,诸如卷积神经网络(CNN)模型,但不限于此,并且本领域技术人员可以根据实际需要选择适当的模型,这里将不再赘述。

在步骤S104中,可以提取第一样本集和第二样本集中的每个样本的权重向量和特征向量。

可以利用本领域常用的方式获得每个样本的权重向量和特征向量,在此不再累述。

在步骤S106中,可以计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量。

根据本公开的一个实施例,可以采用下面的等式(1)和等式(2)来分别计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量:

其中,w

在步骤S108中,可以基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失,并且基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失。

根据本公开的一个实施例,可以采用下面的等式(3)和等式(4)来分别计算权重损失和特征损失:

其中,L

在步骤S110中,可以基于特征损失和权重损失中的至少一个以及分类损失来计算分类模型的总损失。

根据本公开的一个实施例,可以采用下面的等式(5)来计算分类模型的总损失:

L=L

其中,L表示分类模型的总损失,L

λ

当基于权重损失L

当仅基于权重损失L

当仅基于特征损失L

在步骤S112中,可以基于总损失来调整分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

根据本公开的一个实施例,在步骤S112中,朝着使总损失最小的方向调整分类模型的参数。然后,迭代地进行步骤S102至步骤S112中的处理,直到满足预定条件。根据本公开的一个实施例,预定条件可以是分类模型的总损失达到预定值(足够小)或者迭代达到预定次数。本领域技术人员可以根据实际需要设定该预定条件,这里不再赘述。

根据本公开的实施例的训练分类模型的方法具有广泛的应用。例如,根据本公开的实施例的训练分类模型的方法可以应用于人脸识别领域。在人脸识别应用中,可以将人脸图像样本的数目不小于预定阈值的人的人脸图像样本构成的集合定义为头部数据样本集(第一样本集),将人脸图像样本的数目小于该预定阈值的人的人脸图像样本构成的集合定义为长尾数据样本集(第二样本集),并且本领域技术人员可以根据实际需要适当地设定该预定阈值。

由于在现实世界中,人脸数据样本通常呈现长尾分布。也就是说,只有一小部分人具有足够的样本,而对于其他大部分人来说,只有很少的样本可用。使用这样的呈现长尾分布的训练样本集对人脸识别模型(分类模型)进行训练难以获得识别性能好的模型,从而导致使用这样的模型对人脸进行识别时不能取得较高的准确度。这主要是由于,当用整个训练数据样本集训练分类模型时,与头部数据样本相比,长尾数据样本的权重向量和特征向量的模非常小,从而严重影响了模型的识别性能以及人脸识别的准确度。

在根据本公开的实施例的训练分类模型的方法中,使用长尾数据样本集(第二样本集)中的每个样本的权重向量与头部数据样本集(第一样本集)中的所有样本的权重向量的平均权重向量之间的差作为权重损失,使用长尾数据样本集(第二样本集)中的每个样本的特征向量与头部数据样本集(第一样本集)中的所有样本的特征向量的平均特征向量之间的差作为特征损失,并且在分类模型的总损失中考虑了该权重损失和/或特征损失,因此根据本公开的实施例的训练分类模型的方法可以使得长尾数据样本的权重向量和特征向量的模基本上等于头部数据样本的权重向量和特征向量的模,从而极大地提高了分类模型的识别(分类)性能以及人脸识别的准确度。因此根据本公开的实施例的训练分类模型的方法可以获得分类性能好的分类模型,从而极大地提高分类的准确度。

注意,虽然描述了根据本公开的实施例的训练分类模型的方法应用于人脸识别领域的应用示例,但是该训练分类模型的方法的应用不限于此,并且本领域技术人员可以根据实际需要将训练分类模型的方法应用于各种方面,例如进行动物识别等,这里将不再赘述。

与上述训练分类模型的方法相对应的,本公开还提供了以下训练分类模型的装置。

图2是示出根据本公开的实施例的训练分类模型的装置的框图。如图2所示,根据本公开实施例的训练分类模型的装置200可以包括:训练单元202、向量提取单元204、平均向量计算单元206、损失计算单元208、总损失计算单元210和调整单元212。

训练单元202可以被配置成使用第一样本集和第二样本集对分类模型进行训练,以计算分类模型的分类损失。向量提取单元204可以被配置成提取第一样本集和第二样本集中的每个样本的权重向量和特征向量。平均向量计算单元206可以被配置成计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量。损失计算单元208可以被配置成基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失,并且基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失。总损失计算单元210可以被配置成基于特征损失和权重损失中的至少一个以及分类损失来计算分类模型的总损失。调整单元212可以被配置成基于总损失来调整分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

根据本公开的一个实施例,第一样本集可以指整个样本集中的头部数据样本集,并且第二样本集可以指整个样本集中的除了第一样本集以外的长尾数据样本集。本领域技术人员可以根据需要,将训练样本集中的样本的数目不小于预定阈值的样本构成的集合用作头部数据样本集,并且将训练样本集中的样本的数目小于该预定阈值的样本构成的集合用作长尾数据样本集。

根据本公开的一个实施例,训练单元202可以使用Softmax损失函数来计算分类模型的分类损失。此外,本领域技术人员还可以想到损失函数的其他示例,这里不再累述。

根据本公开的一个实施例,分类模型可以是基于神经网络的模型,诸如卷积神经网络(CNN)模型,但不限于此,并且本领域技术人员可以根据实际需要选择适当的模型,这里将不再赘述。

根据本公开的一个实施例,向量提取单元204可以利用本领域常用的方式获得每个样本的权重向量和特征向量,这里不再累述。

根据本公开的一个实施例,平均向量计算单元206可以采用上面的等式(1)和等式(2)来分别计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量。

根据本公开的一个实施例,损失计算单元208可以采用上面的等式(3)和等式(4)来分别计算权重损失和特征损失。

根据本公开的一个实施例,总损失计算单元210可以采用上面的等式(5)来计算分类模型的总损失。

当基于权重损失L

当仅基于权重损失L

当仅基于特征损失L

根据本公开的一个实施例,调整单元212可以朝着使总损失最小的方向调整分类模型的参数。然后,迭代地进行训练单元202、向量提取单元204、平均向量计算单元206、损失计算单元208、总损失计算单元210和调整单元212中的处理,直到满足预定条件。根据本公开的一个实施例,预定条件可以是分类模型的总损失达到预定值(足够小)或者迭代达到预定次数。本领域技术人员可以根据实际需要设定该预定条件,这里不再赘述。

与上述根据本公开的实施例的训练分类模型的方法类似地,根据本公开的实施例的训练分类模型的装置具有广泛的应用。例如,根据本公开的实施例的训练分类模型的装置可以应用于人脸识别领域。

在根据本公开的实施例的训练分类模型的装置中,使用长尾数据样本集(第二样本集)中的每个样本的权重向量与头部数据样本集(第一样本集)中的所有样本的权重向量的平均权重向量之间的差作为权重损失,使用长尾数据样本集(第二样本集)中的每个样本的特征向量与头部数据样本集(第一样本集)中的所有样本的特征向量的平均特征向量之间的差作为特征损失,并且在分类模型的总损失中考虑了该权重损失和/或特征损失,因此根据本公开的实施例的训练分类模型的方法可以使得长尾数据样本的权重向量和特征向量的模基本上等于头部数据样本的权重向量和特征向量的模,从而极大地提高了分类模型的识别(分类)性能以及人脸识别的准确度。因此根据本公开的实施例的训练分类模型的装置可以获得分类性能好的分类模型,从而极大地提高分类的准确度。

注意,虽然描述了根据本公开的实施例的训练分类模型的装置应用于人脸识别领域的应用示例,但是该训练分类模型的装置的应用不限于此,并且本领域技术人员可以根据实际需要将训练分类模型的装置应用于各种方面,例如进行动物识别等,这里将不再赘述。

此外,本公开还提出了一种使用根据上述训练分类模型的方法或装置进行训练所获得的分类模型对待分类对象进行分类的方法。

图3是示出根据本公开的实施例的利用所获得的分类模型对待分类对象进行分类的方法的流程图。如图3所示,根据本公开的实施例的分类方法300可以包括开始步骤S301、分类步骤302和结束步骤S303。在分类步骤S302中,可以将待分类对象输入到分类模型中,并且基于分类模型的特征提取层中至少之一的输出对待分类对象进行分类。

例如,可以预先将多个对象输入分类模型,由此得到针对这多个对象的特征提取层的输出。在这种情况下,在分类步骤S302中,可以将待分类对象输入分类模型,并且基于针对待分类对象的至少一个特征提取层的输出与针对多个对象中的每一个对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,在分类步骤S302中,可以将待分类对象确定为其相应的特征提取层的输出与针对待分类对象的相应的特征提取层的输出之间的差异最小的对象。

此外,例如,在将待分类对象输入分类模型的情况下,可以将另外的对象输入分类模型,并且在分类步骤S302中,可以基于针对待分类对象的至少一个特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,在分类步骤S302中,可以在针对待分类对象的相应的特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的差异小于预定阈值的情况下,将待分类对象确定为另外的对象。

作为示例,在分类模型是包括作为特征提取层的全连接层和至少一个卷积层的卷积神经网络模型的情况下,例如,在分类步骤S302中,可以基于全连接层的输出对待分类对象进行分类。

与上述利用分类模型进行分类的方法实施例相对应地,本公开还提供了一种使用根据上述训练分类模型的方法或装置进行训练所获得的分类模型对待分类对象进行分类的装置。

图4是示出根据本公开的实施例的利用所获得的分类模型对待分类对象进行分类的装置的框图。如图4所示,根据本公开的实施例的利用分类模型进行分类的分类装置400可以包括分类单元402,该分类单元402可以被配置成将待分类对象输入分类模型,并且基于分类模型的特征提取层中至少之一的输出对待分类对象进行分类。

例如,装置400可以预先将多个对象输入分类模型,由此得到针对这多个对象的特征提取层的输出。在这种情况下,分类单元402可以将待分类对象输入分类模型,并且基于针对待分类对象的特征提取层中至少之一的输出与针对多个对象中的每一个对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,分类单元402可以将待分类对象确定为其相应的特征提取层的输出与针对待分类对象的相应的特征提取层的输出之间的差异最小的对象。

此外,例如,在分类单元402将待分类对象输入分类模型的情况下,可以将另外的对象输入分类模型,并且分类单元402可以基于针对待分类对象的至少一个特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,分类单元402可以在针对待分类对象的相应的特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的差异小于预定阈值的情况下,将待分类对象确定为该另外的对象。

作为示例,在分类模型是包括作为特征提取层的全连接层和至少一个卷积层的卷积神经网络模型的情况下,例如,分类单元402可以基于全连接层的输出对待分类对象进行分类。

应指出,尽管以上描述了根据本公开的实施例的训练分类模型的方法和装置以及利用分类模型进行分类的方法和装置的功能配置以及操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。

此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应部分的描述,在此不再重复描述。

应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述分类方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。

相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用个人计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。

在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等时所需的数据。

CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505:输入部分506,包括键盘、鼠标等;输出部分507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分508,包括硬盘等;和通信部分509,包括网络接口卡比如LAN卡、调制解调器等。通信部分509经由网络比如因特网执行通信处理。

根据需要,驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。

在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。

另外,根据本公开的技术还可以如下进行配置。

附记1.一种训练分类模型的方法,包括:

使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;

提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;

计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;

基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;

基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及

基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

附记2.根据附记1所述的方法,其中,所述权重损失和所述平均权重向量分别基于下式来计算:

其中,L

附记3.根据附记1所述的方法,其中,所述特征损失和所述平均特征向量分别基于下式来计算:

其中,L

附记4.根据附记1所述的方法,其中,所述第一样本集包括头部数据样本集,以及所述第二样本集包括长尾数据样本集。

附记5.根据附记1所述的方法,其中,所述分类损失包括Softmax损失。

附记6.根据附记1所述的方法,其中,所述预定条件包括所述总损失达到预定值或所述训练的次数达到预定次数。

附记7.根据附记1所述的方法,其中,所述分类模型包括基于神经网络的模型。

附记8.根据附记1所述的方法,其中,所述总损失基于下式来计算:

L=L

其中,L表示所述分类模型的总损失,L

附记9.根据附记8所述的方法,其中,当基于所述分类损失、所述权重损失和所述特征损失来计算所述总损失时,λ

附记10.根据附记1所述的方法,其中,所述分类模型用于进行人脸识别。

附记11.一种训练分类模型的装置,包括:

训练单元,被配置成使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;

向量提取单元,被配置成提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;

平均向量计算单元,被配置成计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;

损失计算单元,被配置成基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;

总损失计算单元,被配置成基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及

调整单元,被配置成基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

附记12.根据附记11所述的装置,其中,所述权重损失和所述平均权重向量分别基于下式来计算:

其中,L

附记13.根据附记11所述的装置,其中,所述特征损失和所述平均特征向量分别基于下式来计算:

其中,L

附记14.根据附记11所述的装置,其中,所述第一样本集包括头部数据样本集,以及所述第二样本集包括长尾数据样本集。

附记15.根据附记11所述的装置,其中,所述分类损失包括Softmax损失。

附记16.根据附记11所述的装置,其中,所述预定条件包括所述总损失达到预定值或所述训练的次数达到预定次数。

附记17.根据附记11所述的装置,其中,所述分类模型包括基于神经网络的模型。

附记18.根据附记11所述的装置,其中,所述总损失基于下式来计算:

L=L

其中,L表示所述分类模型的总损失,L

附记19.根据附记18所述的装置,其中,当基于所述分类损失、所述权重损失和所述特征损失来计算所述总损失时,λ

附记20.一种使用根据附记1至10中任一项所述的方法或根据附记11至19中任一项所述的装置进行训练所获得的分类模型对待分类对象进行分类的分类方法,包括:

将所述待分类对象输入到所述分类模型中,并且基于所述分类模型的特征提取层中至少之一的输出对所述待分类对象进行分类。

相关技术
  • 基于分类模型的文本分类方法及装置,以及模型训练方法
  • 图像分类方法、装置及分类模型的训练方法、装置
技术分类

06120112773277