图像分类方法、特征提取网络的训练方法和装置

文献发布时间：2023-06-19 09:27:35

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种图像分类方法、特征提取网络的训练方法和装置。

背景技术

为了对网络中传播的视频进行内容监管，需要从视频中识别敏感图像，如低俗图像、色情图像、暴力图像、恐怖图像等。相关技术中，可以通过深度学习的方法识别这些敏感图像，具体而言，首先通过预先训练的检测模型提取图像的高层语义特征，进而基于该高层语义特征对图像进行分类。但是，在直播场景下，视频图像的来源、结构更加复杂，上述方式难以准确有效地识别敏感图像，导致敏感图像的漏检率和误检率较高。

发明内容

有鉴于此，本发明的目的在于提供一种图像分类方法、特征提取网络的训练方法和装置，以提高识别敏感图像的准确度。

第一方面，本发明实施例提供了一种图像分类方法，该方法包括：将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；基于图像特征，确定目标图像的类别；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。

进一步的，特征提取网络还包括至少两个特征处理模块，以及特征融合模块；每个特征处理模块连接一个层级的特征提取层；任意两个特征处理模块连接的特征提取层不同；将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征的步骤，包括：通过每个特征处理模块，基于注意力机制对特征处理模块连接的特征提取层输出的层级特征进行处理，输出中间特征；通过特征融合模块，对每个特征处理模块输出的中间特征进行融合，得到图像特征。

进一步的，至少两个特征处理模块包括：第一特征处理模块、第二特征处理模块和第三特征处理模块；其中，第一特征处理模块连接最低层级的特征提取层；最低层级的特征提取层用于输入目标图像；第二特征处理模块连接中间层级中指定的特征提取层；第三特征处理模块连接最高层级的特征提取层。

进一步的，特征处理模块包括池化层、第一全连接层和特征相乘层；基于注意力机制对特征处理模块连接的特征提取层输出的层级特征进行处理，输出中间特征的步骤，包括：通过池化层对输入的层级特征进行第一池化处理，输出第一池化结果；通过第一全连接层，对第一池化结果进行第一全连接处理，输出第一全连接结果；通过特征相乘层将输入的层级特征和第一全连接结果进行相乘，得到相乘结果；基于相乘结果输出中间特征。

进一步的，特征处理模块还包括空间金字塔池化层；空间金字塔池化层与特征相乘层连接；基于相乘结果输出中间特征的步骤，包括：通过空间金字塔池化层对相乘结果进行第二池化处理，输出指定维度的中间特征。

进一步的，特征融合模块包括特征拼接层、第二全连接层和第三全连接层；通过特征融合模块，对每个特征处理模块输出的中间特征进行融合，得到图像特征的步骤，包括：通过特征拼接层对每个特征处理模块输出的中间特征进行拼接处理，输出拼接特征；通过第二全连接层对拼接特征进行第二全连接处理，输出第二全连接结果；通过第三全连接层对第二全连接结果进行第三全连接处理，输出图像特征。

进一步的，基于图像特征，确定目标图像的类别的步骤，包括：将图像特征输入至预设的归一化指数函数中，输出概率分布向量；其中，概率分布向量包括多个类别，以及每个类别对应的概率值；将概率分布向量中，最大的概率值对应的类别确定为目标图像的类别。

第二方面，本发明实施例提供了一种特征提取网络的训练方法，方法包括：基于预设的样本集合确定训练样本；其中，训练样本包括样本图像和样本图像的类别标签；将样本图像输入至特征提取网络中，得到样本图像的样本特征；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；样本特征通过至少两个层级对应的层级特征进行融合得到；基于样本特征，确定样本图像的类别识别结果；基于预设的分类损失函数、类别标签和类别识别结果确定损失值；基于损失值更新特征提取网络的网络参数；继续执行基于预设的样本集合确定训练样本的步骤，直至损失值收敛，得到训练后的特征提取网络。

第三方面，本发明实施例提供了一种图像分类装置，装置包括：输出模块，用于将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；分类模块，用于基于图像特征，确定目标图像的类别；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。

第四方面，本发明实施例提供了一种特征提取网络的训练装置，装置包括：样本确定模块，用于基于预设的样本集合确定训练样本；其中，训练样本包括样本图像和样本图像的类别标签；图像输入模块，用于将样本图像输入至特征提取网络中，得到样本图像的样本特征；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；样本特征通过至少两个层级对应的层级特征进行融合得到；参数更新模块，用于基于样本特征，确定样本图像的类别识别结果；基于预设的分类损失函数、类别标签和类别识别结果确定损失值；基于损失值更新特征提取网络的网络参数；网络确定模块，用于继续执行基于预设的样本集合确定训练样本的步骤，直至损失值收敛，得到训练后的特征提取网络。

第五方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现第一方面的图像分类方法，或第二方面的特征提取网络的训练方法。

第六方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现第一方面的图像分类方法，或第二方面的特征提取网络的训练方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种图像分类方法、特征提取网络的训练方法和装置，将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；基于图像特征，确定目标图像的类别；其中的特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。该方式中，图像特征中包括至少两个层级的层级特征，因而该图像特征中包含的特征层级更加丰富，可以应对直播等复杂场景下的图像识别，从而可以准确有效地识别敏感图像，降低了敏感图像的漏检率和误检率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像分类方法的流程图；

图2为本发明实施例提供的另一种图像分类方法的流程图；

图3为本发明实施例提供的一种特征提取网络的结构示意图；

图4为本发明实施例提供的一种特征提取网络的训练方法的流程图；

图5为本发明实施例提供的一种图像分类装置的结构示意图；

图6为本发明实施例提供的一种特征提取网络的训练装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着网络技术和智能移动平台的发展，直播和移动直播已经成为深入至人们的日常生活中；如果不对网络中传播的视频进行监管，很容易变成淫秽色情及暴力的传播手段，使广大网民受害；为了对网络中传播的视频进行内容监管，需要从视频中识别敏感图像；但是由于直播平台的数量巨大，人力监管往往会费事费力，耗费大量成本；传统方法中，可以通过特征匹配算法识别敏感图像，但是直播环境多样化，光照变化强烈、分辨率较低、人体姿态差异明显，因此无法用简单的特征匹配算法达到准确的分类；另外，训练样本量过少，训练方法过于简单，无法真正的识别到内容复杂多样的敏感图像。

相关技术中，还可以通过深度学习的方法识别这些敏感图像，比如，卷积神经网络，该方式已经在图像识别领域取得了较好的成果，具体而言，首先通过预先训练的检测模型提取图像的高层语义特征，进而基于该高层语义特征对图像进行分类。但是，在直播场景下，视频图像来源多样、结构复杂，上述方式难以准确有效地识别敏感图像，导致敏感图像的漏检率和误检率较高。基于此，本发明实施例提供的一种图像分类方法、特征提取网络的训练方法和装置，该技术可以应用于手机、电脑等设备，尤其可以应用于具有网络直播或网络视频播放功能的设备。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种图像分类方法进行详细介绍，如图1所示，该方法包括如下步骤：

步骤S102，将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；

上述目标图像可以是网络传播的视频图像或网络直播平台中的视频图像等，比如，直播场景图像，通常是包含人物的图像；上述预先训练完成的特征提取网络可以是CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、DNN(Deep Neural Network，深度神经网络)等网络模型；该网络通常可以包含有多层卷积网络，还可以包含有多个激活函数等。上述图像特征通常包含目标图像的多层次特征，比如，可以包括目标图像的底层(颜色、纹理等)特征、中层(形状等)特征或高层(语义等)特征中的一种或多种。该图像特征可以特征向量。

具体的，上述目标图像可以表示为X∈R

步骤S104，基于图像特征，确定目标图像的类别；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。

上述目标图像的类别可以包括多种，可以是正常图像和敏感图像；还可以是正常图像、低俗图像、色情图像和暴力图像，其中低俗图像、色情图像和暴力图像属于敏感图像；实际实现时，由于图像特征包含有目标图像的多层次特征，比如，目标图像中背景及人物的颜色、对象的形状、文字的语义等特征，因此可以根据图像特征，利用计算概率的方式，确定目标图像每种类别的概率，最后根据计算得到的每种类别的概率大小确定目标图像的类别。也可以根据图像特征，通过分类器得到目标图像的类别。

上述多层级特征提取层至少包括两个，还可以包括三个、四个或者更多，通常特征提取层越多最终提取得到的目标图像的层级特征更加丰富，性能越好，同样的提取特征的时间也会增加，速度则越慢；因此，特征提取层的层数可以具体根据实际要求的分类速度与精度需求进行设置。上述每层级特征提取层可以包括多个卷积网络(也可以称为卷积层)以及多个激活函数；卷积层的作用是卷积运算，卷积运算的目的是提取目标图像的不同特征，第一层卷积层通常只能提取一些低级的图像特征如边缘、线条和角等层级，更多层的卷积层可以从低级特征中迭代提取更复杂的图像特征。因此，对于多层级特征提取层，每层级特征提取层输出的层级特征的图像信息都是不同的；比如，低层级的特征提取层输出的层级特征包含目标图像较为简单的背景颜色、纹理等特征；中间层级的特征提取层输出的层级特征包含目标图像中每个对象的形状、人物动作、人物皮肤颜色及面积等特征；较高层级的特征提取层输出的层级特征包含目标图像中文字的语义等特征；将不同层级对应的层级特征进行融合，得到目标图像的图像特征。该方式能够提取得到多种层级特征，以使最终融合的图像特征更加丰富。

本发明实施例提供的一种图像分类方法，将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；基于图像特征，确定目标图像的类别；其中的特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。该方式中，图像特征中包括至少两个层级的层级特征，因而该图像特征中包含的特征层级更加丰富，可以应对直播等复杂场景下的图像识别，从而可以准确有效地识别敏感图像，降低了敏感图像的漏检率和误检率。

本实施例还提供了另一种图像分类方法，该方法在上述实施例的基础上实现，本实施例重点描述将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征的步骤的具体实现过程(通过步骤S202-S204实现)，以及基于图像特征，确定目标图像的类别的步骤的具体实现过程(通过步骤S206-S208实现)；

本实施例中，特征提取网络还包括至少两个特征处理模块，以及特征融合模块；每个特征处理模块连接一个层级的特征提取层；任意两个特征处理模块连接的特征提取层不同；其中，特征处理模块用于将对应的特征提取层输出的层级特征进行进一步的处理，得到更加准确且具有判别力的特征；上述特征融合模块用于将每个特征处理模块输出的特征进行融合。上述特征处理模块的数量通常大于或者等于特征提取层的数量。

如图2所示，该方法包括如下步骤：

步骤S202，通过每个特征处理模块，基于注意力机制对特征处理模块连接的特征提取层输出的层级特征进行处理，输出中间特征；

为了使特征提取层输出的层级特征更加准确、特征信息更加明显，可以通过特征处理模块，对层级特征进行处理。上述注意力机制类似于人类视网膜不同的部位具有不同程度的信息处理能力，即通过扫描特征处理模块连接的特征提取层输出的层级特征，获取需要重点关注的目标特征，而后对这一特征投入更多的注意力资源，获取更多与目标特征有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力资源从层级特征的大量信息中快速筛选出高价值的特征，进而输出中间特征。

上述至少两个特征处理模块包括：第一特征处理模块、第二特征处理模块和第三特征处理模块；其中，第一特征处理模块连接最低层级的特征提取层；最低层级的特征提取层用于输入目标图像；第二特征处理模块连接中间层级中指定的特征提取层；第三特征处理模块连接最高层级的特征提取层。

参见图3所示的特征提取网络的结构示意图，以特征提取网络包括串联的五个特征提取层为例进行说明，分别为特征提取层1、特征提取层2、特征提取层3、特征提取层4、特征提取层5；其中特征提取层1对应上述最低层级的特征提取层；特征提取层2、特征提取层3和特征提取层4对应上述中间层级中的特征提取层；特征提取层5对应上述最高层级的特征提取层。另外，特征提取网络包括三个特征处理模块，第一特征处理模块、第二特征处理模块和第三特征处理模块；分别与特征提取层1、特征提取层3、以及特征提取层5连接。

另外，上述参见图3所示，特征处理模块还包括池化层、第一全连接层和特征相乘层；

上述池化层也可以称为pooling层，主要用于将输入的特征进行下采样等，减少参数量；上述第一全连接层(Fully Connected layers，简称FC)，在整个卷积神经网络中起到“分类器”的作用，可以将对前层输出的特征进行一个加权和，将特征空间通过线性变换映射到样本标记空间；上述特征相乘层(multiply)，主要用于将层级特征与第一全连接层输出的特征进行相乘操作。

一种可能的实施方式：

通过池化层对输入的层级特征进行第一池化处理，输出第一池化结果；通过第一全连接层，对第一池化结果进行第一全连接处理，输出第一全连接结果；通过特征相乘层将输入的层级特征和第一全连接结果进行相乘，得到相乘结果；基于相乘结果输出中间特征。

具体的，参见图3所示的图中的数据流程，以特征处理模块为第一特征处理模块为例进行说明，首先将H×W×3大小的目标图像X∈R

参见图3所示，上述特征处理模块还包括空间金字塔池化层；空间金字塔池化层与特征相乘层连接；空间金字塔池化层(Spatial Pyramid Pooling，SPP)，主要作用是将不同的层级特征处理得到维度相同的特征。

上述基于相乘结果输出中间特征的步骤，一种可能的实施方式：通过空间金字塔池化层对相乘结果进行第二池化处理，输出指定维度的中间特征。其中，指定维度可以根据实际应用设置。

通过前述方式得到相乘结果f1″′∈R

同样的，以特征处理模块为第二特征处理模块为例，还将中间层级的指定特征提取层3输出的层级特征f3∈R

步骤S204，通过特征融合模块，对每个特征处理模块输出的中间特征进行融合，得到图像特征；

具体的，将每个特征处理模块，即第一特征处理模块、第二特征处理模块和第三特征处理模块输出的中间特征输入至特征融合模块，经过特征拼接等方式，将每个中间特征进行融合，得到多层次融合特征，即上述图像特征。

参见图3所示的特征提取模块的结构示意图，上述特征融合模块包括特征拼接层、第二全连接层和第三全连接层；其中，特征拼接层(concatenate)主要用于将每个中间特征f1″″∈R

上述通过特征融合模块，对每个特征处理模块输出的中间特征进行融合，得到图像特征的步骤，一种可能的实施方式：

通过特征拼接层对每个特征处理模块输出的中间特征进行拼接处理，输出拼接特征；通过第二全连接层对拼接特征进行第二全连接处理，输出第二全连接结果；通过第三全连接层对第二全连接结果进行第三全连接处理，输出图像特征。

具体的，将目标图像X的中间特征f1″″∈R

步骤S206，将图像特征输入至预设的归一化指数函数中，输出概率分布向量；其中，概率分布向量包括多个类别，以及每个类别对应的概率值；

上述归一化指数函数可以是softmax函数；上述概率分布向量可以表示为p；具体可以通过下式进行计算概率分布向量：

其中，p表示概率分布向量；z表示图像特征；m表示第m个特征处理模板；p

步骤S208，将概率分布向量中，最大的概率值对应的类别确定为目标图像的类别。

具体的，可以通过公式k＝argmax

该方式中，通过特征提取网络中包括的多个特征提取层，以及与不同特征提取层连接的第一特征处理模块、第二特征处理模块、以及第三特征处理模块；可以提取目标图像中的多个层级特征，通过特征处理模块对层级特征的处理，得到中间特征，增加了层级特征的判别力，使中间特征包含的图像信息更准确丰富；通过特征融合模块将每个中间特征进行融合，得到图像特征，基于该图像特征，确定目标图像的类别，该方式不需要人工设计目标图像的特征，通过卷积神经网络自动提取，对图像分类有效的特征，算法泛化能力强、鲁棒性高；通过融合特征提取模块输出的图像底层、中层和高层的中间特征，通过图像特征进行直播场景敏感图像识别，能够有效地识别敏感图像，提高了特征提取网络的识别精度；降低了敏感图像的漏检率和误检率；提高了识别敏感图像的准确度。

在面向直播场景时，可以通过上述方式将直播图像进行分类，以识别图像中的敏感图像，以达到智能监控网络直播间的目的，同时减少人力成本。

本实施例还提供了一种特征提取网络的训练方法，如图4所示，该方法包括如下步骤：

步骤S402，基于预设的样本集合确定训练样本；其中，训练样本包括样本图像和样本图像的类别标签；

具体的，可以在线下设计详细的图像的分类标准，可以包括正常、低俗、色情、暴力；(如风景为正常图像、裸露生殖器为色情图像、接吻为低俗图像、拿刀伤人为暴力图像等)，按照该标准对海量直播图片进行人工标注可以得到数据集D，按照一定比例，可以将其中一部分数据集作为训练样本D

步骤S404，将样本图像输入至特征提取网络中，得到样本图像的样本特征；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；样本特征通过至少两个层级对应的层级特征进行融合得到；

步骤S406，基于样本特征，确定样本图像的类别识别结果；基于预设的分类损失函数、类别标签和类别识别结果确定损失值；基于损失值更新特征提取网络的网络参数；

步骤S408，继续执行基于预设的样本集合确定训练样本的步骤，直至损失值收敛，得到训练后的特征提取网络。

具体的，可以将样本图像的类别识别结果z＝R

其中，α表示学习率(是一个预先设置的超参数，通常的取值为0.01、0.001)；通过不断的迭代地对特征提取网络的参数进行更新，直至损失值收敛，得到训练后的特征提取网络。

另外，在训练完成后需要通过测试样本D

本实施例提供的一种特征提取网络的训练方法，基于预设的样本集合确定训练样本；其中，训练样本包括样本图像和样本图像的类别标签；将样本图像输入至特征提取网络中，得到样本图像的样本特征；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；样本特征通过至少两个层级对应的层级特征进行融合得到；基于样本特征，确定样本图像的类别识别结果；基于预设的分类损失函数、类别标签和类别识别结果确定损失值；基于损失值更新特征提取网络的网络参数；继续执行基于预设的样本集合确定训练样本的步骤，直至损失值收敛，得到训练后的特征提取网络。该方式中，特征提取网络中包括多层级特征提取层，可以提取目标图像中的至少两个层级特征，将该至少两个层级特征进行融合得到图像特征，基于该图像特征，确定目标图像的类别，由于图像特征中包括至少两个层级的层级特征，因而该图像特征中包含的特征层级更加丰富，可以应对直播等复杂场景下的图像识别，从而可以准确有效地识别敏感图像，降低了敏感图像的漏检率和误检率。

在直播场景中，通过收集并标注海量的数据，作为训练样本，提出详细标签分类标准对训练样本进行强标注，得到的特征提取网络更加符合直播场景的监管需求。

对应上述的方法实施例，本实施例还提供了一种图像分类装置，如图5所示，该装置包括：

输出模块51，用于将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；

分类模块52，用于基于图像特征，确定目标图像的类别；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。

本发明实施例提供的一种图像分类装置，将目标图像输入至预先训练完成的特征提取网络中，输出目标图像的图像特征；基于图像特征，确定目标图像的类别；其中的特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；图像特征通过至少两个层级对应的层级特征进行融合得到。该方式中，图像特征中包括至少两个层级的层级特征，因而该图像特征中包含的特征层级更加丰富，可以应对直播等复杂场景下的图像识别，从而可以准确有效地识别敏感图像，降低了敏感图像的漏检率和误检率。

进一步的，上述特征提取网络还包括至少两个特征处理模块，以及特征融合模块；每个特征处理模块连接一个层级的特征提取层；任意两个特征处理模块连接的特征提取层不同；上述输出模块还用于：通过每个特征处理模块，基于注意力机制对特征处理模块连接的特征提取层输出的层级特征进行处理，输出中间特征；通过特征融合模块，对每个特征处理模块输出的中间特征进行融合，得到图像特征。

进一步的，上述至少两个特征处理模块包括：第一特征处理模块、第二特征处理模块和第三特征处理模块；其中，第一特征处理模块连接最低层级的特征提取层；最低层级的特征提取层用于输入目标图像；第二特征处理模块连接中间层级中指定的特征提取层；第三特征处理模块连接最高层级的特征提取层。

进一步的，上述特征处理模块包括池化层、第一全连接层和特征相乘层；上述输出模块还用于：通过池化层对输入的层级特征进行第一池化处理，输出第一池化结果；通过第一全连接层，对第一池化结果进行第一全连接处理，输出第一全连接结果；通过特征相乘层将输入的层级特征和第一全连接结果进行相乘，得到相乘结果；基于相乘结果输出中间特征。

进一步的，上述特征处理模块还包括空间金字塔池化层；空间金字塔池化层与特征相乘层连接；上述输出模块还用于：通过空间金字塔池化层对相乘结果进行第二池化处理，输出指定维度的中间特征。

进一步的，特征融合模块包括特征拼接层、第二全连接层和第三全连接层；上述输出模块还用于：通过特征拼接层对每个特征处理模块输出的中间特征进行拼接处理，输出拼接特征；通过第二全连接层对拼接特征进行第二全连接处理，输出第二全连接结果；通过第三全连接层对第二全连接结果进行第三全连接处理，输出图像特征。

进一步的，上述分类模块还用于：将图像特征输入至预设的归一化指数函数中，输出概率分布向量；其中，概率分布向量包括多个类别，以及每个类别对应的概率值；将概率分布向量中，最大的概率值对应的类别确定为目标图像的类别。

本发明实施例提供的图像分类装置，与上述实施例提供的图像分类方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

对应上述方法实施例，本实施例还提供了一种特征提取网络的训练装置，如图6所示，该装置包括：

样本确定模块61，用于基于预设的样本集合确定训练样本；其中，训练样本包括样本图像和样本图像的类别标签；

图像输入模块62，用于将样本图像输入至特征提取网络中，得到样本图像的样本特征；其中，特征提取网络包括串联的多层级特征提取层；每层级特征提取层用于输出当前层级对应的层级特征；样本特征通过至少两个层级对应的层级特征进行融合得到；

参数更新模块63，用于基于样本特征，确定样本图像的类别识别结果；基于预设的分类损失函数、类别标签和类别识别结果确定损失值；基于损失值更新特征提取网络的网络参数；

网络确定模块64，用于继续执行基于预设的样本集合确定训练样本的步骤，直至损失值收敛，得到训练后的特征提取网络。

本发明实施例提供的特征提取网络的训练装置，与上述实施例提供的特征提取网络的训练方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述图像分类方法，或特征提取网络的训练方法。

参见图7所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的机器可执行指令，该处理器100执行机器可执行指令以实现上述图像分类方法，或特征提取网络的训练方法。

进一步地，图7所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述图像分类方法，或特征提取网络的训练方法。

本发明实施例所提供的图像分类方法、特征提取网络的训练方法和装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：苏驰;李凯;刘弘也;王育林;
专利申请人：北京金山云网络技术有限公司;