导航：首页> 供热；炉灶；通风>图像识别模型的训练方法、图像识别方法、装置及设备

图像识别模型的训练方法、图像识别方法、装置及设备

文献发布时间：2024-04-18 19:52:40

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像识别模型的训练方法、图像识别方法、装置及设备。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种目标和对象的技术，可以应用在例如人脸识别、商品识别等各种场景。

常用的图像识别算法例如卷积神经网络、聚类等，都是在图像空间提取特征，再利用提取到的特征进行分类识别。通过增加网络层数可以提取到图像较深层次的特征，但是提取的特征受限于图像空间，很难满足一些识别难度较大的识别需求。例如，对于识别目标与背景画面有较高相似性的图像来说，即使在图像空间上提取较多特征，识别的精度也较低。

发明内容

本申请提供一种图像识别模型的训练方法、图像识别方法、装置及设备，能够提高图像识别的精度。

第一方面，本申请提供一种图像识别模型的训练方法，包括：

构建图像识别模型，所述图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器；获取训练样本，以及所述训练样本中的对象所属的类别；将所述训练样本输入所述图像识别模型中，通过所述第一特征提取模块提取所述训练样本的视觉特征，通过所述第二特征提取模块提取所述训练样本的文本特征；将所述文本特征与所述视觉特征输入所述语义注意力机制模块，得到语义权重；基于所述语义权重对所述文本特征进行加权后，将所述加权后的文本特征与所述视觉特征输入所述特征融合模块，得到所述训练样本的多模态特征；将所述多模态特征输入所述分类器，得到所述分类器基于所述多模态特征确定的预测类别；确定所述训练样本所属的类别与所述训练样本的所述预测类别之间的损失；基于所述损失，对所述图像识别模型进行调整，直到调整后的所述图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

采用本方案，图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器。第一特征提取模块可以提取训练样本的视觉特征，第二特征提取模块提取训练样本中的文本特征，特征融合模块可以将将视觉特征与文本特征融合为多模态特征，从而增强图像的特征，提高图像特征的表征能力。同时语义注意力机制模块可以确定文本特征的语义权重，为文本特征加权，从而增强文本特征，提高模型识别的准确性。

在本申请的一种可能的实施方式中，所述第一特征提取模块包括卷积神经网络、第一空间注意力机制和第一通道注意力机制；所述通过所述第二特征提取模块提取所述训练样本的视觉特征，包括：通过所述卷积神经网络对所述训练样本进行特征提取，得到第一特征；通过所述第一空间注意力机制确定对于所述第一特征的空间权重；通过所述第一通道注意力机制确定对于所述第一特征的通道权重；基于所述空间权重与所述通道权重对所述第一特征进行加权，得到视觉特征。

在本申请的一种可能的实施方式中，所述第二特征提取模块包括字符检测模块，第二空间注意力机制和第二通道注意力机制；所述通过所述第二特征提取模块提取所述训练样本的文本特征，包括：通过所述字符检测模块对所述训练样本进行字符检测，得到所述训练样本的第二特征；通过所述第二空间注意力机制确定所述第二特征的空间权重；通过所述第二通道注意力机制确定所述第二特征的通道权重；基于所述第二特征的空间权重以及所述第二特征的通道权重，对所述第二特征进行加权，得到文本特征。

第二方面，本申请提供一种图像识别方法，应用于部署有采用前述的图像识别模型的训练方法训练完成的图像识别模型的电子设备，该方法包括：获取待处理图像；将所述待处理图像输入到所述图像识别模型中，通过所述图像识别模型提取所述待处理图像的多模态特征，并获得所述图像识别模型基于所述多模态特征输出的识别结果；所述识别结果包括所述待处理图像所属的目标类型。

采用本方案，电子设备上部署有图像识别模型，该图像识别模型可以提取待处理图像的文本特征、视觉特征，融合为多模态特征，利用该图像识别模型提取的信息更加全面，特征的表征能力更强，通过多模态特征来识别待处理图像的类型，能够提高图像识别的精确性。

在本申请的一种可能的实施方式中，还包括：获取检索数据集，所述检索数据集中包括每种类型的多个样本图像；通过所述图像识别模型提取各个所述样本图像的多模态特征；将所述待处理图像的多模态特征与所述样本图像的多模态特征进行对比，确定与所述待处理图像相匹配的目标样本图像；将所述目标样本图像作为所述待处理图像的识别结果。

在本申请的一种可能的实施方式中，所述确定与所述待处理图像相匹配的目标样本图像之后，还包括：获取待处理视频；通过所述图像识别模型，提取所述待处理视频中每帧图像的多模态特征；将所述每帧图像的多模态特征与所述目标样本图像的多模态特征进行对比，得到与所述目标样本图像相匹配的图像区域；在所述待处理视频中将所述图像区域进行标注，将所述标注作为所述待处理图像的识别结果。

在本申请的一种可能的实施方式中，所述在所述待处理视频中将所述图像区域进行标注之后，还包括：对所述图像区域进行马赛克处理或者擦除处理。

第三方面，本申请提供一种图像识别模型的训练装置，包括：模型构建模块，用于构建图像识别模型，所述图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器；样本获取模块，用于获取训练样本，以及所述训练样本中的对象所属的类别；特征提取模块，用于将所述训练样本输入所述图像识别模型中，通过所述第一特征提取模块提取所述训练样本的视觉特征，通过所述第二特征提取模块提取所述训练样本的文本特征；权重确定模块，用于将所述文本特征与所述视觉特征输入所述语义注意力机制模块，得到语义权重；特征融合模块，用于基于所述语义权重对所述文本特征进行加权后，将所述加权后的文本特征与所述视觉特征输入所述特征融合模块，得到所述训练样本的多模态特征；图像分类模块，用于将所述多模态特征输入所述分类器，得到所述分类器基于所述多模态特征确定的预测类别；损失计算模块，用于确定所述训练样本所属的类别与所述训练样本的所述预测类别之间的损失；模型训练模块，用于基于所述损失，对所述图像识别模型进行调整，直到调整后的所述图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

第四方面，本申请提供一种图像识别装置，包括：图像获取模块，用于获取待处理图像；特征识别模块，用于将所述待处理图像输入到所述图像识别模型中，通过所述图像识别模型提取所述待处理图像的多模态特征，并获得所述图像识别模型基于所述多模态特征输出的识别结果；所述识别结果包括所述待处理图像所属的目标类型。

第五方面，本申请提供一种电子设备，该电子设备包括存储器、一个或多个处理器。其中，该存储器中存储有一个或多个计算机程序，计算机程序包括指令，当该指令被处理器执行时，可使得电子设备执行如第一方面中的图像识别模型的训练方法。

第六方面，本申请提供一种计算机可读介质，该计算机可读介质中存储有指令，当该指令在电子设备上运行时，使得电子设备执行如第二方面中的图像识别方法。

第七方面，本申请提供一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面所述的图像识别模型的训练方法。

第八方面，本申请提供一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第二方面所述的图像识别方法。

可以理解地，上述提供的图像识别模型的训练装置、图像识别装置、电子设备、计算机可读介质、计算机程序产品所能达到的有益效果，可参考第一方面或第二方面中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的图像识别模型的训练方法的流程示意图；

图2为本申请实施例提供的图像识别方法的流程示意图；

图3为本申请实施例提供的图像识别模型的训练装置的结构示意图；

图4为本申请实施例提供的图像识别装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一芯片和第二芯片仅仅是为了区分不同的芯片，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。

需要说明的是，本申请实施例中的“在……时”，可以为在某种情况发生的瞬时，也可以为在某种情况发生后的一段时间内，本申请实施例对此不作具体限定。

下面将结合附图对本实施例的实施方式进行详细描述。

本实施例首先提供一种图像识别模型的训练方法，能够结合图像的文本特征与视觉特征进行图像识别，提高模型对图像识别的准确性。图1示出了本申请实施例提供的图像识别模型的训练方法的流程示意图。

如图1所示，该图像识别模型的训练方法可以包括如下步骤：

S11：构建图像识别模型，图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器。

S12：获取训练样本，以及训练样本中的对象所属的类别。

S13：将训练样本输入图像识别模型中，通过第一特征提取模块提取训练样本的视觉特征，通过第二特征提取模块提取训练样本的文本特征。

S14：将文本特征与视觉特征输入语义注意力机制模块，得到语义权重。

S15：基于语义权重对文本特征进行加权后，将加权后的文本特征与视觉特征输入特征融合模块，得到训练样本的多模态特征。

S16：将多模态特征输入分类器，得到分类器基于多模态特征确定的预测类别。

S17：确定训练样本所属的类别与训练样本的预测类别之间的损失。

S18：基于损失，对图像识别模型进行调整，直到调整后的图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

示例性的，该图像识别模型的训练方法可以应用于个人计算机、服务器等电子设备，本实施例对此不做特殊限定。

具体的，在步骤S11中，构建图像识别模型，图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器。

其中，第一特征提取模块、第二特征提取模块同时对模型的输入进行特征提取，其输出作为语义注意力机制模块的输入，通过语义注意力机制模块对提取的特征确定权重。语义注意力机制模块的输出与第二特征提取模块的输出连接，对特征进行加权，加权后可以作为特征融合模块的一个输入。第一特征提取模块的输出则可以作为特征融合模块的另一个输入。特征提取模块可以对两个输入的特征进行融合，融合的结果作为分类器的输入。分类器用于对特征进行分类，得到对应的类型。

在步骤S12中，预先获取预设数量的图像作为训练样本。这些图像可以是影视综画面，根据图像中包含的对象，可以确定每个图像对应的类别。示例性的，图像中可以包括人脸、动物、商品、商标等。训练样本的类别可以指图像中包括的对象所属的类别。本实施例中，以商标为识别对象为例，预先可以收集预设数量的包含商标的图像，每个图像可以对应一种类别，该类别即为图像中包含的商标的类别。根据每个图像对应的类别可以对图像添加标注，将带有标注的图像作为训练样本。

步骤S13中，训练样本可以作为图像识别模型的输入，图像识别模型中的第一特征提取模块对输入的训练样本进行特征提取，得到训练样本的视觉特征，第二特征提取模块对输入的训练样本进行特征提取，得到训练样本的文本特征。

其中，第一特征提取模块具体可以包括神经网络算法、回归算法等深度学习算法。例如，第一特征提取模块可以为ResNet模型。第二特征提取模块可以为文本检测模型，用于提取图像的文本特征。例如，第二特征提取模块可以为OCR、PMTD模型等。

在示例性的实施方式中，第一特征提取模块可以具体包括卷积神经网络、第一空间注意力机制和第一通道注意力机制。训练样本输入到图像识别模型中时，首先通过卷积神经网络对训练样本进行特征提取，得到第一特征；再通过第一空间注意力机制确定对于第一特征的空间权重；通过第一通道注意力机制确定对于第一特征的通道权重；基于空间权重与通道权重对第一特征进行加权，得到视觉特征。通过通道权重与空间权重对第一特征进行加权，可以增强视觉特征。

示例性的，卷积神经网络可以采用AlexNet、VGGNet、ResNet等结构，也可以采用其他网络结构，本实施方式对此不做特殊限定。

举例来说，通过ResNet50可以来提取训练样本的第一特征。ResNet50的网络结构中包含了49个卷积层、一个全连接层。将训练样本输入到ResNet50中，可以得到该网络输出的特征，该特征作为第一特征。

空间注意力机制指的是在图像空间上添加注意力机制。图像空间指的是图像内的信息，例如图像宽和高两个维度上的信息。例如，ResNet50输出的第一特征可以为7×7×2048，则可以在空间维度，即7×7的维度上，添加注意力机制，确定7×7中各个点的权重，即空间权重。通过空间注意力机制可以区分训练样本的各个区域的重要性，使得重要区域的权重更大，从而在识别时更加关注重要区域的信息，减少无关信息的干扰。

通道注意力机制指的是模型中的通道上的注意力机制。例如ResNet50输出的第一特征中通道数为2048，则分别确定该2048个维度每个维度的权重，即通道权重。通过通道权重可以区分各个通道维度的重要性。

具体的，空间注意力机制可以通过在相对的维度(即通道维度)进行池化操作，从而保留空间维度的信息，即从7x7x2048，变为7x7x1，然后在空间维度利用softmax算法计算得到权重，得到权重后与原来的7x7x2048在空间维度上进行点乘，从而完成加权过程，得到空间注意力机制后的特征，特征维度保持不变，依然是7x7x2048。通道注意力机制处理过程同理。

此外，空间注意力机制与通道注意力机制可以采用其他神经网络来实现，并且，两者可以为不同的神经网络结构。例如，空间注意力机制可以为空间变换神经网络，通道注意力机制可以为压缩和激励网络。

确定第一特征的空间权重与通道权重后，可以通过这两种权重对第一特征进行加权处理，得到加权处理后的特征，即视觉特征。在一种实施方式中，对第一特征可以先添加空间权重，得到加权后的特征后，再对加权后的特征添加通道权重，最终得到视觉特征。或者，对第一特征可以先添加通道权重，对加权后的特征再添加空间权重，得到最终的视觉特征。

在示例性的实施方式中，第二特征提取模块可以具体包括字符检测模块，第二空间注意力机制和第二通道注意力机制。训练样本输入到图像识别模型中时，可以先通过字符检测模块对训练样本进行字符检测，得到训练样本的第二特征；再通过第二空间注意力机制确定第二特征的空间权重；通过第二通道注意力机制确定第二特征的通道权重；最后基于第二特征的空间权重以及第二特征的通道权重，对第二特征进行加权，将加权后的结果作为文本特征。通过空间权重、通道权重进行加权处理，可以增强文本特征。

举例来说，字符检测模块可以为PMTD模型，将训练样本输入到PMTD模型中，可以得到该模型输出的256×N维的特征，该特征作为第二特征。其中，N为训练样本中可识别的文本的数量，可以根据实际情况设置。如果识别到的训练样本中的文本的数量小于N，可以用0填充，使得第二特征的维度为256×N。如果识别出待处理图像中的文本的数量大于N，可以根据每个文本的置信度的大小筛选置信度较大的前N个文本。然后，通过第二空间注意力机制和第二通道注意力机制对第二特征进行加权，加权后的结果作为文本特征输出。具体的加权处理过程可以参考上述第一空间注意力机制和第一通道注意力机制，此处不再赘述。

步骤S14中，将提取得到的文本特征与视觉特征输入语义注意力机制模块，得到语义权重。利用语义权重来表征视觉特征与文本特征之间的关联，语义权重越大则表示文本特征与视觉特征的关联性越高。通过语义注意力机制模块可以增强与视觉特征关联性较高的文本特征，剔除关联性较低的文本特征，从而在后续识别时更加关注与图像强相关的文本特征，降低噪声。

具体的，该语义注意力机制可以通过神经网络实现，将视觉特征与文本特征输入到该神经网络中，可以得出文本特征与视觉特征之间的相关性。然后将得到的相关性转化为0到1之间的数值，作为语义权重。具体表示如下：

w∝exp(Fv·P·Ft)(1)

其中，P为神经网络的权重参数矩阵，Fv为视觉特征，Ft为文本特征。w为语义权重。通过视觉特征与神经网络的权重参数矩阵相乘，再与文本特征相乘，得到的结果可以理解为视觉特征与文本特征的相关性。然后通过指数函数将相关性转化到0到1之间，作为权重参数。

示例性的，该神经网络的权重参数矩阵为双线性参数矩阵，其中一个维度与视觉特征的维度相同，另一个维度与文本特征的维度相同。例如，视觉特征为2048维，文本特征为256维，则该双线性参数矩阵可以为2048×256。初始化时，该双线性参数矩阵的各个元素可以随机取值，例如部分可以为0，通过训练可以对其进行优化。

在步骤S15中，语义注意力机制输出的权重参数与第二特征提取模块输出的文本特征相乘，从而对文本特征进行加权，得到加权后的文本特征，表示如下：

其中，其中w

加权后的文本特征与第一特征提取模块的输出共同输入到特征融合模块进行融合，得到多模态特征。该多模态特征中同时包含文本信息和视觉信息，特征的表征力更强，有利于提高模型的识别精度。

具体的，将视觉特征与加权后的文本特征可以分别进行归一化，然后将归一化的特征连接在一起，得到多模态特征。

在步骤S16中，将多模态特征作为分类器的输入，分类器用于将多模态特征映射到一个类别上，分类器输出的类别则为训练样本的预测类别。

步骤S17中，通过预先定义的损失函数可以计算训练样本所属的类别与训练样本的预测类别之间的损失。损失函数可以包括L1范数损失、均方误差损失等，本实施方式对此不做特殊限定。

步骤S18中，计算得到损失后，通过损失反向传播可以对图像识别模型的各个参数进行调整，得到调整后的参数。通过调整后的参数对下一批训练样本进行识别，得到下一批训练样本的预测类别，再次计算损失，对参数再次进行调整。以此类推，通过一定数量的训练样本反复对图像识别模型进行调整，直到调整后的图像识别模型输出的预测类别，与输入的训练样本的类别之间的损失小于预设值时训练完成，从而得到训练完成的图像识别模型。

训练完成的图像识别模型可以部署到线上，供用户使用。举例来说，训练完成的图像识别模型可以部署到服务器中，服务器可以通过该模型为客户端提供识别图像的功能。

基于上述图像识别模型的训练方法，本实施例还提供一种图像识别方法，可以应用于手机、个人电脑、工业电脑、虚拟现实/增强现实设备、智能家居设备等各种电子设备，该电子设备上部署有上述图像识别模型。

图2示出了图像识别方法的流程示意图。如图2所示，该图像识别方法可以包括如下步骤：

步骤S21：获取待处理图像。

步骤S22：将待处理图像输入到图像识别模型中，通过图像识别模型提取待处理图像的多模态特征，并获得图像识别模型基于多模态特征输出的识别结果；识别结果包括待处理图像所属的目标类别。

其中，待处理图像指的是需要进行识别的图像，例如人脸图像、商品图像、商标图像等等。

用户可以将需要识别的待处理图像输入到电子设备中，电子设备获取待处理图像后，可以将待处理图像输入到图像识别模型中，提取待处理图像中的文本特征、视觉特征以及多模态特征，并利用多模态特征识别出得到待处理图像所属的目标类别，即识别结果。

示例性的，图像识别模型可以部署在服务器上。用户使用的电子设备可以作为客户端，当用户将待处理图像输入到客户端时，客户端可以向服务器发出请求，并将待处理图像发送给服务器。服务器接收到请求后，可以利用图像识别模型确定待处理图像所属的目标类别，将目标类别作为识别结果返回给客户端，客户端接收到识别结果时可以将其进行显示。

本实施方式中，同时提取图像的文本和视觉两种类型的特征，通过两种类型的特征融合后的多模态特征对图像进行识别，多模态特征的表征力更强，包含的信息更加丰富，能够提高对图像的识别精度。

一种实施方式中，电子设备可以获取待处理图像；将待处理图像输入到图像识别模型，得到图像识别模型中的第一特征提取模块提取视觉特征；同时，通过图像识别模型中的第二特征提取模块提取待处理图像的文本特征。利用语义注意力机制确定语义权重，采用语义权重对文本特征进行加权。语义注意力机制计算语义权重的方式如上述公式(1)，此处不再赘述。然后，对加权后的文本特征与视觉特征进行特征融合。融合后的特征称为多模态特征。

在一种示例性实施方式中，得到待处理图像的多模态特征后，可以通过该多模态特征对待处理图像进行图像检索，具体的：获取检索数据集，检索数据集中包括多种类别的样本图像；提取各个样本图像的多模态特征；将待处理图像的多模态特征与样本图像的多模态特征进行对比，确定与待处理图像相匹配的目标样本图像；根据目标样本图像，确定待处理图像的识别结果。

其中，检索数据集可以是预先存储的预设数量的样本图像。样本图像可以包括相同类别的对象的不同角度的多个图像，以及不同类别的对象的多个图像。

检索数据集也可以叫检索数据库，本实施例中检索数据库可以是各种样式的高清入库图像，也可以包含部分图像难例，比如一些识别难度较大的模糊图像、特殊角度的图像等等，也需要入库处理，避免漏检。

通过上述图像识别模型可以提取出检索数据集中每个样本图像的多模态特征，然后将样本图像的多模态特征进行保存。采用待处理图像的多模态特征与保存的多模态特征进行对比，可以确定待处理图像的多模态特征与样本图像的多模态特征之间的相似性，从而得到相似性满足预设要求的目标多模态特征，目标多模态特征对应的样本图像可以作为与待处理图像匹配的目标样本图像。目标样本图像可以作为待处理图像的识别结果，展示给用户。

示例性的，以商标对象为例，当待处理图像为需要检索的商标图像时，检索数据集中可以包括不同商标的多个图像以及同一商标的多个角度的图像。通过待处理图像的多模态特征进行检索，可以得到与待处理图像中的商标相同的一个或多个目标样本图像。例如，待处理图像可以是商标A的图像，检索到的目标样本图像可以包括商标A的多种角度的图像，也可以包括商标A的不同局部的图像等等。

商标中通常包含图形和文字，本实施方式中，通过提取待处理图像的多模态特征可以同时考虑文字和图像两种类型的特征，从而将与待处理图像相同或相似的图像检索出来，能够提高商标图像检索的召回率和准确率。

在播放图像或者视频时，视频中可能包括各种对象，例如商品或者商标。在这种场景中，可以采用本实施方式的上述图像识别方法来识别出视频中包括的商品或商标，从而便于用户对视频进行处理。具体的，先获取待处理视频；通过图像识别模型来提取待处理视频中每帧图像的多模态特征；然后将要识别的目标商标的图像作为待处理图像，并在上述检索数据集中检索出与待处理图像相匹配的目标样本图像；再将待处理视频中每帧图像的多模态特征分别与目标样本图像的多模态特征进行对比，从而得出与目标样本图像相匹配的图像区域；并在原始的待处理视频中将匹配出来的图像区域进行标注，将标注后的待处理视频作为识别结果。

本实施方式中，将用户需要识别的目标对象的图像作为待处理图像，通过待处理图像与检索数据集中每个样本图像的多模态特征进行对比，得到与待处理图像中的目标对象类型相同的目标样本图像。一个待处理图像可以检索出多个目标样本图像，例如待处理图像为商品A的正面图，目标样本图像可以为商品A不同角度的多个图像。接着，再采用检索到的目标样本图像的多模态特征与待处理视频中每帧图像的多模态特征进行对比，得到与目标样本图像相匹配的图像区域。通过与待处理图像属于相同类型的多个目标样本图像，对待处理视频进行匹配，可以匹配出更多的图像区域，从而提高对要识别的对象的召回率，减少视频中目标对象被遗漏的问题，能够提高检索的准确性。用户只需要查看标注，就可以了解到视频中是否包括需要的目标对象，例如商品或商标等。

示例性的，识别出包括商品或商标的图像区域后，还可以根据用户的需求对该图像区域进行处理。具体的，在用户需要对该图像区域进行遮挡时，可以采用马赛克算法或者擦除算法对标注出来的图像区域进行马赛克处理或者擦除处理，从而实现遮挡的效果。本实施方式中，对于用户需要进行遮挡的目标对象，例如某商品、商标等，可以通过该商品的图像的多模态特征来检索出视频中与该商品的图像相匹配的图像区域，从而将这些图像区域进行处理，无需人工一一对视频进行检索，可以提高视频的处理效率。

进一步的，本实施例还提供一种图像识别模型的训练装置，用于执行上述图像识别模型的训练方法。如图3所示，该图像识别模型的训练装置30可以包括：模型构建模块31，用于构建图像识别模型，图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器；样本获取模块32，用于获取训练样本，以及训练样本中的对象所属的类别；特征提取模块33，用于将训练样本输入图像识别模型中，通过第一特征提取模块提取训练样本的视觉特征，通过第二特征提取模块提取训练样本的文本特征；权重确定模块34，用于将文本特征与视觉特征输入语义注意力机制模块，得到语义权重；特征融合模块35，用于基于语义权重对文本特征进行加权后，将加权后的文本特征与视觉特征输入特征融合模块，得到训练样本的多模态特征；图像分类模块36，用于将多模态特征输入分类器，得到分类器基于多模态特征确定的预测类别；损失计算模块37，用于确定训练样本所属的类别与训练样本的预测类别之间的损失；模型训练模块38，用于基于损失，对图像识别模型进行调整，直到调整后的图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

在一种实施方式中，第一特征提取模块具体包括卷积神经网络、第一空间注意力机制和第一通道注意力机制；通过卷积神经网络对训练样本进行特征提取，得到第一特征；通过第一空间注意力机制确定对于第一特征的空间权重；通过第一通道注意力机制确定对于第一特征的通道权重；基于空间权重与通道权重对第一特征进行加权，得到视觉特征。

在一种实施方式中，第二特征提取模块具体包括字符检测模块，第二空间注意力机制和第二通道注意力机制；通过字符检测模块对训练样本进行字符检测，得到训练样本的第二特征；通过第二空间注意力机制确定第二特征的空间权重；通过第二通道注意力机制确定第二特征的通道权重；基于第二特征的空间权重以及第二特征的通道权重，对第二特征进行加权，得到文本特征。

上述图像识别模型的训练装置中各模块或单元的具体细节已经在对应的图像识别模型的训练方法中进行了详细的描述，因此此处不再赘述。

本实施例还提供一种图像识别装置，用于执行上述图像识别方法。如图4所示，该图像识别装置40包括：图像获取模块41，用于获取待处理图像；特征识别模块42，用于将待处理图像输入到图像识别模型中，通过图像识别模型提取待处理图像的多模态特征，并获得图像识别模型基于多模态特征输出的识别结果；识别结果包括待处理图像所属的目标类型。

在一种实施方式中，该图像识别装置40还包括：检索库模块，用于获取检索数据集，所述检索数据集中包括每种类别的多个样本图像；样本提取模块，用于通过所述图像识别模型提取各个所述样本图像的多模态特征；特征对比模块，用于将所述待处理图像的多模态特征与所述样本图像的多模态特征进行对比，确定与所述待处理图像相匹配的目标样本图像；识别结果确定模块，用于将所述目标样本图像作为所述待处理图像的识别结果。

在一种实施方式中，该图像识别装置40还包括：视频获取模块，用于获取待处理视频；视频特征提取模块，用于通过所述图像识别模型，提取所述待处理视频中每帧图像的多模态特征；视频对比模块，用于将所述每帧图像的多模态特征与所述目标样本图像的多模态特征进行对比，得到与所述目标样本图像相匹配的图像区域；视频标注模块，用于在所述待处理视频中将所述图像区域进行标注，将所述标注作为所述待处理图像的识别结果。

在一种实施方式中，该图像识别装置40还包括：遮挡处理模块，用于对所述图像区域进行马赛克处理或者擦除处理。

上述图像识别装置中各模块或单元的具体细节已经在对应的图像识别方法中进行了详细的描述，因此此处不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括存储器、一个或多个处理器。其中，该存储器中存储有一个或多个计算机程序，计算机程序包括指令，当该指令被处理器执行时，可使得电子设备执行上述图像识别模型的训练方法。

本申请实施例还提供了一种电子设备，该电子设备包括存储器、一个或多个处理器。其中，该存储器中存储有一个或多个计算机程序，计算机程序包括指令，当该指令被处理器执行时，可使得电子设备执行上述图像识别方法。

图5示出了适于用来实现本公开实施例的电子设备的结构示意图。图5示出的电子设备100仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备100包括中央处理单元(CPU)101，其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM 103中，还存储有系统操作所需的各种程序和数据。CPU101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

I/O接口105还可以连接以下部件：如键盘、鼠标等的输入部分106；包括例如阴极射线管(CRT)、液晶显示器(LCD)等、以及扬声器等的输出部分107；包括如硬盘等的存储部分108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理。驱动器110也根据需要连接至I/O接口105。可拆卸介质111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器110上，以便于从其上读出的计算机程序根据需要被安装入存储部分108。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分109从网络上被下载和安装，和/或从可拆卸介质111被安装。在该计算机程序被中央处理单元(CPU)101执行时，执行本申请实施例中限定的上述功能。

一种实施例中，该计算机程序被中央处理单元(CPU)101执行时，可以执行如下：构建图像识别模型，所述图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器；获取训练样本，以及所述训练样本中的对象所属的类别；将所述训练样本输入所述图像识别模型中，通过所述第一特征提取模块提取所述训练样本的视觉特征，通过所述第二特征提取模块提取所述训练样本的文本特征；将所述文本特征与所述视觉特征输入所述语义注意力机制模块，得到语义权重；基于所述语义权重对所述文本特征进行加权后，将所述加权后的文本特征与所述视觉特征输入所述特征融合模块，得到所述训练样本的多模态特征；将所述多模态特征输入所述分类器，得到所述分类器基于所述多模态特征确定的预测类别；确定所述训练样本所属的类别与所述训练样本的所述预测类别之间的损失；基于所述损失，对所述图像识别模型进行调整，直到调整后的所述图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

一种实施例中，该计算机程序被中央处理单元(CPU)101执行时，可以执行如下：获取待处理图像；将所述待处理图像输入到所述图像识别模型中，通过所述图像识别模型提取所述待处理图像的多模态特征，并获得所述图像识别模型基于所述多模态特征输出的识别结果；所述识别结果包括所述待处理图像所属的目标类别。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，该一个或多个程序中包括指令，当该指令被电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京奇艺世纪科技有限公司;

上一篇：一种空调水洗空气的控制处理方法、空调及介质
下一篇：一种被套绒毛表层抑菌处理装置及加工工艺