图像检索方法、装置、设备及存储介质

文献发布时间：2024-04-18 20:00:50

技术领域

本申请涉及计算机应用技术领域，尤其涉及图像检索方法、装置、设备及存储介质。

背景技术

图像检索指的是：提取出待检索图像的特征，并根据某种相似性准则计算得到特征数据库中图像与待检索图像的相关度，最后通过由大到小排序，得到与待检索图像最相关的图像，实现图像检索。在图像检索任务中，应当关注检索结果与待检索图像所属类别是否一致，例如待检索图像指的是上衣图片，那么检索结果中不宜出现裤袜或者裙子等类别的图片。因此，如何确保检索结果的准确性，是目前亟需解决的技术问题。

发明内容

本申请实施例提供了图像检索方法、装置、设备及存储介质，能够有效提高图像检索的准确性。

一方面，本申请实施例提供一种图像检索方法，该方法包括：

获取待检索图像和所述待检索图像的候选检索结果；其中，所述候选检索结果包括至少一个目标图像，所述至少一个目标图像是基于所述待检索图像检索到的；

对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征；

对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征；

基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类；

确定与所述待检索图像属于同一聚类的目标图像，并生成所述待检索图像的检索结果，所述检索结果包括确定的目标图像。

在一个实施例中，所述对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，包括：

对所述第一中间图像特征进行L2标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行L2标准化处理，得到相应目标图像的第二图像特征。

在一个实施例中，所述基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类，包括：

基于所述第一图像特征对所述待检索图像进行图像分类，得到所述待检索图像的类目信息，并基于所述各个目标图像的第二图像特征对所述各个目标图像进行图像分类，得到所述各个目标图像的类目信息；

基于所述第一图像特征和所述各个目标图像的第二图像特征，获取所述待检索图像和所述各个目标图像的相似度；

基于所述待检索图像的类目信息，所述各个目标图像的类目信息，以及所述待检索图像和所述各个目标图像的相似度，对所述待检索图像和所述至少一个目标图像进行聚类。

在一个实施例中，所述对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征，包括：

通过卷积神经网络CNN对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对所述各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征。

在一个实施例中，所述对所述待检索图像和所述至少一个目标图像进行聚类是调用图像检索模型处理得到的；所述方法还包括：

获取训练样本；其中，所述训练样本包括第一训练图像，至少一个第二训练图像以及各个第二训练图像的聚类标签，所述至少一个第二训练图像包括与所述第一训练图像匹配的第二训练图像，和/或与所述第一训练图像不匹配的第二训练图像，所述聚类标签用于指示相应第二训练图像与所述第一训练图像是否为同一聚类；

调用初始图像检索模型，对所述第一训练图像进行特征提取，得到所述第一训练图像的第三中间图像特征，并对各个第二训练图像进行特征提取，得到所述各个第二训练图像的第四中间图像特征；

对所述第三中间图像特征进行标准化处理，得到所述第一训练图像的第三图像特征，并对各个第四中间图像特征进行标准化处理，得到相应第二训练图像的第四图像特征；

基于所述第三图像特征和所述各个第二训练图像的第四图像特征，对所述第一训练图像和所述至少一个第二训练图像进行聚类，得到所述各个第二训练图像的聚类结果，所述聚类结果用于指示相应第二训练图像与所述第一训练图像是否为同一聚类；

按照减小所述各个第二训练图像的聚类结果和聚类标签的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

在一个实施例中，所述训练样本还包括所述第一训练图像和所述至少一个第二训练图像中各个训练图像的类别标签，所述类别标签用于指示相应训练图像的类目信息；所述方法还包括：

获取第一训练图像组，所述第一训练图像组包括的各个训练图像的类别标签相匹配；

获取所述第一训练图像组包括的每两个训练图像的图像特征；

按照减小所述每两个训练图像的图像特征的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

获取第二训练图像组，所述第二训练图像组包括的各个训练图像的类别标签不匹配；

获取所述第二训练图像组包括的每两个训练图像的图像特征；

按照增大所述每两个训练图像的图像特征的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

另一方面，本申请实施例提供了一种图像检索装置，该图像检索装置包括：

获取单元，用于获取待检索图像和所述待检索图像的候选检索结果；其中，所述候选检索结果包括至少一个目标图像，所述至少一个目标图像是基于所述待检索图像检索到的；

特征提取单元，用于对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征；

标准化处理单元，用于对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征；

聚类单元，用于基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类；

检索结果生成单元，用于确定与所述待检索图像属于同一聚类的目标图像，并生成所述待检索图像的检索结果，所述检索结果包括确定的目标图像。

另一方面，本申请实施例提供一种计算机设备，包括处理器、存储装置和通信接口，处理器、存储装置和通信接口相互连接，其中，存储装置用于存储支持计算机设备执行上述方法的计算机程序，计算机程序包括程序指令，处理器被配置用于调用程序指令，执行如下步骤：

基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类；

确定与所述待检索图像属于同一聚类的目标图像，并生成所述待检索图像的检索结果，所述检索结果包括确定的目标图像。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行上述图像检索方法。

另一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序适于由处理器加载并执行上述图像检索方法。

本申请实施例中，对待检索图像和至少一个目标图像进行聚类是在角度空间进行的。而本申请实施例对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，然后对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，同时，对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征，然后对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，其中经过标准化处理之后即为角度空间，也就是说本申请实施例将第一图像特征和第二图像特征隐含在角度空间，可提高第一图像特征和第二图像特征的类别区分能力，以确保相同类别的图像特征可以聚类到一起，进而有效提高图像检索的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像检索方法的流程示意图；

图2是本申请实施例提供的一种图像检索模型的架构示意图；

图3是本申请实施例提供的另一种图像检索方法的流程示意图；

图4是本申请实施例提供的一种图像检索装置的结构示意图；

图5是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图像检索可以应用在电商搜索、电商推荐、多模态搜索或者多模态推荐等场景中。图像检索指的是：提取出待检索图像的特征，并根据某种相似性准则计算得到特征数据库中图像与待检索图像的相关度，最后通过由大到小排序，得到与待检索图像最相关的图像，实现图像检索。在图像检索任务中，检索结果虽然与待检索图像相关，但是检索结果与待检索图像所属类别不一定一致，例如待检索图像指的是上衣图片，那么检索结果中如果出现裤袜或者裙子等类别的图片，会导致图像检索不够准确。

本申请实施例提供的图像检索方法，可以对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，然后对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，同时，对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征，然后对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，其中经过标准化处理之后即为角度空间，也就是说本申请实施例将第一图像特征和第二图像特征隐含在角度空间。而对待检索图像和至少一个目标图像进行聚类是在角度空间进行的，因此可确保图像特征的隐含位置和使用位置一致，可提高第一图像特征和第二图像特征的类别区分能力，以确保相同类别的图像特征可以聚类到一起，进而有效提高图像检索的准确性。

本申请实施例提供的图像检索方法可以应用在图像检索装置中，图像检索装置可以安装或者集成在计算机设备中，计算机设备可以包括终端设备或者服务器等，计算机设备包括但不限定于智能手机、车载设备、可穿戴设备或者电脑等。可选的，图像检索装置获取到待检索图像的检索结果之后，可以应用在电商搜索、电商推荐、多模态搜索或者多模态推荐等场景中。

请参见图1，图1是本申请实施例提供的一种图像检索方法的流程示意图，该图像检索方法可以由图像检索装置或者计算机设备执行；如图1所示的图像检索方案包括但不限于步骤S101～步骤S105，其中：

S101，获取待检索图像和待检索图像的候选检索结果，候选检索结果包括至少一个目标图像，至少一个目标图像是基于待检索图像检索到的。

在一种场景中，假设计算机设备为终端，计算机设备可以显示图像检索界面，用户可以在图像检索界面提交待检索图像，并发起检索操作，本申请实施例可以响应用户的检索操作，获取待检索图像，并基于待检索图像检索得到至少一个目标图像，进而得到待检索图像的候选检索结果，其中候选检索结果包括上述至少一个目标图像，其中至少一个目标图像与待检索图像相关。示例性的，若用户想要购买待检索图像指示的商品，那么用户可以在图像检索界面提交待检索图像，并发起检索操作，本申请实施例可以响应用户的检索操作，获取待检索图像，并基于待检索图像检索得到至少一个目标图像，进而得到待检索图像的候选检索结果，在通过本申请实施例的图像检索方案得到待检索图像的检索结果之后，计算机设备可以显示该检索结果，以及检索结果包含的各个目标检索图像的购买链接，便于用户从检索结果中选取商品，并发起下单操作。

在另一种场景中，假设计算机设备为服务器，若计算机设备向客户端进行消息推送，为了提高推送的精准度，针对任一客户端，计算机设备可以基于该客户端的画像数据和历史行为数据获取与该客户端匹配的待检索图像，基于待检索图像检索得到至少一个目标图像，进而得到待检索图像的候选检索结果，其中候选检索结果包括上述至少一个目标图像，其中至少一个目标图像与待检索图像相关。在通过本申请实施例的图像检索方案得到待检索图像的检索结果之后，计算机设备可以将该检索结果发送给该客户端。

在上述场景中，由于检索结果包含的各个目标检索图像与待检索图像不仅相关，而且所属类别一致，因此计算机设备向用户呈现的检索结果更符合用户意愿，可提升用户黏度。

本申请实施例中，可以基于图像检索算法得到待检索图像的候选检索结果。图像检索算法按描述图像内容方式的不同，可以分为两类，一类是基于文本的图像检索(TextBased Image Retrieval，TBIR)算法，另一类是基于内容的图像检索(Content BasedImage Retrieval，CBIR)算法。示例性的，图像检索算法可以包括词袋(Bag-of-Words，BoW)算法、(Fisher Vector，FV)算法或者(vector of locally aggregated descriptors，VLAD)算法等。BoW算法的核心思想是：提取出关键点描述子，然后利用聚类的方法训练一个码本，随后每幅图片中各描述子向量在码本中各中心向量出现的次数用来表示该图片。FV算法的核心思想是：利用高斯混合模型(Gaussian Mixture Model，GMM)，通过计算GMM中的均值、协方差等参数来表示每张图像。VLAD是一种图像的特征表示方法，可以看做是一种简化的FV，其主要方法是通过聚类方法训练一个小的码本，对于每幅图像中的特征找到最近的码本聚类中心，随后所有特征与聚类中心的差值做累加，得到一个k*d的vlad矩阵，其中k是聚类中心个数，d是特征维数(如sift是128维)，随后将该矩阵扩展为一个(k*d)维的向量，并对其L2标准化，所得到的向量即为VLAD。

S102，对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征。

在一种实现方式中，可以通过卷积神经网络(Convolutional Neural Networks，CNN)对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，还可以通过CNN对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征。

可选的，本申请实施例可以通过不同CNN对不同图像进行特征提取，即待检索图像的第一中间图像特征，以及各个目标图像的第二中间图像特征可以是并行处理得到的，本申请实施例并不限定待检索图像的第一中间图像特征，以及各个目标图像的第二中间图像特征的先后获取顺序。

可以理解的是，本申请实施例包含但不限定于通过CNN对待检索图像和各个目标图像进行特征提取，例如可以通过尺度不变特征变换(Scale-invariant featuretransform，SIFT)算法对待检索图像和各个目标图像进行特征提取。

S103，对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征。

可选的，本申请实施例可以通过不同标准化模块对不同图像特征进行标准化处理，即待检索图像的第一图像特征，以及各个目标图像的第二图像特征可以是并行处理得到的，本申请实施例并不限定待检索图像的第一图像特征，以及各个目标图像的第二图像特征的先后获取顺序。

在一种实现方式中，可以对第一中间图像特征进行L2标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行L2标准化处理，得到相应目标图像的第二图像特征。

可以理解的是，本申请实施例中的标准化处理包含但不限定于L2标准化处理，例如可以对第一中间图像特征进行L1标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行L1标准化处理，得到相应目标图像的第二图像特征。

S104，基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类。

具体实现中，本申请实施例可以基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类，如果某个目标图像的第二图像特征与第一图像特征相关，那么表明该目标图像与待检索图像属于同一聚类；如果另一目标图像的第二图像特征与第一图像特征部相关，那么表明该另一目标图像与待检索图像不属于同一聚类。例如，假设待检索图像为碎花裙，某个目标图像为碎花长裤，那么表明该目标图像与待检索图像不属于同一聚类。

在一种实现方式中，可以按照多任务学习(multitask learning，MTL)方法，基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类。

在一种实现方式中，可以基于第一图像特征对待检索图像进行图像分类，得到待检索图像的类目信息，并基于各个目标图像的第二图像特征对各个目标图像进行图像分类，得到各个目标图像的类目信息，基于第一图像特征和各个目标图像的第二图像特征，获取待检索图像和各个目标图像的相似度，基于待检索图像的类目信息，各个目标图像的类目信息，以及待检索图像和各个目标图像的相似度，对待检索图像和至少一个目标图像进行聚类。

其中，类目信息可以用于指示相应图像的类别，例如美食、头像、萌宠、服装、上衣、裤子等。可选的，类目信息可以包括至少一级类目，假设类目信息包括两级类目，例如待检索图像的类目信息中的一级类目为服装，二级类目为碎花裙。

S105，确定与待检索图像属于同一聚类的目标图像，并生成待检索图像的检索结果，检索结果包括确定的目标图像。

基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类，可以得到与待检索图像属于同一聚类的目标图像，以及与待检索图像属于不同聚类的目标图像。与待检索图像属于同一聚类的目标图像，表明该目标图像不仅与待检索图像相关，且该目标图像与待检索图像所属类别一致，例如该目标图像与待检索图像指示的是同一物体或者相似物体。与待检索图像属于同一聚类的目标图像，表明该目标图像不仅与待检索图像相关，且该目标图像与待检索图像所属类别一致，例如该目标图像与待检索图像指示的是同一物体或者相似物体。与待检索图像属于不同聚类的目标图像，表明该目标图像与待检索图像相关性较低，或者该目标图像与待检索图像所属类别不一致。因此，本申请实施例将与待检索图像属于同一聚类的目标图像作为待检索图像的检索结果，可确保该检索结果更为准确。

在一种实现方式中，在生成待检索图像的检索结果之后，可以显示检索结果包括的目标图像，对于与待检索图像属于不同聚类的目标图像，则不予显示。

本申请实施例中，获取待检索图像和待检索图像的候选检索结果，候选检索结果包括至少一个目标图像，至少一个目标图像是基于待检索图像检索到的，对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征，对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类，确定与待检索图像属于同一聚类的目标图像，并生成待检索图像的检索结果，检索结果包括确定的目标图像，可有效提高图像检索的准确性。

请参见图2，图2是本申请实施例提供的一种图像检索模型的架构示意图，该图像检索模型可以包括卷积神经网络(Convolutional Neural Networks，CNNs)、L2 Norm(L2标准化)模块、分类分支网络以及特征分支网络。

本申请实施例在获取到待检索图像以及待检索图像的候选检索结果之后，针对待检索图像和候选检索结果包括的至少一个目标图像中的任一图像，将该图像输入至图像检索模型中，经过CNNs提取特征得到该图像的中间图像特征；将中间图像特征经过L2 Norm模块得到该图像的最终特征，即图像特征；分类分支网络对最终特征进行特征分类得到该图像的一级类目分类和二级类目分类，由于用于得到类目分类的特征是经过L2标准化的特征，而经过L2标准化处理之后即为角度空间，因此对最终特征进行特征分类得到该图像的一级类目分类和二级类目分类，表明将类别信息(即一级类目分类和二级类目分类)隐含在角度空间。另外，特征分支网络对待检索图像和至少一个目标图像中的各个图像的最终特征进行损失值计算，得到加性角度间隔损失值ArcFace Loss和三元组损失值TripletLoss，进而在角度空间基于待检索图像和各个目标图像的一级类目分类、二级类目分类，以及待检索图像和各个目标图像之间的ArcFace Loss和Triplet Loss，对待检索图像和各个目标图像进行聚类，从而将相同类别的图像特征聚集在一起，不同类别的图像特征距离被拉开。

示例性的，假设聚类得到两个类别的图像，例如待检索图像位于簇201中，那么表明簇201中的目标图像与待检索图像的类别一致，簇202中的目标图像与待检索图像的类别不一致。

本申请实施例在经过标准化的特征向量上进行分类，类别信息隐含在了特征的角度空间中，这样可以实现在分类分支和特征分支上都能够对不同类别进行区分。

基于图2的描述，请参见图3，图3是本申请实施例提供的另一种图像检索方法的流程示意图，该图像检索方法可以由图像检索装置或者计算机设备执行；如图3所示的图像检索方案包括但不限于步骤S301～步骤S310，其中：

S301，获取训练样本，训练样本包括第一训练图像，至少一个第二训练图像以及各个第二训练图像的聚类标签。

其中，至少一个第二训练图像包括与第一训练图像匹配的第二训练图像，和/或与第一训练图像不匹配的第二训练图像，聚类标签用于指示相应第二训练图像与第一训练图像是否为同一聚类。

S302，调用初始图像检索模型，对第一训练图像进行特征提取，得到第一训练图像的第三中间图像特征，并对各个第二训练图像进行特征提取，得到各个第二训练图像的第四中间图像特征。

S303，对第三中间图像特征进行标准化处理，得到第一训练图像的第三图像特征，并对各个第四中间图像特征进行标准化处理，得到相应第二训练图像的第四图像特征。

S304，基于第三图像特征和各个第二训练图像的第四图像特征，对第一训练图像和至少一个第二训练图像进行聚类，得到各个第二训练图像的聚类结果，聚类结果用于指示相应第二训练图像与第一训练图像是否为同一聚类。

S305，按照减小各个第二训练图像的聚类结果和聚类标签的差异的方向，对初始图像检索模型进行训练，得到图像检索模型。

在一种实现方式中，训练样本还可以包括第一训练图像和至少一个第二训练图像中各个训练图像的类别标签，类别标签用于指示相应训练图像的类目信息。本申请实施例还可以获取第一训练图像组，第一训练图像组包括的各个训练图像的类别标签相匹配，获取第一训练图像组包括的每两个训练图像的图像特征，按照减小每两个训练图像的图像特征的差异的方向，对初始图像检索模型进行训练，得到图像检索模型。通过本申请实施例可以将相同类别的图像特征聚集在一起。

在一种实现方式中，训练样本还可以包括第一训练图像和至少一个第二训练图像中各个训练图像的类别标签，类别标签用于指示相应训练图像的类目信息。本申请实施例还可以获取第二训练图像组，第二训练图像组包括的各个训练图像的类别标签不匹配，获取第二训练图像组包括的每两个训练图像的图像特征，按照增大每两个训练图像的图像特征的差异的方向，对初始图像检索模型进行训练，得到图像检索模型。通过本申请实施例可以将不同类别的图像特征的距离被拉开。

S306，获取待检索图像和待检索图像的候选检索结果，候选检索结果包括至少一个目标图像，至少一个目标图像是基于待检索图像检索到的。

S307，调用图像检索模型，对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征。

S308，对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征。

S309，基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类。

S310，确定与待检索图像属于同一聚类的目标图像，并生成待检索图像的检索结果，检索结果包括确定的目标图像。

本申请实施例中的步骤S306至步骤S310可参见上述实施例中步骤S101至步骤S105的相关描述，本申请实施例不再赘述。

本申请实施例中，获取训练样本，调用初始图像检索模型，对第一训练图像进行特征提取，得到第一训练图像的第三中间图像特征，并对各个第二训练图像进行特征提取，得到各个第二训练图像的第四中间图像特征，对第三中间图像特征进行标准化处理，得到第一训练图像的第三图像特征，并对各个第四中间图像特征进行标准化处理，得到相应第二训练图像的第四图像特征，基于第三图像特征和各个第二训练图像的第四图像特征，对第一训练图像和至少一个第二训练图像进行聚类，得到各个第二训练图像的聚类结果，聚类结果用于指示相应第二训练图像与第一训练图像是否为同一聚类，按照减小各个第二训练图像的聚类结果和聚类标签的差异的方向，对初始图像检索模型进行训练，得到图像检索模型。然后，在获取待检索图像和待检索图像的候选检索结果之后，调用图像检索模型对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征，对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类，确定与待检索图像属于同一聚类的目标图像，并生成待检索图像的检索结果，检索结果包括确定的目标图像，可有效提高图像检索的准确性。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图4，图4是本申请实施例的提供一种图像检索装置的结构示意图。

本申请实施例的图像检索装置的一个实现方式中，图像检索装置包括如下结构。

获取单元401，用于获取待检索图像和所述待检索图像的候选检索结果；其中，所述候选检索结果包括至少一个目标图像，所述至少一个目标图像是基于所述待检索图像检索到的；

特征提取单元402，用于对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征；

标准化处理单元403，用于对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征；

聚类单元404，用于基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类；

检索结果生成单元405，用于确定与所述待检索图像属于同一聚类的目标图像，并生成所述待检索图像的检索结果，所述检索结果包括确定的目标图像。

在一个实施例中，所述标准化处理单元403在对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征时，包括：

在一个实施例中，所述聚类单元404在基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类时，包括：

基于所述第一图像特征和所述各个目标图像的第二图像特征，获取所述待检索图像和所述各个目标图像的相似度；

在一个实施例中，所述特征提取单元402在对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征时，包括：

在一个实施例中，所述对所述待检索图像和所述至少一个目标图像进行聚类是调用图像检索模型处理得到的；

获取单元401，还用于获取训练样本；其中，所述训练样本包括第一训练图像，至少一个第二训练图像以及各个第二训练图像的聚类标签，所述至少一个第二训练图像包括与所述第一训练图像匹配的第二训练图像，和/或与所述第一训练图像不匹配的第二训练图像，所述聚类标签用于指示相应第二训练图像与所述第一训练图像是否为同一聚类；

特征提取单元402，还用于调用初始图像检索模型，对所述第一训练图像进行特征提取，得到所述第一训练图像的第三中间图像特征，并对各个第二训练图像进行特征提取，得到所述各个第二训练图像的第四中间图像特征；

标准化处理单元403，还用于对所述第三中间图像特征进行标准化处理，得到所述第一训练图像的第三图像特征，并对各个第四中间图像特征进行标准化处理，得到相应第二训练图像的第四图像特征；

聚类单元404，还用于基于所述第三图像特征和所述各个第二训练图像的第四图像特征，对所述第一训练图像和所述至少一个第二训练图像进行聚类，得到所述各个第二训练图像的聚类结果，所述聚类结果用于指示相应第二训练图像与所述第一训练图像是否为同一聚类；

所述图像检索装置还可以包括训练单元406，训练单元406用于按照减小所述各个第二训练图像的聚类结果和聚类标签的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

在一个实施例中，所述训练样本还包括所述第一训练图像和所述至少一个第二训练图像中各个训练图像的类别标签，所述类别标签用于指示相应训练图像的类目信息；

获取单元401，还用于获取第一训练图像组，所述第一训练图像组包括的各个训练图像的类别标签相匹配；

获取单元401，还用于获取所述第一训练图像组包括的每两个训练图像的图像特征；

训练单元406，还用于按照减小所述每两个训练图像的图像特征的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

获取单元401，还用于获取第二训练图像组，所述第二训练图像组包括的各个训练图像的类别标签不匹配；

获取单元401，还用于获取所述第二训练图像组包括的每两个训练图像的图像特征；

训练单元406，还用于按照增大所述每两个训练图像的图像特征的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

本申请实施例中，获取单元401获取待检索图像和待检索图像的候选检索结果，候选检索结果包括至少一个目标图像，至少一个目标图像是基于待检索图像检索到的，特征提取单元402对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征，标准化处理单元403对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，聚类单元404基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类，检索结果生成单元405确定与待检索图像属于同一聚类的目标图像，并生成待检索图像的检索结果，检索结果包括确定的目标图像，可有效提高图像检索的准确性。

再请参见图5，图5是本申请实施例提供的一种计算机设备的结构示意图，本申请实施例的计算机设备包括供电模块等结构，并包括处理器501、存储装置502以及通信接口503。处理器501、存储装置502以及通信接口503之间可以交互数据，由处理器501实现相应的目标检测方法。

存储装置502可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置502也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置502还可以包括上述种类的存储器的组合。

处理器501可以是中央处理器(central processing unit，CPU)。处理器501也可以是由CPU和GPU的组合。在服务器中，可以根据需要包括多个CPU和GPU进行相应的数据处理。在一个实施例中，存储装置502用于存储程序指令。处理器501可以调用程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，计算机设备的处理器501，调用存储装置502中存储的程序指令，用于获取待检索图像和所述待检索图像的候选检索结果；其中，所述候选检索结果包括至少一个目标图像，所述至少一个目标图像是基于所述待检索图像检索到的；对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征；对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征；基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类；确定与所述待检索图像属于同一聚类的目标图像，并生成所述待检索图像的检索结果，所述检索结果包括确定的目标图像。

在一个实施例中，所述处理器501在对所述第一中间图像特征进行标准化处理，得到所述待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征时，可以执行如下操作：

在一个实施例中，所述处理器501在基于所述第一图像特征和所述各个目标图像的第二图像特征，对所述待检索图像和所述至少一个目标图像进行聚类时，可以执行如下操作：

基于所述第一图像特征和所述各个目标图像的第二图像特征，获取所述待检索图像和所述各个目标图像的相似度；

在一个实施例中，所述处理器501在对所述待检索图像进行特征提取，得到所述待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到所述各个目标图像的第二中间图像特征时，可以执行如下操作：

在一个实施例中，所述对所述待检索图像和所述至少一个目标图像进行聚类是调用图像检索模型处理得到的；所述处理器501还用于执行如下操作：

按照减小所述各个第二训练图像的聚类结果和聚类标签的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

在一个实施例中，所述训练样本还包括所述第一训练图像和所述至少一个第二训练图像中各个训练图像的类别标签，所述类别标签用于指示相应训练图像的类目信息；所述处理器501还用于执行如下操作：

获取第一训练图像组，所述第一训练图像组包括的各个训练图像的类别标签相匹配；

获取所述第一训练图像组包括的每两个训练图像的图像特征；

按照减小所述每两个训练图像的图像特征的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

获取第二训练图像组，所述第二训练图像组包括的各个训练图像的类别标签不匹配；

获取所述第二训练图像组包括的每两个训练图像的图像特征；

按照增大所述每两个训练图像的图像特征的差异的方向，对所述初始图像检索模型进行训练，得到所述图像检索模型。

本申请实施例中，处理器501获取待检索图像和待检索图像的候选检索结果，候选检索结果包括至少一个目标图像，至少一个目标图像是基于待检索图像检索到的，对待检索图像进行特征提取，得到待检索图像的第一中间图像特征，并对各个目标图像进行特征提取，得到各个目标图像的第二中间图像特征，对第一中间图像特征进行标准化处理，得到待检索图像的第一图像特征，并对各个第二中间图像特征进行标准化处理，得到相应目标图像的第二图像特征，基于第一图像特征和各个目标图像的第二图像特征，对待检索图像和至少一个目标图像进行聚类，确定与待检索图像属于同一聚类的目标图像，并生成待检索图像的检索结果，检索结果包括确定的目标图像，可有效提高图像检索的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本发明所涵盖的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：小红书科技有限公司;

上一篇：一种锂电池用绝热防火复合材料电池箱盖及其制造方法
下一篇：一种星基无人机高精度定位导航装置