图像检索方法、装置、电子设备及计算机可读存储介质

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及图像检索技术领域，尤其是涉及一种图像检索方法、装置、电子设备及计算机可读存储介质。

背景技术

图像检索是指根据指定图像在指定数据库内检索相似图像。现有一种基于深度学习的哈希方法，通过卷积神经网络学习哈希方程，将待检索的高维度图像数据映射到二进制的汉明空间上，转化为二值哈希编码，映射得到的二进制编码在汉明空间上保留原始数据之间的相似度信息，通过计算二值哈希编码与各个候选图像的二进制码的汉明距离来得到图像之间的相似程度。这种基于深度学习的哈希方法将高纬度的图像数据转换为低纬度的二值哈希码，降低了检索所需要的存储空间，同时，二进制码间的汉明距离计算是基于位操作，相比基于数值特征的图像检索，提升了检索速度。

现有的深度哈希方法根据相似度度量策略分类，可分为如下三种：

其一为基于二元组(pair-wise)的深度哈希方法，通过拉近图像相似数据对在汉明空间上的距离进行相似度聚类，其代表方法有CNNH，Hashnet等。

其二为基于三元组(triplet-wise)的深度哈希方法，通过在基于二元组的深度哈希方法的基础上，增大无关数据对之间在汉明空间上的汉明距离进行相似度聚类，其代表方法有DNNH，DTSH等。

其三为基于中心点(point-wise)的深度哈希方法，通过对数据的各个类别在汉明空间上预设聚类哈希中心，通过缩小数据哈希码与其所属类别的哈希中心之间的汉明距离进行相似度聚类，其代表方法有CSQ。

上述三种深度哈希方法集中于优化图像相似度度量策略，其本质为拉近相似数据的哈希码之间的汉明距离，增大无关数据之间的哈希码值间的汉明距离，故用于训练网络的损失函数均须涉及哈希码之间的距离度量运算，算法复杂度较高。

并且，现有的深度哈希方法对卷积神经网络模型选择照搬套用，采用全连接层输出数据的实数哈希近似码，将实数哈希近似码二值化成二值哈希码的过程中会产生量化损失，导致编码质量较低，从而影响检索准确性。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种图像检索方法，能够生成质量较高的二值哈希编码，检索准确性高，且用于训练网络的损失函数无须涉及哈希码之间的距离度量运算，算法复杂度低。

本发明是通过以下技术方案实现的：一种图像检索方法，包括如下步骤：

获取待检索图像，计算所述待检索图像与每一分类类别的相似度，得到中心相似度向量；

针对每一所述分类类别，生成一二值哈希中心向量，将每一所述分类类别对应的所述二值哈希中心向量构成哈希中心矩阵；

将所述中心相似度向量与所述哈希中心矩阵进行线性组合，得到所述待检索图像的二值哈希编码；

计算所述二值哈希编码与所有候选图像的二进制码间的汉明距离，确定其中最小的前X个所述汉明距离对应的候选图像为检索结果。

相对于现有技术，本发明的图像检索方法通过利用图像的中心相似度向量为编码系数，以二值哈希中心向量构成的哈希中心矩阵为编码基矩阵，将中心相似度向量和二值化的哈希中心矩阵进行线性编码生成二值哈希编码，由此，该二值哈希编码的二值化程度更高，更趋近于二值码，且此二值哈希编码在二值化过程中产生的量化误差低，具有更高的编码质量，从而可以提高图像检索的准确性。

同时，本发明的图像检索方法的中心相似度向量与图像的分类类别相关，在进行训练时，可直接采用分类交叉熵损失，相比涉及汉明距离的损失函数其计算复杂度低，算法速度快。

进一步地，计算所述待检索图像与每一分类类别的相似度，得到中心相似度向量，包括步骤：

将所述待检索图像输入卷积神经网络进行图像特征提取，并经过全连接层根据所述图像特征输出中心相似度向量；对所述中心相似度向量进行归一化处理。

进一步地，所述卷积神经网络为Resnet50。

进一步地，所述二值哈希中心向量的每一位值遵循伯努利分布。

进一步地，所述哈希中心矩阵中的任意两个二值哈希中心向量间的最小距离大于K/4，且任意两个二值哈希中心向量间的平均距离大于K/2，其中K为所述二值哈希中心向量的位长。

进一步地，所述中心相似度向量的损失函数L

其中，N为训练图像的样本数量；S为分类类别的类别数；y

进一步地，所述二值哈希编码的损失函数的表达式为：

其中，N为训练图像的样本数量；M为所述二值哈希编码的位长；h

基于同一发明构思，本申请还提供一种图像检索装置，包括：

相似度计算模块，用于获取待检索图像，计算所述待检索图像与每一分类类别的相似度，得到中心相似度向量；

哈希中心生成模块，用于针对每一所述分类类别，生成一二值哈希中心向量，将每一所述分类类别对应的所述二值哈希中心向量构成哈希中心矩阵；

线性组合模块，用于将所述中心相似度向量与所述哈希中心矩阵进行线性组合，得到所述待检索图像的二值哈希编码；

结果输出模块，用于计算所述二值哈希编码与所有候选图像的二进制码间的汉明距离，确定其中最小的前X个所述汉明距离对应的候选图像为检索结果。

基于同一发明构思，本申请还提供一种电子设备，包括：

处理器；

存储器，用于存储可由所述处理器执行的计算机程序；

其中，所述处理器执行所述程序时实现上述方法的步骤。

基于同一发明构思，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为一示例性的图像检索方法的应用场景示意图；

图2为一个实施例的图像检索方法的流程示意图；

图3为一个示例性的中心相似度向量与哈希中心矩阵进行线性组合的示意图；

图4为一个实施例的图像检索装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其为一示例性的图像检索方法的应用场景示意图，包括用户终端10和服务器20，用户终端10可以是任何具有上网功能的智能终端，例如，可以具体为计算机、手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、电子书阅读器、多媒体播放器等，服务器20可以是计算机，还可以是专用服务器。其中，用户终端10可以通过无线局域网接入路由器，并通过路由器访问公网上的服务器20。用户终端10可以运行图像检索软件的用户客户端，当用户通过用户终端10向服务器20发送待检索图像时，服务器20通过本发明的图像检索方法根据所接收的待检索图像进行处理，得到检索结果，并将该检索结果返回至用户终端10。

请参阅图2，其为一个实施例的图像检索方法的流程示意图，该方法包括如下步骤：

S1：获取待检索图像，计算待检索图像与每一分类类别的相似度，得到中心相似度向量；

S2：针对每一分类类别，生成一二值哈希中心向量，将每一分类类别对应的二值哈希中心向量构成哈希中心矩阵；

S3：将中心相似度向量与哈希中心矩阵进行线性组合，得到待检索图像的二值哈希编码；

S4：计算二值哈希编码与所有候选图像的二进制码间的汉明距离，确定其中最小的前X个汉明距离对应的候选图像为检索结果。

具体的，在步骤S1中，获取待检索图像，计算待检索图像与每一分类类别的相似度，得到中心相似度向量。其中，图像可以根据图形内容分类为多种不同的分类类别，例如杯子、电脑、书等等，每一图像至少对应有一种分类类别。

图像与分类类别的相似度越高，则说明该图像越符合该分类类别。中心相似度向量中的元素即为待检索图像与每一分类类别的相似度。在一可选实施例中，计算待检索图像与每一分类类别的相似度，得到中心相似度向量，具体包括步骤：将待检索图像输入卷积神经网络进行图像特征提取，并经过全连接层根据图像特征输出中心相似度向量；对中心相似度向量进行归一化处理。

其中，卷积神经网络模型对待检索图像进行图像特征的提取，根据图像特征通过全连接层计算得到待检索图像与每一分类类别的相似度组成的中心相似度向量，中心相似度向量的长度与分类类别的类别数相同。

卷积神经网络可以为任意具有图像特征提取能力的神经网络，作为优选的，卷积神经网络可选用Resnet50作为主干网络，将Resnet50的最后一层修改为全连接层，以输出中心相似度向量。

可选用softmax函数对中心相似度向量进行归一化处理。归一化后的中心相似度向量中的元素值可作为二值哈希编码的编码系数。

在步骤S2中，针对每一分类类别，生成一二值哈希中心向量，将每一分类类别对应的二值哈希中心向量构成哈希中心矩阵。其中，二值哈希中心向量将作为图像在汉明空间上的聚类中心。二值哈希中心向量为K位的二值向量，二值哈希中心向量中每一位的值为以一定的概率在两个值(a值或b值)中随机生成，如每一位的值为+1或-1。

优选的，为了使任意两个二值哈希中心向量间的期望汉明距离最大，二值哈希中心向量的每一位值的生成遵循伯努利分布，则每一位的值x为a值或b值的概率均为0.5，即P(x＝a)＝(x＝b)＝0.5，x～Bern(0.5)。

以下对此进行详细阐述，在K位的汉明空间H

将每一分类类别对应的二值哈希中心向量构成哈希中心矩阵，可以作为二值哈希编码的编码基矩阵。哈希中心矩阵的尺寸为S×K，其中S为分类类别的类别数，K为二值哈希中心向量的长度。

在一优选实施例中，为了保证哈希中心矩阵中任意两个二值哈希中心向量对应的聚类中心的汉明距离尽量远，哈希中心矩阵中任意两个二值哈希中心向量c

其中，i,j∈(0,S]，K为所述二值哈希中心向量的位长。

在步骤S3中，将中心相似度向量与哈希中心矩阵进行线性组合，得到待检索图像的二值哈希编码。其中，中心相似度向量作为二值哈希编码的编码系数，哈希中心矩阵作为二值哈希编码的编码基矩阵。请参阅图3，其为一个示例性的中心相似度向量与哈希中心矩阵进行线性组合的示意图，将中心相似度向量与哈希中心矩阵进行线性组合时，将中心相似度向量中的每一个值分别与哈希中心矩阵中的一个二值哈希中心向量相乘后，将乘积相加，即得到待检索图像的二值哈希编码。

在步骤S4中，计算二值哈希编码与所有候选图像的二进制码间的汉明距离，确定其中最小的前X个汉明距离对应的候选图像为检索结果。

由此，经过步骤S1～S4，通过待检索图像的中心相似度向量与哈希中心矩阵的线性组合，可得到质量较高的二值哈希编码，从而通过比较待检索图像的热值哈希编码与候选图像的二进制码间的汉明距离，可以得到更准确的检索结果。

进一步的，在计算待检索图像与每一分类类别的相似度前，需要首先对用于进行特征提取的卷积神经网络和输出中心相似度向量的全连接层进行训练，训练时，可选用交叉熵损失函数计算中心相似度向量的损失，交叉熵损失函数L

其中，N为训练图像的样本数量；S为分类类别的类别数；y

在一可选实施例中，训练图像的真实类别向量Y可通过one-hot label进行表示，如某一包含3种类别标签的训练图像的真实类别向量Y可表示为(1,1,1,0,0)。若训练图像为包含多个标签的图像时，对其真实类别向量Y进行归一化处理，归一化公式表示为：

其中，y′

更进一步的，对二值哈希编码的损失的损失函数LQ

其中，h

则整体的联合损失函数由中心相似度向量的交叉熵损失L

L＝L

其中，λ为超参数。

基于同一发明构思，本申请还提供一种图像检索装置。请参阅图4，其为一个实施例的图像检索装置的结构示意图，该装置包括相似度计算模块11、哈希中心生成模块12、线性组合模块13和结果输出模块14，其中，相似度计算模块11用于获取待检索图像，计算所述待检索图像与每一分类类别的相似度，得到中心相似度向量；哈希中心生成模块12用于针对每一所述分类类别，生成一二值哈希中心向量，将每一所述分类类别对应的所述二值哈希中心向量构成哈希中心矩阵；线性组合模块13用于将所述中心相似度向量与所述哈希中心矩阵进行线性组合，得到所述待检索图像的二值哈希编码；结果输出模块14用于计算所述二值哈希编码与所有候选图像的二进制码间的汉明距离，确定其中最小的前X个所述汉明距离对应的候选图像为检索结果。

在一优选实施例中，相似度计算模块11还包括卷积子模块和归一化子模块，其中，卷积子模块用于将待检索图像输入卷积神经网络进行图像特征提取，并经过全连接层根据图像特征输出中心相似度向量；归一化子模块用于对中心相似度向量进行归一化处理。

在一优选实施例中，图像检索装置还包括训练模块，训练模块用于用交叉熵损失函数计算中心相似度向量的损失。

在一优选实施例中，训练模块还用于通过量化损失函数计算二值哈希编码的损失。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关细节之处请参见方法实施例的说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元。

基于同一发明构思，本发明还提供一种电子设备，所述电子设备可以是服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该电子设备包括一个或多个处理器和存储器，其中处理器用于执行程序实现方法实施例的图像检索方法；存储器用于存储可由所述处理器执行的计算机程序。

基于同一发明构思，本发明还提供一种计算机可读存储介质，与前述图像检索方法的实施例相对应，所述计算机可读存储介质其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所记载的图像检索方法的步骤。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

完整全部详细技术资料下载