掌桥专利:专业的专利平台
掌桥专利
首页

一种用于多标签图像检索的标签表征构建方法

文献发布时间:2023-06-19 19:30:30


一种用于多标签图像检索的标签表征构建方法

技术领域

本发明涉及图像检索技术领域,特别涉及一种用于多标签图像检索的标签表征构建方法。

背景技术

目前,生活在互联网大数据时代,爆炸性的数据量以图像、视频、文本和音频等多种形式出现,对现有的搜索引擎和推荐系统带来了很大的挑战,因此使用深度哈希技术对图像进行编码,实现快速图像检索,提高检索效率;

传统的深度哈希方法大多基于成对标签或三元组的方法进行对比学习,但是该方法存在不足:一是对采样策略要求高,二是采样结果对数据分布的覆盖率不足;三是对不平衡数据的有效性较差;四是没有考虑到多标签数据集中各个标签之间的依赖关系。

因此,本发明提供了一种用于多标签图像检索的标签表征构建方法,用以通过图卷积网络生成各个标签的表征,且通过最小化标签表征平衡损失、量化损失来优化图卷积网络,确保对多标签图像的标签表征进行准确生成,提高不同标签表征之间的可辨别性,同时也为准确确定多标签图像类中心提供了保障。

发明内容

本发明提供了一种用于多标签图像检索的标签表征构建方法,用以通过图卷积网络生成各个标签的表征,且通过最小化标签表征平衡损失、量化损失来优化图卷积网络,确保对多标签图像的标签表征进行准确生成,提高不同标签表征之间的可辨别性,同时也为准确确定多标签图像类中心提供了保障。

本发明提供了一种用于多标签图像检索的标签表征构建方法,包括:

步骤1:从多标签图像数据集中获取标签集并计算所述标签集中不同标签之间的共现概率,将各标签的One-Hot编码作为各标签的初始表征向量,同时,构建一张图,图的节点表示为每个标签的表征向量,图的边权为表示标签之间的共现概率,并基于图卷积网络根据所述共现概率对不同初始表征向量进行融合,得到每个标签的标签表征;

步骤2:通过卷积神经网络提取所述多标签图像的图像特征,并基于所述标签表征和多标签图像的标签信息计算所述多标签图像的语义表征,同时,计算图像特征与对应语义表征之间的余弦距离,且基于所述余弦距离构建中心相似性损失,并通过最小化所述中心相似性损失来优化卷积神经网络;

步骤3:基于训练完成的卷积神经网络提取所述数据集中所有多标签图像以及待检索多标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索多标签图像与所述数据集中多标签图像之间的相似性,并基于所述相似性完成多标签图像检索。

优选的,一种用于多标签图像检索的标签表征构建方法,步骤1中,从多标签图像数据集中获取标签集并计算所述标签集中不同标签之间的共现概率,将各标签的One-Hot编码作为各标签的初始表征向量,同时,构建一张图,图的节点表示为每个标签的表征向量,图的边权为表示标签之间的共现概率,并基于图卷积网络根据所述共现概率对不同初始表征向量进行融合,得到每个标签的标签表征,包括:

基于所述多标签图像数据集获取标签集,并基于多标签图像的总数目和不同标签出现在同一张多标签图像中的次数,计算任意两个不同标签之间的标签共现概率;

确定不同标签的One-Hot编码,并将所述One-Hot编码作为各个标签的初始表征向量;

构建一张图,其中,图是由若干给定节点及连接节点的边构成;

将所述图的节点使用各个标签的表征向量来表示,图的边权使用标签之间的共现概率来表示,其中,当任意两标签共现概率为0时,对应边权为0;

基于图卷积网络根据所述共现概率对不同标签的初始表征向量进行融合,得到每一个标签的标签表征,其中,任意两标签共现概率越高,经过图卷积网络的传播,这两个标签对应的的标签表征相似度越高,且所述图卷积网络是通过最小化标签表征平衡损失和量化损失的加权和进行优化所得;

其中,标签表征平衡损失具体为将各个标签表征之间的距离最大化,即将各个标签表征之间的相似性最小化,且所述标签表征之间的距离与标签表征之间的相似性呈负相关关系;

标签表征量化损失具体为促使各个标签表征的每一维度的值趋近于+1或-1;

优选的,一种用于多标签图像检索的标签表征构建方法,标签表征的维度为预设的哈希码位数,其中,所述预设哈希码位数包括:16比特、32比特和64比特。

优选的,一种用于多标签图像检索的标签表征构建方法,步骤2中,通过卷积神经网络提取所述多标签图像的图像特征,并基于所述标签表征和多标签图像的标签信息计算所述多标签图像的语义表征,同时,计算图像特征与对应语义表征之间的余弦距离,且基于所述余弦距离构建中心相似性损失,并通过最小化所述中心相似性损失来优化卷积神经网络,包括:

获取所述多标签图像,并对所述多标签图像进行预处理,且将预处理后的多标签图像输入至卷积神经网络;

基于所述卷积神经网络对所述多标签图像提取特征,得到所述多标签图像的图像特征,并将所述图像特征进行特征维度变换,得到所述多标签图像对应的目标维度图像特征;

获取所述多标签图像的多个标签信息,并基于所述标签信息得到各个标签对应的标签表征,且将所述各个标签对应的标签表征进行平均得到所述多标签图像的语义表征向量;

计算对所述多标签图像提取得到的目标维度图像特征与对应的语义表征向量之间的余弦距离,并基于所述余弦距离构建中心相似性损失,其中,目标维度图像特征和对应的语义表征向量以及标签表征具有相同的维度;

计算图像特征量化损失,并基于所述图像特征量化损失促使所述目标维度图像特征的每一维度的值趋近于+1或-1;

通过最小化中心相似性损失和图像特征量化损失的加权和来优化卷积神经网络。

优选的,一种用于多标签图像检索的标签表征构建方法,步骤3中,基于训练完成的卷积神经网络提取所述数据集中所有多标签图像以及待检索多标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索多标签图像与所述数据集中多标签图像之间的相似性,并基于所述相似性完成多标签图像检索,包括:

将数据集中所有多标签图像输入卷积神经网络进行特征提取,得到所述多标签图像对应的图像特征,并将所述图像特征符号化为二进制码,且将每张多标签图像及其对应的二进制码存储至数据库;

获取用户提交的待检索多标签图像,并将所述待检索多标签图像输入卷积神经网络,得到所述待检索多标签图像特征,并将其符号化为二进制码;

计算所述待检索多标签图像的二进制哈希码与数据库中所有的多标签图像对应的二进制码之间的汉明距离,并按照汉明距离从小到大进行排序;

基于排序结果,若数据库中存在多标签图像的二进制码与待检索多标签图像之间的二进制码之间的汉明距离小于或等于预设汉明距离阈值,则判定所述多标签图像为待检索多标签图像的相似图像;

返回数据库中所有与所述待检索多标签图像相似的相似图像,并基于所述相似图像完成多标签图像检索任务。

优选的,一种用于多标签图像检索的标签表征构建方法,判定所述多标签图像为待检索多标签图像的相似样本,包括:

获取所述汉明距离小于或等于所述预设汉明距离阈值的二进制码,并调取存储记录表,其中,所述存储记录表中记录所述多标签图像的存储地址、多标签图像信息以及对应的二进制码,且所述存储地址、多标签图像以及对应的二进制码一一对应;

基于所述存储记录表确定所述二进制哈希码对应的多标签图像的存储地址,并基于所述存储地址调取所述多标签图像,并将所述多标签图像传输至检索终端进行显示,完成对目标检索多标签图像的检索任务。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中一种用于多标签图像检索的标签表征构建方法的流程图;

图2为本发明实施例中一种用于多标签图像检索的标签表征构建方法的原理图;

图3为本发明实施例中一种用于多标签图像检索的标签表征构建方法中检索过程的原理图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例1:

本实施例提供了一种用于多标签图像检索的标签表征构建方法,如图1所示,包括:

步骤1:从多标签图像数据集中获取标签集并计算所述标签集中不同标签之间的共现概率,将各标签的One-Hot编码作为各标签的初始表征向量,同时,构建一张图,图的节点表示为每个标签的表征向量,图的边权为表示标签之间的共现概率,并基于图卷积网络根据所述共现概率对不同初始表征向量进行融合,得到每个标签的标签表征;

步骤2:通过卷积神经网络提取所述多标签图像的图像特征,并基于所述标签表征和多标签图像的标签信息计算所述多标签图像的语义表征,同时,计算图像特征与对应语义表征之间的余弦距离,且基于所述余弦距离构建中心相似性损失,并通过最小化所述中心相似性损失来优化卷积神经网络;

步骤3:基于训练完成的卷积神经网络提取所述数据集中所有多标签图像以及待检索多标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索多标签图像与所述数据集中多标签图像之间的相似性,并基于所述相似性完成多标签图像检索。

该实施例中,构建一张图指的是构建一个由若干给定的点及连接两点的边所构成的图形,图的节点表示为每个标签的初始表征向量,图的边权表示为标签之间的共现概率。

该实施例中,初始表征向量指的是标签集中每个标签的One-Hot编码或是其预训练的词向量。

该实施例中,多标签图像数据集的标签集指的是数据集中包含的所有标签。

该实施例中,进行特征融合指的是标签表征根据标签之间的共现概率来融合其他标签的特征,其中两标签之间的共现概率越高,则进行融合的程度越高。

该实施例中,语义表征是作为图像特征学习过程中的监督信息。

该实施例中,中心相似性损失基于图像特征与其标签表征之间的余弦距离进行构建,最小化中心相似性损失促使同标签图像的图像特征靠近其对应的标签表征。

该实施例中,标签表征的维度为预设的二进制码位数,包括16比特、32比特、64比特等,即标签表征的维度对应为16维、32维、64维等。

该实施例中,汉明距离是用来表征任意两个多标签图像之间的相似程度,汉明距离越小,表明两张图像越相似。

该实施例中,待检索多标签图像指的是用户用于检索的图像。

上述技术方案的有益效果是:通过图卷积网络生成各个标签的表征,且通过最小化标签表征平衡损失、量化损失来优化图卷积网络,确保对多标签图像的标签表征进行准确生成,提高不同标签表征之间的可辨别性,同时也为准确确定多标签图像类中心提供了保障,保障了多标签图像检索的准确率。

实施例2:

在上述实施例1的基础上,本实施例提供了一种用于多标签图像检索的标签表征构建方法,如图2所示,步骤1中,

从多标签图像数据集中获取标签集并计算所述标签集中不同标签之间的共现概率,将各标签的One-Hot编码作为各标签的初始表征向量,同时,构建一张图,图的节点表示为每个标签的表征向量,图的边权为表示标签之间的共现概率,并基于图卷积网络根据所述共现概率对不同初始表征向量进行融合,得到每个标签的标签表征,包括:

基于所述多标签图像数据集获取标签集,并基于多标签图像的总数目和不同标签出现在同一张多标签图像中的次数,计算任意两个不同标签之间的标签共现概率;

确定不同标签的One-Hot编码,并将所述One-Hot编码作为各个标签的初始表征向量;

构建一张图,其中,图是由若干给定节点及连接节点的边构成;

将所述图的节点使用各个标签的表征向量来表示,图的边权使用标签之间的共现概率来表示,其中,当任意两标签共现概率为0时,对应边权为0;

基于图卷积网络根据所述共现概率对不同标签的初始表征向量进行融合,得到每一个标签的标签表征,其中,任意两标签共现概率越高,经过图卷积网络的传播,这两个标签对应的的标签表征相似度越高,且所述图卷积网络是通过最小化标签表征平衡损失和量化损失的加权和进行优化所得;

其中,标签表征平衡损失具体为将各个标签表征之间的距离最大化,即将各个标签表征之间的相似性最小化,且所述标签表征之间的距离与标签表征之间的相似性呈负相关关系;

标签表征量化损失具体为促使各个标签表征的每一维度的值趋近于+1或-1;

该实施例中,基于图卷积网络的表征融合过程使得标签表征之间学习到标签之间的相关关系,为标签表征引入了一定程度的语义信息。

该实施例中,使用One-Hot编码或预训练的词向量作为标签的初始表征。

该实施例中,计算标签共现概率的方法为,首先计算标签共现的条件概率:

P(y

其中,P(y

该实施例中,因为P(y

其中,P为标签的条件共现概率矩阵,P

该实例中,基于图卷积网络进行特征融合,每一层图卷积可以表示为:

其中,C

该实施例中,使用两层图卷积进行表征融合。

该实施例中,经过图卷积网络的传播,两标签共现概率越高,表征融合的程度越高,其标签表征之间的相似度越大;如图2所示,网球和网球拍之间的共现概率较高,网球和羽毛球拍共现概率为0,因此在最终得到的标签表征中,网球和网球拍对应的标签表征具有更近的距离,更大的相似度;而网球和羽毛球拍对应额标签表征保持更远的距离,更小的相似度。

该实施例中,图卷积网络输出的节点特征即为标签表征,表征的维度与预设的哈希码位数保持一致,其中所述预设的哈希码位数包括:16比特、32比特和64比特。

该实施例中,标签表征平衡损失指的是最大化任意两个标签表征之间的距离,即最小化任意两个表征之间的余弦相似度,从而确保得到的图像标签表征更具有分辨性,标签表征平衡损失表示为:

其中,α表示标签表征平衡损失;c

该实施例中,标签表征平损失在保持各标签表征之间的相对相似度差异的基础上,增加各对标签表征之间的距离,即减小各个标签表征之间的相似度;例如网球和网球拍对应的标签表征距离更远了,网球和羽毛球拍对应的标签表征之间的距离同样更远,但前者的距离仍然比后者的距离近;通过标签表征平衡损失,使得标签表征在保持语义相似性差异的同时,增加各个标签表征的可辨别性。

该实施例中,标签表征向量的每一个维度的值域为(-1,1)。

该实施例中,标签表征量化损失指的是促进各个标签表征向量的每一维度的值都接近于+1或-1,从而减小后续对特征进行符号化导致的信息损失,标签表征量化损失表示为:

其中,γ表示标签表征量化损失;c

该实施例中,通过最小化标签表征平衡损失和标签表征量化损失的加权总和,来优化图卷积网络。

上述技术方案的有益效果是:通过图卷积网络实现标签表征之间的融合,促使共现概率高的标签对应的标签表征之间具有更高的相似性,另一方面,通过标签表征平衡损失加大标签表征之间的绝对距离,最后通过标签表征量化损失减少因后续特征符号化导致的信息损失,以此来得到既包含语义相似性且具有较高可分辨性的标签表征。

实施例3:

在上述实施例1的基础上,本实施例提供了一种用于多标签图像检索的标签表征构建方法,步骤2中,通过卷积神经网络提取所述多标签图像的图像特征,并基于所述标签表征和多标签图像的标签信息计算所述多标签图像的语义表征,同时,计算图像特征与对应语义表征之间的余弦距离,且基于所述余弦距离构建中心相似性损失,并通过最小化所述中心相似性损失来优化卷积神经网络,包括:

获取所述多标签图像,并对所述多标签图像进行预处理,且将预处理后的多标签图像输入至卷积神经网络;

基于所述卷积神经网络对所述多标签图像提取特征,得到所述多标签图像的图像特征,并将所述图像特征进行特征维度变换,得到所述多标签图像对应的目标维度图像特征;

获取所述多标签图像的多个标签信息,并基于所述标签信息得到各个标签对应的标签表征,且将所述各个标签对应的标签表征进行平均得到所述多标签图像的语义表征向量;

计算对所述多标签图像提取得到的目标维度图像特征与对应的语义表征向量之间的余弦距离,并基于所述余弦距离构建中心相似性损失,其中,目标维度图像特征和对应的语义表征向量以及标签表征具有相同的维度;

计算图像特征量化损失,并基于所述图像特征量化损失促使所述目标维度图像特征的每一维度的值趋近于+1或-1;

通过最小化中心相似性损失和图像特征量化损失的加权和来优化卷积神经网络。

该实施例中,预处理是指对多标签训练图像进行翻转、裁剪等。

该实施例中,卷积神经网络指的是在大型图像数据集ImageNet是预先训练好的ResNet50、AlexNet等网络。

该实施例中,图像特征通过卷积神经网络提取,并经过哈希层将其高维度图像特征转换至目标维度图像特征,目标维度为预设的二进制哈希码的位数,其中所述预设哈希码位数包括:16比特、32比特和64比特。

该实施例中,获取多标签训练图像所有的标签信息及其对应的标签表征,将该多标签图像对应的所有标签表征平均得到该图像的语义表征;

该实施例中,语义表征作为图像特征学习过程中的监督信息,计算图像特征与其对应标签表征之间的中心相似性损失,表示为:

其中,θ表示目标维度图像特征与其对应标签表征之间的中心相似性损失;I

该实施例中,图像特征的每一个维度的值域为(-1,1)。

该实施例中,图像特征量化损失指的是促进图像特征的每一维度的值都接近于+1或-1,从而减小后续对特征进行符号化导致的信息损失,标签表征量化损失表示为:

其中,

该实施例中,通过最小化中心相似性损失和图像特征量化损失的加权总和,来优化卷积神经网络和哈希层,从而使相似图像对应的图像特征能够相互靠近,且特征各个维度值都靠近+1或-1。

上述技术方案的有益效果是:通过卷积网络提取多标签图像的图像特征,并计算图像特征与其对应的语义表征之间的中心相似性损失,通过最小化中心相似性损失和图像特征量化损失的加权总和,来优化卷积神经网络和哈希层,确保标签完全相同的图像,其特征靠近于同一个语义表征共享同一个语义表征,且保障了相似的多标签图像,即共享至少一个标签的图像,其特征相互靠近。

实施例4:

在上述实施例1的基础上,本实施例提供了一种用于多标签图像检索的标签表征构建方法,步骤3中,

基于训练完成的卷积神经网络提取所述数据集中所有多标签图像以及待检索多标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索多标签图像与所述数据集中多标签图像之间的相似性,并基于所述相似性完成多标签图像检索,包括:

将数据集中所有多标签图像输入卷积神经网络进行特征提取,得到所述多标签图像对应的图像特征,并将所述图像特征符号化为二进制码,且将每张多标签图像及其对应的二进制码存储至数据库;

获取用户提交的待检索多标签图像,并将所述待检索多标签图像输入卷积神经网络,得到所述待检索多标签图像特征,并将其符号化为二进制码;

计算所述待检索多标签图像的二进制哈希码与数据库中所有的多标签图像对应的二进制码之间的汉明距离,并按照汉明距离从小到大进行排序;

基于排序结果,若数据库中存在多标签图像的二进制码与待检索多标签图像之间的二进制码之间的汉明距离小于或等于预设汉明距离阈值,则判定所述多标签图像为待检索多标签图像的相似图像;

返回数据库中所有与所述待检索多标签图像相似的相似图像,并基于所述相似图像完成多标签图像检索任务。

该实施例中,将图像特征符号化为二进制码的过程可以表示为:

其中,b

该实施例中,目标二进制哈希码指的是对待检索多标签图像的图像特征符号化得到的二进制码。

该实施例中,汉明距离是用来表征目标二进制哈希码与多标签训练图像对应的二进制码之间的远近程度,汉明距离越小,表明待检索单表签图像与当前多标签图像越相似。

该实施例中,预设汉明距离阈值是提前设定好的,用于衡量目标二进制哈希码与多标签图像对应的二进制码之间的距离是否达到相似要求,是可以是进行调整的。

上述技术方案的有益效果是:通过将图像都用二进制哈希码来表示,并通过二进制哈希码之间的汉明距离来评估两张图像之间的相似度,能够提高相似图像检索的效率。

实施例5:

在上述实施例4的基础上,本实施例提供了一种用于多标签图像检索的标签表征构建方法,判定所述多标签图像为待检索多标签图像的相似图像,包括:

获取所述汉明距离小于或等于所述预设汉明距离阈值的二进制码,并调取存储记录表,其中,所述存储记录表中记录所述多标签图像的存储地址、多标签图像信息以及对应的二进制码,且所述存储地址、多标签图像以及对应的二进制码一一对应;

基于所述存储记录表确定所述二进制哈希码对应的多标签图像的存储地址,并基于所述存储地址调取所述多标签图像,并将所述多标签图像传输至检索终端进行显示,完成对目标检索多标签图像的检索任务。

上述技术方案的有益效果是:通过根据存储记录表,实现对检索结果对应的多标签训练图像的存储地址、二进制哈希码以及对应的图像信息的存储位置进行快速准确的判断,从而便于快速将检索结果推送至对应的枷锁终端,提高了检索的效率以及检索的效果。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种RFID标签、防复制包装结构和RFID标签的检测方法
  • 一种用于单标签图像检索的标签表征构建方法
  • 一种用于个性化社会图像推荐的视觉注意‑标签‑用户兴趣树的构建方法
技术分类

06120115938016