掌桥专利:专业的专利平台
掌桥专利
首页

一种基于二阶注意力机制的孪生网络图像检索方法

文献发布时间:2023-06-19 12:02:28


一种基于二阶注意力机制的孪生网络图像检索方法

技术领域

本发明属于图像处理方法技术领域,涉及一种基于二阶注意力机制的孪生网络图像检索方法。

背景技术

在互联网时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如,Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达7.28亿,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势,将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过十来来的发展,基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。

图像检索实现了对图像库的有效查询和管理,它是指从大规模图像数据库中检索出与问文本查询或视觉查询相关的图像。目前图像检索主要有基于文本的图像检索(text-based image retrieval,TBIR)、基于内容的图像检索(content-based image retrieval,CBIR)和基于语义的图像检索(semantic-based image retrieval,SBIR)。基于文本的图像检索,主要是利用文本描述图像的特征,然后再通过文本匹配进行图像的检索。目前基于文本的检索技术已经发展成熟,如概率方法、Page-Rank方法、摘要方法、位置方法、分类或词性标注法、聚类方法等(Cheng A,Friedman E.Manipulability of PageRank under sybilstrategies[J].NetEcon,2006.)。基于内容的图像检索技术,它是对图像的内容,如图像的形状、纹理等低层特征进行查询和分析的图像检索技术。通过对图像的视觉内容进行数学描述来提取图像特征,利用这些低层特征的数学描述去反映图像本身的视觉内容。基于语义的图像检索技术,与CBIR不同的是,SBIR是解决“语义鸿沟”的重要方法及思路,它不但考虑了低层视觉特征,而且考虑了图像的高层特征,如场景、情感和空间关系等方面的图像信息。在2012年,Krizhevsky等(Krizhevsky A,Sutskever I,Hinton G E.Imagenetclassification with deep convolutional neural networks[c]//Advances in neuralinformation processing systems,2012:1097-1105.)在ImageNet LSVRC大赛上利用AlexNet获得了最高的准确率,从那之后兴起了一些基于深度学习的图像检索算法,广泛应用在图像语义分割、目标识别、图像分类以及图像检索等领域。在深度学习算法中特别是卷积神经网络的检索效果最好,它利用多个池化层和卷积层的组合得到图像的视觉特征,并与反馈及分类技术相结合从而实现了较好的检索结果。

目前面对的问题是对于图像检索精度还有待进一步提高,以及增加检索方法的智能化和多样化。如何快速高效准确的检索到用户需要的图像是图像检索领域的重要课题。

发明内容

本发明的目的是提供一种基于二阶注意力机制的孪生网络图像检索方法,解决了现有技术中存在的图像检索精度较低的问题。

本发明所采用的技术方案是,一种基于二阶注意力机制的孪生网络图像检索方法,包括以下步骤:

步骤1、对查询图像和训练图像进行背景减除处理;

步骤2、在卷积神经网络的卷积层后增加二阶注意力机制,得到二阶注意力卷积神经网络,二阶注意力机制的作用是对卷积层的输出进行处理,得到下一层的输入;

步骤3、将步骤1处理后的查询图像、训练图像分别输入二阶注意力卷积神经网络进行特征提取,得到查询图像特征、训练图像特征;

步骤4、将查询图像特征、训练图像特征进行全局平均池化、L2归一化后得到查询图像描述符D2、训练图像描述符D2,D

步骤5、将查询图像描述符、训练图像描述符进行相似性度量,按照相似度对训练图像描述符进行排序,得到排序结果;

步骤6、对排序结果进行重排,检索得到与查询图像最相似的训练图像。

本发明的特点还在于:

步骤2中卷积神经网络包括2*3个池化层、2*2个全连接层、3*1个卷积层,卷积层中的滤波器大小为5×5。

步骤2中对卷积层的输出进行处理,得到下一层的输入的具体过程为:

步骤a、将大小为H×W的C维特征图表示为特征图F=[f

上式中,

步骤b、对协方差矩阵∑进行协方差归一化得到:

∑=U∧U

上式中,U为正交矩阵,∧=diag(λ

步骤c、对步骤b处理后的协方差矩阵∑进行卷积归一化,将其转化为特征值的幂:

上式中,α为正实数,∧

步骤d、使

上式中,H

步骤e、应用门控机制对通道c的统计值z

w

上式中,W

利用通道c中的缩放因子w

步骤5的具体过程为:计算查询图像描述符D2与每一张训练图像描述符D

根据欧式距离d

步骤6的具体过程为:选取排序结果中排名靠前的几张训练图像,计算其特征向量的平均值向量,根据平均值向量对结果进行重排,检索得到与查询图像最相似的训练图像。

本发明的有益效果是:

本发明一种基于二阶注意力机制的孪生网络图像检索方法,在卷积的过程中加入二阶注意力机制加强二阶空间信息,重新加权特征映射,从而强调突出的图像位置然后用于描述,能提高图像描述符的局部和全局性能;能提高检索精度,节约检索时间,实现了快速、高效、准确的目的。

附图说明

图1是本发明一种基于二阶注意力机制的孪生网络图像检索方法的流程图;

图2是本发明一种基于二阶注意力机制的孪生网络图像检索方法的具体流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于二阶注意力机制的孪生网络图像检索方法,如图1和图2所示,具体包括以下步骤:

步骤1、选择数据集,采用背景减除算法对对数据集中的查询图像和训练图像进行背景减除处理;

本实施例中选择的数据集是CIFAR-10。其中包括十个类别,一共50000张训练图片和10000张训练图片。CIFAR-10含有的是现实世界中真实的物体,不仅噪声很大,而且物体的比例、特征都不尽相同,这为识别带来很大困难。背景减除算法主要是使用pythonopencv里面的BackgroundSubtractorMOG2算法,该方法默认使用前120帧图像进行建模,使用概率前景分割算法,即使用贝叶斯推断方法来识别一个物体是否是前景;该算法通过自适应的方法比较图像中新的被观察物体比旧的观察物体有更高的权重,这样能适应光照的变化;其中的一些形态学的操作比如闭运算和开运算用来除去不想要的噪声。

步骤2、在卷积神经网络的卷积层后增加二阶注意力机制,能提高各卷积层的特征之间的依赖性,得到二阶注意力卷积神经网络,二阶注意力机制的作用是对卷积层的输出进行处理,得到下一层的输入。通过依次对每一层卷积层后面加二阶注意力机制模块进行实验,对比结果找到最适合增加二阶注意力机制的卷积层;

具体的,卷积神经网络包括2*3个池化层、2*2个全连接层、3*1个卷积层,三个卷积层中分别为32、32和64个滤波器,卷积层中的滤波器大小为5×5。查询图像和训练图像经过卷积处理后得到对应的特征映射,并且使用Loss函数对网络中的权重不断进行更新,以达到最佳的训练效果;

对卷积层的输出进行处理,得到下一层的输入的具体过程为:

步骤a、将大小为H×W的C维特征图表示为特征图F=[f

上式中,

步骤b、由于协方差矩阵∑是对称半正定的,因此具有特征值分解(EIG);对协方差矩阵∑进行协方差归一化得到:

∑=U∧U

上式中,U为正交矩阵,∧=diag(λ

步骤c、对步骤b处理后的协方差矩阵∑进行卷积归一化,将其转化为特征值的幂:

上式中,α为正实数,∧

步骤d、通过全局协方差池化将归一化协方差矩阵作为通道描述符。具体的,使

上式中,H

步骤e、应用门控机制对通道c的统计值z

w

上式中,W

利用通道c中的缩放因子w

步骤3、将步骤1处理后的查询图像、训练图像分别输入二阶注意力卷积神经网络进行特征提取,得到查询图像特征、训练图像特征;

步骤4、将查询图像特征、训练图像特征进行全局平均池化、L2归一化后,给定查询图像特征、训练图像特征一个softmax函数进行处理,得到查询图像描述符D2、训练图像描述符D

步骤5、将查询图像描述符与每张训练图像描述符进行相似性度量,按照相似度对训练图像描述符进行排序,得到排序结果;

具体的,相似性度量的方式为计算查询图像描述符D2与每一张训练图像描述符D

根据欧式距离d

步骤6、对排序结果进行重排,检索得到与查询图像最相似的训练图像。

具体的,选取排序结果中排名靠前的几张训练图像,计算其特征向量的平均值向量,根据平均值向量对结果进行重排,检索得到与查询图像最相似的训练图像。

通过以上方式,本发明一种基于二阶注意力机制的孪生网络图像检索方法,在卷积的过程中加入二阶注意力机制加强二阶空间信息,重新加权特征映射,从而强调突出的图像位置然后用于描述,能提高图像描述符的局部和全局性能;能提高检索精度,节约检索时间,实现快速、高效、准确的目的。

相关技术
  • 一种基于二阶注意力机制的孪生网络图像检索方法
  • 一种基于注意力机制与全卷积孪生神经网络的矿区变化检测方法
技术分类

06120113148451