掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习和SIFT的图像检索方法及系统

文献发布时间:2023-06-19 18:46:07


一种基于深度学习和SIFT的图像检索方法及系统

技术领域

本发明涉及图像处理技术领域,尤其涉及一种基于深度学习和SIFT的图像检索方法及系统。

背景技术

在计算机视觉领域,深度学习的神经网络经过良好的训练能够快速分辨出不同类别的图像,并展现出良好的性能。然而,随着大数据时代的到来,庞大数据集的图像检索已经广泛应用于计算机视觉和人工智能等先进领域。如何从这个大数据库的数字资源中快速检索到用户需要的图像信息和提高图像检索效率,就成为了计算机视觉一个亟待重要的问题。当图像预处理的高维图像特征较多时,也会造成维灾难问题。同时社交媒体时代的快速发展,网络图像数量的爆炸式增长大,给大规模图像检索带了巨大挑战。此时使用常规的检索算法,检索效率会受到极大限制。针对传统图像检索的检索效率低、图像内容无法真确表达和高维图像特征的维灾难等问题和借鉴深度学习网络的优点。

发明内容

针对现有算法的不足,本发明解决现有方法中图像检索查准率、查全率较低以及图像检索效率低的问题,为后续的图像检索算法研究以及工程应用提供新的思路。

本发明所采用的技术方案是:一种基于深度学习和SIFT的图像检索方法,包括以下步骤:

步骤一、利用CNN和SIFT提取原始图像CNN特征和原始图像SIFT特征;

步骤二、通过SVM算法对提取的图像CNN特征和图像SIFT特征进行分类,并计算分类后的图像的均值CNN、SIFT特征;

进一步的,图像的均值CNN、SIFT特征的公式为:

其中,C,N分别是图像CNN特征向量和图像SIFT特征向量;

步骤三、构建CNN神经网络模型,对原始图像进行训练,通过动量法并设置目标函数,对原始图像的CNN特征和SIFT特征进行训练,生成原始图像对应的索引特征;

进一步的,CNN神经网络模型包括:3*5*5卷积层、3*4*4池化层、Relu激活层、全连接层和分类层;

进一步的,目标函数的公式为:

其中,F

步骤四、输入待查询图像,比较待查询图像特征与每一类图像索引特征的相似性度量,从而确定待查询图像所属的类别库,并从类别库中产生若干符合查询条件的候选结果;

进一步的,候选结果是根据图像SIFT和CNN特征相似度的值排序;

进一步的,相似度量计算公式为:

其中,t为阈值,S

步骤五、对步骤四筛选出的原始图像的特征进行加权系数调整;

加权系数的调整是调整计算单个图像的特证总值;

进一步的,加权系数调整的公式为:

D

其中,设w

进一步的,基于深度学习和SIFT的图像检索方法的系统包括:

特征提取模块,用于CNN和SIFT提取原始图像CNN特征和图像SIFT特征向量;

特征分类模块,用SVM算法对提取的图像CNN特征和图像SIFT特征进行分类,并计算分类后的图像的均值CNN、SIFT特征;

训练模块,用于对原始图像进行训练,通过动量法和设置目标函数,对CNN神经网络的模型和参数进行优化;

输出模块,用于输入待查询图像,比较待查询图像特征与每一类库索引特征的相似性度量,从而确定类别库,并从类别库中产生若干符合查询条件的候选结果。

本发明的有益效果:

1、结合大数据Spark平台上,利用深度卷积神经网络模型进行CNN、SIFT特征抽取,再利用支持向量机对图像库进行无监督聚类,然后再利用自适应的图像特征度量来对检索结果进行重排序,以改善用户体验。

附图说明

图1是本发明算法流程图;

图2是本发明的CNN神经网络模型;

图3是本发明图像分块以及对应的CNN特征;

图4是本发明原始图像对应的CNN特征和索引特征;

图5是本发明图像检索流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

如图1所示,一种基于深度学习和SIFT的图像检索方法包括以下步骤:

步骤一、在Spark平台上,利用深度卷积神经网络(Convolutional NeuralNetwork,CNN)和SIFT(Scale-invariant Feature Transform,SIFT)模型来提取原始图像库的原始图像CNN和SIFT特征;

步骤二、通过Spark的MLlib库中的SVM来训练步骤一提取的图像CNN、SIFT特征,并进行图像分类;即将原始图像分类为具体的类型,例如菊花、汽车等;同时计算出每个图像类别的均值CNN、SIFT特征;

图像类别的均值CNN、SIFT特征的公式为:

其中,C,N分别是图像CNN特征向量和图像SIFT特征向量;

步骤三、将原始图像分为训练集、校验集和测试集,70%数据为训练集,15%数据为校验集,15%数据为测试集,并训练CNN网络(如图2所示),CNN网络包括:3*5*5卷积层、3*4*4池化层、Relu激活层、全连接层和分类层;其中,为便于建模,对图像进行分块(如图3所示),输入图像为32×32,通过动量法动态调整学习率的训练、校验和测试,卷积层、池化层、激活层和全连接层的参数都得到优化调整,对原始图像的CNN特征和SIFT特征进行训练,生成原始图像对应的索引特征;

通过样本的预测结果与真实标记产生的误差来反向传播指导网络参数学习和表示学习,设置目标函数,公式为:

其中,F

步骤四、如图4,检索图像时,先设定图像相似度度量的阈值,然后比较进行待查询图像特征与每一类库索引特征的相似性度量来确定类别库,索引特征是利用图像类别的均值CNN、SIFT特征建立对应,再从类别库中产生若干符合查询条件的候选结果,结果排序则是根据图像SIFT和CNN特征相似度的值;

其中,t为阈值,S

步骤五:用户从步骤四的结果集中挑选出最满意的图像之后,再按式(4)对图像各特征的加权系数进行调整,以便用户下一次更好地体验。

D

其中,设w

如图5为算法检索过程中,先将原始的图像库进行图像CNN、SIFT特征提取,然后利用Spark平台MLlib库中的SVM算法对图像特征进行分类;分类之后,取每个类图像库的均值图像特征作为索引,用户检索时,需提交要查询的图像,交由图像特征提取机制进行特征提取,递交给搜索机制,让其根据特征相似度度量的返回查询结果,同时图像各视觉特征的加权系数会随用户的检索行为而改变(即图像相似性度量的原理),从而达到自适应的效果;若提交的图片不在标准库中,则算法利用离线方式对图像CNN特征进行学习,优化结果集;当再次提交时,系统就会返回用户满意的结果。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

技术分类

06120115686597