掌桥专利:专业的专利平台
掌桥专利
首页

一种面向多模态检索的自适应半配对询问哈希方法

文献发布时间:2024-04-18 19:58:26


一种面向多模态检索的自适应半配对询问哈希方法

技术领域

本发明涉及多模态哈希检索的技术领域,尤其涉及一种自适应的半配对多模态哈希检索的方法。

背景技术

目前,社交网络中的多媒体数据持续以惊人的速度快速增长,使得信息搜索遇到前所未有的巨大挑战。哈希作为一种有效的表示技术,以其低存储、高效等优点在信息检索、推荐和计算机视觉等领域发挥着重要作用。哈希方法的目标是将高维数据映射成一串紧凑的二进制代码。通过快速异或(XOR)运算来加速大规模数据中的近似最近邻(ANN)搜索。早期的先驱者专注于图像搜索并提出了各种单模态哈希方法。单模态哈希广泛应用于图像搜索应用并取得令人满意的表现。

然而,单模态哈希主要目的是处理单一模态数据,对于多模态应用程序来说是棘手的。在实际目标搜索任务中,目标对象通常由来自不同方面的成对多模态数据来表征。例如,微信朋友圈中的一张图片往往附有相关的文字描述。由于不同媒体之间具有高度的相关性,因此支持跨不同模态相似性度量的新兴需求受到关注。跨模态哈希方法拟实现以一种模态作为查询从数据库中检索其他模态的搜索任务。然而,现有的单模态哈希和跨模态哈希在编码阶段无法直接对成对的多模态数据进行编码。

最近,一些研究者致力于研究带有多种模态特征的多模态样本的哈希编码方法。一种直观的方式是扩展单模哈希,将多模态数据简单拼接为统一的高维特征来处理。然而,这种处理方式造成了棘手的维数灾难和信息冗余。为了克服这一问题,多模态哈希方法应运而生,将异构多模态数据点转换成一串统一的二进制编码。如多特征哈希(MultipleFeature Hashing,MFH)、多视图潜在哈希(Multi-view Latent Hashing,MVLH)、多视图对齐哈希(Multiview Alignment Hashing,MAH)、深度多模哈希(Deep Multi-modalHashing,SIDMH)和哈达玛矩阵引导的多模哈希(Hadmard matrix-Guided Multi-modalHashing,HGMH)。这些方法利用多模态数据的互补性来学习它们的联合哈希码,可以很容易地为具有成对模态的查询数据生成哈希码。但仍存在未解决的问题:在数据编码阶段,并不能确定所有样本都有完全配对的模态。针对有部分模态缺失的样本,现有模型的哈希编码能力有限,在解决不成对模态数据的联合编码问题方面却鲜有尝试。

单模态哈希旨在仅包含单一模态的数据集上实现哈希搜索。单模态哈希方法分为数据独立方法和数据依赖方法。具有代表性的数据独立方法包括局部敏感哈希(Locality-sensitive Hashing,LSH)、核化局部敏感哈希(Kernelized Locality SensitiveHashing,KLSH)、平移不变核哈希(Shift-invariant Kernel Hashing,SIKH)等。数据独立方法需要较长的编码长度才能保持较高的性能,增加了内存消耗和存储成本。通常,与数据独立方法相比,数据依赖方法更受欢迎,具有更好的检索精度。迭代量化(IterativeQuantization,ITQ)是一种经典的数据依赖哈希方法,通过学习零中心化后的数据的正交旋转矩阵,降低了从数据空间到二元超立方体空间过程的量化误差。有监督离散哈希算法(Supervised Discrete Hashing,SDH)提出了一种有效的离散优化方法,即离散循环坐标下降法(Discrete Cyclic Coordination Descent,DCC)来求解无松弛的离散变量。离散局部线性嵌入哈希(Discrete Locality Linear Embedding Hashing,DLLH)将原始数据的局部流形结构保持到哈希码中。针对DLLH提出了一种基于锚点的加速方案,将其扩展到大规模数据搜索。为了处理带有流数据或增量数据,基于哈达玛密码本的在线哈希(HadamardCodebook based Online Hashing,HCOH)将共享相同标签的数据与从哈达玛矩阵中的码字相关联,以在线方式训练哈希函数。

跨模态哈希旨在通过给定的模态作为查询检索其他相关的模态。在搜索过程中,学习到的哈希函数可以分别对每个模态单独编码。最近,各种跨模态哈希方法被分为监督跨模态哈希和无监督跨模态哈希。无监督跨模态哈希倾向于通过探索数据分布和拓扑结构来学习哈希函数。联合和个体矩阵分解哈希(Joint and Personal Matrix FactorizationHashing,JIMFH)分别学习联合哈希码和个体哈希码来保留多模态数据的共享属性及其特有属性。无监督多模态哈希(Unsupervised Multi-modal Hashing,UMH)同时挖掘文本模态的语义相关性和视觉模态的局部几何结构,并将其保存在哈希码中。有监督的跨模态哈希方法利用训练数据的语义标签来学习紧凑的哈希码,这类方法可以获得比无监督方法更高的检索性能。有监督鲁棒离散多模态哈希(Supervised Robust Discrete MultimodalHashing,SRDMH)保留了原始空间的相似性,并通过融入标签信息学习判别性哈希函数。半监督半成对哈希(Semi-supervised and Semi-paired Hashing,SSH)被提出用于解决半成对多模态场景下跨模态检索的哈希建模问题。语义增强离散矩阵分解哈希(Semantic-enhanced Discrete Matrix Factorization Hashing,SDMFH)通过对模态间语义相似图进行分解,学习所有模态的共同哈希表示。可扩展的非对称离散跨模态哈希算法(ScalableAsymmetric discreTe Cross-modal Hashing,BATCH)在汉明空间中保留了标签的成对距离,降低了算法的时间和空间复杂度。可扩展离散矩阵分解和语义自编码器(ScalableDiscrete Matrix Factorization and Semantic Autoencoder,SDMSA)通过常用的二进制特征重构原始模态特征,增强哈希码的表示能力。特定类中心引导的深度哈希算法(Specific Class Center Guided Deep Hashing,SCCGDH)通过学习特定的类中心来指导神经网络架构下的哈希函数学习。与单模态哈希类似,跨模态哈希也是仅以一个模态作为查询进行编码完成信息搜索,但不能直接对配对样本进行统一编码。

不同于跨模态哈希和单模态哈希,多模态哈希学习一个联合的哈希映射函数对成对的多个模态数据进行统一编码。现有的大多数多模态哈希方法试图以无监督的方式融合多模态数据信息。例如,多特征哈希(Multiple Feature Hashing,MFH)通过构建多视图和全局图来建模训练数据的结构,并在哈希学习中保留结构信息。多视角潜在哈希(Multi-view Latent Hashing,MVLH)在联合的核特征中进行矩阵分解以学习紧凑且统一的二进制编码。多视角离散哈希(Discrete Hashing,MVDH)引入非负谱聚类得到聚类伪标签,通过执行集成的矩阵分解和映射学习保持标签与哈希码的一致性。此外,一些监督的方法也相继被提出,例如,语义驱动的可解释深度多模态哈希(Semantic-driven Interpretable DeepMulti-modal Hashing,SIDMH)设计了一个深度哈希网络来生成语义类别监督的可解释哈希码。基于训练好的变换矩阵,可以通过拼接SIDMH模型每个分支的哈希码来编码包含类别信息的任何新的查询样本。Hadamard矩阵引导的多模态哈希(Hadamard Matrix-GuidedMulti-modal Hashing,HGMH)联合执行子空间学习和目标特征学习来获得一个判别性和统一性的哈希函数。

尽管上述方法取得了很大的进步,但是忽视了训练数据和测试数据之间的差异,这提供潜在的改进动机。从训练阶段学习到的硬化哈希函数并不适用于所有查询。因此,近年来研究了具有动态查询码的多模态哈希方法。具有动态查询自适应的在线多模态哈希(Online Multi-modal Hashing with Dynamic Query-adaption,OMH-DQ)利用多模态信息的互补性和以成对的语义标签作为监督信息来学习鲁棒的哈希函数。自适应多模态融合哈希(Adaptive Multi-modal Fusion Hashing,AMFH)引入哈达玛矩阵为特定类生成哈希中心,并诱导具有相同类的样本在汉明空间中靠近其类中心点。上述方法根据查询内容的变化自适应地获取融合多个模态信息的查询哈希码,以捕获多模态数据中的模态差异。

多模态检索有别于传统的图像检索,传统的图像检索应用中一个样本就仅仅是一张图片,然而多模态检索中一个实例样本包含了图片、文字等多模态信息。

因此,多模态哈希能够将异构的多模态数据转化为联合的二进制编码串。由于其具有低存储成本、快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注。现有的多模态哈希方法假设所有多模态数据是完全配对的并且能够根据训练阶段学习到的哈希函数获得其联合哈希特征。然而,在实际搜索应用中不能保证所有数据都是完全配对的情况,此类多模态哈希方法在编码阶段不能很好地处理半成对的多模态样本。目前,很少有工作能够同时为非成对的模态数据和具有成对模态数据的询问样本生成哈希编码提供有效的方案。

发明内容

针对多模态哈希检索应用中某些模态信息缺失的实例样本的哈希编码技术问题,本发明提出一种面向多模态检索的自适应半配对询问哈希方法,结合了投影学习、跨模态重构学习和多模态融合哈希学习来获得判别性的哈希映射函数和跨模态重构矩阵,并在哈希编码阶段自适应的融合多个模态信息以实现对全成对和半配对的多模态样本的哈希编码。

为了达到上述目的,本发明的技术方案是这样实现的:一种面向多模态检索的自适应半配对询问哈希方法,其步骤如下:

步骤一:训练阶段:对训练数据集中成对的图像样本和文字样本分别进行预处理,得到图像模态和文本模态的特征矩阵;

步骤二:对图像模态和文本模态的特征矩阵联合执行投影学习、跨模态重构学习、多模态融合学习和语义保持哈希学习来学习获得判别性的哈希映射函数,并获得跨模态重构矩阵;

步骤三:对新到达批量的询问样本进行预处理得到各个模态的核特征,若询问样本仅含有图像或仅含有文本,则通过训练学习得到的跨模态重构矩阵来补全缺失的模态特征;

步骤四:编码阶段:将补全后的模态特征矩阵输入到哈希映射函数,获得询问样本的哈希编码矩阵;采用自加权融合策略更新哈希映射函数中的模态加权系数,并获得批量询问样本的哈希编码特征矩阵,多次迭代后输出最优的哈希编码矩阵;

步骤五:检索阶段:将询问样本划分为询问集和检索集,通过哈希码计算询问集中询问样本与检索集的汉明距离,选择汉明距离最近的几个样本作为检索结果。

优选地,所述步骤一中进行预处理的方法为:训练数据集由n个图像-文本的样本组成,图像集和文本集分别由

优选地,所述步骤二的实现方法为:首先分别将图像模态和文本模态的特征矩阵投影到低维的子空间得到文本特征矩阵和图像特征矩阵;然后在子空间中,文本特征矩阵可被图像样本的低维特征重构,图像特征矩阵也能被文本样本的低维特征重构;最后,图像模态和文本模态的特征矩阵被加权融合获得联合的哈希特征,同时在离散的汉明空间中保留了样本间的语义结构性。将上述过程转换成一个联合的目标优化问题;采用交替优化的方式求解目标优化问题的目标函数,得到最优的优化参数列表,从而获得判别性的哈希映射函数。

优选地,所述哈希映射函数为:

优选地,所述判别性的哈希映射函数的获得方法为:所述投影学习和跨模态重建学习的过程转换为:

其中,P

多模态联合哈希特征学习融合成对的图像模态和文本模态的独特属性信息,并保留多模态语义结构信息,则:

其中,W

将投影学习和跨模态交叉重构学习与多模态联合哈希特征学习表述成为一个整体的优化问题为:

其中,γ是平衡参数,Φ(P

采用交替优化的方法来求解矩阵P

通过采用c×n大小的标签矩阵L代替语义相似度矩阵S,语义相似度矩阵S为

优选地,所述交替优化的方法的步骤为:

步骤1:其他变量不变,关于图像的映射矩阵P

令上述子目标函数关于图像的映射矩阵P

步骤2:其他变量不变,关于文本的映射矩阵P

令上述子目标函数文本的映射矩阵P

步骤3:其他变量不变,关于子空间中图像特征表示E

令上述目标函数关于图像特征表示E

步骤4:其他变量不变,关于子空间中文本特征表示E

令上式关于子空间中文本特征表示E

步骤5:其他变量不变,关于图像的基矩阵U

令上式关于图像的基矩阵U

步骤6:其他变量不变,关于文本的基矩阵U

令上式关于文本的基矩阵U

步骤7:其他变量不变,关于映射矩阵W

令上式关于映射矩阵W

步骤8:其他变量不变,关于自适应加权系数α

其中

步骤9:其他变量不变,关于联合哈希编码特征矩阵B的目标函数为:

通过引入辅助变量V,上式的目标函数转化为:

其中,ρ是一个平衡参数。

优选地,采用交替优化方法来求解哈希编码特征矩阵B和辅助变量V:当辅助变量V不变时,得到哈希编码特征矩阵B的闭合解:

当哈希编码特征矩阵B不变时,令转化后的目标函数关于辅助变量V的导数为零,得到:

V=(βBB

重复上述步骤,直到优化问题的目标函数收敛或迭代次数达到预设的最大值。

优选地,所述步骤三的实现方法为:采用径向基函数核来获取批量询问样本的各个模态的核特征;如果询问样本中仅存在文本,即图像模态缺失,则通过已知的文本核特征

令上式关于图像特征

同理,如果询问样本中仅存在图像,即文本模态缺失,依据已知的图像特征

令上式关于文本核特征

优选地,所述自加权融合策略的实现方法为:令

其中,

采用两步交替法求解的方法为:

步骤1):优化自适应加权系数

步骤2):优化询问样本的哈希特征矩阵B

迭代运行上述过程,直到上述学习问题的目标函数收敛,最后将最优的询问样本的哈希特征矩阵B

优选地,对于任意新的样本数据,经编码阶段获取哈希码特征,样本间的的汉明距离由对应的哈希码的异或值表示;对于一个询问样本,从检索集中返回与询问样本的汉明距离最近的前N样本作为检索结果。

本发明的有益效果:训练阶段首先,执行投影学习和跨模态重建学习以保持多模态数据的语义一致性;然后,语义相似度和多模态信息的互补性被保留在哈希码来学习判别性的哈希函数;未配对的数据通过学习到的跨模态重构矩阵来补全缺失模态的特征。在编码阶段,训练阶段获得的哈希函数中的模态权重随着新的批量多模态数据的到来被自适应地调整以捕获询问数据的动态差异。在公开数据集上的实验结果表明,本发明提出的方法优于最先进的多模态哈希检索方法,能够适应模态缺失场景下的多模态实例样本检索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为本发明训练阶段和编码阶段的框架图。

图3为传统编码方法与在线批量编码方法在编码过程中的示意图,其中,(a)为传统编码方法,(b)为在线批量编码方法。

图4为本发明和现有方法在三个数据集上的PR曲线,其中,(a)为Pascal Sentence数据集,(b)为NUS-WIDE数据集,(c)为IAPR TC-12数据集。

图5为多模态检索示例的仿真图。

图6为本发明编码阶段不同批次数据对应的模态权重的变化可视化过程,其中,(a)为Pascal Sentence数据集,(b)为NUS-WIDE数据集,(c)为IAPR TC-12数据集。

图7为不同特征空间的t-SNE可视化表示,其中,(a)为原始图像特征,(b)为原始文本特征,(c)为低维子空间特征,(d)为二值特征空间。

图8为本发明三个数据集上不同参数设置下的性能变化仿真结果,其中,(a)为平衡参数β,(b)为平衡参数

图9为本发明提出的方法在三个数据集上的收敛曲线,其中,(a)为PascalSentence数据集,(b)为NUS-WIDE数据集,(c)为IAPR TC-12数据集。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1和图2所示,一种面向多模态检索的自适应半配对询问哈希(AdaptivelySemi-paired query Hashing,ASPQH)方法,包括离线训练阶段和在线编码阶段,在离线训练阶段,联合执行投影学习、跨模态重构学习、多模态融合学习和语义保持哈希学习来学习判别性哈希函数;在编码阶段,由于并不能保证新到达的询问样本都具有完整的模态信息,对于缺失了某些模态的询问数据,首先巧妙地利用了训练阶段所学习到的跨模态重构矩阵来重构缺失的模态特征,然后再利用训练所得的判别性哈希函数对多模态数据进行哈希编码。考虑到训练数据和新的询问数据之间的差异性,本技术方案基于新的询问数据对训练所获得的哈希映射函数中的模态权重进行动态调整以获取新批量询问数据的最优哈希码。本发明提出的ASPQH的主要贡献总结如下:

开发了一个自适应的半配对询问哈希框架用于多模态哈希检索,将子空间学习和哈希学习结合成一个统一的学习架构;充分利用多模态信息和语义标签信息来学习具有判别性的哈希函数,得到的哈希码有效地保留了多模态数据的互补性和语义相似性;设计的跨模态重构项增强了异质模态之间的语义一致性表示;并且利用学习到的跨模态重构矩阵有效地解决了缺失部分模态信息的实例样本的哈希编码问题;提出了一种有效的优化方法来求解带有离散约束的目标函数。在三个公开的数据集上,本发明提出的方法与最先进的方法的对比评估结果表明了所提出的方法的有效性。

本发明实现的步骤如下:

步骤一:训练阶段:对训练数据集中成对的图像样本和文字样本分别进行预处理,得到图像模态和文本模态的特征矩阵。

假设给定训练数据集由n个图像-文本样本组成,图像集和文本集分别由

步骤二:联合执行投影学习、跨模态重构学习、多模态融合学习和语义保持哈希学习来学习判别性的哈希映射函数:首先分别将图像模态和文本模态的特征矩阵投影到低维的子空间得到文本子空间表示矩阵和图像子空间表示矩阵;然后原始的文本特征可以被图像样本的低维子空间特征重构,同理,原始的图像特征也能被文本样本的低维子空间特征重构;最后,图像模态和文本模态在汉明空间被加权融合获得联合的哈希特征,同时在离散的汉明空间中保留了样本间的语义结构性。将上述过程转换成一个联合的目标优化问题;采用交替优化的方式求解目标优化问题的目标函数(见式(3)),得到最优的优化参数列表,从而获得判别性的哈希映射函数和跨模态重构矩阵。

样本中的不同模态描述相同的语义内容,不同模态之间的语义一致性可以看作是跨越不同模态的桥梁。任一模态可以通过其他模态重建,以捕获不同模态之间的相关性。通过将多模态特征投影到一个潜在的子空间,获得子空间表示,其中任意模态原始特征可以通过其他模态的子空间表示特征来重建,投影学习和跨模态重建学习过程转换为:

其中,P

尽管成对的多模态数据间的语义信息是一致的,但具有不同物理结构的异构模态之间也存在差异,因此不同模态的子空间表示略不同。这种差异代表不同模态的独特属性信息,而这些独特属性信息是互补的,有利于学习联合的哈希特征。本发明将融合成对模态的独特属性信息,并保留多模态语义结构信息,以学习判别性的哈希函数,从而提高检索性能。具体而言,问题表述如下:

其中,W

本发明将投影学习和跨模态交叉重构(见式(1))和多模态联合哈希特征学习(见式(2)表述成为一个整体的优化问题,如下式(3)所示:

其中,λ、β和γ是平衡参数,Φ(P

由于式(3)是一个多变量的非凸优化问题,直接求解比较困难。在本发明中,采用交替优化的方式来求解这些变量,通过固定其他变量,每次优化一个变量。更新规则总结为以下几个步骤:

步骤1:其他变量不变,关于图像的映射矩阵P

令式(4)关于图像的映射矩阵P

步骤2:其他变量不变,关于文本的映射矩阵P

然后,令式(6)关于文本的映射矩阵P

步骤3:其他变量不变,关于图像子空间特征矩阵E

令式(8)关于图像子空间特征矩阵E

步骤4:其他变量不变,关于文本子空间特征矩阵E

/>

令式(10)关于文本子空间特征矩阵E

步骤5:其他变量不变,关于图像的重构基矩阵U

令式(12)关于图像的基矩阵U

步骤6:其他变量不变,关于文本的重构基矩阵U

令式(14)关于文本的重构基矩阵U

步骤7:其他变量不变,关于映射矩阵W

令式(16)关于映射矩阵W

步骤8:其他变量不变,关于自适应加权系数α

其中

步骤9:其他变量不变,关于联合哈希编码特征矩阵B的目标函数为:

带离散约束的式(21)是一个NP-hard问题。通过引入辅助变量V,式(21)的目标函数转化为它的等价形式:

其中,ρ是一个平衡参数;采用一种交替优化方法来求解哈希编码特征矩阵B和辅助变量V。具体来说,当辅助变量V不变时,可以得到哈希编码特征矩阵B的闭合解:

当哈希编码特征矩阵B不变时,令目标函数(22)关于辅助变量V的导数为零,可以得到:

V=(βBB

在训练阶段,重复上述步骤,直到总体目标函数收敛或迭代次数达到预设的最大值。迭代过程总结在算法1中。求解式(3)的优化问题后,最优的P

步骤三:采用径向基函数(RBF)核来获取新到达批量的询问样本的各个模态的核特征,若询问实例仅含有图像(缺失了文本)或仅含有文本(缺失了图像),则通过步骤二训练学习到的跨模态重构矩阵来补全缺失的模态特征。

现有的多模态哈希方法大多假设所有数据都是配对完善的。然而,在许多应用中存在未配对询问的情况。本发明利用训练阶段学习得的基矩阵U

令式(25)关于图像特征

同理,如果询问样本中仅存在图像,即文本模态缺失,可以依据已知的图像特征

令式(27)关于文本核特征

步骤四:编码阶段:将成对的多模态特征矩阵输入到步骤二训练获得哈希映射函数,获得新样本的哈希编码矩阵;采用自加权融合策略更新哈希映射函数中的模态加权系数,并获得新批量询问样本的哈希编码特征矩阵,多次迭代后输出最优的哈希编码矩阵。

经过步骤三后,所有新样本(无论是否为模态不全的样本)的各模态特征均已知,将它们作为哈希映射函数(步骤二训练获得)的输入,输出新样本的哈希编码,考虑到新样本和训练数据间存在模态信息差异,为了排除这种差异性,利用两步交替法更新哈希函数中的模态加权系数,并获得新批量样本的哈希编码特征矩阵,多次迭代后输出最优的哈希编码矩阵。

对于配有图像特征

其中,

步骤1:优化自适应加权系数

步骤2:优化询问样本的哈希特征矩阵B

如算法2所示,迭代运行上述过程,直到式(29)式收敛。最后将最优的询问样本的哈希特征矩阵B

/>

步骤五:检索阶段:将询问样本划分为询问集和检索集,计算询问集中询问样本与检索集的汉明距离,选择汉明距离最近的几个样本作为检索结果。

对于任意新的样本数据,经步骤四可获取它的哈希码特征。样本间的近邻关系可以通过它们间的汉明距离来衡量(两者的汉明距离可以由它们对应的哈希码的异或值表示)。对于一个询问,从检索数据库中返回与该询问的汉明距离最近的前N样本作为检索结果,其中N的值可以根据需要进行自由设置。

本发明提出的算法通过迭代更新每个变量来最小化目标函数。下面将阐述更新算法的计算复杂度。在训练阶段,更新映射矩阵P

表1三个基准数据集的统计数据

为了验证提出方法的有效性,本发明在Pascal Sentence、NUS-WIDE和IAPR TC-12三个基准数据集上与几种最先进的方法进行了对比实验。这些数据集的详细统计如表1所示。在实验中,将待编码的询问数据分为多个批次,根据编码阶段的方法(见算法2)逐批获得询问数据的哈希码。在三个数据集上进行多模态检索,使用询问集从检索集中搜索相关结果。

Pascal Sentence(来自https://vision.cs.uiuc.edu/pascal-sentences/)由1000个图文样本组成,整个数据集包含20个种类,每幅图像附有5个独立的句子。使用CNN视觉特征和100维概率向量分别表示图像和文本。为了公平比较,本发明随机选取了800个图文对组成训练数据集(每类40对),剩下的200个图文对作为测试数据集(每类5对)。NUS-WIDE(来自于http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm)由269648个图文样本组成,划分为81个概念。在实验中,只保留了频率最高的前十个概念,一共186577样本。每个图像和每个文本分别由一个500维的Bag-of-visual words向量和1000维的标签频次向量所表示;将包含1866的随机子集作为询问集,其余184711样本作为检索集。从检索集中随机选取5000对组成训练集。IAPR TC-12(来自于https://www.imageclef.org/photodata)包含由255个标签标注的20000个图文样本,将数据集划分为包含2000个样本的询问集和18000个样本的检索集。随机选择包含5000个图文样本子集组成训练集,每个文本用一个2912维的bag-of-word向量表示,同时使用512维GIST特征向量来表示每张图像。

在实验中,将提出的ASPQH与ITQ来自于文献[Gong Y,Lazebnik S,Gordo A,Perronnin F.Iterative quantization:a procrustean approach to learning binarycodes for large-scale image retrieval.IEEE Transactions on Pattern Analysisand Machine Intelligence,2013,35(12):2916–2929.]、LSH、DLLH、HCOH来自于文献[LinM,Ji R,Liu H,Liu Y.Supervised online hashing via hadamard codebooklearning.Proc.Of the 26th International Conf.on Multimedia:ACM,2018:1635-1643.]、MFH、MVLH、OMH–DQ、SIDMH和AMFH等哈希模型进行性能比较。

平均查准率(mean Average Precision,mAP)是衡量检索性能的常用指标。给定查询q的平均精度(Average Precision,AP)被定义如下:

其中,l

在对照方法中,ITQ、LSH、DLLH和HCOH是具有代表性的单模态哈希方法,其余均为多模哈希方法。为了进行公平的比较,所有单模方法将多个输入特征串联起来。所有基线中的超参数根据其原始论文中的建议进行设置。在编码阶段,经验性地设定每个批次的大小为0.02*num,其中num表示训练集的样本数目。本发明提出的方法通过固定其他参数,在较大范围内调整方法中的每个超参数,寻找其最优值。在对比实验中,详细参数设置如下。在Pascal Sentence数据集上:λ=0.5,β=1e

表2不同比特的完全配对检索任务的mAP比较

/>

将提出的方法与基线方法进行比较,以验证所提模型的有效性。在测试阶段,执行图像查询图像、文本查询文本、图像-文本对查询图像-文本对三种检索过程,分别简称为“I2I”、“T2T”和“O2O”。本发明将呈现在三个数据集上所有方法在不同哈希码长度下的检索精度。在实验中,哈希编码长度分别被设置成16位、32位、64位和128位,以全面地评估所提方法的性能。

1)Pascal Sentence数据集上的对比实验:表2展现了所有对比方法在PascalSentence数据集上的mAP值,本发明提出的ASPQH优于所有的单模态哈希方法。本发明提出的ASPQH在码长为16bit时,性能劣于SIDMH和AMFH,而在码长大于32bit时,比次优方法(即AMFH)平均提高了2.4%。此外,通过改变汉明半径在Pascal Sentence数据集上绘制所有对比方法的精确率-召回率(Precision-Reall,PR)曲线,以返回落在不同半径内的点。如图4的(a)所示,本发明提出的ASPQH性能优于所有基线。进一步地,将本发明提出的模型应用于仅提供单一模态而其他模态缺失的单模态检索场景。在实验中,'ASPQH_img'表示在编码阶段只给出图像模态,'ASPQH_txt'表示只提供文本模态来完成哈希编码。值得注意的是,'ASPQH_img'和'ASPQH_txt'分别利用学习到的重构矩阵U

表3不同哈希编码长度下的半配对检索任务的mAP性能比较

为了更直观地观察检索性能,本发明在Pascal Sentence数据集上提供了一个包含图像和文本的查询样本的可视化测试实验。在图5中,左图是给定的查询样本,右图列出了所有方法检索结果的前5位样本,矩形框框出的图像即为正确的搜索结果。可以观察到,本发明提出的方法返回的结果序列中的第1、3、5个样本与给定的查询样本相关。与基线方法相比,本发明提出的方法非常有竞争力,并且表现最佳。

2)NUS-WIDE数据集的对比实验:所有基线和本发明方法在NUS-WIDE数据集上的mAP值如表2所示。从表2记录的实验结果当中可以清楚地发现,本发明的ASPQH相比基准方法有显著的改进。所有方法在NUS-WIDE数据集上的PR曲线如图4的(b)所示。通过以上实验,可以看出所提出的ASPQH在不同码长设置下的“O2O”任务上都优于所有对比方法。表3记录了所有方法在I2I和T2T任务上的检索准确率。在平均准确率方面,比最佳基线方法(即HCOH),本发明提出的ASPQH在“I2I”任务上高出5%,在“T2T”任务上获得了相当的精度。在NUS-WIDE数据集上的实验结果表明本发明提出的方法能够处理大规模图像搜索和文本搜索问题。进一步,通过观察表2、3中ASPQH、ASPQH_img和ASPQH_txt的mAP值,可以发现ASPQH_txt比ASPQH_img更接近ASPQH。在NUS-WIDE数据集上的实验现象表明提出的方法相比视觉查询场景更适用于处理文本查询场景。

3)IAPR TC-12数据集的对比实验:所有方法的比较结果及其在“O2O”任务上的PR曲线分别如表2和图4所示。从实验结果中可以看到,本发明提出的ASPQH方法始终优于其他方法,并且随着哈希码长度的增加,获得了更高的准确率。具体来说,本发明提出的方法在“O2O”任务上获得了平均3%的提升。同样,在IARP TC-12数据集上,本发明提出的方法在不成对查询场景下优于其他单模态哈希方法。ASPQH_img和ASPQH_txt比最好的方法分别高出4%和1%。

大多数多模态哈希方法主要利用多模态数据之间的互补信息来学习联合的哈希码。对训练阶段各过程的特征表征能力进行了实验探究,实验在单标签数据集(即PascalSentence)上进行,以进行直观对比。在实验中,首先随机选取600张图像和600个文本来训练本发明提出的模型(算法1),得到中间过程的原始图像特征、原始文本特征、公共子空间特征和二值特征。然后,使用t-SNE工具绘制这些特征的分布。图7给出了原始图像特征、原始文本特征、公共子空间特征和二值特征的可视化分布。如图7的(a)、(b)所示,在原始模态空间中很难将两者分离。以文本模态为例,在图7的(c)中展示了公共子空间的分布,可以观察到不同的聚类簇被呈现,不同类别的图文样本被聚集在不同的区域。图7(d)展示了学习到的哈希码的分布情况。在图7(d)中,可以清楚地看到,具有相同类的图文样本更加紧凑,代表不同类别的区域更加分离。上述实验结果表明,本发明提出的ASPQH对学习判别的哈希码是有效的。

在框架的编码阶段,采用动态加权模块(见式(29))来消除训练集和检索集之间的模态差异。为了来验证提出的ASPQH的有效性,设计了以下消融实验:'SPQH'表示每个模态的权重固定为训练阶段的学习权重。在3个数据集上进行了SPQH和ASPQH的对比实验。表4记录了不同码长的实验结果。从实验结果中可以发现,ASPQH始终优于SPQH。其中,ASPQH在Pascal Sentence、NUS-WIDE和IAPR TC-12上的平均提升幅度分别为0.68%、2.1%和1.9%。值得注意的是,NUS-WIDE和IAPR TC-12上的改进高于Pascal Sentence。为了直观地观察编码阶段各模态对应权重的变化,对每个数据集绘制了各模态的变化曲线。从图6可以看出,NUS-WIDE和IAPR TC-12数据集上的曲线幅值较大,而Pascal Sentence数据集上的曲线幅值较小。可能的原因是在NUS-WIDE和IAPR TC-12上的训练集和测试数据的模态差异大于在Pascal Sentence上的模态差异。因此,与SPQH相比,ASPQH在数据差异较大的场景中可以获得更可观的性能。

表4SPQH和ASPQH在不同哈希编码长度下的mAP性能比较

通过让其他参数不变,在一个经验候选范围内改变一个参数的值来观察本发明提出的方法的性能变化。在实验中,码长设置为128比特。λ、γ、β和ρ的参数灵敏性实证分析如下:

λ是一个平衡参数,体现不同模态的重要性。λ值在[0.1,0.9]范围内变化。当λ值大于0.5时,图像模态对模型性能的改善的影响程度更大,反之亦然。图8的(c)展示了三个数据集上不同λ值的性能变化。在Pascal Sentence和NUS-WIDE数据集上,当λ从0.1变化到0.9时,mAP值减小。相反,随着λ值的增大,ASPQH在IAPR TC-12数据集上的mAP性能略有提升。在Pascal Sentence、NUS-WIDE和IAPR TC-12上,当λ分别取0.1、0.1和0.9时,ASPQH取得了较好的mAP性能。可能的原因是在Pascal Sentence和NUS-WIDE上图像模态比文本模态更重要,而在IARP TC-12数据集上通过语义分割得到的文本模态具有更有效的语义表示。

β控制了模型语义保持项的重要性。实验中β的取值范围为{1e

γ控制项是为了避免模型过拟合,从图8(b)可以看出,当γ不大时,ASPQH取得了更好的性能。当γ大于1e-

图8(d)给出了在3个数据集上的实验结果。可以看到,在IAPR TC-12数据集上,随着ρ在[1e

下面从实验上来探究本发明提出的模型的收敛性。当哈希码长度设置为128比特时,图9给出了本发明的方法在3个数据集上的收敛曲线。其他码长的收敛曲线形状与128比特码长下的收敛曲线形状类似。在图9中,每个子图的x轴表示迭代次数,y轴表示目标值。可以看到目标函数在三个数据集上都快速下降并快速收敛到稳定值。具体地,本发明在三个数据集上都在30次迭代内收敛,尤其对于Pascal Sentence,在10次迭代内已收敛。

本发明提出了一种面向多模态检索的自适应半配对询问哈希方法,将标签中的判别信息和多模态之间的互补信息融合以学习联合的多模态哈希码。本发明设计了一个跨模态重建学习模块来解决未配对的多模态实例的哈希编码问题。在编码阶段,采用自加权学习方法来捕捉不同批量数据之间的模态差异。此外,提出一种快速优化方法来有效学习判别性的哈希码特征。广泛的实验被执行在三个公共数据集上。实验结果表明,本发明所提出的方法具有优越的检索性能,可以有效地应用于复杂的半配对和增量多模态数据场景。在未来的工作中,将在深度学习框架中开发新的融合策略和离散优化方法,以进一步提高检索性能。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种相似性保留跨模态哈希检索方法
  • 一种有监督的快速离散多模态哈希检索方法和系统
  • 一种融合监督信息的跨模态哈希检索方法和系统
  • 一种半配对多模态数据哈希编码方法
  • 一种半配对多模态数据哈希编码方法
技术分类

06120116492897