多模态蕴含增强图像文本检索的方法和系统

文献发布时间：2023-06-19 18:37:28

技术领域

本发明涉及图像处理技术领域，尤其是指一种多模态蕴含增强图像文本检索的方法和系统。

背景技术

近年来，随着互联网的快速发展，每时每刻都有不计其数的图像和文本数据产生，跨模态的图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。图像文本检索是指给定一种模态下的查询样本来检索数据库中另一种模态下与之具有高语义相似度的样本。该任务主要分为“以文搜图”和“以图搜文”两种形式，具体来说，将一个文本作为查询样本来检索其相应图像称为文本到图像的检索，反之亦然。目前的主要方法致力于使用大规模的已标注图像文本检索数据集，利用对比学习等手段，将已标注的图像文本对视为正例，强化它们之间的语义相似度，反之削弱不存在标注的图像文本对之间的相似度。然而，受限于标注成本，现有的图像文本检索数据集通常假设一个图像或文本只与它已标注的样本存在关系，忽视了海量的未标注图像文本对之间的关系，而事实上它们中的大多数都存在相似甚至很强的语义关联。上述问题一方面会导致模型会将具有高语义相似度的图像文本对错误地视为负例，误导了图像文本的表征学习过程，损害最终的图像文本检索效果；另一方面，会导致数据集的开发程度低下，无法充分开发其价值。

目前常见的图像文本检索技术为：通过计算不同模态样本之间的语义相似度，得到相似度最高的前几个样本并返回。因此当前主流的做法是对图像文本表征进行融合，从而减少不同模态之间的表征差异，进一步在融合表征的基础上计算跨模态相似度，实现图像文本跨模态检索。按照特征融合的阶段主要可以归纳为早期融合策略和晚期融合策略：

早期融合策略使用简单的拼接操作将图像和文本的嵌入特征合并在一起，通过一个统一的网络学习框架对融合向量进行表征学习，从而使网络可以对跨模态融合表征进行自适应的学习，促进模型通过不同模态之间的信息进行检索的能力。

传统的晚期融合策略对图像和文本特征分别设计独立的图像编码器和文本编码器，原始的视觉和文本特征通过注意力机制、图卷积或递归模型等增强单一模态的特征表示和高层语义挖掘，最后通过晚期融合对编码后的视觉和文本特征进行结合，计算图像和文本的相似度。

针对图像文本检索数据集标注不全面的问题，除了已有的利用无标签数据进行半监督或自监督训练的深度学习方法，目前的研究还集中于通过穷举或筛选相似度较高的图像文本对进行全面标注，但是这些现有技术也存在一些缺陷：

1. 现有的解决图像文本检索数据集中关系缺失的手段依赖于通过人工构建带有全面的、细粒度关系的图像文本检索数据集，不仅会消耗大量的人力成本，还无法对海量的新增数据进行扩展，不具有可行性。

2. 图像文本检索模型通常利用对比损失进行表征学习，会不加甄别的将未标注的图像文本对作为负例，导致具有高语义相似度的图像文本对被错误地视为负例，误导了图像文本的表征学习过程，进而损害最终的图像文本检索效果。

3. 视觉蕴涵是指给定一幅图像和一篇文本，判断该图像在语义上是否包含输入文本。传统的视觉蕴含任务通常只利用图像信息作为前提，判断一句话的描述是否与前提相符。然而在图像文本检索数据集中，一张图像还包含若干已标注的文本，这些文本可以辅助蕴含关系的判断。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种多模态蕴含增强图像文本检索的方法和系统，可以降低人工标注成本、易于扩展、有效提高检索性能。

为解决上述技术问题，本发明提供了一种多模态蕴含增强图像文本检索的方法，包括：

获取图像文本检索数据集得到训练集和测试集，使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对，将所述存在蕴含关系的图像文本对作为弱正例；

将训练集中的正例和弱正例输入图像文本检索模型，使用对比学习方法训练图像文本检索模型，使用弱正例部分的学习率低于使用正例部分的学习率；

将测试集输入训练完成的图像文本检索模型得到检索结果。

在本发明的一个实施例中，所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对，具体为：

所述多模态蕴含模型包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机，

将图像文本检索数据集输入所述图像-文本蕴含模型得到特征向量

将所述

将所述多模态表征向量

式中，softmax（）表示softmax函数操作，MLP（）表示二分类感知机操作，根据所述二分类判断的概率结果得到存在蕴含关系的图像文本对。

在本发明的一个实施例中，所述图像-文本蕴含模型为CLIP模型，所述文本-文本蕴含模型为BERT模型。

在本发明的一个实施例中，所述

其中，Visual Entailment ( )表示图像-文本蕴含模型操作，Textual Entailment ( ) 表示文本-文本蕴含模型操作；

所述多模态表征向量

式中，g

在本发明的一个实施例中，所述使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对前，

将包括图像和文本的数据集作为图像蕴含数据集，使用所述图像蕴含数据集训练所述多模态蕴含模型中的所述图像-文本蕴含模型得到训练完成的图像-文本蕴含模型；

将包括文本的数据集作为文本蕴含数据集，使用所述文本蕴含数据集训练所述多模态蕴含模型中的所述文本-文本蕴含模型得到训练完成的文本-文本蕴含模型；

在使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对时，使用训练完成的图像-文本蕴含模型、训练完成的文本-文本蕴含模型提取特征向量。

在本发明的一个实施例中，所述使用对比学习方法训练图像文本检索模型时，对比学习损失函数

式中，

在本发明的一个实施例中，所述将测试集输入训练完成的图像文本检索模型得到检索结果，具体为：

计算测试集中图像和文本的相似度，挑选相似度最大的文本作为图像检索文本的结果，挑选相似度最大的图像作为文本检索图像的结果。

在本发明的一个实施例中，所述计算测试集中图像和文本的相似度，具体为：

对测试集中的图像和文本进行编码得到图像表征V、文本表征T，

根据所述图像表征V、文本表征T计算余弦相似度。

本发明还提供了一种多模态蕴含增强图像文本检索的系统，包括数据获取模块、蕴含关系判别模块、训练模块和测试模块，

所述数据获取模块获取图像文本检索数据集得到训练集和测试集，

所述蕴含关系判别模块筛选图像文本检索数据集中存在蕴含关系的图像文本对，将所述存在蕴含关系的图像文本对作为弱正例；

所述训练模块将训练集中的正例和弱正例输入图像文本检索模型，使用对比学习方法训练图像文本检索模型，使用弱正例部分的学习率低于使用正例部分的学习率；

所述测试模块将测试集输入训练完成的图像文本检索模型得到检索结果。

在本发明的一个实施例中，所述蕴含关系判别模块包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机，

所述图像-文本蕴含模型和文本-文本蕴含模型分别提取所述图像文本检索数据集中的特征向量，所述门控单元融合所述图像-文本蕴含模型和文本-文本蕴含模型提取到的特征向量得到多模态表征向量，所述二分类感知机根据所述多模态表征向量得到存在蕴含关系的图像文本对。

本发明的上述技术方案相比现有技术具有以下优点：

本发明通过多模态蕴含模型判断一张图片与一段文本描述是否具有蕴含关系，并据此判断图像文本检索数据集中未标注的图像文本对的关系，降低人工标注成本，且易于扩展到新的数据集上；同时，将存在蕴含关系的图像文本对作为弱正例，并通过降低学习率的方法对弱正例进行训练，避免存在蕴含关系的图像文本对被检索模型当作负例，有效提高检索性能。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明方法的流程图，

图2是本发明的结构图，

图3是本发明实施例中使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对的示意图，

图4是本发明实施例中使用ALBEF模型、CLIP 模型和UNITER模型进行实验的结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一：

参照图1和图2所示，本发明公开了一种多模态蕴含增强图像文本检索的方法，包括以下步骤：

S1：获取图像文本检索数据集得到训练集和测试集，使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对，将所述存在蕴含关系的图像文本对作为弱正例。

S1-1：获取图像文本检索数据集得到训练集和测试集，本实施例中获取的图像文本检索数据集包括 SNLI-VE、XNLI、CxC、ECCV等多模态推理数据集。

S1-2：使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对前，

将包括图像和文本的数据集作为图像蕴含数据集，使用所述图像蕴含数据集训练所述多模态蕴含模型中的所述图像-文本蕴含模型得到训练完成的图像-文本蕴含模型，本实施例中图像蕴含数据集选用SNLI-VE、CxC、ECCV等数据集；

将包括文本的数据集作为文本蕴含数据集，使用所述文本蕴含数据集训练所述多模态蕴含模型中的所述文本-文本蕴含模型得到训练完成的文本-文本蕴含模型，本实施例中文本蕴含数据集选用XNLI数据集；

S1-3：在对图像文本数据集进行检索之前，需要对图像文本检索数据集进行标注，传统的人工标注者需要根据给出的图片，用一段简短的文本进行描述，从而构成一个图像文本对。多模态蕴含模型通过判断一张图片与一句话是否存在蕴含关系，进而得出两者能否互相描述，自动地筛选未标注数据，达到“修复”数据集的效果。

如图3所示，所述多模态蕴含模型包括图像-文本蕴含模型（Visual Entailment）、文本-文本蕴含模型（Textual Entailment）、门控单元（Gate Unit）和二分类感知机（MLP），本发明中的多模态蕴含模型通过结合单一蕴含模型来达到利用图像及其已标注文本判断另一个文本是否蕴含于该图像的目的。图像-文本蕴含模型以图像作为前提，判断一个文本是否蕴含于该图像；文本-文本蕴含模型判断两个文本之间是否存在蕴含关系；单独的蕴含模型会通过编码器和多层神经网络将输入的图像和文本进行编码并融合，最终形成有利于蕴含关系分类的向量表征；门控单元通过加权的方式融合视觉蕴含模型和文本蕴含模型所得到的表征，并用于最终的蕴含判断。使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对，具体为：

S1-3-1：将图像文本检索数据集输入所述图像-文本蕴含模型得到特征向量

其中，Visual Entailment ( )表示图像-文本蕴含模型操作，Textual Entailment ( ) 表示文本-文本蕴含模型操作；

S1-3-2：将所述

式中，g

S1-3-3：将所述多模态表征向量

式中，

多模态蕴含模型结合了视觉蕴含和文本蕴含任务。在图像文本检索数据集中，一张图像还包含若干已标注的文本，这些文本可以辅助蕴含关系的判断。相较于传统的视觉蕴含模型，本发明提出的多模态蕴含模型能够以图像及其已标注文本作为前提，判别图像和任意文本之间的蕴含关系。

S2：将训练集中的正例和弱正例输入图像文本检索模型，使用对比学习方法训练图像文本检索模型，使用弱正例部分的学习率低于使用正例部分的学习率。

图像文本检索模型可以为CLIP 模型、ALBEF模型或者UNITER模型。本实施例中使用的图像文本检索模型为CLIP 模型，CLIP 模型由完全分离的图像编码器与文本编码器组成、利用对比学习在大量图像文本数据集上进行训练。经过多模态蕴含模型的修复数据可用于图像文本检索模型的训练和检索，但由于修复数据存在一定的噪声，因此本实施例中对于弱正例部分提出了低学习率的训练策略，在降低噪声和扩充训练数据之间寻求平衡，最终达到增强检索效果的目的。

使用对比学习方法训练图像文本检索模型时，对比学习损失函数

式中，

通过对比学习方法，图像文本检索模型倾向于为正样本（正例）计算较高的相似度，反之，负样本（负例）则减小相似度。

S3：将测试集输入训练完成的图像文本检索模型得到检索结果。

S3-1：计算测试集中图像和文本的相似度：

对测试集中的图像和文本进行编码得到图像表征V、文本表征T，

根据所述图像表征V、文本表征T计算余弦相似度

S3-2：挑选相似度最大的文本作为图像检索文本的结果，挑选相似度最大的图像作为文本检索图像的结果。本实施例中根据每个图像与其他文本的余弦相似度大小进行倒排，将相似度较大的文本作为图像检索文本的结果，文本检索图像时方法相同。

实施例二：

本实施例中还公开了一种多模态蕴含增强图像文本检索的系统，包括数据获取模块、蕴含关系判别模块、训练模块和测试模块。所述数据获取模块获取图像文本检索数据集得到训练集和测试集。所述蕴含关系判别模块筛选图像文本检索数据集中存在蕴含关系的图像文本对，将所述存在蕴含关系的图像文本对作为弱正例。所述训练模块将训练集中的正例和弱正例输入图像文本检索模型，使用对比学习方法训练图像文本检索模型，使用弱正例部分的学习率低于使用正例部分的学习率。所述测试模块将测试集输入训练完成的图像文本检索模型得到检索结果。

本实施例中，所述蕴含关系判别模块包括图像-文本蕴含模型、文本-文本蕴含模型、门控单元和二分类感知机。所述图像-文本蕴含模型和文本-文本蕴含模型分别提取所述图像文本检索数据集中的特征向量，所述门控单元融合所述图像-文本蕴含模型和文本-文本蕴含模型提取到的特征向量得到多模态表征向量，所述二分类感知机根据所述多模态表征向量得到存在蕴含关系的图像文本对。

本发明的有益效果：

1、传统图像文本检索因受限于人工标注成本只能做到部分标注，且难以扩展。本发明通过多模态蕴含模型能有效地判断一张图片与一段文本描述是否具有蕴含关系，并据此判断图像文本检索数据集中未标注的图像文本对的关系，避免了高昂的人工标注成本。同时，多模态蕴含模型是在多种蕴含数据集上训练而来的，本身支持增量式训练，因此本发明方法具备良好的领域迁移能力、易于扩展到新的数据集上。在使用新的图像文本检索数据集时，可以直接将蕴含模型用在数据集的修正上，也可以对检索数据集进行部分标注，以让多模态蕴含模型适应新的数据分布。

2、相比于传统的视觉蕴含和文本蕴含只利用单一模态作为前提，本发明利用图像及其已标注的文本共同作为前提进行蕴含判断，大大提高的模型的蕴含判别能力。

3、本发明使用多模态蕴含模型筛选未标注的图像文本对，并将存在蕴含关系的图像文本对作为弱正例，避免存在蕴含关系的图像文本对被检索模型当作负例，并通过降低学习率的方法对弱正例进行训练，有效提高检索性能。

为了进一步说明本发明的有益效果，本实施例中构建一个多模态蕴含模型，它既能处理单模态蕴含问题也能处理多模态蕴含问题；搜集多种数据集，如视觉蕴含数据集，文本蕴含数据集和一些句子对分类的数据集，通过多种数据集共同输入多模态蕴含模型进行训练。

获取常用的数据集例如Flickr 30K 、MS-COCO数据集，划分成训练集、验证集和测试集，并将训练集、验证集和测试集处理成json文件方便于模型的导入。将训练集、验证集和测试集使用多模态蕴含模型进行判别，将其中存在的弱正例(实际存在蕴含关系，但是在数据集中并没有说明的数据)汇总并保存，用于图像文本检索模型的对比学习。

将训练集中的数据批次依次输入图像文本检索模型，同时使用弱正例当作正样本进行训练，避免存在蕴含关系的图像文本对被检索模型当作负例。使用弱正例的时候，采用学习率2×10

实验中分别将ALBEF模型、CLIP 模型和UNITER模型作为图像文本检索模型，每运行1000批次就验证一次，保存在验证集上最好的模型，将保存好的最优模型在MSCOCO和F30K两个图像文本检索数据集上进行测试，测试结果如图4所示。

图4中，第一列是模型，其中不带“#”表示原始模型，带“#”表示使用了本发明方法之后的对应模型；第二列TR@Sum表示图像检索文本的召回率在前Top5/10/30上的平均值，第三列IR@Sum表示文本检索图像任务的召回率在前Top5/10/30上的平均值。从第二列和第三列的数据可以看出，使用本发明方法后的检索的召回率得到了提高。

同时，为了全面衡量模型检索效果，通过蕴含率E@K的指标来衡量检索结果TopK个文本中查询图像存在蕴含关系的比率。图4中第四列E@10表示图像文本检索结果Top10中蕴含的图像文本对所占比例，第五列E@30表示图像文本检索结果Top30中蕴含的图像文本对所占比例，E@10和E@30的值由蕴含模型计算得出；第六列E@M代表人工评测，是对应用修正数据集前后的模型检索结果分别进行标注得到的蕴含比例。从第第四列、第五列和第六列数据可以看出，使用本发明方法后的蕴含比例也得到了提高，并且在E@M下CLIP模型修正前后的差值达到了8.1%的大幅度提升。

通过实验证明了本发明不仅能够提升检索模型的检索性能（通过Recall@K证明），并且还能显著提升检索结果中的蕴含比率（通过E@K证明）。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：曹自强;闫旭;艾春辉;曹敏;付国宏;
专利申请人：苏州大学;