一种图像文本匹配的方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 11:19:16

技术领域

本发明涉及图像文本匹配技术领域，具体涉及一种图像文本匹配的方法、装置、电子设备和存储介质。

背景技术

目前，图像文本匹配模型，一般由特征提取和特征检索两个主要模块构成。特征提取模型，通常采用卷积神经网络提取图像特征，采用词向量模型和循环神经网络提取文本特征，并将两个特征映射到同一个多模态空间中；特征检索模型，通常采用距离度量函数来衡量查询向量和多模态空间中其他特征向量之间的距离，从而根据距离分数生成一个检索排序表。但是上述匹配过程中容易受到多义词或局部相似图像的干扰，降低图像文本的匹配效果；并且受到文本或图像噪声扰动时，检索效果会大幅降低。

发明内容

本发明提供一种图像文本匹配的方法、装置、电子设备和存储介质，能够解决上述，降低图像文本的匹配效果的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种图像文本匹配的方法，包括：

获取图像特征和文本特征；

对所述图像特征进行图像增强处理生成两个含噪声的图像特征；

对所述文本特征进行文本增强处理生成两个含噪声的文本特征；

对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理；

对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理；

对所述图像记忆单元和文本记忆单元分别进行约束。

在一些实施例中，所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征采用色彩变换和随机剪裁的方法；

所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式。

在一些实施例中，所述对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法；

所述对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。

在一些实施例中，对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENT Loss。

第二方面，本发明实施例提供了一种图像文本匹配的装置，包括：

获取模块：用于获取图像特征和文本特征；

图像增强处理模块：用于对所述图像特征进行图像增强处理生成两个含噪声的图像特征；

文本增强处理模块：对所述文本特征进行文本增强处理生成两个含噪声的文本特征；

加入噪声的图像记忆单元处理模块：用于对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理；

加入噪声的文本记忆单元处理模块：用于对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理；

约束模块：用于对所述图像记忆单元和文本记忆单元分别进行约束。

在一些实施例中，上述装置中，

所述图像增强处理模块采用色彩变换和随机剪裁的方法所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征；

所述文本增强处理模块采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式对所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征。

在一些实施例中，上述装置中，

所述加入噪声的图像记忆单元处理模块对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法；

所述加入噪声的文本记忆单元处理模块对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。

在一些实施例中，上述装置中，

所述约束模块对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENTLoss。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述图像文本匹配的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述图像文本匹配的方法。

本发明的有益效果是：通过获取图像特征和文本特征；对图像特征进行图像增强处理生成两个含噪声的图像特征；对文本特征进行文本增强处理生成两个含噪声的文本特征；对两个含噪声的图像特征进行加入噪声的图像记忆单元处理；对两个含噪声的文本特征进行加入噪声的文本记忆单元处理；对图像记忆单元和文本记忆单元分别进行约束。本申请实施例中使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开，使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开，通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性，高于不同图像和文本产生的其他记忆，从而提高了匹配效果；并且通过两种不同噪声的加入和对比学习，使得图像文本输入在受到干扰时依然能取得良好的匹配效果，提高了匹配的鲁棒性。

附图说明

图1为本发明实施例提供的一种图像文本匹配的方法；

图2为本发明实施例提供的一种图像文本匹配的装置；

图3为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种图像文本匹配的方法。

第一方面，本发明实施例提供了一种图像文本匹配的方法，包括如下四个步骤：

S101：获取图像特征和文本特征。

具体的，本申请实施例中，采用卷积神经网络获取图像特征，采用词向量模型和循环神经网络获取文本特征。

S102：对所述图像特征进行图像增强处理生成两个含噪声的图像特征。

对所述文本特征进行文本增强处理生成两个含噪声的文本特征。

具体的，本申请实施例中，采用色彩变换和随机剪裁对图像特征进行图像增强，生成两个含噪声的图像特征。采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式对文本特征进行增强，生成两个含噪声的文本特征。

S103：对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理。

对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理。

具体的，本申请实施例中，采用多头自注意力机制生成加入噪声的图像记忆单元(v

S104：对所述图像记忆单元和文本记忆单元分别进行约束。

分别采用NT-XENT Loss对图像记忆(v

综上，本申请实施例中上述方法使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开，使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开，通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性，高于不同图像和文本产生的其他记忆，从而提高了匹配效果；并且通过两种不同噪声的加入和对比学习，使得图像文本输入在受到干扰时依然能取得良好的匹配效果，提高了匹配的鲁棒性。

在一些实施例中，所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征采用色彩变换和随机剪裁的方法。

所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式。

在一些实施例中，所述对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法。

所述对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。

在一些实施例中，对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENT Loss。

图2为本发明实施例提供的一种图像文本匹配的装置。

第二方面，结合图2，本发明实施例提供了一种图像文本匹配的装置20，包括获取模块201、图像增强处理模块202、文本增强处理模块203、加入噪声的图像记忆单元处理模块204、加入噪声的文本记忆单元处理模块205和约束模块206。

获取模块201：用于获取图像特征和文本特征。

具体的，本申请实施例中，采用卷积神经网络获取图像特征，采用词向量模型和循环神经网络获取文本特征。

图像增强处理模块202：用于对所述图像特征进行图像增强处理生成两个含噪声的图像特征。

文本增强处理模块203：对所述文本特征进行文本增强处理生成两个含噪声的文本特征。

加入噪声的图像记忆单元处理模块204：用于对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理。

加入噪声的文本记忆单元处理模块205：用于对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理。

具体的，本申请实施例中，采用多头自注意力机制生成加入噪声的图像记忆单元(v

约束模块206：用于对所述图像记忆单元和文本记忆单元分别进行约束。

分别采用NT-XENT Loss对图像记忆(v

本申请实施例中上述装置使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开，使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开，通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性，高于不同图像和文本产生的其他记忆，从而提高了匹配效果；并且通过两种不同噪声的加入和对比学习，使得图像文本输入在受到干扰时依然能取得良好的匹配效果，提高了匹配的鲁棒性。

在一些实施例中，上述装置中，

所述图像增强处理模块采用色彩变换和随机剪裁的方法所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征。

在一些实施例中，上述装置中，

所述加入噪声的图像记忆单元处理模块对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法。

所述加入噪声的文本记忆单元处理模块对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。

在一些实施例中，上述装置中，

所述约束模块对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENTLoss。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述图像文本匹配的方法。

图3是本公开实施例提供的一种电子设备的示意性框图。

如图3所示，电子设备包括：至少一个处理器301、至少一个存储器302和至少一个通信接口303。电子设备中的各个组件通过总线系统304耦合在一起。通信接口303，用于与外部设备之间的信息传输。可理解，总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图3中将各种总线都标为总线系统304。

可以理解，本实施例中的存储器302可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器302存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的图像文本匹配的方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器301通过调用存储器302存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器301用于执行本申请实施例提供的图像文本匹配的方法各实施例的步骤。

获取图像特征和文本特征；

对所述图像特征进行图像增强处理生成两个含噪声的图像特征；

对所述文本特征进行文本增强处理生成两个含噪声的文本特征；

对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理；

对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理；

对所述图像记忆单元和文本记忆单元分别进行约束。

本申请实施例提供的图像文本匹配的方法中任一方法可以应用于处理器301中，或者由处理器301实现。处理器301可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的图像文本匹配的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：宁学成;刘青松;梁家恩;
专利申请人：云知声智能科技股份有限公司;厦门云知芯智能科技有限公司;