掌桥专利:专业的专利平台
掌桥专利
首页

多模态知识增强的跨模态表示学习与检索方法及相关设备

文献发布时间:2024-04-18 20:01:55


多模态知识增强的跨模态表示学习与检索方法及相关设备

技术领域

本发明涉及跨模态检索技术领域,尤其涉及一种多模态知识增强的跨模态表示学习与检索方法及相关设备。

背景技术

互联网的快速发展,产生了大量的多模态数据(如,文本和图像等)。由于这些海量的多模态数据中包含了非常有价值的信息,因此如何对这些多模态数据进行高效的多模态知识增强的跨模态表示学习与检索变得尤为重要。

现有技术中,通常使用基于深度学习的跨模态视觉-语义嵌入方法进行多模态知识增强的跨模态表示学习与检索,它利用深度神经网络提取图像和文本的全局表征,然后进行跨模态的对齐和融合。但是,由于上述方法并没有充分的对多模态信息进行推理,进而使得在图像和文本之间难以挖掘出更多的跨模态语义知识。

发明内容

有鉴于此,本公开的目的在于提出一种多模态知识增强的跨模态表示学习与检索方法及相关设备。

作为本公开的一个方面,提供了一种多模态知识增强的跨模态表示学习与检索方法,包括:

获取数据信息集,其中所述数据信息集包括图像数据以及文本数据;

采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征;

采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征;

基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。

可选的,所述采集所述数据信息集的局部特征,包括:

基于注意力机制对所述图像数据的特征进行采集,得到所述图像数据的第一特征;

确定所述文本数据中与所述第一特征对应的第二特征,其中所述第二特征用于描述所述第一特征;

将所述第一特征以及所述第二特征作为所述数据信息集的局部特征。

可选的,所述基于所述局部特征确定所述数据信息集的细粒度特征,包括:

基于所述局部特征构建多模态知识图谱;

基于所述多模态知识图谱对所述局部特征进行模态间图对比学习,得到第一学习结果;

基于所述多模态知识图谱对所述局部特征进行模态内图对比学习,得到第二学习结果;

将所述第一学习结果以及所述第二学习结果作为所述细粒度特征。

可选的,所述基于所述局部特征构建多模态知识图谱,包括:

确定所述第一特征的第一关系矩阵以及所述第二特征的第二关系矩阵;

基于所述第一特征以及所述第二特征的共现关系,得到共现次数矩阵;

对所述第一关系矩阵、所述第二关系矩阵以及所述共现次数矩阵进行归一化处理,得到归一化处理后的关系矩阵;

通过所述局部特征、所述第一特征和所述第二特征间的相似度以及所述归一化处理后的关系矩阵,生成所述多模态知识图谱。

可选的,所述采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征,包括:

基于所述预设的编码器对所述数据信息集的特征进行采集,得到所述数据信息集的全局特征;

将所述全局特征作为所述粗粒度特征;

所述将所述全局特征作为所述粗粒度特征之后,所述方法还包括:

对所述粗粒度特征进行模态间对比学习,得到第三学习结果;以及,

对所述粗粒度特征进行模态内对比学习,得到第四学习结果;

基于所述第三学习结果以及所述第四学习结果,对所述跨模态检索的过程进行优化。

可选的,所述粗粒度特征包括图像特征和文本特征;

所述对所述粗粒度特征进行模态间对比学习,得到第三学习结果,包括:

对所述图像特征以及所述文本特征的对应关系进行模态间对比学习,得到第三学习结果;

所述对所述粗粒度特征进行模态内对比学习,得到第四学习结果,包括:

分别对所述图像特征和所述文本特征中目标数量的特征进行增广处理,得到增广后的图像特征以及增广后的文本特征;

对所述增广后的图像特征以及所述增广后的文本特征进行模态内对比学习,得到第四学习结果。

可选的,所述基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索,包括:

对所述融合后的特征进行哈希映射,得到哈希映射后的特征;

基于所述哈希映射后的特征对所述数据信息集进行跨模态检索。

作为本公开的第二个方面,本公开还提供了一种多模态知识增强的跨模态表示学习与检索装置,包括:

数据信息获取模块,被配置为:获取数据信息集,其中所述数据信息集包括图像数据以及文本数据;

细粒度特征确定模块,被配置为:采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征;

粗粒度特征确定模块,被配置为:采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征;

多模态知识增强的跨模态表示学习与检索模块,被配置为:基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。

作为本公开的第三个方面,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本公开所提供的上述的多模态知识增强的跨模态表示学习与检索方法。

作为本公开的第四个方面,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任意一项所述的方法。

如上所述,本公开中,首先获取了图像数据以及文本数据,然后采集了图像数据和文本数据的局部细粒度特征以及全局粗粒度特征,最后再基于部细粒度特征和全局粗粒度特征对图像数据和文本数据进行了多模态知识增强的跨模态表示学习与检索。

在本公开中,其主要通过多模态图注意力网络对模态内和模态间的隐含细粒度语义关联进行推理,之后对推理得到的结果进行哈希映射并生成跨模态高效统一哈希表示,最终基于所生成的哈希表示进行跨模态检索。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1A为本公开实施例所提供的一种多模态知识增强的跨模态表示学习与检索方法示意图。

图1B为本公开实施例所提供的一种采集局部特征的方法示意图。

图1C为本公开实施例所提供的一种确定细粒度特征的方法示意图。

图2为本公开实施例所提供的一种多模态知识增强的跨模态表示学习与检索装置的结构示意图。

图3为本公开实施例所提供的一种多模态知识增强的跨模态表示学习与检索方法的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

互联网的快速发展,产生了大量的多模态数据(如,文本和图像等)。由于这些海量的多模态数据中包含了非常有价值的信息,因此如何对这些多模态数据进行高效的多模态知识增强的跨模态表示学习与检索变得尤为重要。

多模态知识增强的跨模态表示学习与检索的目的是从另一个不同的模态数据中搜索出与给定查询语义最相关的一种模态数据,如从文本数据中搜索图像图像,或从图像数据中搜索文本数据。然而,由于不同模态数据之间存在特征异质性和语义差距,这使得它们不能直接进行比较。因此如何实现高效的多模态知识增强的跨模态表示学习与检索成为了一个重要的挑战。

现有技术中,通常使用基于深度学习的跨模态视觉-语义嵌入方法进行多模态知识增强的跨模态表示学习与检索,它利用深度神经网络提取图像和文本的全局表征,然后进行跨模态的对齐和融合。但是,由于上述方法并没有充分的对多模态信息进行推理,进而使得在图像和文本之间难以挖掘出更多的跨模态语义知识。

为了解决上述问题,本公开提供了一种多模态知识增强的跨模态表示学习与检索方法及相关设备。通过上述方法, 本公开中首先获取了图像数据以及文本数据,然后采集了图像数据和文本数据的局部细粒度特征以及全局粗粒度特征,最后再基于部细粒度特征和全局粗粒度特征对图像数据和文本数据进行了多模态知识增强的跨模态表示学习与检索。

在本公开中,其基于多模态图对比学习的细粒度隐含跨模态语义关联学习的跨模态搜索方法(CMGCH),对数据信息集的细粒度特征进行了采集。在此过程中其可以通过文本检索图像和图像检索文本等不同视角判断。其次,其还提出了跨模态的知识图对比学习,进而可以实现在不同模态下(如,文本模态或者图像模态等)进行推理学习,能够有效利用来自不同模态内和模态间的互补信息。

同时,本公开还提出跨模态多粒度对比哈希方法,使用该方法可以分别提取出粗粒度特征和细粒度特征。其目的是学习高层次和隐性的跨模态语义关联,使其能够在没有标签监督的情况下更好地应用于现实的场景中。

最后,为了进一步促进更准确的跨模态语义对齐和融合,本公开又提出了一种多粒度对比学习机制,通过多头关注机制融合全局粗粒度和局部细粒度嵌入,进行模态内和模态间对比学习。随着通过对模态内和模态间对比学习的联合训练,可以保持两种模态的不变和特定的信息、 而学习到的哈希表征包含更丰富、更全面的信息,以提高最终的跨模态搜索性能。

在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。

图1A为本公开实施例所提供的一种多模态知识增强的跨模态表示学习与检索方法示意图。

图1A所示的多模态知识增强的跨模态表示学习与检索方法进一步包括以下步骤:

步骤S10:获取数据信息集,其中所述数据信息集包括图像数据以及文本数据。

在一些可选的实施例中,本公开中多模态知识增强的跨模态表示学习与检索方法可以通过跨模态检索模型来实现。具体的,跨模态检索模型可以先获取到需要进行跨模态检索的数据信息集,其中前述的数据信息集可以包括图像数据以及文本数据。可以理解的是,数据信息集还可以包括视频数据等,本公开中仅以图像数据以及文本数据为例进行说明。

步骤S20:采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征。

图1B为本公开实施例所提供的一种采集局部特征的方法示意图。

在一些可选的实施例中,如图1B所示,步骤S20中采集局部特征的过程具体包括:

S201:基于注意力机制对所述图像数据的特征进行采集,得到所述图像数据的第一特征。

S202:确定所述文本数据中与所述第一特征对应的第二特征,其中所述第二特征用于描述所述第一特征。

S203:将所述第一特征以及所述第二特征作为所述数据信息集的局部特征。

在一些可选的实施例中,为了使得跨模态检索的准确性以及效率更高,跨模态检索模型在获取到图像数据以及文本数据后,则可以对图像数据以及文本数据的局部特征进行采集,进而可以基于所采集到的局部特征确定图像数据以及文本数据的细粒度特征。

在一些可选的实施例中,前述的采集图像数据以及文本数据的局部特征的过程可以具体为,首先分别通过自上而下和自下而上的注意力机制(BUTD),用Faster RCNN网络对数据信息集中的图像数据进行预计算,进而得到图像数据的第一特征B。其次,在文本数据中,将用于描述第一特征B的文本单词用Global Vectors for Word Representation(Glove)模型进行特征提取,得到文本数据的第二特征G。

在一些可选的实施例中,在得到第一特征B以及第二特征G之后,为了使得所得到的第一特征以及第二特征更加具有代表性,(即,能更好对文本数据以及图像数据进行表示),跨模态检索模型还可以在第一特征B中,选择出现频次最高的

图1C为本公开实施例所提供的一种确定细粒度特征的方法示意图。

在一些可选的实施例中,如图1C所示,步骤S20中确定细粒度特征的过程具体包括:

S204:基于所述局部特征构建多模态知识图谱。

在一些可选的实施例中,步骤S204具体包括:

S2041:确定所述第一特征的第一关系矩阵以及所述第二特征的第二关系矩阵。

S2042:基于所述第一特征以及所述第二特征的共现关系,得到共现次数矩阵。

S2043:对所述第一关系矩阵、所述第二关系矩阵以及所述共现次数矩阵进行归一化处理,得到归一化处理后的关系矩阵。

S2044:通过所述局部特征、所述第一特征和所述第二特征间的相似度以及所述归一化处理后的关系矩阵,生成所述多模态知识图谱。

S205:基于所述多模态知识图谱对所述局部特征进行模态间图对比学习,得到第一学习结果。

S206:基于所述多模态知识图谱对所述局部特征进行模态内图对比学习,得到第二学习结果。

S207:将所述第一学习结果以及所述第二学习结果作为所述细粒度特征。

在一些可选的实施例中,当得到文本数据以及图像数据的局部特征之后,跨模态检索模型则可以基于此局部特征构建多模态知识图谱,然后使用所构建的多模态知识图谱确定文本数据以及图像数据的细粒度特征。

在一些可选的实施例中,前述的多模态知识图谱得构建过程可以具体为,先确定前述第一特征的第一关系矩阵以及前述第二特征的第二关系矩阵。然后基于前述第一特征以及前述第二特征的共现关系(即,第一特征以及第二特征共同出现在同一图像中的次数)确定第一特征以及第二特征的共现关系矩阵。

在一些可选的实施例中,当得到上述三个矩阵之后,则可以基于此三个矩阵以及前述的局部特征构建多模态的知识图谱。具体的,可以先对前述三个矩阵进行归一化处理,并得到归一化处理后的关系矩阵。然后以前述的局部特征作为多模态知识图谱的节点,以归一化处理后的关系矩阵作为多模态知识图谱的边,生成多模态知识图谱(MKG)。

其中,

在一些可选的实施例中,当得到多模态知识图谱之后,还可以基于图注意网络(GAT),在多模态知识图谱上进行推理,进而可以得到整个跨模态图对比注意力网络(CGCAN)。可以理解的是,跨模态图对比注意力网络是跨模态检索模型中的一部分。其具体表示为:

其中,

在一些可选的实施例中,跨模态图对比注意力网络(CGCAN)可以通过模态内图对比学习和模态间图对比学习两个过程,来学习多模态知识图谱(MKG)中的实体节点以及关系的嵌入表示。通过这种方式,本公开拉近了具有相似语义(对应关系)的实体嵌入(即,第一特征以及第二特征)的距离,并将具有不同语义的实体嵌入距离拉远。

在一些可选的实施例中,在得到多模态知识图谱(MKG)以及跨模态图对比注意力网络(CGCAN)之后,跨模态检索模型则可以通过多模态知识图谱(MKG)以及跨模态图对比注意力网络(CGCAN),对局部特征进行模态间对比学习,并得到第一学习结果。

在一些可选的实施例中,前述的对局部特征进行模态间对比学习,并得到第一学习结果的过程可以理解为,首先将多模态知识图谱(MKG)中的文本词节点

在一些可选的实施例中,在得到投影后的文本词节点和视觉对象节点之后,则可以对整个多模态图谱进行模态间语义推理。具体的,

在一些可选的实施例中,前述的模态间对比学习损失可以表示为:

其中,

在一些可选的实施例中,在得到第一学习结果之后,跨模态检索模型还可以通过多模态知识图谱(MKG)以及跨模态图对比注意力网络(CGCAN),对局部特征进行模态内对比学习,并得到第二学习结果。

在一些可选的实施例中,前述的对局部特征进行模态内对比学习,并得到第二学习结果的过程可以理解为,在

在一些可选的实施例中,前述的对比学习损失可以分为文本模态对比损失和图像模态对比损失,具体可以表示为:

其中,

在一些可选的实施例中,在得到第一学习结果以及第二学习结果之后,跨模态检索模型则可以将第一学习结果以及第二学习结果进行整合,进而得到图像数据以及文本数据的细粒度特征。

步骤S30:采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征。

在一些可选的实施例中,步骤S30具体包括:

S301:基于预设的编码器对所述数据信息集的特征进行采集,得到所述数据信息集的全局特征。

S302:将所述全局特征作为所述粗粒度特征。

S303:对所述细粒度特征以及所述粗粒度特征进行融合,得到融合后的特征。

S304:对所述融合后的特征进行模态间对比学习,得到第三学习结果。

S305:对所述融合后的特征进行模态内对比学习,得到第四学习结果。

S306:基于所述第三学习结果以及所述第四学习结果,对所述跨模态检索的过程进行优化。

在一些可选的实施例中,在确定了图像数据以及文本数据的细粒度特征之后,为了使得多模态知识增强的跨模态表示学习与检索的结果更加准确,跨模态检索模型还可以确定图像数据以及文本数据的粗粒度特征。具体的,跨模态检索模型可以先通过预设的编码器对图像数据以及文本数据的全局特征(包括图像特征以及文本特征)进行采集,然后将所得到的全局特征作为图像数据以及文本数据的粗粒度特征。

在一些可选的实施例中,在得到粗粒度特征之后,则可以将粗粒度特征以及细粒度特征进行融合,进而得到融合后的特征。然后对融合后的特征进行进行模态间对比学习以及模态内对比学习,并得到第三学习结果和第四学习结果。最后基于所得到的第三学习结果和第四学习结果对本公开中的跨模态检索模型进行优化,以使得本公开中的跨模态检索过程可以取得更优的效果。

在一些可选的实施例中,前述步骤S303得到第三学习结果的过程,进一步包括:

S3031:对所述图像特征以及所述文本特征的对应关系进行模态间对比学习,得到第三学习结果。

在一些可选的实施例中,在进行全局的模态间对比学习时,可以将融合后的特征中成对的图像特征以及文本特征(即,相对应的图像特征以及文本特征)作为正样例,把不成对的图像特征以及文本特征作为负样例。然后对前述的正负样例进行模态间对比学习,进而得到第三学习结果。

在一些可选的实施例中,前述步骤S304进一步包括:

S3041:分别对所述图像特征和所述文本特征中目标数量的特征进行增广处理,得到增广后的图像特征以及增广后的文本特征。

S3042:对所述增广后的图像特征以及所述增广后的文本特征进行模态内对比学习,得到第四学习结果。

在一些可选的实施例中,在进行全局的模态内对比学习时,可以先在图像特征中选取锚点图像,在文本特征中选取锚点文本。之后对图像特征以及文本特征中目标数量的特征进增广处理,得到增广后的图像特征以及增广后的文本特征。然后将增广后的图像特征以及增广后的文本特征作为锚点图像和锚点文本的正样例,其他的图像特征以及文本特征作为将锚点图像和锚点文本作为负样例。最后对前述的正负样例进行模态内对比学习,进而得到第四学习结果。

在一些可选的实施例中,为了增强跨模态检索模型的表示能力,本发明建立了一个带有队列和移动平均编码器的动态字典,进而通过此动态字典对跨模态检索模型的表示能力进行增强。队列的引入使字典的大小与批次的大小解耦。因此,字典的大小可以比典型的批次大小大很多。本发明分别构建出图像和文本的动量更新编码器,用

其中,m为动量更新编码器更新过程中的权重参数,

步骤S40:基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。

在一些可选的实施例中,步骤S40具体包括:

S401:对所述融合后的特征进行哈希映射,得到哈希映射后特征。

S403:基于所述哈希映射后特征对所述数据信息集进行跨模态检索。

在一些可选的实施例中,在得到融合后的特征之后,就可以使用融合后的特征对数据信息集(文本数据以及图像数据)进行跨模态的检索。但是在检索过程中由于数据信息集内内容较多并且较不稳定,进而这可能会使得检索速度变慢。因此,跨模态检索模型还可以对融合后的特征进行哈希映射,得到哈希映射后的特征。然后使用哈希映射后的特征对数据信息集进行跨模态检索。

在一些可选的实施例中,前述对粗粒度特征与细粒度特征进行融合的过程具体为,首先将第三学习结果

在一些可选的实施例中,对粗粒度特征与细粒度特征进行融合的过程的过程可以通过多头注意力机制来实现。本公开中通过多头注意力机制来进行特征融合,可以更好地促进多粒度跨模态语义对齐和融合。

在一些可选的实施例中,通过多头注意力机制进行融合的过程可以表示为:

其中,

在一些可选的实施例中,前述的跨模态哈希学习的目标是映射不同模态到同一个汉明空间。在这个空间内,图像和文本的编码分别表示为:

在一些可选的实施例中,为了提高模型的检索效率,本公开将高维度的特征表示映射到汉明空间,用汉明距离评估图像和文本样本之间的相似性。

其中,FFN(·) 表示一个由2层多层感知机组成的前馈网络,激活函数选用ReLU。将全局嵌入得到的特征和多粒度增强得到的特征进行拼接,得到

在一些可选的实施例中,为了实现跨模态语义对齐和融合,本发明使用前述的多模态多比学习的损失函数作为对比目标函数,表示为:

其中

在一些可选的实施例中,前述的对比目标函数包括,模态间对比目标函数和模态内对比目标函数,其分别表示为:

其中,

在一些可选的实施例中,在求得上述模态间对比目标函数和模态内对比目标函数的基础之上,可以得到总体跨模态哈希表征学习目标函数,具体表示为:

其中,

综上所述,本公开中,首先获取了图像数据以及文本数据,然后采集了图像数据和文本数据的局部细粒度特征以及全局粗粒度特征,最后再基于部细粒度特征和全局粗粒度特征对图像数据和文本数据进行了多模态知识增强的跨模态表示学习与检索。

在本公开中,主要通过多模态图注意力网络对模态内和模态间的隐含细粒度语义关联进行推理,之后对推理得到的结果进行哈希映射并生成跨模态高效统一哈希表示,最终基于所生成的哈希表示进行跨模态检索。

基于同一技术构思,与上述任意实施例方法相对应的,本公开还提供了一种多模态知识增强的跨模态表示学习与检索装置,通过本公开所提供的多模态知识增强的跨模态表示学习与检索装置可以实现以上任意一实施例所述的多模态知识增强的跨模态表示学习与检索方法。

图2为本公开实施例所提供的一种多模态知识增强的跨模态表示学习与检索装置结构示意图。

图2所示的多模态知识增强的跨模态表示学习与检索装置进一步包括以下模块:

数据信息获取模块10、细粒度特征确定模块20、粗粒度特征确定模块30以及多模态知识增强的跨模态表示学习与检索模块40;

其中,所述数据信息获取模块10,被配置为:获取数据信息集,其中所述数据信息集包括图像数据以及文本数据。

所述细粒度特征确定模块20,被配置为:采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征。具体执行以下步骤:

基于注意力机制对所述图像数据的特征进行采集,得到所述图像数据的第一特征;

确定所述文本数据中与所述第一特征对应的第二特征,其中所述第二特征用于描述所述第一特征;

将所述第一特征以及所述第二特征作为所述数据信息集的局部特征;

基于所述局部特征构建多模态知识图谱;包括:

确定所述第一特征的第一关系矩阵以及所述第二特征的第二关系矩阵;

基于所述第一特征以及所述第二特征的共现关系,得到共现次数矩阵;

对所述第一关系矩阵、所述第二关系矩阵以及所述共现次数矩阵进行归一化处理,得到归一化处理后的关系矩阵;

通过所述局部特征、所述第一特征和所述第二特征间的相似度以及所述归一化处理后的关系矩阵,生成所述多模态知识图谱;

基于所述多模态知识图谱对所述局部特征进行模态间图对比学习,得到第一学习结果;

基于所述多模态知识图谱对所述局部特征进行模态内图对比学习,得到第二学习结果;

将所述第一学习结果以及所述第二学习结果作为所述细粒度特征。

所述粗粒度特征确定模块30,被配置为:采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征。具体执行以下步骤:

基于预设的编码器对所述数据信息集的特征进行采集,得到所述数据信息集的全局特征;其中所述全局特征包括图像特征和文本特征;

将所述全局特征作为所述粗粒度特征;

对所述细粒度特征以及所述粗粒度特征进行融合,得到融合后的特征;

对所述融合后的特征进行模态间对比学习,得到第三学习结果;包括:

对所述图像特征以及所述文本特征的对应关系进行模态间对比学习,得到第三学习结果;以及,

对所述融合后的特征进行模态内对比学习,得到第四学习结果;包括:

分别对所述图像特征和所述文本特征中目标数量的特征进行增广处理,得到增广后的图像特征以及增广后的文本特征;

对所述增广后的图像特征以及所述增广后的文本特征进行模态内对比学习,得到第四学习结果;

基于所述第三学习结果以及所述第四学习结果,对所述跨模态检索的过程进行优化。

所述多模态知识增强的跨模态表示学习与检索模块40,被配置为:基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。具体执行以下步骤:

对所述融合后的特征进行哈希映射,得到哈希映射后的特征;

基于所述哈希映射后的特征对所述数据信息集进行跨模态检索。

基于同一技术构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上任意一实施例所述的多模态知识增强的跨模态表示学习与检索方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的多模态知识增强的跨模态表示学习与检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一技术构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的多模态知识增强的跨模态表示学习与检索方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的多模态知识增强的跨模态表示学习与检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

技术分类

06120116571338