掌桥专利:专业的专利平台
掌桥专利
首页

双模态表征模型训练方法、装置、设备和介质

文献发布时间:2023-06-19 19:30:30


双模态表征模型训练方法、装置、设备和介质

技术领域

本申请涉及模型训练技术领域,例如涉及双模态表征模型训练方法、装置、设备和介质。

背景技术

对比训练可以应用于监督和无监督的场景下,目前在计算机视觉和自然语言处理等领域中得到了广泛的应用。业内在多模态对比训练中通过使用计算两个模态之间的噪声对比估计函数来训练多模态表征模型,先通过选取样本的正负样本对,分别输入模型后提取特征,再使用原样本与正样本,原样本与负样本的特征分别计算损失值。上述多模态对比训练在把两个模态映射到同一表达空间时的精确度不高,导致训练得到的双模态表征模型的表征能力不强。

发明内容

本申请提供一种双模态表征模型训练方法、装置、设备和介质,旨在解决双模态表征模型的表征能力不强的问题。

为解决上述问题,本申请采用以下技术方案:

本文提供了双模态表征模型训练方法,包括:

获取待处理数据,所述待处理数据包括图像数据和文本数据;

对所述待处理数据进行预处理,得到预处理数据;

对所述预处理数据进行特征编码,得到多个特征向量,所述多个特征向量包括多个图像块向量和多个词向量;

对所述多个图像块向量进行池化,得到图像块池化向量;对所述多个词向量进行池化,得到词池化向量;

根据所述图像块池化向量构造第一损失函数,根据所述词池化向量构造第二损失函数,根据所述多个图像块向量和所述多个词向量构造第三损失函数;

根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型。

优选地,所述根据所述图像块池化向量构造第一损失函数,包括:

将所述图像块池化向量作为对数函数的自变量,通过对数函数构造所述第一损失函数;

所述第一损失函数的公式如下:

其中,

优选地,所述根据所述词池化向量构造第二损失函数,包括:

将所述词池化向量作为对数函数的自变量,通过两个对数函数构造所述第二损失函数;

所述第二损失函数的公式如下:

其中,

优选地,所述根据所述图像块向量和所述词池化向量构造第三损失函数,包括:

将当前图像块向量和所述词向量作为噪声对比估计函数的自变量,通过所述噪声对比估计函数构造所述第三损失函数;

所述第三损失函数的公式如下:

其中,q为所述当前图像块向量,k

优选地,所述对所述待处理数据进行预处理,得到预处理数据,包括:

将所述图像数据分割为多个图像块;

将所述文本数据分割为多个单词;

将所述多个图像块和所述多个单词作为所述预处理数据。

优选地,所述对所述预处理数据进行特征编码,得到多个特征向量,包括:

将所述多个图像块输入BERT模型以对所述多个图像块进行特征编码,得到所述图像块向量;

将所述多个单词输入BERT模型以对所述多个单词进行特征编码,得到所述词向量。

优选地,所述根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型,包括:

将所述第一损失函数、第二损失函数和第三损失函数组成最终损失函数;

计算所述最终损失函数的损失函数值;

根据所述损失函数值进行反向传播,更新所述待训练模型的模型参数;

判断所述模型参数与预设模型参数的参数误差是否小于参数误差阈值,若是,则停止训练,得到所述双模态表征模型。

本申请还提供了一种双模态表征模型训练装置,包括:

待处理数据获取模块,用于获取待处理数据,所述待处理数据包括图像数据和文本数据;

预处理模块,用于对所述待处理数据进行预处理,得到预处理数据;

特征编码模块,用于对所述预处理数据进行特征编码,得到多个特征向量,所述多个特征向量包括多个图像块向量和多个词向量;

池化模块,用于对所述多个图像块向量进行池化,得到图像块池化向量;对所述多个词向量进行池化,得到词池化向量;

损失函数构造模块,用于根据所述图像块池化向量构造第一损失函数,根据所述词池化向量构造第二损失函数,根据所述多个图像块向量和所述多个词向量构造第三损失函数;

训练模块,用于根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的双模态表征模型训练方法的步骤。

本申请的双模态表征模型训练方法,包括获取待处理数据,待处理数据包括图像数据和文本数据。对待处理数据进行预处理,得到预处理数据。对预处理数据进行特征编码,得到多个特征向量,多个特征向量包括多个图像块向量和多个词向量。对多个图像块向量进行池化,得到图像块池化向量;对多个词向量进行池化,得到词池化向量。根据图像块池化向量构造第一损失函数,根据词池化向量构造第二损失函数,根据图像块池化向量和词池化向量构造第三损失函数。根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型。第一损失函数用于训练双模态表征模型的图像表征能力,第二损失函数用于训练双模态表征模型的文本表征能力,第三损失函数用于平衡双模态表征模型对于图像和文本的表征能力。基于三种损失函数进行训练,使得双模态表征模型对图像和文本两种不同模态的特征融合和特征表达能力更强。

附图说明

图1为一实施例的双模态表征模型训练方法的流程示意图;

图2为一实施例的构造多个损失函数的流程示意图;

图3为一实施例的对待处理数据进行预处理的流程示意图;

图4为一实施例的对预处理数据进行特征编码的流程示意图;

图5为一实施例的训练待训练模型的流程示意图;

图6为一实施例的双模态表征模型训练装置的结构示意框图;

图7为一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、单元、单元和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、单元、单元、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

在一个实施例中,参照图1,是本方案申请的双模态表征模型训练方法的流程示意图,包括以下步骤S1-S6:

S1:获取待处理数据,所述待处理数据包括图像数据和文本数据。

图像数据包括多张输入图像,文本数据包括多个输入文本,1张输入图像对应1个输入文本。

图像数据和文本数据表示两种不同的模态,图像数据和文本数据经过处理后用于训练能够同时表征图像和文本的双模态表征模型。

S2:对所述待处理数据进行预处理,得到预处理数据。

将所述图像数据分割为多个图像块;

将所述文本数据分割为多个单词;

将所述多个图像块和所述多个单词作为所述预处理数据。

一张输入图像包含不同的图像特征,将图像数据中的每一张输入图像分割为N个图像块,N取值范围为4-8,优选地,N设置为4。图像块的长度和宽度可以相等,也可以不相等,具体根据实际情况而定,此处不作限定。

一个输入文本包含不同的文本特征,将文本数据中的每一个输入文本分割为多个句子,再对每一个句子进行分词操作,得到多个单词。单词的具体数量由输入文本的长度决定。

S3:对所述预处理数据进行特征编码,得到多个特征向量,所述多个特征向量包括多个图像块向量和多个词向量。

将所述多个图像块输入BERT模型以对所述多个图像块进行特征编码,得到所述图像块向量;

将所述多个单词输入BERT模型以对所述多个单词进行特征编码,得到所述词向量。

BERT模型由编码模块和解码模块构成,BERT模型能够对特征进行编码,得到相应的向量。

S4:对所述多个图像块向量进行池化,得到图像块池化向量;对所述多个词向量进行池化,得到词池化向量。

对多个图像块向量进行最大池化,得到图像块池化向量。对多个词向量进行最大池化,得到词池化向量。图像块池化向量和词池化向量的维度相同。

示例性,将图像数据分割为6个图像块,将所有图像块输入BERT模型,得到6个图像块向量。通过最大池化,对6个图像块向量的每一个维度取最大值,得到由每一个维度最大值组成的向量,即图像块池化向量。将文本数据分割为8个单词,将所有单词输入BERT模型,得到8个词向量。对8个词向量的每一个维度取最大值,得到由每一个维度最大值组成的向量,即词池化向量。

S5:根据所述图像块池化向量构造第一损失函数,根据所述词池化向量构造第二损失函数,根据所述多个图像块向量和所述多个词向量构造第三损失函数。

将所述图像块池化向量作为对数函数的自变量,通过对数函数构造所述第一损失函数;

所述第一损失函数的公式如下:

其中,

将所述词池化向量作为对数函数的自变量,通过两个对数函数构造所述第二损失函数;

所述第二损失函数的公式如下:

其中,

将当前图像块向量和所述词向量作为噪声对比估计函数的自变量,通过所述噪声对比估计函数构造所述第三损失函数;

所述第三损失函数的公式如下:

其中,q为当前图像块向量,k

第一损失函数用于训练双模态表征模型的图像表征能力,第二损失函数用于训练双模态表征模型的文本表征能力,第三损失函数用于平衡双模态表征模型对于图像和文本的表征能力。

S6:根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型。

将所述第一损失函数、第二损失函数和第三损失函数组成最终损失函数;

计算所述最终损失函数的损失函数值;

根据所述损失函数值进行反向传播,更新所述待训练模型的模型参数;

判断所述模型参数与预设模型参数的参数误差是否小于参数误差阈值,若是,则停止训练,得到所述双模态表征模型。

基于三种损失函数进行训练,使得双模态表征模型对图像和文本两种不同模态的特征融合和特征表达能力更强。

本申请实施例的双模态表征模型训练方法,包括获取待处理数据,待处理数据包括图像数据和文本数据。对待处理数据进行预处理,得到预处理数据。对预处理数据进行特征编码,得到多个特征向量,多个特征向量包括多个图像块向量和多个词向量。对多个图像块向量进行池化,得到图像块池化向量;对多个词向量进行池化,得到词池化向量。根据图像块池化向量构造第一损失函数,根据词池化向量构造第二损失函数,根据图像块池化向量和词池化向量构造第三损失函数。根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型。第一损失函数用于训练双模态表征模型的图像表征能力,第二损失函数用于训练双模态表征模型的文本表征能力,第三损失函数用于平衡双模态表征模型对于图像和文本的表征能力。基于三种损失函数进行训练,使得双模态表征模型对图像和文本两种不同模态的特征融合和特征表达能力更强。

在一个实施例中,参照图2,上述根据所述图像块池化向量构造第一损失函数,根据所述词池化向量构造第二损失函数,根据所述多个图像块向量和所述多个词向量构造第三损失函数的步骤S5,包括以下步骤S51-S53:

S51:根据所述图像块池化向量构造第一损失函数。

将所述图像块池化向量作为对数函数的自变量,通过对数函数构造所述第一损失函数。

所述第一损失函数的公式如下:

其中,

第一损失函数改变交叉熵损失函数得到,交叉熵损失函数为:

当输入的

第一损失函数用于训练双模态表征模型的图像表征能力。

S52:根据所述词池化向量构造第二损失函数。

将所述词池化向量作为对数函数的自变量,通过两个对数函数构造所述第二损失函数;

所述第二损失函数的公式如下:

其中,

当输入的

第二损失函数用于训练双模态表征模型的文本表征能力。

S53:根据所述图像块向量和所述词池化向量构造第三损失函数。

将当前图像块向量和所述词向量作为噪声对比估计函数的自变量,通过所述噪声对比估计函数构造所述第三损失函数。

所述第三损失函数的公式如下:

其中,q为当前图像块向量,k

当前图像块向量q与对应的词向量k

若第i个词向量k

当前图像块向量q与每一个词向量进行点乘,得到点乘结果,计算点乘结果与第三损失函数的第一参数的比值,将该比值进行指数运算,得到当前图像块向量与第i个词向量的距离,距离越小,相似度越大。

第三损失函数的分子表示当前图像块与对应的词向量的相似度,第三损失函数的分母表示当前图像块与所有词向量的相似度之和,通过计算当前图像块与对应的词向量的相似度与所有相似度的比值,能够衡量当前图像块与对应的词向量的匹配程度。

第三损失函数的第一参数的范围为0.1-0.3,优选地,将第三损失函数的第一参数设置为0.2。

第三损失函数用于平衡双模态表征模型对于图像和文本的表征能力。

本申请实施例的根据图像块池化向量构造第一损失函数,根据词池化向量构造第二损失函数,根据多个图像块向量和多个词向量构造第三损失函数,包括根据图像块池化向量构造第一损失函数,根据词池化向量构造第二损失函数,根据图像块向量和词池化向量构造第三损失函数。第一损失函数用于训练双模态表征模型的图像表征能力,第二损失函数用于训练双模态表征模型的文本表征能力,第三损失函数用于平衡双模态表征模型对于图像和文本的表征能力。

在一个实施例中,参照图3,上述对所述待处理数据进行预处理,得到预处理数据的步骤S2,包括以下步骤S21-S23:

S21:将所述图像数据分割为多个图像块。

一张输入图像包含不同的图像特征,图像数据中的每一张输入图像分割为N个图像块,可以采用阈值分割类、边缘检测分割类、区域分割类或聚类分割类的图像分割方法,还可以采用其他的图像分割方法,具体根据实际情况而定,此处不作限定。N取值范围为4-8,优选地,N设置为4。图像块的长度和宽度可以相等,也可以不相等,具体根据实际情况而定,此处不作限定。

每个图像块包含的图像特征不同,不同图像块之间不重叠。

S22:将所述文本数据分割为多个单词。

一个输入文本包含不同的文本特征,使用N-gram模型将文本数据中的每一个输入文本分割为多个句子,再对每一个句子进行分词操作,得到多个单词。单词的具体数量由输入文本的长度决定。

得到多个句子后,可以使用word2vec模型按照单词的词性对每一个句子进行分词操作,单词的词性包括名词、动词、形容词和副词,还可以按照不同单词之间的关系进行分词操作,例如找到输入文本分割后的句子中的三元组关系,根据三元组关系进行分词操作,三元组关系是指句子中主语、谓语和宾语之间的关系。

S23:将所述多个图像块和所述多个单词作为所述预处理数据。

预处理数据包括图像和文本两个维度的数据,图像维度的数据包括多个图像块,文本维度的数据包括多个单词。对预处理数据进行转换可以得到特征向量,根据特征向量能够构造待训练模型的损失函数,使得训练得到的双模态表征模型能够同时表征图像和文本。

本申请实施例的对待处理数据进行预处理,得到预处理数据,包括将图像数据分割为多个图像块,将文本数据分割为多个单词。将多个图像块和多个单词作为预处理数据。每个图像块包含的图像特征不同,不同图像块之间不重叠。单词的具体数量由输入文本的长度决定。预处理数据包括图像和文本两个维度的数据,图像维度的数据包括多个图像块,文本维度的数据包括多个单词。

在一个实施例中,参照图4,上述对所述预处理数据进行特征编码,得到多个特征向量的步骤S3,包括以下步骤S31-S32:

S31:将所述多个图像块输入BERT模型以对所述多个图像块进行特征编码,得到所述图像块向量。

BERT模型由编码模块和解码模块构成,BERT模型能够对特征进行编码,得到相应的向量。

特征编码包括图像编码和词编码。

每一个图像块经过图像编码后得到一个图像块向量,不同图像块向量表征对应的输入图像的不同特征。

S32:将所述多个单词输入BERT模型以对所述多个单词进行特征编码,得到所述词向量。

每一个单词经过词编码后得到一个词向量,不同词向量表征对应的输入文本的不同特征。

本申请实施例的对预处理数据进行特征编码,得到多个特征向量,包括将多个图像块输入BERT模型以对多个图像块进行特征编码,得到图像块向量。将多个单词输入BERT模型,对多个单词进行特征编码,得到词向量。不同图像块向量表征对应的输入图像的不同特征,不同词向量表征对应的输入文本的不同特征。

在一个实施例中,参照图5,上述根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型的步骤S6,包括以下步骤S61-S64:

S61:将所述第一损失函数、第二损失函数和第三损失函数组成最终损失函数。

将第一损失函数、第二损失函数和第三损失函数的和作为最终损失函数,基于最终损失函数进行训练,使得双模态表征模型对图像和文本两种不同模态的特征融合和特征表达能力更强。

S62:计算所述最终损失函数的损失函数值。

使用最终损失函数对待训练模型进行训练的过程中第一损失函数、第二损失函数和第三损失函数的损失函数值同时减小。

最终损失函数的损失函数值能够反映真实的输出结果与期望结果之间的误差,损失函数值越小,说明误差越小,训练中的模型的性能越好。

S63:根据所述损失函数值进行反向传播,更新所述待训练模型的模型参数。

在训练过程中,相邻两次迭代的损失函数值差别越大,模型的参数更新越快。

S64:判断所述模型参数与预设模型参数的参数误差是否小于参数误差阈值,若是,则停止训练,得到所述双模态表征模型。

当模型参数与预设模型参数的参数误差小于参数误差阈值时,说明训练中的模型已经符合期望,停止训练,将已训练的模型作为双模态表征模型。当参数误差大于或等于参数误差阈值时,说明训练中的模型还没有符合期望,继续训练所述训练中模型,直到参数误差小于参数误差阈值。

本申请实施例的根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型,包括将第一损失函数、第二损失函数和第三损失函数组成最终损失函数,计算最终损失函数的损失函数值。根据损失函数值进行反向传播,更新待训练模型的模型参数。判断模型参数与预设模型参数的参数误差是否小于参数误差阈值,若是,则停止训练,得到双模态表征模型。将第一损失函数、第二损失函数和第三损失函数的和作为最终损失函数,基于最终损失函数进行训练,使得双模态表征模型对图像和文本两种不同模态的特征融合和特征表达能力更强。当模型参数与预设模型参数的参数误差小于参数误差阈值时,说明训练中的模型已经符合期望,停止训练,将已训练的模型作为双模态表征模型。

参照图6,是本方案申请的一种双模态表征模型训练装置的结构示意框图,装置包括:

待处理数据获取模块10,用于获取待处理数据,所述待处理数据包括图像数据和文本数据;

图像数据包括多张输入图像,文本数据包括多个输入文本,1张输入图像对应1个输入文本。

图像数据和文本数据表示两种不同的模态,图像数据和文本数据经过处理后用于训练能够同时表征图像和文本的双模态表征模型。

预处理模块20,用于对所述待处理数据进行预处理,得到预处理数据;

将所述图像数据分割为多个图像块;

将所述文本数据分割为多个单词;

将所述多个图像块和所述多个单词作为所述预处理数据。

一张输入图像包含不同的图像特征,将图像数据中的每一张输入图像分割为N个图像块,N取值范围为4-8,优选地,N设置为4。图像块的长度和宽度可以相等,也可以不相等,具体根据实际情况而定,此处不作限定。

一个输入文本包含不同的文本特征,将文本数据中的每一个输入文本分割为多个句子,再对每一个句子进行分词操作,得到多个单词。单词的具体数量由输入文本的长度决定。

特征编码模块30,用于对所述预处理数据进行特征编码,得到多个特征向量,所述多个特征向量包括多个图像块向量和多个词向量;

将所述多个图像块输入BERT模型以对所述多个图像块进行特征编码,得到所述图像块向量;

将所述多个单词输入BERT模型以对所述多个单词进行特征编码,得到所述词向量。

BERT模型由编码模块和解码模块构成,BERT模型能够对特征进行编码,得到相应的向量。

池化模块40,用于对所述多个图像块向量进行池化,得到图像块池化向量;对所述多个词向量进行池化,得到词池化向量;

对多个图像块向量进行最大池化,得到图像块池化向量。对多个词向量进行最大池化,得到词池化向量。图像块池化向量和词池化向量的维度相同。

示例性,将图像数据分割为6个图像块,将所有图像块输入BERT模型,得到6个图像块向量。通过最大池化,对6个图像块向量的每一个维度取最大值,得到由每一个维度最大值组成的向量,即图像块池化向量。将文本数据分割为8个单词,将所有单词输入BERT模型,得到8个词向量。对8个词向量的每一个维度取最大值,得到由每一个维度最大值组成的向量,即词池化向量。

损失函数构造模块50,用于根据所述图像块池化向量构造第一损失函数,根据所述词池化向量构造第二损失函数,根据所述多个图像块向量和所述多个词向量构造第三损失函数;

将所述图像块池化向量作为对数函数的自变量,通过对数函数构造所述第一损失函数;

所述第一损失函数的公式如下:

其中,

将所述词池化向量作为对数函数的自变量,通过两个对数函数构造所述第二损失函数;

所述第二损失函数的公式如下:

其中,

将当前图像块向量和所述词向量作为噪声对比估计函数的自变量,通过所述噪声对比估计函数构造所述第三损失函数;

所述第三损失函数的公式如下:

其中,q为当前图像块向量,k

第一损失函数用于训练双模态表征模型的图像表征能力,第二损失函数用于训练双模态表征模型的文本表征能力,第三损失函数用于平衡双模态表征模型对于图像和文本的表征能力。

训练模块60,用于根据所述第一损失函数、第二损失函数和第三损失函数训练待训练模型,得到双模态表征模型。

将所述第一损失函数、第二损失函数和第三损失函数组成最终损失函数;

计算所述最终损失函数的损失函数值;

根据所述损失函数值进行反向传播,更新所述待训练模型的模型参数;

判断所述模型参数与预设模型参数的参数误差是否小于参数误差阈值,若是,则停止训练,得到所述双模态表征模型。

基于三种损失函数进行训练,使得双模态表征模型对图像和文本两种不同模态的特征融合和特征表达能力更强。

本申请实施例的双模态表征模型训练装置,能够实现双模态表征模型训练方法。

在一个实施例中,损失函数构造模块50包括:

第一损失函数构造单元,用于将所述图像块池化向量作为对数函数的自变量,通过对数函数构造所述第一损失函数;

所述第一损失函数的公式如下:

其中,

第二损失函数构造单元,用于将所述词池化向量作为对数函数的自变量,通过两个对数函数构造所述第二损失函数;

所述第二损失函数的公式如下:

其中,

第三损失函数构造单元,用于将当前图像块向量和所述词向量作为噪声对比估计函数的自变量,通过所述噪声对比估计函数构造所述第三损失函数;

所述第三损失函数的公式如下:

其中,q为所述当前图像块向量,k

在一个实施例中,所述预处理模块20包括:

图像数据分割单元,用于将所述图像数据分割为多个图像块;

文本数据分割单元,用于将所述文本数据分割为多个单词;

预处理数据获取单元,用于将所述多个图像块和所述多个单词作为所述预处理数据。

在一个实施例中,所述特征编码模块30,包括:

图像块特征编码单元,用于将所述多个图像块输入BERT模型以对所述多个图像块进行特征编码,得到所述图像块向量;

单词特征编码单元,用于将所述多个单词输入BERT模型以对所述多个单词进行特征编码,得到所述词向量。

在一个实施例中,上述训练模块60,包括:

最终损失函数组成单元,用于将所述第一损失函数、第二损失函数和第三损失函数组成最终损失函数;

损失函数值计算单元,用于计算所述最终损失函数的损失函数值;

模型参数更新单元,用于根据所述损失函数值进行反向传播,更新所述待训练模型的模型参数;

双模态表征模型获取单元,用于判断所述模型参数与预设模型参数的参数误差是否小于参数误差阈值,若是,则停止训练,得到所述双模态表征模型。

如上所述,可以理解地,本申请中提出的所述双模态表征模型训练装置的各组成部分可以实现如上所述双模态表征模型训练方法任一项的功能,具体结构不再赘述。

参照图7,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像块池化向量和词池化向量等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。该计算机程序被处理器执行时以实现双模态表征模型训练方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现双模态表征模型训练方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 模型训练方法、装置、设备以及介质
  • 模型训练方法、广告推荐方法、相关装置、设备及介质
  • 机器学习模型训练方法、装置、存储介质和计算机设备
  • MR图像预测模型的训练方法、装置、设备及存储介质
  • CT图像预测模型的训练方法、装置、设备及存储介质
  • 实体表征模型的训练方法、装置、电子设备、存储介质
  • 语言表征模型的训练方法、装置、设备、介质及用户响应方法
技术分类

06120115936694