掌桥专利:专业的专利平台
掌桥专利
首页

基于多模态的零样本图像分割模型训练方法及装置

文献发布时间:2024-04-18 20:00:25


基于多模态的零样本图像分割模型训练方法及装置

技术领域

本申请涉及计算机视觉处理技术领域,尤其涉及一种基于多模态的零样本图像分割模型训练方法及装置。

背景技术

图像分割技术在计算机视觉和图像处理领域具有广泛的应用,例如可以利用图像分割技术将图像中的不同目标或物体从背景中分离、将图像中的不同区域进行分类或应用于监控系统的行为分析等。在图像分割模型的训练阶段往往需要接触到所有可能出现的目标类别的样本数据,才能准确地将图像中的像素分为不同的类别。

然而,在实际应用中,常常会遇到一些新的目标类别,而没有对应的样本数据可供训练,所以引入零样本分割算法,旨在解决分割任务中零样本问题,零样本分割算法可以通过使用已知类别的样本数据和与目标类别相关的辅助信息(如语义描述、属性特征等),来学习一个模型,以使将图像中的像素与已知类别进行匹配,并利用辅助信息进行推理,从而将图像中未知类别像素分割出来。也正是因为分割模型在训练过程中没有接触到相关数据的样本,导致零样本图像分割模型对于新的物体或小物体的特征和形状不具备足够的理解能力,导致零样本图像分割模型对于包含未见过的物体类型和小物体的图像进行分割的输出结果不够准确。

因此,现有技术对于未见过的物体类型以及小物体的分割结果准确性不高的问题。

发明内容

有鉴于此,本申请实施例提供了一种基于多模态的零样本图像分割模型训练方法及装置,以解决现有技术中对于未见过的物体类型以及小物体的分割结果准确性不高的问题。

本申请实施例的第一方面,提供了一种基于多模态的零样本图像分割模型训练方法,包括:获取图像训练集中的图像和提示词训练集中的提示词,该提示词基于所述图像的内容确定;将图像和提示词输入至基础分割模块中,利用图像编码器对图像进行处理,得到图像编码特征,利用提示词编码器对提示词进行处理,得到提示词编码特征;将图像编码特征与提示词编码特征经过掩码解码器处理,得到对应的掩码,将掩码经过全连接层处理并计算第一损失函数,基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块;将图像输入至分割微调模块中,对图像分别进行跨模态处理和显著性检测处理,得到文本嵌入特征和显著特征图,将文本嵌入特征和显著特征图进行交叉注意力融合,得到第一融合特征图;将第一融合特征图经过多层感知机和全连接层处理并计算第二损失函数,基于第二损失函数对分割微调模块进行训练,得到训练后的分割微调模块;将训练后的基础分割模块和训练后的分割微调模块进行拼接,并连接交叉注意力融合模块和预设解码器,得到零样本图像分割模型;将图像和提示词输入至零样本图像分割模型进行处理,并计算第三损失函数,基于第三损失函数对零样本图像分割模型进行训练,得到训练后的零样本图像分割模型。

本申请实施例的第二方面,提供了一种基于多模态的零样本图像分割模型训练装置,包括:获取模块,被配置为获取图像训练集中的图像和提示词训练集中的提示词,提示词基于图像的内容确定;第一处理模块,被配置为将图像和提示词输入至基础分割模块中,利用图像编码器对图像进行处理,得到图像编码特征,利用提示词编码器对提示词进行处理,得到提示词编码特征;第一训练模块,被配置为将图像编码特征与提示词编码特征经过掩码解码器处理,得到对应的掩码,将掩码经过全连接层处理并计算第一损失函数,基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块;第二处理模块,被配置为将图像输入至分割微调模块中,对图像分别进行跨模态处理和显著性检测处理,得到文本嵌入特征和显著特征图,将文本嵌入特征和显著特征图进行交叉注意力融合,得到第一融合特征图;第二训练模块,被配置为将第一融合特征图经过多层感知机和全连接层处理并计算第二损失函数,基于第二损失函数对分割微调模块进行训练,得到训练后的分割微调模块;第三处理模块,被配置为将训练后的基础分割模块和训练后的分割微调模块进行拼接,并连接交叉注意力融合模块和预设解码器,得到零样本图像分割模型;第三训练模块,被配置为将图像和提示词输入至零样本图像分割模型进行处理,并计算第三损失函数,基于第三损失函数对零样本图像分割模型进行训练,得到训练后的零样本图像分割模型。

本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

通过构建基础分割模块和分割微调模块,利用图像训练集和提示词训练集对基础分割模块进行训练,得到训练后的基础分割模块。利用图像训练集对分割微调模块进行训练得到训练后的分割微调模块,将训练后的基础分割模块与训练后的分割微调模块进行拼接,并连接交叉注意力融合模块与预设解码器,得到零样本图像分割模型,利用图像训练集和提示词训练集对零样本图像分割模型进行训练,得到训练后的零样本图像分割模型。在基础分割微调模块中的图像编码器中配置适配器模块,该适配器模块用于更新图像编码器的参数,这样通过适配器模块的参数更新从而对图像编码器进行训练,可以得到语义理解能力更强的图像编码器,通过图像与提示词对模型进行训练实现多模态对比效果,从而提升模型性能。使得训练后的零样本图像分割模型在对未见过的物体类型以及小物体时可以得到准确的分割结果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的一种基于多模态的零样本图像分割模型训练方法的流程示意图;

图2是本申请实施例提供的另一种基于多模态的零样本图像分割模型训练方法的流程示意图;

图3是本申请实施例提供的再一种基于多模态的零样本图像分割模型训练方法的流程示意图;

图4是本申请实施例提供的又一种基于多模态的零样本图像分割模型训练方法的流程示意图;

图5是本申请实施例提供的还一种基于多模态的零样本图像分割模型训练方法的流程示意图;

图6是本申请实施例提供的一种基于多模态的零样本图像分割模型训练装置的结构示意图;

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

此外,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面将结合附图详细说明根据本申请实施例的一种基于多模态的零样本图像分割模型训练方法和装置。

图1是本申请实施例提供的一种基于多模态的零样本图像分割模型训练方法的流程示意图。如图1所示,该基于多模态的零样本图像分割模型训练方法包括:

S101,获取图像训练集中的图像和提示词训练集中的提示词,该提示词基于图像的内容确定;

S102,将图像和提示词输入至基础分割模块中,利用图像编码器对图像进行处理,得到图像编码特征,利用提示词编码器对提示词进行处理,得到提示词编码特征;

S103,将图像编码特征与提示词编码特征经过掩码解码器处理,得到对应的掩码,将掩码经过全连接层处理并计算第一损失函数,基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块;

S104,将图像输入至分割微调模块中,对图像分别进行跨模态处理和显著性检测处理,得到文本嵌入特征和显著特征图,将文本嵌入特征和显著特征图进行交叉注意力融合,得到第一融合特征图;

S105,将第一融合特征图经过多层感知机和全连接层处理并计算第二损失函数,基于第二损失函数对分割微调模块进行训练,得到训练后的分割微调模块;

S106,将训练后的基础分割模块和训练后的分割微调模块进行拼接,并连接交叉注意力融合模块和预设解码器,得到零样本图像分割模型;

S107,将图像和提示词输入至零样本图像分割模型进行处理,并计算第三损失函数,基于第三损失函数对零样本图像分割模型进行训练,得到训练后的零样本图像分割模型。

在零样本图像分割模型的训练过程中,可以利用图像训练集与提示词训练集对基础分割模块进行训练,利用图像训练集对分割微调模块进行训练,得到训练后的基础分割模块和训练后的分割微调模块,将两者进行拼接并连接交叉注意力融合模块和预设解码器就可以得到完整的零样本图像分割模型,然后可以利用图像训练集与提示词训练集对零样本图像分割模型进行训练,可以得到训练后的零样本图像分割模型,利用该训练后的零样本图像分割模型可以对待分割图像进行分割处理,在处理过程中可以准确地分割出未见过的物体类型以及小物体。

在其中的基础分割模块的训练过程中,可以直接采用预训练好的分割模型的图像编码器为其部署适配器模块,在训练时冻结图像编码器原有结构的所有参数,将适配器模块作为图像处理器训练过程中参数更新的模块。

在一些实施例中,利用图像编码器对图像进行处理,得到图像编码特征,包括:利用多个转换器模块对图像进行处理,得到图像编码特征,转换器模块包括第一归一化层、多头注意力层、适配器模块、第二归一化层和多层感知机;其中,根据适配器模块对多头注意力层的输出进行处理,得到第二归一化层的输入,适配器模块被配置为图像编码器的参数更新模块。

具体地,图像编码器可以由多个转换器模块拼接得到,此处不对转换器模块的数量做具体限制。在图像编码器对图像的处理过程中,可以利用多个第一归一化层、多头注意力层、适配器模块、第二归一化层和多层感知机依次对图像编码器的输入进行处理,得到图像编码特征。可以理解为,转换器模块,如transformer模块,相应的,每个transformer模块可以包括Layer Norm、Multi-head Attention、Layer Norm、MLP几个模块以及适配器模块,适配器可以插入到Multi-head Attention的后面,因此可以理解为将多头注意力层的输出作为适配器模块的输入处理,得到第二归一化层的输入。

需要说明的是,每个转换器模块的原始结构都可以包括第一归一化层、多头注意力层、第二归一化层和多层感知机,本申请实施例在构建基础分割模块时,便可以在图像编码器的多头注意力层后部署适配器模块,将该适配器模块作为图像编码器的参数更新模块。

其中,第一归一化层和第二归一化层的结构和处理效果可以一致。

根据上述实施例提供的方案,将转换器模块的组合用于构建图像编码器,通过多次使用转换器模块,图像编码器可以逐渐提取出丰富的特征表示,从而更好地理解图像内容,这样的图像编码特征可以用于后续的图像分割任务,在图像编码器的训练过程中还将配置的适配器模块作为参数更新模块,还可以增强图像编码器的表达能力和适应性,进而改善后续构建的零样本图像分割模型的训练效果和泛化能力,以提升模型的性能。

在另一些实施例中,根据适配器模块对多头注意力层的输出进行处理,得到第二归一化层的输入,包括:在适配器模块中,利用第一线性层、压缩线性层、激活层、恢复线性层以及第二线性层,依次对多头注意力层的输出进行处理,得到第二归一化层的输入;其中,将第一线性层的输出经过第一激活函数处理后的结果与恢复线性层的输出相乘,得到第二线性层的输入,将适配器模块的输入经过全局平均池化处理的结果与第二线性层的输出进行拼接,得到适配器模块的输出,将适配器模块的输出作为第二归一化层的输入。

具体地,每个适配器模块可以包括第一线性层、压缩线性层、激活层、恢复线性层以及第二线性层。

图2是本申请实施例提供的另一种基于多模态的零样本图像分割模型训练方法的流程示意图,下面结合图2对适配器模块的处理过程进行说明。

在适配器模块中,可以依次利用第一线性层、压缩线性层、激活层、恢复线性层以及第二线性层对适配器模块的输入进行处理,得到第二归一化层的输入,其中,第一线性层和第二线性层均可以采用1×1的卷积;压缩线性层可以3×3的卷积,将第一线性层的输出经过压缩线性层映射到更高的维度,以便进行更多的特征学习;激活层可以采用Relu激活函数进一步对压缩线性层的输出进行激活函数处理,增加特征的表达能力;恢复线性层也可以采用3×3的卷积,将经过激活函数处理后的输出再次进行线性变换,将其映射回原始的特征空间,恢复其维度为原始的维度,以便后续与主干网络的融合,此处的主干网络可以表示为transformer模块的主干网络。

其中,还可以将第一线性层的输出经过第一激活函数(例如:sigmoid函数)处理,得到第一线性层的输出的通道维度的权重,可以将该权重与恢复线性层的输出相乘,作为第二线性层的输入,进一步,还可以将适配器模块的输入经过全局平均池化处理的结果与第二线性层的输出进行拼接,得到适配器模块的输出,通过全局平均池化可以帮助适配器模块捕捉全局特征,将全局平均池化处理的结果与第二线性层的输出进行拼接,可以得到更加丰富和综合的特征表示,从而帮助图像编码器得到优化,进而提升基础分割模块的表达能力和适应性,从而帮助零样本图像分割模型更好的理解输入数据,即待分割图像。

在一些实施例中,利用提示词编码器对提示词进行处理,得到提示词编码特征,包括:根据图像确定所述提示词的类型,提示词包括坐标点、检测框、文本和初始掩码;若提示词包括所述坐标点,则将坐标点映射到预设维度向量,得到坐标点的编码特征;若提示词包括所述检测框,则将检测框的左上角点和右下角点分别用向量特征表示,得到检测框的编码特征;若提示词包括所述文本,则利用预设文本编码器提取所述文本的文本特征,得到文本的编码特征;若提示词包括所述初始掩码,则将初始掩码经过卷积处理和通道变换,得到初始掩码特征,将初始掩码特征与图像特征相乘,得到初始掩码的编码特征,图像特征基于预设图像特征提取模型获得。

具体来讲,在基础分割模块对输入的处理过程中,还包括提示词编码器对提示词的处理,同样可以采用预训练好的分割模块的提示词编码器对提示词进行处理,但此处不对提示词编码器的参数与结构做限制。

进一步地,提示词类型可以包括坐标点、检测框、文本和初始掩码,应了解,在基础分割模块中可能对提示词类型中的某个类型或某几个类型进行处理,提示词的输入类型可以根据对应的图像内容确定,作为一个示例,当需要分割待分割图像中的某个物体时,可以提供该物体的位置坐标点作为提示词,帮助模型将其准确地分割出来,再一个示例,当需要根据文字描述或关键词对图像进行分割时,可以使用文本作为提示词进行目标分割,如给定一张包含“狗”的图像,可以通过输入文本“狗”,来对目标进行分割。

在提示词编码器的处理过程中,当提示词类型包括坐标点时,可以将坐标点映射到256维的向量,这个向量可以表示代表点位置的编码特征,还可以额外增加两个维度分别表示该点为前景或者背景的可学习编码特征;

当提示词类型包括检测框时,可以用两个向量特征分别表示左上角点和右下角点的编码特征,得到所对应检测框的编码特征表示检测框的位置信息;

当提示词类型包括文本时,可以将文本输入到文本编码器(例如CLIP编码器),获取该文本的编码特征;

当提示词类型包括初始掩码时,可以将输入图像缩放到原始尺寸的1/4分辨率,将其作为初始掩码,然后用2×2大小的卷积核,以步长2进行卷积操作,输出通道为4和6,接下来,再用1×1卷积核将通道数升到256得到初始掩码特征,在提示词编码器中还可以将初始掩码特征与对应的图片特征相乘得到提示词编码器的输出,该图片特征可以通过提示词编码器中的特征提取模型获得,该模型可以是一种现有已经预训练好的图像提取模型(如:Vision Transformer,即ViT模型)。

应了解,其中提示词可以基于图像训练集或待分割图像,利用图像处理技术得到,也可以人工标注得到,此处不做限制。

根据上述实施例提供的方案,在基础分割模块的处理过程中,可以利用提示词编码器,将不同类型的提示词转换为同一的特征表示形式,以便在后续的任务中进行处理和分析,这样,可以将坐标点、检测框、文本和初始掩码等信息编码为具有一定语义和表达能力的向量特征,从而更好地表示和理解输入数据。

在一些实施例中,将掩码经过全连接层处理并计算第一损失函数,基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块,包括:将掩码经第一函数和第二函数进行处理,得到图像的最终掩码;根据最终掩码与真实掩码,计算第一损失函数,并基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块。

具体地,在基础分割模块对图像和提示词进行处理得到对应的掩码后,可以利用全连接层对掩码做进一步处理,并根据全连接层得到的最终掩码并计算第一损失函数,可以利用该第一损失函数反向更新基础分割模块的参数,得到训练后的基础分割模块。

进一步地,在图像编码器与提示词编码器的处理后得到图像编码特征与提示词编码特征,将图像编码特征与提示词编码特征输入到掩码解码器进行解码,可以得到对应的掩码(即二进制图像)该掩码可以包括与图像编码特征相对应的掩码以及与提示词编码特征相对应的掩码,然后将该掩码在全连接层中经过第一函数和第二函数处理得到最终掩码,最终掩码可以表示为将图像编码特征对应的掩码与提示词编码特征对应的掩码进行融合后的掩码。得到的最终掩码中,一张最终掩码可以包含多个物体,一张最终掩码也可以仅包含一个物体具体可以根据图像内容确定。

需要说明的是,在全连接层中,可以首先将接收到的掩码转换为向量表示,然后利用第一函数和第二函数对掩码进行线性组合,得到最终掩码,并计算第一损失函数,作为一个示例,可以利用Focal Loss和Dice Loss对掩码进行线性组合,Focal Loss和Dice Loss的权重系数可以为15:1,并使用均方误差损失函数(MSE Loss)计算IoU分数即交并比分数,作为第一损失函数,并可以在每次迭代中将MSE Loss作为反向传递的梯度信号,来更新基础分割模块的参数,使得预测的IoU分数与真实IoU分数更加接近,从而在训练过程中优化基础分割模块的IoU预测能力,在计算IoU分数时可以基于最终掩码与真实掩码计算,其中真实掩码可以由人工预先配置得到。

根据本申请实施例提供的方案,通过将图像编码特征和提示词编码特征映射到最终掩码,并利用第一损失函数进行训练来提高基础分割模块的性能,这样,训练后的基础分割模块可以更好的对图像进行分割,实现更准确的物体区分。

进一步地,图3是本申请实施例提供的再一种基于多模态的零样本图像分割模型训练方法的流程示意图,下面结合图3对基础分割模块的训练过程做进一步说明。

首先,可以将图像与提示词输入到基础分割模型中,利用图像编码器对图像进行处理,得到图像编码特征,图像编码器可以由多个转换器模块拼接得到,可以预先在每个转换器模块中配置适配器模块,利用适配器模块作为图像编码器的参数更新模块,对图像编码器进行训练。

利用提示词编码器对提示词进行处理,得到提示词编码特征,其中提示词类型可以包括坐标点、检测框、文本以及初始掩码(Marsk)。

然后,可以利用掩码解码器对图像编码特征与提示词编码特征进行解码,得到与图像编码特征以及提示词编码特征相对应的掩码,将掩码经过全连接层处理得到分割结果输出即最终掩码以及第一损失函数,根据该第一损失函数便可以反向迭代更新该基础分割模块,得到训练后的基础分割模块。

在一些实施例中,将图像输入至分割微调模块中,对图像分别进行跨模态处理和显著性检测处理,得到文本嵌入特征和显著特征图,将文本嵌入特征和显著特征图进行交叉注意力融合,得到第一融合特征图,包括:利用语言模型和文本编码器对图像进行跨模态处理,得到文本嵌入特征;利用显著性检测模块对图像进行显著性特征提取,得到显著性特征图;将文本嵌入特征和显著性特征图进行交叉注意力融合,得到第一融合特征图。

具体地,可以利用图像训练集对分割微调模块进行训练,在分割微调模块的训练过程中,可以将图像输入到分割微调模块中,将图像经过跨模态处理和显著性检测处理,得到文本嵌入特征和显著特征图,然后将文本嵌入特征和显著特征图进行交叉注意力融合,得到第一融合特征图。

进一步地,首先可以利用语言模型提取图像的属性描述,再将该属性描述输入到文本编码器进行编码,得到文本嵌入特征,同时将图像经过显著性检测模块获取图像的显著性特征图,然后可以将文本嵌入特征作为查询(Q),显著性特征图作为键(K)和值(V),进行交叉注意力融合得到第一融合特征图,具体地交叉注意力融合机制为本领域公知技术此处不再展开。

这样,通过图像的跨模态处理和显著性特征提取,并将文本嵌入特征与显著性特征图融合,可以将图像的文本信息和显著性特征信息整合在一起,用于后续的图像分割任务,以提高分割结果的准确性和语义理解能力。

图4是本申请实施例提供的又一种基于多模态的零样本图像分割模型训练方法的流程示意图,下面根据图4对分割微调模型的训练过程做进一步说明。

首先可以将图像输入到分割微调模块中,分别进行跨模态处理与显著性检测,也即利用语言模型(Language Model,LM)以及文本编码器(如CLIP文本编码器)对图像进行处理,得到文本嵌入特征。并利用显著性检测模块对图像进行处理,得到显著性特征图。

然后,将文本嵌入特征与显著性特征图进行交叉注意力融合,得到第一融合特征图,将该第一融合特征图经过多层感知机(Multilayer Perceptron,MLP)处理,然后将该处理结果输入到全连接层中,可以采用sigmoid交叉损失函数预测LM得到的文本描述信息与图像是否匹配,从而反向更新分割微调模块,迭代训练得到训练后的分割微调模块。

在一些实施例中,将图像和提示词输入至所述零样本图像分割模型进行处理,并计算第三损失函数,基于第三损失函数对所述零样本图像分割模型进行训练,得到训练后的零样本图像分割模型,包括:在零样本图像分割模型中,利用训练后的基础分割模块对图像和提示词进行处理,得到第一输出结果;利用训练后的分割微调模块对图像进行处理,得到第二输出结果;将第一输出结果与第二输出结果进行交叉注意力融合,得到第二融合特征图;将第二融合特征图输入至预设解码器进行处理得到分割结果,并基于分割结果和真实掩码计算第三损失函数;根据第三损失函数更新零样本图像分割模型参数,得到训练后的零样本图像分割模型。

具体的,零样本图像分割模型可以基于训练后的基础分割模块与训练后的分割微调模块拼接得到,在零样本图像分割模型应用之前,还可以利用图像训练集与提示词训练集对该零样本图像分割模型进行训练。

具体来讲,可以首先将训练集中的图像和提示词输入到零样本图像分割模型的基础分割模块中,该基础分割模块是经过训练的模块,可以根据图像和提示词生成初步的分割结果也即第一输出结果。同时可以将图像输入到零样本图像分割模型的分割微调模块中,进一步对图像进行处理得到图文融合即第二输出结果,利用交叉注意力机制将第一输出结果与第二输出结果进行融合,得到第二融合特征图,其中交叉注意力机制可以根据第一输出结果和第二输出结果之间的注意力权重,自适应地调整关注度,从而将两者有机地结合在一起。

然后,可以利用预设解码器(例如:transformer解码器)对第二融合特征图进行处理,得到分割结果,同时可以计算分割结果与真实掩码之间的差异,即第二损失函数,最后可以根据第二损失函数对零样本图像分割模型的参数进行更新,通过迭代训练来不断优化模型的性能,这样,经过多轮训练后,就可以得到训练后的零样本图像分割模型。

应了解,在生成分割结果时同样可以利用focal loss和dice loss对掩码进行线性组合,其的权重比可以为1:1,此处的第二损失函数同样可以通过计算交并比分数得到,此处的技术手段可以与基础分割模块的训练过程中的全连接层处理一致,此处不再赘述。

图5是本申请实施例提供的还一种基于多模态的零样本图像分割模型训练方法的流程示意图,下面结合图5对训练后的零样本图像分割模型的处理过程做进一步说明。

在训练后的零样本图像分割模型中,首先可以将待分割的图像与对应的提示词输入到基础分割模块中,由配置了适配器模块的图像编码器对待分割图像进行编码,得到图像的编码特征,并将该图像的编码特征输入到掩码解码器中进行解码,得到与图像编码特征相对应的掩码;同时,利用提示词编码器对提示词进行编码得到提示词编码特征,提示词可以包括坐标点、检测框、文本及初始掩码,然后同样将提示词编码特征经过掩码解码器处理得到与提示词编码特征相对应的掩码,然后将基础分割模块处理得到的掩码输入到交叉注意力融合模块中与分割微调模块处理得到的第一融合特征图进行交叉注意力融合。

在分割微调模块中,可以将接收到的图像分别进行跨模态处理和显著性检测处理,得到文本嵌入特征与显著性特征图,其中跨模态处理可以利用语言模型和CLIP文本编码器进行处理,得到文本嵌入特征,然后将文本嵌入特征与显著性特征图进行交叉注意力融合,得到第一融合特征图即图文融合特征,应了解,在同一分割人物中,分割微调模块中接收的图像和基础分割模块中接收的图像相同。

进一步地,又一次利用交叉注意力机制对第一融合特征图和掩码进行融合,得到第二融合特征图,再将该第二融合特征图进行transformer解码器处理,得到零样本图像分割模型的结果输出,该结果输出可以包括图像分割的最终掩码以及IoU分数,这样可以通过IoU分数评估零样本图像分割模型的性能,也即在零样本图像分割模型的应用过程中也可以基于IoU分数对模型的参数进行更新,进而帮助模型提升图像分割的精确度,同样提升模型的理解能力,从而帮助模型能够精准分割出未见过的物体类型与小物体。

应了解,在本申请实施例中提到的注意力机制均可以为相同的注意力机制,也即在分割微调模块中的交叉注意力融合过程可以与零样本图像分割模型中另一个交叉注意力融合过程一致。

这样,通过对零样本图像分割模型进行训练,得到训练后的零样本图像分割模型,可以使得该模型在没有标注样本的情况下,通过提示词编码与图像编码进行多模态学习,提升模型对未见过物体类型与小物体的学习能力,从而提升零样本图像分割模型的性能。

上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

图6是本申请实施例提供的一种基于多模态的零样本图像分割模型训练装置的示意图。如图6所示,该基于多模态的零样本图像分割模型训练装置包括:

获取模块601,被配置为获取图像训练集中的图像和提示词训练集中的提示词,提示词基于图像的内容确定;

第一处理模块602,被配置为将图像和提示词输入至基础分割模块中,利用图像编码器对图像进行处理,得到图像编码特征,利用提示词编码器对提示词进行处理,得到提示词编码特征;

第一训练模块603,被配置为将图像编码特征与提示词编码特征经过掩码解码器处理,得到对应的掩码,将掩码经过全连接层处理并计算第一损失函数,基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块;

第二处理模块604,被配置为将图像输入至分割微调模块中,对图像分别进行跨模态处理和显著性检测处理,得到文本嵌入特征和显著特征图,将文本嵌入特征和显著特征图进行交叉注意力融合,得到第一融合特征图;

第二训练模块605,被配置为将第一融合特征图经过多层感知机和全连接层处理并计算第二损失函数,基于所述第二损失函数对分割微调模块进行训练,得到训练后的分割微调模块;

第三处理模块606,被配置为将训练后的基础分割模块和所述训练后的分割微调模块进行拼接,并连接交叉注意力融合模块和预设解码器,得到零样本图像分割模型;

第三训练模块607,被配置为将图像和提示词输入至零样本图像分割模型进行处理,并计算第三损失函数,基于第三损失函数对零样本图像分割模型进行训练,得到训练后的零样本图像分割模型。

在一些实施例中,第一处理模块602具体用于利用多个转换器模块对所述图像进行处理,得到图像编码特征,转换器模块包括第一归一化层、多头注意力层、适配器模块、第二归一化层和多层感知机;其中,根据适配器模块对多头注意力层的输出进行处理,得到第二归一化层的输入,适配器模块被配置为图像编码器的参数更新模块。

在一些实施例中,第一处理模块602具体用于在适配器模块中,利用第一线性层、压缩线性层、激活层、恢复线性层以及第二线性层,依次对多头注意力层的输出进行处理,得到第二归一化层的输入;其中,将第一线性层的输出经过第一激活函数处理后的结果与恢复线性层的输出相乘,得到第二线性层的输入,将适配器模块的输入经过全局平均池化处理的结果与第二线性层的输出进行拼接,得到适配器模块的输出,将适配器模块的输出作为第二归一化层的输入。

在一些实施例中,第一处理模块602具体用于根据图像确定提示词的类型,提示词包括坐标点、检测框、文本和初始掩码;若提示词包括坐标点,则将坐标点映射到预设维度向量,得到坐标点的编码特征;若提示词包括检测框,则将检测框的左上角点和右下角点分别用向量特征表示,得到检测框的编码特征;若提示词包括所述文本,则利用预设文本编码器提取所述文本的文本特征,得到文本的编码特征;若提示词包括初始掩码,则将初始掩码经过卷积处理和通道变换,得到初始掩码特征,将初始掩码特征与图像特征相乘,得到初始掩码的编码特征,该图像特征基于预设图像特征提取模型获得。

在一些实施例中,第一训练模块603具体用于将掩码经第一函数和第二函数进行处理,得到图像的最终掩码;根据最终掩码与真实掩码,计算第一损失函数,并基于第一损失函数对基础分割模块进行训练,得到训练后的基础分割模块。

在一些实施例中,第二处理模块604具体用于利用语言模型和文本编码器对图像进行跨模态处理,得到文本嵌入特征;利用显著性检测模块对图像进行显著性特征提取,得到显著性特征图;将文本嵌入特征和显著性特征图进行交叉注意力融合,得到第一融合特征图。

在一些实施例中,第三训练模块607具体用于在零样本图像分割模型中,利用训练后的基础分割模块对图像和提示词进行处理,得到第一输出结果;利用训练后的分割微调模块对图像进行处理,得到第二输出结果;将第一输出结果与第二输出结果进行交叉注意力融合,得到第二融合特征图;将第二融合特征图输入至预设解码器进行处理得到分割结果,并基于分割结果和真实掩码计算第三损失函数;根据第三损失函数更新零样本图像分割模型参数,得到训练后的零样本图像分割模型。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

图7是本申请实施例提供的电子设备7的示意图。如图7所示,该实施例的电子设备7包括:处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者,处理器701执行计算机程序703时实现上述各装置实施例中各模块/单元的功能。

电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解,图7仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者不同的部件。

处理器701可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器702可以是电子设备7的内部存储单元,例如,电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备,例如,电子设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 一种脊髓性肌萎缩症相关基因的检测体系及检测试剂盒
  • 一种微卫星不稳定性基因突变检测的复合扩增体系和试剂盒
  • 一种用于无创产前检测双侧杯状耳畸形的基因芯片、试剂盒及基因芯片的应用方法
  • 一种检测MTHFR基因rs1801133位点基因型的引物组、方法及试剂盒
  • 一种检测白血病融合基因和基因突变的试剂盒
  • 一种NOTCH2NLC基因CGG重复数检测体系及试剂盒
  • 一种NOTCH2NLC基因CGG重复数检测体系及试剂盒
技术分类

06120116532902