掌桥专利:专业的专利平台
掌桥专利
首页

一种基于互惠学习的显著对象分割方法及装置

文献发布时间:2024-04-18 19:58:30


一种基于互惠学习的显著对象分割方法及装置

技术领域

本公开的实施例涉及计算机技术领域,具体涉及一种基于互惠学习的显著对象分割方法及装置。

背景技术

显著对象分割通常旨在检测场景中最显著的对象并准确地将它们分割出来。本质上,显著对象分割是分割比背景更吸引注意力的前景物体。显著对象分割可以用于增强计算机视觉和图像处理的各个领域,例如内容感知的图像编辑、视觉跟踪、行人重识别和图像检索。

随着深度学习的快速发展,许多出色的显著对象分割工作在基准测试中取得了较好的结果。比如,一些方法提出反向注意力来指导侧向残差学习以实现显著性细化。一些方法从全局和局部视图中收集上下文信息,以迭代方式使用循环机制来细化卷积特征。还有的方法设计了金字塔注意模块和显著边缘检测模块,使网络能够更多地关注显著区域并细化对象边界。

然而,这些方法主要关注如何以各种方式更好地整合前景的高级和低层次特征或多尺度上下文信息,前景和背景之间的依赖关系尚未得到充分的探索和利用。事实上,具有相同语义的物体在不同背景的图像中吸引不同程度的视觉注意力,物体的显著性会随背景的变化而变化。因此,考虑前景元素和背景元素之间的关系,有助于更好地区分和识别显著性对象,从而在不同的场景中产生更有效和可靠的显著对象分割算法。

该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了基于互惠学习的显著对象分割方法,来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面,本公开的一些实施例提供了一种基于互惠学习的显著对象分割方法,该方法包括:获取训练输入图像、测试输入图像及训练输入图像标注真值;设计互惠学习神经网络分割模型和互助损失函数,并根据上述训练输入图像及训练输入图像标注真值对上述互惠学习神经网络分割模型在组合损失函数的监督下进行训练,获取训练好的互惠学习神经网络分割模型;利用上述训练好的互惠学习神经网络分割模型对上述测试输入图像进行测试,获取上述测试输入图像的显著对象分割结果图像。

本公开的一些实施例中具有如下有益效果:通过本公开的一些实施例的基于互惠学习的显著对象分割方法,提高了对图像显著对象分割的可靠性。具体来说,造成对图像显著对象分割的可靠性较低的原因在于:具有相同语义的物体在不同背景的图像中吸引不同程度的视觉注意力,物体的显著性会随背景的变化而变化。因此,考虑前景元素和背景元素之间的关系,有助于更好地区分和识别显著性对象,从而在不同的场景中产生更有效和可靠的显著对象分割算法。基于此,本公开的一些实施例的基于互惠学习的显著对象分割方法,首先,获取训练输入图像、测试输入图像及训练输入图像标注真值。然后,设计互惠学习神经网络分割模型和互助损失函数,并根据上述训练输入图像及训练输入图像标注真值对上述互惠学习神经网络分割模型在组合损失函数的监督下进行训练,获取训练好的互惠学习神经网络分割模型。最后,利用上述训练好的互惠学习神经网络分割模型对上述测试输入图像进行测试,获取上述测试输入图像的显著对象分割结果图像。由此,提高了对图像显著对象分割的可靠性。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。

图1是根据本公开的基于互惠学习的显著对象分割方法的一些实施例的流程图。

图2是根据本公开的基于互惠学习的显著对象分割方法的一些实施例的网络架构图。

图3是根据本公开的基于互惠学习的显著对象分割方法的一些实施例的互惠变压器块及其主要部件图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是本公开的基于互惠学习的显著对象分割方法的一些实施例的流程100。该基于互惠学习的显著对象分割方法,包括以下步骤:

步骤101,获取训练输入图像、测试输入图像及训练输入图像标注真值。

在一些实施例中,基于互惠学习的显著对象分割方法的执行主体(例如计算设备)可以通过有线连接或无线连接的方式获取训练输入图像、测试输入图像及训练输入图像标注真值。

需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤102,设计互惠学习神经网络分割模型和互助损失函数,并根据上述训练输入图像及训练输入图像标注真值对上述互惠学习神经网络分割模型在组合损失函数的监督下进行训练,获取训练好的互惠学习神经网络分割模型。

在一些实施例中,上述执行主体可以设计互惠学习神经网络分割模型和互助损失函数,并根据上述训练输入图像及训练输入图像标注真值对上述互惠学习神经网络分割模型在组合损失函数的监督下进行训练,获取训练好的互惠学习神经网络分割模型。

这里,上述互助损失函数用于约束前景分支分割结果和背景分支分割结果之间的相互关系,减少分割结果中的不确定区域,获取更加清晰的边缘。

在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤设计互惠学习神经网络分割模型和互助损失函数,并根据上述训练输入图像及训练输入图像标注真值对上述互惠学习神经网络分割模型在组合损失函数的监督下进行训练,获取训练好的互惠学习神经网络分割模型:

第一步,设计一个由通用特征编码器和双分支特征解码器构成的互惠学习神经网络分割模型。

可选的,上述执行主体可以通过以下步骤设计一个由通用特征编码器和双分支特征解码器构成的互惠学习神经网络分割模型:

第一子步骤,根据上述通用特征编码器,对上述训练输入图像进行多个阶段的特征提取,获取多个阶段的编码特征。

第二子步骤,根据上述双分支特征解码器,对上述多个阶段的编码特征进行特征解码,得到前景分支解码特征和背景分支解码特征。

可选的,上述执行主体可以通过以下步骤根据上述双分支特征解码器,对上述多个阶段的编码特征进行特征解码,得到前景分支解码特征和背景分支解码特征:

根据上述双分支特征解码器,对上述多个阶段的编码特征进行桥接、渐进式融合、互惠交互、输出预测,获取上述前景分支解码特征和上述背景分支解码特征。

这里,上述对上述多个阶段的编码特征进行桥接可以是指通过使用常规卷积、空洞卷积和非对称卷积三种不同核大小和形状的卷积块来增强空间上下文,得到桥接特征。上述桥接的前景桥接特征和背景桥接特征表示方式分别为

这里,上述渐进式融合是通过渐进特征融合模块实现的,上述渐进特征融合模块的表示方式为:

其中,X

这里,上述互惠交互是用于探索前景和背景之间的相互关系,并捕捉它们之间的长期上下文依赖关系,从而使前景和背景特征有助于相互改进。其中,上述互惠交互是通过带有互惠变压器(Reciprocal Transformer,RT)组的互惠特征交互模块实现的,上述互惠特征交互模块的表示方式为:

其中,F

对于前景分支,互惠变压器块的计算描述如下:

其中,F

上述MW-MCA模块的细节可以为:给定两个输入特征映射

其中,F

可选的,上述执行主体可以通过以下步骤根据上述双分支特征解码器,对上述多个阶段的编码特征进行桥接、渐进式融合、互惠交互、输出预测,获取上述前景分支解码特征和上述背景分支解码特征:

子步骤一,根据特征桥接模块和特征渐进式融合模块,对上述多个阶段的编码特征进行处理,获得前景分支融合特征和背景分支融合特征。

子步骤二,根据互惠特征交互模块,对上述前景分支融合特征和上述背景分支融合特征进行处理,获得前景分支交互融合特征和背景分支交互融合特征。

可选的,上述执行主体可以通过以下步骤根据互惠特征交互模块,对上述前景分支融合特征和上述背景分支融合特征进行处理,获得前景分支交互融合特征和背景分支交互融合特征:

1、根据互惠Transformer块,对上述前景分支融合特征和上述背景分支融合特征进行处理,获得前景分支交互特征和背景分支交互特征。

可选的,上述执行主体可以通过以下步骤根据互惠Transformer块,对上述前景分支融合特征和上述背景分支融合特征进行处理,获得前景分支交互特征和背景分支交互特征:

子步骤1,将LayerNorm层分别应用于上述前景分支融合特征和上述背景分支融合特征,获得层归一化后的前景分支融合特征和背景分支融合特征。

子步骤2,将上述层归一化后的前景分支融合特征和背景分支融合特征分别进行窗口划分,并将来自前景分支和背景分支的相同位置处的两个窗口组成窗口对,获得前景分支窗口特征和背景分支窗口特征。

子步骤3,根据窗口调制的多头交互注意力模块,对每对上述前景分支窗口特征和背景分支窗口特征进行处理,并将处理结果重新拼接成划分前的形状,获得前景分支窗口调制特征和背景分支窗口调制特征。

子步骤4,根据LayerNorm层和局部增强的前向传播网络,对上述前景分支窗口调制特征和背景分支窗口调制特征进行处理,获得上述前景分支交互特征和背景分支交互特征。

2、根据上述前景分支交互特征和背景分支交互特征,对上述前景分支融合特征和上述背景分支融合特征进行更新处理,获得上述前景分支交互融合特征和上述背景分支交互融合特征。

子步骤三,根据特征输出预测模块,对上述前景分支交互融合特征和背景分支交互融合特征进行处理,获得上述前景分支解码特征和上述背景分支解码特征。

第三子步骤,根据上述前景分支解码特征和上述背景解码分支特征,获得上述输入图像的显著对象前景分割结果图像、上述输入图像的显著对象背景分割结果图像和上述输入图像的显著对象分割结果图像,其中,上述输入图像在训练阶段对应上述训练输入图像,在测试阶段对应上述测试输入图像。

第二步,设计上述互助损失函数,与交叉熵损失函数和IoU损失函数进行线性组合,获得组合损失函数。

第三步,根据上述训练输入图像及训练输入图像标注真值对上述互惠学习神经网络分割模型在上述组合损失函数的监督下进行训练,获取上述训练好的互惠学习神经网络分割模型。

可选的,上述训练好的互惠学习神经网络分割模型是通过以下步骤训练的:

第1子步骤,根据上述互惠学习神经网络分割模型,对上述训练输入图像进行预测,获得上述训练输入图像的显著对象前景分割结果图像、上述训练输入图像的显著对象背景分割结果图像和上述训练输入图像的显著对象分割结果图像。

第2子步骤,根据上述组合损失函数,对上述训练输入图像的显著对象前景分割结果图像、上述训练输入图像的显著对象背景分割结果图像以及上述训练输入图像标注真值计算监督损失,并根据上述监督损失,对上述互惠学习神经网络分割模型进行参数更新。

第3子步骤,重复以上步骤,直至上述监督损失达到预设损失,则训练终止,得到训练好的互惠学习神经网络分割模型。

其中,上述互助损失函数的具体实现形式如以下公式所示:

L

步骤103,利用上述训练好的互惠学习神经网络分割模型对上述测试输入图像进行测试,获取上述测试输入图像的显著对象分割结果图像。

在一些实施例中,上述执行主体可以利用上述训练好的互惠学习神经网络分割模型对上述测试输入图像进行测试,获取上述测试输入图像的显著对象分割结果图像。

在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤利用上述训练好的互惠学习神经网络分割模型对上述测试输入图像进行测试,获取上述测试输入图像的显著对象分割结果图像:

第一步,根据上述训练好的互惠学习神经网络分割模型,对上述测试输入图像进行测试,获取上述测试输入图像的显著对象前景分割结果图像和上述测试输入图像的显著对象背景分割结果图像。

第二步,根据上述测试输入图像的显著对象前景分割结果图像和上述测试输入图像的显著对象背景分割结果图像,获取上述测试输入图像的显著对象分割结果图像。

图2示出了基于互惠学习的显著对象分割方法的网络架构图,在本公开的实现方案中,通过一个扩展的u形框架,将一个四个阶段的编码器分支和两个并行解码器分支确定为网络架构。此网络从每个编码器的侧面向外提取共同的视觉特征,先对图片进行补丁分区(Patch Partition)处理,然后在stage1处进行特征嵌入并分块,在stage2,stage3和stage4处补丁融合并分块,并将其传递到相应的自适应特征桥接(Adaptively FeatureBridge,AFB)模块中。渐进特征融合(Progressive Feature Fusion,PFF)模块对最后两个阶段的AFB模块的输出做融合处理或对相邻两个阶段的AFB模块和互惠特征交互(Reciprocal Feature Interaction,RFI)模块的输出做融合处理,且融合之前,较高阶段的特征需要先通过一个上采样(Upsample)操作。RFI模块旨在探索前景和背景之间的相互关系,并捕捉它们之间的长期上下文依赖关系,从而使前景和背景特征有助于相互改进。利用预测头(Prediction Head,PH)模块生成二进制显著对象前景分割结果图像和显著对象背景分割结果图像,并利用由所提出的互助损失函数和交叉熵损失函数以及IoU损失函数线性组合而成的组合损失函数(Cooperative Loss)进行监督。最后,显著分割结果图像是通过将前景损失(Foreground Loss)与背景损失(Background Loss)进行逐元素操作的背景减法策略(element-wise subtraction)得到的。

图3示出了基于互惠学习的显著对象分割方法的互惠变压器块及其主要部件图。互惠变压器块由一个MW-MCA模块组成和一个局部增强的前馈网络(Locally-enhancedFeed-Forward,LeFF)构成。在每个MW-MCA和LeFF之前应用一个层归一化(LayerNorm,LN)层。LeFF用于在交互注意力部分之后捕获有用的局部上下文。MW-MCA用于捕获两个输入之间的相互长期依赖关系,MW-MCA将两个输入特征划分为不重叠的窗口(window),在同一位置的每两个窗口形成一个窗口对,然后将带调制的MCA应用于窗口对中的特征(Featuremap)。

本发明中未详细阐述的部分属于本领域技术人员的公知技术。

最后所应说明的是,以上上述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 基于前背景相互关系的图像显著对象分割方法及装置
  • 基于前背景相互关系的图像显著对象分割方法及装置
技术分类

06120116499333