掌桥专利:专业的专利平台
掌桥专利
首页

一种基于轮廓交并比损失的深度实例分割方法

文献发布时间:2024-04-18 19:58:53


一种基于轮廓交并比损失的深度实例分割方法

技术领域

本发明涉及实例分割技术领域,具体为一种基于轮廓交并比损失的深度实例分割方法。

背景技术

实例分割的目标是预测图像中每个实例的位置和掩膜,它是计算机视觉的基本任务之一,也是视频分析、自动驾驶和机器人抓取等诸多应用的基础。近年来,得益于深度学习的进步,实例分割取得了较快的发展,己经提出了诸多方法,但是实例分割仍然面临着“目标变化、背景干扰和遮挡”等难题,是一个具有挑战性的工作。目前,实例分割方法主要包括基于区域的实例分割方法和基于轮廓的实例分割方法。

基于区域的实例分割方法有两阶段方法和一阶段方法两类。FCIS是基于深度学习两阶段实例分割方法的早期工作,该方法可以较快地同时预测目标的类别、检测框和掩膜,但该方法对物体重叠区域分割效果不好。为了解决这个问题,Mask R-CNN在Faster-RCNN上增加一个掩膜分支网络,并使用ROI-Align代替ROI-Pooling提高实例分割的精度。为了更好地利用检测框内部的空间信息,PANet引入了自底向上的路径增强方法、自适应的特征池化手段和全连接层的融合策略,提高了实例分割的性能。为了更加合理地得到掩膜置信度,Mask Scoring R-CNN通过添加Mask-IoU分支,对以分类得分得到的掩模置信度进行重新评估,使得网络可以计算预测掩膜和标签掩膜的交并比,从而取得了较好的实例分割效果。上述基于区域的两阶段实例分割方法的局限性在于易受到检测框精度的影响,且速度较慢。在这两个问题的驱动下,实例分割领域中的学者提出了基于区域的一阶段实例分割方法,这类方法的总体思路是:首先,为每个像素预测一个类别标签,然后以聚类的方式将所有像素分组为实例掩膜。InstanceFCN使用位置敏感评分图生成实例掩膜。它首先生成一组位置敏感的分数映射图,然后在滑动窗口中生成目标掩膜。为了解决传统分水岭方法过分割的问题,Deep Watershed Transform使用全卷积网络预测整个图像的能量图和每个像素的边界感知能量,并使用分水岭变换方法得到物体的分割掩膜,提高了实例分割的性能。为了将语义分割网络应用于实例分割,SSAP将输入图像视为图形并回归像素之间的亲和力,然后通过图形合并算法对其进行处理得到实例掩膜。为了提升实例分割的精度和速度,YOLACT首先生成原型掩膜、实例的线性组合系数和检测框,其次使用相应的预测系数对原型进行线性组合,最后使用检测框进行裁剪得到最终的分割掩膜。为了提升实例分割的速度,TensorMask研究了密集滑动窗口实例分割的新范式,使用结构化的4D张量表示空间域上的实例掩膜,在实例分割的精度和速度上取得了较好结果。上述基于区域的一阶段实例分割方法的不足在于分割掩膜由稠密的像素组成,需要耗时的后聚类方法,造成实例分割速度较慢。

轮廓是目标表示的另一种重要方式,相比于区域表示,轮廓表示具有参数少和较简洁的优点。主动轮廓模型(Snake模型)首次实现了目标轮廓提取,该模型一经提出就得到了广泛关注。受到深度学习在目标检测中应用的启发,一些学者提出基于深度学习的轮廓实例分割方法。单阶段实例分割框架PolarMask用极坐标系建模轮廓,将实例分割形式化为实例中心点的分类和密集距离回归问题,实现了高效实例分割。针对区域实例分割方法速度慢的问题,基于深度学习的主动轮廓模型(Deep Snake)根据轮廓的循环拓扑结构设计了1D循环卷积用于目标轮廓结构化特征学习,并以此为基础提出一个快速准确的轮廓实例分割方法,显著提升了实例分割的性能。

综上所述,Deep Snake采用轮廓结构化特征学习取得了较好实例分割性能,是目前优秀的实例分割方法之一,但是它存在轮廓参数独立回归的问题,这个问题会降低实例分割的精度。Deep Snake利用若干个离散变量描述目标轮廓,使用SmoothL1损失函数回归目标的轮廓参数,Smooth L1损失函数没有利用轮廓的整体结构,造成轮廓回归不准确。

发明内容

本发明的目的在于提供一种基于轮廓交并比损失的深度实例分割方法,旨在改善Deep Snake利用若干个离散变量描述目标轮廓,造成轮廓回归不准确的问题。

本发明是这样实现的:一种基于轮廓交并比损失的深度实例分割方法,其使用于包括CenterNet网络、初始轮廓建议和轮廓变形的深度主动轮廓模型实例分割系统,深度主动轮廓模型实例分割系统是由Deep Snake网络与CenterNet网络相结合;

步骤1:输入图像,并通过CenterNet网络得到目标检测框;

步骤2:连接目标检测框各边的中点得到菱形轮廓;

步骤3:通过Deep Snake得到菱形轮廓的极值点,进而得到八边形轮廓;

步骤4:通过Deep Snake将八边形轮廓迭代变形为目标轮廓。

优选的,在轮廓变形过程中,需要使用轮廓交并比损失函数L

优选的,轮廓交并比损失是预测掩膜与标签掩膜之间的相互作用面积与联合面积的比值;轮廓交并比损失函数中

优选的,轮廓交并比损失需要计算轮廓点与实例中心的距离,实例中心可选择几何中心或质心。

优选的,在初始轮廓建议过程中无需计算交并比,因此采用极值点预测损失函数,即

一种基于轮廓交并比损失的深度实例分割系统,使用于上述的深度实例分割方法,包括CenterNet网络、初始轮廓建议和轮廓变形,CenterNet网络与初始轮廓建议和轮廓变形相连。

优选的,Deep Snake网络结构由骨干网络、融合网络和预测网络三部分组成;骨干网络由8个“CirConv-Bn-ReLU”层组成,所有层均使用跳跃连接;融合网络级联骨干网络中所有层的特征;预测网络输出轮廓点的偏移值。

优选的,骨干网络中的“CirConv”表示1D循环卷积,“Bn”表示批量归一化,“ReLU”表示激活函数;融合网络首先通过1×1卷积层进行特征融合,其次进行最大池化,最后将融合的特征与每个点的特征级联起来得到最终的特征;预测网络通过一个3×1卷积层和三个1×1卷积层输出轮廓点的偏移值。

优选的,初始轮廓建议中将初始轮廓设定为精确的八边形轮廓。

优选的,轮廓变形中利用迭代方式将N个偏移添加至坐标上使当前轮廓变形,迭代次数设置为3。

与现有技术相比,本发明的有益效果是:本发明基于定积分的几何意义提出一种轮廓交并比损失函数将轮廓参数进行整体回归,并利用轮廓交并比损失函数实现一种深度实例分割方法,提升各类目标分割精度。

附图说明

图1是本发明的设计方案示意图;

图2是本发明的测试结果示意图。

具体实施方式:

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图和具体实施例,做进一步的说明:

实施例1

为了解决Deep Snake使用Smooth L1损失函数造成轮廓回归不准确问题,本方案在深度学习框架下,将Deep Snake网络与CenterNet网络相结合设计了一种深度主动轮廓模型实例分割系统,如图1所示,系统分为CenterNet网络、初始轮廓建议和轮廓变形三个部分。其工作流程为:首先输入图像通过CenterNet网络得到目标检测框;其次连接检测框各边的中点得到菱形轮廓;然后将菱形轮廓通过Deep Snake得到极值点,进而得到八边形轮廓;最后将八边形轮廓通过Deep Snake迭代变形为目标轮廓。在损失函数方面,由于在初始轮廓建议过程中无需计算交并比,因此采用极值点预测损失函数,即

交并比损失将目标视为一个整体,并直接优化了评价指标“交并比”。然而,计算所预测掩膜和标签掩膜的交并比是非常困难的,并且很难实现并行计算。本方案推导出一个简单而有效的方法来计算掩膜和标签的交并比,从交并比的定义开始引入轮廓交并比损失,即预测掩膜与标签掩膜之间的相互作用面积与联合面积的比值。

对于一个实例,交并比的计算如下:

其中

将(1)转换成离散形式为:

当N趋于无穷时,离散形式等于连续形式。因轮廓各点均匀采样,故具有同样的角度:

因为最优的交并比是1,所以交并比使用交叉熵损失,即为交并比的负对数:

本发明提出的轮廓交并比损失具有两个优点:一是它是可微的,可以反向传播,实现并行计算非常简单,从而促进了快速的训练过程;二是从整体上回归目标掩膜。实验结果表明:与smooth-L

在利用深度主动轮廓模型实例分割系统进行实例分割时,Deep Snake网络、初始轮廓建议和轮廓变形协同配合,下文对Deep Snake网络、初始轮廓建议和轮廓变形的工作原理进行叙述。

Deep Snake网络的工作原理如下:Deep Snake网络结构由骨干网络、融合网络和预测网络三部分组成。骨干网络由8个“CirConv-Bn-ReLU”层组成,所有层均使用跳跃连接,其中“CirConv”表示1D循环卷积,“Bn”表示批量归一化,“ReLU”表示激活函数。融合网络级联骨干网络中所有层的特征,首先通过1×1卷积层进行特征融合,其次进行最大池化,最后将融合的特征与每个点的特征级联起来得到最终的特征。预测网络通过一个3×1卷积层和三个1×1卷积层输出轮廓点的偏移值。

初始轮廓建议的工作原理如下:轮廓模型需要精确的初始轮廓。受ExtremeNet的启发中,八边形通常将目标紧密包围,本方法选择它作为初始轮廓。给定一个目标检测框,从中提取上、下、左、右四条边的中点,记为

轮廓变形的工作原理如下:首先对八边形采样N个点,将极值点作为第一个点沿着边均匀采样,标签采用同样的采样方式。然后利用Deep Snake网络,通过1D循环卷积进行特征提取,最后通过一个3×1的卷积和三个1×1卷积得到偏移量。本发明设置N=128,能够均匀的覆盖绝大多数物体的形状。但是,对于远离目标的节点使用一次偏移不能够得到精确的目标轮廓。受Snake模型的启发,本发明以迭代的方式处理这个问题。首先,根据当前轮廓预测N个偏移,通过将偏移量添加到其坐标上使该轮廓变形;其次,变形后的轮廓可以用于下一次变形,也可以直接输出为目标边界,本发明中迭代的次数设置为3。

实施例2

为了解决Deep Snake使用Smooth L1损失函数造成轮廓回归不准确问题,本方案在深度学习框架下,将Deep Snake网络与CenterNet网络相结合设计了一种深度主动轮廓模型实例分割系统,如图1所示,系统分为CenterNet网络、初始轮廓建议和轮廓变形三个部分。其工作流程为:首先输入图像通过CenterNet网络得到目标检测框;其次连接检测框各边的中点得到菱形轮廓;然后将菱形轮廓通过Deep Snake得到极值点,进而得到八边形轮廓;最后将八边形轮廓通过Deep Snake迭代变形为目标轮廓。在损失函数方面,由于在初始轮廓建议过程中无需计算交并比,因此采用极值点预测损失函数,即

交并比损失将目标视为一个整体,并直接优化了评价指标“交并比”。然而,计算所预测掩膜和标签掩膜的交并比是非常困难的,并且很难实现并行计算。本方案推导出一个简单而有效的方法来计算掩膜和标签的交并比,从交并比的定义开始引入轮廓交并比损失,即预测掩膜与标签掩膜之间的相互作用面积与联合面积的比值。

对于一个实例,交并比的计算如下:

其中

将(1)转换成离散形式为:

当N趋于无穷时,离散形式等于连续形式。因轮廓各点均匀采样,故具有同样的角度:

因为最优的交并比是1,所以交并比使用交叉熵损失,即为交并比的负对数:

本发明提出的轮廓交并比损失具有两个优点:一是它是可微的,可以反向传播,实现并行计算非常简单,从而促进了快速的训练过程;二是从整体上回归目标掩膜。实验结果表明:与smooth-L

在利用深度主动轮廓模型实例分割系统进行实例分割时,Deep Snake网络、初始轮廓建议和轮廓变形协同配合,下文对Deep Snake网络、初始轮廓建议和轮廓变形的工作原理进行叙述。

Deep Snake网络的工作原理如下:Deep Snake网络结构由骨干网络、融合网络和预测网络三部分组成。骨干网络由8个“CirConv-Bn-ReLU”层组成,所有层均使用跳跃连接,其中“CirConv”表示1D循环卷积,“Bn”表示批量归一化,“ReLU”表示激活函数。融合网络级联骨干网络中所有层的特征,首先通过1×1卷积层进行特征融合,其次进行最大池化,最后将融合的特征与每个点的特征级联起来得到最终的特征。预测网络通过一个3×1卷积层和三个1×1卷积层输出轮廓点的偏移值。

初始轮廓建议的工作原理如下:轮廓模型需要精确的初始轮廓。受ExtremeNet的启发中,八边形通常将目标紧密包围,本方法选择它作为初始轮廓。给定一个目标检测框,从中提取上、下、左、右四条边的中点,记为

轮廓变形的工作原理如下:首先对八边形采样N个点,将极值点作为第一个点沿着边均匀采样,标签采用同样的采样方式。然后利用Deep Snake网络,通过1D循环卷积进行特征提取,最后通过一个3×1的卷积和三个1×1卷积得到偏移量。本发明设置N=128,能够均匀的覆盖绝大多数物体的形状。但是,对于远离目标的节点使用一次偏移不能够得到精确的目标轮廓。受Snake模型的启发,本发明以迭代的方式处理这个问题。首先,根据当前轮廓预测N个偏移,通过将偏移量添加到其坐标上使该轮廓变形;其次,变形后的轮廓可以用于下一次变形,也可以直接输出为目标边界,本发明中迭代的次数设置为3。

依据上述系统,设置如下深度实例分割方法:

步骤1:输入图像,并通过CenterNet网络得到目标检测框。

步骤2:连接目标检测框各边的中点得到菱形轮廓。

步骤3:通过Deep Snake得到菱形轮廓的极值点,进而得到八边形轮廓。

步骤4:通过Deep Snake将八边形轮廓迭代变形为目标轮廓。

为了测试上述深度实例分割方法,在SYS-7048GR-TR台式机(CPU型号为IntelXeon(R)ES-2630v4@2.20GHz×20,内存为64GB,GPU为RTX2080Ti 11G)上实现了提出的实例分割方法,其软件环境是:Ubuntu 18.04、Python 3.7、torch 1.1.0、cuda10.0和cudnn7.5。利用Sbd数据集对提出的实例分割方法进行实验验证与分析。Sbd数据集由5623张训练集和5732张测试集图像组成,共有20种目标类别。本方法使用多尺度数据增强策略,端到端地训练CenterNet网络和Deep Snake轮廓分割网络150个周期。学习率初值是1e-4,在第80和第120周期学习率下降一半。基于Sbd数据集,将提出的实例分割方法与STS、ESE、Deep Snake进行了对比,定量结果如图2的表1所示,从表1可以看出提出的实例分割方法比Deep Snake提高AP

以上仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于深度学习的零件实例分割识别方法
  • 基于几何交并比损失的前列腺轮廓分割方法
  • 一种基于干扰抑制和动态轮廓的雾天场景船舶实例分割方法
技术分类

06120116509988