掌桥专利:专业的专利平台
掌桥专利
首页

用于高质量图像分割的条带解码器和内外损失

文献发布时间:2024-04-18 19:58:26


用于高质量图像分割的条带解码器和内外损失

技术领域

本发明涉及机器学习图像分割的领域。具体地,本发明还涉及包括用于高质量图像分割的条带解码器和内外损失模块的系统。

背景技术

在传统的对象检测任务中,通常使用定位损失(L2/L1损失)来测量预测值与基准真值之间的差。然而,由于L2/L1损失的对称特性,扩展的边界框或收缩的边界框可以产生相同的L2/L1损失值。

然而,在应用级别处,扩展的边界框优于收缩的边界框。当边界框内部的对象将被裁剪并用于另一任务例如分割时尤其如此。

收缩的边界框将导致对象的不完整表示,这将导致分割故障。例如,第一阶段中的不完整边界框可能在所得到的分割中切除一些对象身体部分例如手。扩展的边界框将使分割过程集中在背景上并且生成低分辨率掩码。

此外,使用最大池化、之后是感知器结构的传统的解码器结构不能捕获长距离依赖关系。为了解决该缺陷,本发明引入了条带解码器,其沿水平、竖直、45度和-45度方向取特征的平均值。该长内核形状能够捕获长距离依赖关系与局部细节。

因此,一方面,扩展的边界框是优选的,并且其应当被分配有较低的损失值。另一方面,条带解码器通过在不同方向上使用更多的全局信息来预测更准确的边界框。

Qibin Hou的题为“Strip Pooling:Rethinking Spatial Pooling for SceneParsing”的研究论文公开了条带池化。Hou具体公开了空间池化架构设计,该空间池化架构设计引入了新的条带池化模块,该条带池化模块使得骨干网络能够有效地对长距离依赖关系进行建模。该架构提出了新颖的构建块,该构建块以不同的空间池化为核心。此外,Hou系统地比较了所提出的条带池化和常规的空间池化技术的性能。

已经证明空间池化在捕获用于逐像素预测任务例如场景解析的长距离上下文信息方面非常有效。除常规空间池化之外的现有技术通常具有N×N的规则形状,并且通过引入新的池化策略——称为条带池化——来临时制定空间池化,该池化策略考虑了长但窄的内核。

尽管这样的现有技术参考文献集中于条带池化并且提供了改进的分割方法,但是这些参考文献没有公开用于图像分割的系统,该系统具有提供扩展但仍具准确结果的边界框预测以及引入内外损失以降低将背景噪声误分类为目标对象的概率的架构。

因此,为了克服现有技术的缺陷,当前需要提供这样的用于图像分割的系统。此外,这样的系统包括使用ROI检测之后进行图像分割以改善分割结果。

现在明显的是,在现有技术中开发的许多方法和系统足以适用于有限的目的。此外,即使这些发明可能相应地适于它们所要解决的特定目的,但是它们也不适于如前所述的本发明的目的。因此,需要提供包括用于高质量图像分割的条带解码器和内外损失模块的系统。

发明内容

对象检测在计算机视觉应用中具有广泛的功能。例如,在自主驾驶应用中,行人和车辆检测对于准确地引导汽车的移动是至关重要的。在摄像装置应用中,根据用户的编辑偏好利用照片对象检测来引导对象分割。在理想情况下,作为N维中的点集(S)的预测边界框将是最小周长边界框;这意味着包括面积和体积的几何度量达到它们的最小值。然而,难以预测现实世界环境中的理想边界框。在大多数情况下,预测出大于或小于最小周长边界框的边界框,并且这样的情况可能导致问题。例如,在自主驾驶中,如果行人的预测边界框太小,则汽车可能做出不正确的移动决定并且撞击行人。另一方面,如果行人的边界框太大,则汽车可能比所需行驶得更慢。

对于两阶段分割方法,本发明检测要用作引导的感兴趣区域(Region ofInterest,ROI)。如果第一阶段ROI边界框太大,则第二阶段输入将具有较低的分辨率,这意味着第二阶段不能捕获对象的许多细节。这将导致分割掩码的粗略边界。另一方面,如果边界框太小,则在随后的分割阶段中对象的一部分将不可见。这样的缺失部分不可恢复,并且将导致不完整的分割掩码。

较大边界框优于较小边界框,因为高估目标对象的尺寸比低估目标对象的尺寸更好。稍微扩展的边界框将增加对象检测模型的鲁棒性。然而,大多数边界框损失处理方法同等地处理较大边界框和较小边界框。

本发明的主要目的是提供用于高质量分割的系统,其中,该系统包括对象检测器和分割单元。

对象检测器检测图像中的对象。解码器模块是条带池化解码器,其利用不同方向上的长内核形状来捕获经处理的图像中的长距离依赖关系和多个局部细节,以提高对象检测的准确度并且形成第一经处理的图像。内外损失模块计算对象的内外损失以清楚地将对象与第一经处理的图像的背景分离并且产生第二经处理的图像。

分割单元对从第二经处理的图像的背景中检测到的对象执行高质量分割。

本发明的另一目的是促进对象检测在诸如自主驾驶、行人和车辆检测的现实生活场景中以及在摄像装置应用中的广泛应用。

引入内外损失以降低将背景噪声误分类为目标对象的概率。

在本发明中,不同的方向包括水平方向、竖直方向、45度和-45度方向。45度和-45度池化解码器能够检测倾斜对象。

在本发明中,通过召回率计算内外损失。内外损失确定对象的召回率,并且测量被正确地检测为背景的背景像素的数目。

在本发明中,条带池化解码器被设计成通过沿不同方向增加感受域来增加边界框预测的准确度。

在本发明中,将内外损失引入至检测到的对象中,以提高对象ROI检测的准确度。高准确度检测提供了适当的ROI以改善分割结果。

在本发明中,引入条带解码器和内外损失单元以提高图像分割的准确度。条带池化解码器利用不同方向上的长内核形状来捕获长距离依赖关系。长内核形状集中于图像中的局部细节,以提高由条带池化解码器进行的对象检测的准确度。

此后,引入内外损失以降低将背景噪声误分类为目标对象的概率。本发明使用两阶段分割方法,该方法部署ROI检测之后进行图像分割以改善分割结果。

结合附图,本发明的其他目的和方面将从以下详细描述中变得明显,所述附图作为示例示出了根据本发明的实施方式的特征。

为了实现以上目的和相关目的,本发明可以以附图中所示的形式体现,然而,注意以下事实:附图仅是说明性的,并且在所附权利要求的范围内可以对所示出和所描述的具体结构进行改变。

尽管以上按照各种示例性实施方式和实现方式描述了本发明,但是应当理解,在各个实施方式中的一个或更多个中描述的各种特征、方面和功能在其适用性上不限于利用其对所述各种特征、方面和功能进行描述的具体实施方式,而是可以单独地或以各种组合应用于本发明的其他实施方式中的一个或更多个,无论是否对这样的实施方式进行描述并且无论这样的特征是否作为所描述的实施方式的一部分被提出。因此,本发明的广度和范围不应受到上述示例性实施方式中的任何示例性实施方式限制。

附图说明

结合附图,根据以下描述和所附权利要求,本发明的目的和特征将变得更加完全明显。应当理解,这些附图仅描绘了本发明的典型实施方式,并且因而不被认为是对其范围的限制。将通过使用附图以附加的特征和细节描述和解释本发明。

图1示出了根据本发明的用于图像的高质量分割的系统;

图2示出了根据本发明的两阶段感兴趣区域(ROI)分割系统的流程图;

图3示出了根据本发明的在图像中预测的较大边界框与较小边界框的比较;

图4示出了根据本发明的由系统中的对象检测器检测到的ROI和图像平面;

图5示出了根据本发明的基于条带池化解码器的对象检测;

图6示出了根据本发明的多个方向的条带池化解码器;

图7示出了根据本发明的在图像的高质量分割之后与背景区域分离的对象;

图8示出了根据本发明的系统的两阶段分割结构;以及

图9示出了根据本发明的用于图像的高质量分割的方法。

具体实施方式

图1示出了用于高质量图像分割的系统。系统100包括对象检测器和分割单元。对象检测器检测图像中的对象。此外,对象检测器是条带池化解码器102。

条带池化解码器通过在多个方向上覆盖经处理的图像的较大部分来对图像进行解码。此外,条带池化解码器限定了要与图像的背景部分分离的对象周围的边界。此外,多个方向包括水平方向、竖直方向、45度和-45度方向。45度和-45度池化解码器能够检测倾斜对象。

基准真相掩码104是在边界框周围标记的覆盖背景的参考掩码。条带池化解码器102沿不同方向取特征的最大值。长内核形状能够捕获长距离依赖关系和局部细节,这致使更好的预测准确度。

对象周围的边界是最小周长边界框。条带池化解码器被设计成通过沿不同方向增加感受域来增加边界框预测的准确度。

内外损失单元106计算对象中的内外损失,以将对象与图像的背景部分分离,以生成经处理的图像。此外,通过召回率计算内外损失。召回率被限定为:

其中tp为真正值,而fn为假负值。该上下文中的召回率也可以被称为真正率(truepositive rate)或灵敏度。

类似地,精确率被限定为:

其中tp为真正值,而fp为假正值。该上下文中的精确率也可以被称为正预测值。对于机器学习分类任务领域的技术人员而言,召回率和精确率通常是已知的。

引入内外损失以降低将背景部分误分类为目标对象的概率。通过召回率计算内外损失。内外损失单元利用对象的召回率,并且测量被正确地检测为背景噪声的背景部分像素的数目。

根据计算出的内外损失标记输出掩码108。将图像转换成被掩蔽的背景和未被掩蔽的对象的组合。

分割单元110通过从图像的背景部分裁剪对象来执行边界周围的对象的高质量分割。

将内外损失引入至检测到的对象中,以提高对象ROI检测的准确度。高准确度检测提供了适当的ROI以改善分割结果。

对象检测技术广泛地应用于包括自主驾驶、行人和车辆检测的现实生活计算机视觉应用以及各种摄像装置应用。

在图像分割中,不期望将背景像素误分类为目标对象的一部分或者将一些目标对象像素误分类为背景。在这两种情况之间,在边界上将目标对象像素误分类为背景对最终分割结果的影响较小。然而,传统的损失例如二元交叉熵损失在这两种情况之间没有偏好。因此,本发明引入了如式(1)中公式化的内外损失,其考虑了这两种情况之间的差异。

图2示出了两阶段ROI分割系统200的流程图。限定输入框202的处理是ROI分割。针对高质量分割提出了两阶段ROI分割解决方案。两个阶段是对象检测阶段和对象分割阶段。对象检测阶段是ROI检测阶段204,其中内外损失204A区分收缩和扩展的边界框。

条带池化解码器CNN(水平、竖直、45度和-45度)204B捕获长距离带状对象的长距离依赖关系。然后,检测到的对象移动至下一阶段,即,分割阶段206。在分割阶段206中,借助于基准真相掩码和输出掩码并且进一步借助于计算内外损失来执行边界框周围的图像的掩蔽,以提供高质量分割作为结果208。

图3示出了如图像中预测的较大边界框与较小边界框的比较300。对于两阶段分割,系统通过预测理想边界框302来检测ROI以引导分割。如果第一阶段ROI边界框太大,则第二阶段输入将具有较低的分辨率,这意味着第二阶段不能捕获对象的许多细节。这将导致分割掩码的粗略边界。

如果边界框306太小,则在随后的分割阶段中对象的一部分将不可见。缺失部分不可恢复,并且将导致不完整的分割掩码。较大边界框优于较小边界框,因为在许多场景下,高估对象尺寸比低估对象尺寸更好。稍微扩展的边界框将增加对象检测模型的鲁棒性。

然而,大多数边界框损失处理方法同等地处理较大边界框和较小边界框。例如,由于其相似性而被广泛用于对象检测的L2损失方法以相同的方式处理较大边界框和较小边界框中的损失。图3示出了较大边界框304的L2损失与较小边界框306的L2损失相同的情况。

图4示出了由系统中的对象检测器检测到的ROI和图像平面。系统400在图像402中引入内外损失以引导检测结果被扩展。系统增加了诸如对象1和2的对象ROI检测404的准确度,如图4所示。

图3示出了理想的最小周长边界框302、较大边界框304和较小边界框306。较大边界框损失为(1-2)*(1-2)+(1-2)*(1-2)=2,并且较小边界框损失为(3-2)*(3-2)+(3-2)*(3-2)=2。此外,高准确度检测提供了适当的ROI以改善分割结果,从而克服所有损失。

图5示出了基于条带池化解码器的对象检测。经典的编码器-解码器神经网络结构500采用具有内插或空间池化的金字塔结构来增加和减少感受域以获得改进的结果。然而,ROI检测需要长距离上下文信息502。

条带池化被设计成通过沿不同方向增加感受域来增加边界框预测的准确度。如图5所示,本发明利用四个方向的条带池化编码器和解码器CNN结构来改善检测结果。

四个方向——水平504、竖直506、45度和-45度508——用于分析和捕获图像中的更多区域,并且形成具有Bbox(x,y,w,h)值510的边界框。

图6示出了多个方向的条带池化。条带池化结构600在分割任务中很好地工作,以分割具有长距离带状结构的对象。本发明利用具有水平606、竖直604、45度608和-45度610的定向池化结构602来捕获对象检测任务中的四个方向上的长距离依赖关系。45度和-45度池化结构能够检测倾斜对象。

利用最大池化(MaxPooling)方法、之后是感知器结构的传统的解码器结构不能捕获长距离依赖关系。本发明引入了条带解码器,其沿水平、竖直、45度和-45度方向取特征的最大值。该长内核形状能够捕获长距离依赖关系和局部细节,这致使更好的预测准确度。

图7示出了在图像700的高质量分割之后的目标对象和背景噪声分离。在图像分割中,不期望将背景像素误分类为目标对象或者将目标对象像素误分类为背景。然而,在边界上将目标对象像素误分类为背景对最终分割结果的影响较小。

传统的损失例如二元交叉熵损失在这两种情况之间没有任何偏好。因此,本发明引入了如式(1)公式化的内外损失,其考虑了这两种情况之间的差异。F2被限定为对象召回率,并且F0.5被限定为背景召回率。使用Fb损失作为基本损失,其被公式化为式(2)。参数n用于调整这两种情况之间的权重。

该损失类似于标准dice指标损失,但是引入了期望的召回率和精确率。β水平(beta level)指的是在统计假设测试中类型II错误的概率,即当其为假时接受零假设的概率。此处,β水平越大,损失越多地集中于对象的精确率,这意味着对象分割掩码中的背景像素越少。β水平越小,损失越多地集中于对象704的召回率。它测量有多少背景像素被正确地检测为背景,并且将对象704与图像702分离。

损失=(1-F

图8示出了系统的两阶段分割结构800。系统包括条带池化解码器804、基准真相掩码808、内外损失单元810、输出掩码812和分割单元814。系统以两个阶段工作:第一阶段是由条带池化解码器804从输入图像802中检测对象的对象检测阶段。

条带池化解码器804通过在四个方向上覆盖经处理的图像的较大部分来对图像进行解码。条带池化解码器804还在要与图像的背景部分分离的对象周围预测边界框806。边界框806包括表示竖直、水平、45度和-45度方向的坐标(x,y,w,h)。

第二阶段包括基准真相掩码808(在边界框周围标记的参考掩码)覆盖背景的步骤。内外损失单元810计算图像中的内外损失以将对象与图像的背景分离。

根据先前计算出的内外损失标记输出掩码812。然后,将图像转换成被掩蔽的背景和未被掩蔽的对象。

分割单元814通过从被掩蔽的背景裁剪未被掩蔽的对象来执行未被掩蔽的对象的高质量分割,以生成增强的图像。

图9示出了用于对图像中的对象进行高质量分割的方法。方法900首先包括借助于对图像进行解码的条带池化解码器通过在四个方向上覆盖经处理的图像的较大部分来对图像进行解码902。

在对象周围预测边界框,使得对象可以与图像的背景部分分离904。边界框是为了掩蔽而围绕对象绘制的假想线。

随后,将基准真相掩码标记为在边界框周围的参考掩码以覆盖背景906。此外,内外损失单元计算图像中的内外损失以将对象与图像的背景分离908。然后,根据先前计算出的内外损失标记输出掩码,并且将图像转换成被掩蔽的背景和未被掩蔽的对象910。

最后,分割单元通过从被掩蔽的背景裁剪未被掩蔽的对象来执行未被掩蔽的对象的高质量分割,以生成增强的图像912。

尽管以上按照各种示例性实施方式和实现方式描述了本发明,但是应当理解,在各个实施方式中的一个或更多个中描述的各种特征、方面和功能在其适用性上不限于利用其对所述各种特征、方面和功能进行描述的具体实施方式,而是可以单独地或以各种组合应用于本发明的其他实施方式中的一个或更多个,无论是否对这样的实施方式进行描述并且无论这样的特征是否作为所描述的实施方式的一部分被提出。因此,本发明的广度和范围不应受到上述示例性实施方式中的任何示例性实施方式限制。

意义扩大的词和短语例如“一个或更多个”、“至少”、“但不限于”或其他类似的短语的出现,在一些实例中不应被解读为表示在这样的意义扩大的短语不存在的情况下意图或要求使用较窄意义的短语。

相关技术
  • 用于指示条带的图像分割信息的解码器及对应方法
  • 用于指示条带的图像分割信息的解码器及对应方法
技术分类

06120116493564