掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度上下文的全景图像分割方法与系统

文献发布时间:2024-05-31 01:29:11


基于多尺度上下文的全景图像分割方法与系统

技术领域

本发明涉及深度学习与计算机视觉分析领域,特别涉及一种基于多尺度上下文的全景图像分割方法与系统。

背景技术

为使语义分割结果更好地辅助场景分析从而支持自动驾驶等实际应用任务,需要分割方法对能够识别定位大视角图像中的对象。现有深度学习方法多采用全局注意力或大尺寸卷积获得长距离信息,以此解决大视角、大尺寸的全景图像中物体距离太远带来的识别误差。然而全局注意力或大尺寸卷积的计算量较高,而空洞卷积、注意力池化等技术又容易带来特征的稀疏问题。

发明内容

鉴于上述状况,本发明的主要目的是为了提出一种基于多尺度上下文的全景图像分割方法与系统,以解决上述技术问题。

本发明提出了一种基于多尺度上下文的全景图像分割方法,所述方法包括如下步骤:

步骤1、以彩色全景图像作为输入,基于局部卷积进行特征提取,并同时在特征提取过程中引入全局上下文信息,得到带有场景上下文的基础特征;

步骤2、从带有上下文的基础特征中获取尺度不变的稳定语义信息,并通过保留语义信息中的空间结构而形成稳定语义特征图;

步骤3、从稳定语义特征图中计算出全局注意力信息,并编码为类别信息;

步骤4、利用类别信息引导稳定语义特征图分割,获取粗分割图,再对粗分割图进行上采样,得到精细全景分割图。

本发明还提出一种基于多尺度上下文的全景图像分割系统,其中,所述系统应用如上所述的基于多尺度上下文的全景图像分割方法,所述系统包括:

特征提取主干模块,用于:

以彩色全景图像作为输入,基于局部卷积进行特征提取,并同时在特征提取过程中引入全局上下文信息,得到带有场景上下文的基础特征;

跨尺度语义提取模块,用于:

从带有上下文的基础特征中获取尺度不变的稳定语义信息,并通过保留语义信息中的空间结构而形成稳定语义特征图;

分类模块,用于:

从稳定语义特征图中计算出全局注意力信息,并编码为类别信息;

输出模块,用于:

利用类别信息引导稳定语义特征图分割,获取粗分割图,再对粗分割图进行上采样,得到精细全景分割图。

相较于现有技术,本发明的有益效果如下:

1、本发明基于编码解码过程的语义分割网络轻量化,在模型参数与精度之间折衷,实现注意力计算、主干网络、编码模块的轻量化。

2、本发明结合卷积模块的局部特征描述能力、空间结构描述能力以及自注意力模块的长距离信息获取能力,融合局部信息与全局上下文信息,更好地支持对象级、像素级识别与定位。

3、本发明同时进行场景对象分类以及逐像素分割任务,并将两个任务结果融合,充分利用当前网络的分类能力来辅助提升分割准确性。

本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于多尺度上下文的全景图像分割方法的流程图;

图2为本发明提出的基于多尺度上下文的全景图像分割方法的总体架构图;

图3为本发明稳定语义特征图提取过程中的原理结构示意图;

图4为发明提出的基于多尺度上下文的全景图像分割系统的结构图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。

请参阅图1和图2,本实施例提供了一种基于多尺度上下文的全景图像分割方法,所述方法包括如下步骤:

步骤1、以彩色全景图像作为输入,基于局部卷积进行特征提取,并同时在特征提取过程中引入全局上下文信息,得到带有场景上下文的基础特征;

在本步骤中,基于局部卷积进行特征提取,并同时在特征提取过程中引入全局上下文信息是通过至少一个用于考虑全局特征的普通卷积和若干用于考虑局部特征的倒残差层实现的。

优选地,普通卷积为1个,倒残差层形为17个,1个普通卷积与3个倒残差层构成第一阶段网络,14个倒残差基础单元堆叠构成第二阶段网络,第一阶段网络和第二阶段网络串联构成特征提取主干网络。

步骤2、从带有上下文的基础特征中获取尺度不变的稳定语义信息,并通过保留语义信息中的空间结构而形成稳定语义特征图;

如图3所示,在本步骤中,稳定语义特征图包括第一稳定语义特征图和第二稳定语义特征图,获取第一稳定语义特征图的方法具体包括如下步骤:

将带有场景上下文的基础特征输入卷积金字塔进行多尺度信息提取;

利用普通卷积从多尺度信息中计算出跨尺度的第一稳定语义特征图,第一稳定语义特征图的计算过程存在如下关系式:

其中,

获取第二稳定语义特征图的方法具体包括如下步骤:

获取多尺度信息中的小尺度特征和大尺度特征,其过程存在如下关系式:

其中,

对小尺度特征进行注意力计算,以获取小尺度注意力图,其过程存在如下关系式:

其中,

通过将小尺度注意力图应用于大尺度特征,进而从多尺度特征中提取出跨尺度的第二稳定语义特征图,第二稳定语义特征图的计算过程存在如下关系式:

其中,

因此,在本步骤中,本发明在提取语义特征图过程中,能够利用较少的参数量获得多尺度特征,并通过计算水平与垂直方向的区域关联,从而构建注意力矩阵以关注强关联的区域,进而从多尺度特征中求得跨尺度稳定语义。

步骤3、从稳定语义特征图中计算出全局注意力信息,并编码为类别信息;

在本步骤中,从稳定语义特征图中计算出全局注意力信息,并编码为类别信息的方法具体包括如下步骤:

通过池化操作将第二稳定语义特征图对齐,并映射为类别编码,具体计算方法如下所示:

其中,

对类别编码中进行类别粗计算,得到类别信息,具体计算方法如下。

其中,

因此,在本步骤中,本发明在将全局注意力信息编码为类别信息过程中,能够通过特征编码与类别映射从跨尺度稳定语义特征中计算出类别信息,利用图像中对象分类来引导全景图像分割。

步骤4、利用类别信息引导稳定语义特征图分割,获取粗分割图,再对粗分割图进行上采样,得到精细全景分割图。

在本步骤中,利用类别信息引导稳定语义特征图分割,获取粗分割图的方法具体包括如下步骤:

对类别信息进行映射,获取分类输出,对类别信息进行映射的过程存在如下关系式:

其中,

通过逐点相乘将分类输出的类别信息与第一稳定语义特征图进行融合,以将分类结果作为稳定语义的校正掩码,从而获得粗分割图,获取粗分割图的计算过程存在如下关系式:

其中,

因此,在本步骤中,本发明在利用类别信息引导稳定语义特征图分割过程中,利用残差连接将稳定语义特征图与类别信息融合,将分类与分割结果互相校正,从而辅助精细全景分割。

优选地,在执行步骤1至步骤4过程中,对应的训练方法如下:

获取给定数据集中的逐像素标注,从逐像素标注统计出的独热编码类别标注;

利用逐像素标注和精细全景分割图构建交叉熵损失函数,利用类别信息和独热编码类别标注构建二值交叉熵损失函数,再根据交叉熵损失函数和二值交叉熵损失函数构建总损失函数,通过最小化总损失进行训练,总损失函数的构建过程存在如下关系式:

其中,

请参照图4,本实施例还提供一种基于多尺度上下文的全景图像分割系统,其中,所述系统应用如上所述的基于多尺度上下文的全景图像分割方法,所述系统包括:

特征提取主干模块,用于:

以彩色全景图像作为输入,基于局部卷积进行特征提取,并同时在特征提取过程中引入全局上下文信息,得到带有场景上下文的基础特征;

跨尺度语义提取模块,用于:

从带有上下文的基础特征中获取尺度不变的稳定语义信息,并通过保留语义信息中的空间结构而形成稳定语义特征图;

分类模块,用于:

从稳定语义特征图中计算出全局注意力信息,并编码为类别信息;

输出模块,用于:

利用类别信息引导稳定语义特征图分割,获取粗分割图,再对粗分割图进行上采样,得到精细全景分割图。

为了验证本发明的相较于现有技术的优越性,将本发明与现有的三种方法进行比较,比较结果如下。

表1为不同方法在不同数据集的测试集上取得的语义分割结果对比,其中测试集1为CVRG数据集,测试集2为Cityscapes数据集。评价指标为平均分割交并比(mIoU: MeanIntersection over Union),体现模型定位与识别的精确度,值越大代表模型分割性能越好。

表1 不同方法在语义分割实验中的平均交并比mIoU(%)

从上述表格可以看出,本发明明显优于三种现有的方法。

应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 基于多尺度上下文感知的医学图像分割模型及方法
  • 基于多尺度和全局上下文信息的医学图像分割方法和装置
技术分类

06120116625649