掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度融合的图像语义分割方法及相关组件

文献发布时间:2024-04-18 19:58:53


基于多尺度融合的图像语义分割方法及相关组件

技术领域

本申请涉及图像处理技术领域,特别涉及一种基于多尺度融合的图像语义分割方法;还涉及一种基于多尺度融合的图像语义分割装置、设备以及计算机可读存储介质。

背景技术

语义分割算法主要基于编解码的架构进行设计,在编码器阶段,图像经过一系列卷积和池化操作变成富含高层语义信息的特征图;在解码器阶段,特征图逐步上采样产生与输入图像相等尺寸的预测结果。由于这种编解码的方式需要频繁下采样和上采样,会导致大量关键信息的丢失。

为了克服上述问题,当前主流的解决办案是使用不同尺度之间信息融合的方法。由于底层特征使得模型能够看到很多图像的纹理细节,对于图像的某一小块来说可能十分精准,但是模型看不见整个对象;高层信息虽然使模型能够看到整个对象,但是下采样次数太多,边缘细节等信息变得模糊。因此,通过结合各个尺度特征信息对于上述问题的解决十分重要。例如,FPN(Feature Pyramid Network,特征金字塔网络)算法,FPN算法构造了一种自顶向下、带有侧向连接的层次结构来构建各个尺度的语义特征融合方法,对最底层的特征进行向上采样,并与该底层特征进行融合,得到高分辨率、强语义的特征。

虽然这种方法可以快速聚合不同尺度的特征信息,但它存在如下缺陷:特征融合太简单。FPN只是将相邻层的特征信息进行融合再向下传递,这样就减少了模型在该层特征选择的范围,无法有效发挥出多尺度信息融合的能力。未将同一层的特征信息进行开发。FPN只是考虑了不同层之间的信息融合。

有鉴于此,如何解决上述技术缺陷已成为本领域技术人员亟待解决的技术问题。

发明内容

本申请的目的是提供一种基于多尺度融合的图像语义分割方法,能够有效发挥出多尺度信息融合能力,提升图像语义分割性能。本申请的另一个目的是提供一种基于多尺度融合的图像语义分割装置、设备以及计算机可读存储介质,均具有上述技术效果。

为解决上述技术问题,本申请提供了一种基于多尺度融合的图像语义分割方法,包括:

对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;

融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图;i依次取值1至m;所述m小于等于N-2;

对各个所述融合特征图进行处理,并将处理结果还原为所述原始图像的大小,得到图像语义分割结果。

可选的,所述对原始图像进行不同倍数的下采样,得到N层特征图包括:

对所述原始图像进行2倍、4倍、8倍、16倍以及32倍的下采样,得到五层所述特征图。

可选的,所述融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图包括:

融合第五层的所述特征图与第四层的所述特征图,得到第一个所述融合特征图;

融合第四层的所述特征图、第三层的所述特征图以及第一个所述融合特征图,得到第二个所述融合特征图;

融合第三层的所述特征图、第二层的所述特征图以及第二个所述融合特征图,得到第三个所述融合特征图。

可选的,所述对各个所述融合特征图进行处理包括:

通过注意力模块对第一个所述融合特征图进行特征提取,得到第一个特征提取结果;

将第j+1个所述融合特征图与第j个所述特征提取结果相加,并通过所述注意力模块对相加结果进行特征提取,得到第j+1个所述特征提取结果;j依次取值1至m-1;

将第m+1个所述融合特征图与第m个所述特征提取结果相加。

可选的,所述注意力模块处理输入的图像的方式包括:

所述注意力模块对输入的图像依次进行全局平均池化、1×1卷积、批量归一化处理,并通过激活函数确定权重,以及根据所述权重对输入的图像进行点乘,得到处理结果。

可选的,所述对原始图像进行不同倍数的下采样包括:

通过多尺度融合模块对所述原始图像进行下采样;所述多尺度融合模块包括多个多尺度融合层,每个所述多尺度融合层处理输入的图像的方式包括:

将输入的图像拆分为两份;

对第二份进行通道压缩,并将通道压缩后的结果进行四等分,得到四个部分;

对第一个部分不做处理,对第二个部分进行卷积操作,得到第一个卷积操作结果,将第三个部分与第一个所述卷积操作结果相加后进行卷积操作,得到第二个卷积操作结果,将第四个部分与第二个所述卷积操作结果相加后进行卷积操作,得到第三个卷积操作结果;

将所述第一部分以及各个所述卷积操作结果在通道维度上拼接,并将拼接结果与所述第二份通过跳跃连接相加;

对相加结果进行通道扩张,将通道扩张结果与第一份进行通道拼接,并对通道拼接结果进行特征提取,得到处理结果。

可选的,所述卷积操作为深度可分离卷积。

为解决上述技术问题,本申请还提供了一种基于多尺度融合的图像语义分割装置,包括:

特征提取模块,用于对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;

特征融合模块,用于融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图;i依次取值1至m;所述m小于等于N-2;

图像处理模块,用于对各个所述融合特征图进行处理,并将处理结果还原为所述原始图像的大小,得到图像语义分割结果。

为解决上述技术问题,本申请还提供了一种基于多尺度融合的图像语义分割设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上所述的基于多尺度融合的图像语义分割方法的步骤。

为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于多尺度融合的图像语义分割方法的步骤。

本申请所提供的基于多尺度融合的图像语义分割方法,包括:对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图;i依次取值1至m;所述m小于等于N-2;对各个所述融合特征图进行处理,并将处理结果还原为所述原始图像的大小,得到图像语义分割结果。

可见,区别于FPN只将相邻层的特征信息进行融合再向下传递的方式,本申请所提供的图像语义分割方法,在特征信息融合阶段,在FPN的基础上,增加了一层特征信息用于特征融合,这样增加了在该层特征选择的范围,能够有效发挥出多尺度信息融合能力,提升图像语义分割性能。

本申请所提供的基于多尺度融合的图像语义分割装置、设备以及计算机可读存储介质均具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种基于多尺度融合的图像语义分割方法的流程示意图;

图2为本申请实施例所提供的一种图像语义分割算法流程示意图;

图3为本申请实施例所提供的一种注意力模块的示意图;

图4为本申请实施例所提供的一种多尺度融合层的示意图;

图5为本申请实施例所提供的一种基于多尺度融合的图像语义分割装置的示意图;

图6为本申请实施例所提供的一种基于多尺度融合的图像语义分割设备的示意图。

具体实施方式

本申请的核心是提供一种基于多尺度融合的图像语义分割方法,能够有效发挥出多尺度信息融合能力,提升图像语义分割性能。本申请的另一个核心是提供一种基于多尺度融合的图像语义分割装置、设备以及计算机可读存储介质,均具有上述技术效果。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参考图1,图1为本申请实施例所提供的一种基于多尺度融合的图像语义分割方法的流程示意图,参考图1所示,该方法包括:

S101:对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;

对输入的原始图像进行不同倍数的下采样,得到N层特征图,形成具有N层的金字塔结构。其中,自下向上为第一层至第N层,即最底层为第一层,最顶层为第N层。

S102:融合第N层的特征图与第N-1层的特征图,得到第一个融合特征图;融合第N-i层的特征图、第N-(i+1)层的特征图以及第i个融合特征图,得到第i+1个融合特征图;i依次取值1至m;m小于等于N-2;

对于各层特征图本实施例采取如下策略进行特征融合:融合第N层特征图与第N-1层特征图,得到第一融合特征图。融合第N-1层的特征图、第N-2的层特征图与第一个融合特征图,得到第二个融合特征图。融合第N-2层的特征图、第N-3层的特征图以及第二个融合特征图,得到第三个融合特征图。以此类推,融合第N-i层的特征图、第N-(i+1)层的特征图以及第i个融合特征图,得到第i+1个融合特征图。

m为设定的i的最终取值,m最大为N-2。至于m的具体数值,可以根据实际需要进行差异性设置。

S103:对各个融合特征图进行处理,并将处理结果还原为原始图像的大小,得到图像语义分割结果。

综上所述,本申请所提供的图像语义分割方法,在特征信息融合阶段,在FPN的基础上,增加了一层特征信息用于特征融合,这样增加了在该层特征选择的范围,能够有效发挥出多尺度信息融合能力,提升图像语义分割性能。

在一些实施例中,所述对原始图像进行不同倍数的下采样,得到N层特征图包括:

对所述原始图像进行2倍、4倍、8倍、16倍以及32倍的下采样,得到五层特征图。

参考图2所示,本实施例对原始图像进行2倍、4倍、8倍、16倍以及32倍的下采样,得到五层特征图,即N=5。图2中,1/2、1/4、1/8、1/16、1/32表示特征图相对于原始图像的宽或高的倍数。

在一些实施例中,所述融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图包括:

融合第五层的所述特征图与第四层的所述特征图,得到第一个所述融合特征图;

融合第四层的所述特征图、第三层的所述特征图以及第一个所述融合特征图,得到第二个所述融合特征图;

融合第三层的所述特征图、第二层的所述特征图以及第二个所述融合特征图,得到第三个所述融合特征图。

参考图2所示,对第五层的特征图使用1×1卷积进行特征提取(不改变通道数),得到第一特征图。使用1×1卷积将第四层的特征图的通道扩增到与第一特征图相等,并进行2倍下采样,得到第二特征图。将所述第一特征图与所述第二特征图逐像素相加,得到所述第一个融合特征图(即图2中所示的M1)。使用1×1卷积将第四层的特征图的通道扩增到与第一个融合特征图相等,得到第三特征图。使用1×1卷积将第三层的特征图的通道扩增到与第一个融合特征图相等,并进行2倍下采样,得到第四特征图。对第一融合特征图进行2倍上采样,得到第五特征图。将第三特征图、第四特征图以及第五特征图逐像素相加,得到第二个融合特征图(即图2中所示的M2)。使用1×1卷积将第三层的特征图的通道扩增到与第二个融合特征图相等,得到第六特征图。使用1×1卷积将第二层的特征图的通道扩增到与第二个融合特征图相等,并进行2倍下采样,得到第七特征图。对第二个融合特征图进行2倍上采样,得到第八特征图。将第六特征图、第七特征图以及第八特征图逐像素相加,得到第三个融合特征图(即图2中所示的M3)。图2中1×1表示1×1卷积,2x down表示2倍下采样,2xup表示2倍上采样。

本实施例在N=5的情况下,m取值为N-3=5-3=2,第一层的特征图未参与融合,这样可以在有效发挥多尺度信息融合能力的同时,降低计算量。

在一些实施例中,所述对各个所述融合特征图进行处理包括:

通过注意力模块对第一个所述融合特征图进行特征提取,得到第一个特征提取结果;

将第j+1个所述融合特征图与第j个所述特征提取结果相加,并通过所述注意力模块对相加结果进行特征提取,得到第j+1个所述特征提取结果;j依次取值1至m-1;

将第m+1个所述融合特征图与第m个所述特征提取结果相加。

在N=5,m取值为2的情况下,对各个所述融合特征图进行处理包括:

通过注意力模块对第一个所述融合特征图进行特征提取,得到第一个特征提取结果;

将所述第一个特征提取结果与第二个融合特征图相加,并通过注意力模块对相加结果进行特征提取,得到第二个特征提取结果;

将第二个特征提取与第三个融合特征图相加。

注意力模块用于聚焦重要特征。参考图2所示,对于M1,通过注意力模块(ARM,Attention Refinement Module)进行特征提取,得到第一个特征提取结果。对M2与第一个特征提取结果进行相加,得到第一个相加结果。通过注意力模块对第一个相加结果进行特征提取,得到第二个特征提取结果。对M3与第二个特征提取结果进行相加,得到第二个相加结果。对第二个相加结果进行8倍上采样,恢复到原始图像的大小,得到图像语义分割结果。图2中Upsample表示上采样。

其中,在一些实施例中,所述注意力模块处理输入的图像的方式包括:

所述注意力模块对输入的图像依次进行全局平均池化、1×1卷积、批量归一化处理,并通过激活函数确定权重,以及根据所述权重对输入的图像进行点乘,得到处理结果。

参考图3所示,注意力模块包括全局平均池化层、1×1卷积层、批量归一化层、sigmoid层。本实施例中注意力模块仅设置一层1×1卷积层,且sigmoid层用于确定权重,这样注意力模块的运行效率更高。

在一些实施例中,所述对原始图像进行不同倍数的下采样包括:

通过多尺度融合模块对所述原始图像进行下采样;所述多尺度融合模块包括多个多尺度融合层,每个所述多尺度融合层处理输入的图像的方式包括:

将输入的图像拆分为两份;

对第二份进行通道压缩,并将通道压缩后的结果进行四等分,得到四个部分;

对第一个部分不做处理,对第二个部分进行卷积操作,得到第一个卷积操作结果,将第三个部分与第一个所述卷积操作结果相加后进行卷积操作,得到第二个卷积操作结果,将第四个部分与第二个所述卷积操作结果相加后进行卷积操作,得到第三个卷积操作结果;

将所述第一部分以及各个所述卷积操作结果在通道维度上拼接,并将拼接结果与所述第二份通过跳跃连接相加;

对相加结果进行通道扩张,将通道扩张结果与第一份进行通道拼接,并对通道拼接结果进行特征提取,得到处理结果。

其中,所述卷积操作可以为深度可分离卷积。

多尺度融合模块(MSF Block,MultiScale Fuse Block)用于在同一层进行多尺度融合,挖掘当前层通道间的有效信息。每一个多尺度融合模块包括多个MSF层即多尺度融合层,MSF层是一种在同一层中自带多尺度融合的卷积层。相比于一层一层地捕获图像中更细粒度的不同级别的尺度,MSF层通过块内的不同感受野来获取多尺度信息。多尺度融合模块中前一个多尺度融合层的输出是后一个多尺度融合层的输入。

参考图4所示,为降低多尺度融合层的计算复杂度,本实施例将多尺度融合层的输入拆分成两份,分别为Part1和Part2。Part2可通过1x1卷积进行通道压缩,压缩为输入的1/4,然后进一步将1x1卷积后的结果进行4等分,获得x1、x2、x3和x4。x1不做操作,直接恒等映射为y1。x2会经过3x3的DSC(Depthwise Separable Convolution,深度可分离卷积)获得k1或y2(k1与y2指代相同,都是x2经过3x3的DSC的结果),以在进一步增大感受野的基础上,最小化计算负担。x3首先与k1相加,再使用3x3的DSC增大局部感受野获得k2或y3(k2与y3指代相同,都是x3与k1相加后经过3x3的DSC的结果)。x4先与k2相加,再使用3x3的DSC增大局部感受野获得y4。y1、y2、y3和y4会在通道维度上进行拼接,再将Part2的结果通过跳跃连接相加,然后将输出使用1x1卷积进行通道扩张,扩张到Part2的4倍。最后将Part2分支的结果与Part1进行Concatenate通道拼接,并使用1x1卷积进一步特征提取得到处理结果Output。

深度可分离卷积将标准卷积拆分成两个分卷积:第一层为深度卷积,对每个输入通道应用单通道的轻量级滤波器;第二层为逐点卷积,即1x1卷积,负责计算输入通道的线性组合,构建新的特征。

标准卷积输入张量L

标准卷积的计算消耗为:h

拆分后深度可分离卷积消耗为:h

当使用的卷积核大小k=3,d

本实施例会在层内部构建特征金字塔结构,在特征层内部进行多尺度的卷积,形成不同感受野,获得不同细粒度的特征,能够充分利用同一层之间的通道信息,进一步提升图像语义分割性能。

本申请还提供了一种基于多尺度融合的图像语义分割装置,下文描述的该装置可以与上文描述的方法相互对应参照。请参考图5,图5为本申请实施例所提供的一种图像语义分割装置的示意图,结合图5所示,该装置包括:

特征提取模块10,用于对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;

特征融合模块20,用于融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图;i依次取值1至m;所述m小于等于N-2;

图像处理模块30,用于对各个所述融合特征图进行处理,并将处理结果还原为所述原始图像的大小,得到图像语义分割结果。

在上述实施例的基础上,作为一种具体的实施方式,特征提取模块10具体用于:

对所述原始图像进行2倍、4倍、8倍、16倍以及32倍的下采样,得到五层所述特征图。

在上述实施例的基础上,作为一种具体的实施方式,特征融合模块20包括:

第一融合单元,用于融合第五层的所述特征图与第四层的所述特征图,得到第一个所述融合特征图;

第二融合单元,用于融合第四层的所述特征图、第三层的所述特征图以及第一个所述融合特征图,得到第二个所述融合特征图;

第三融合单元,用于融合第三层的所述特征图、第二层的所述特征图以及第二个所述融合特征图,得到第三个所述融合特征图。

在上述实施例的基础上,作为一种具体的实施方式,图像处理模块30包括:

第一特征提取单元,用于通过注意力模块对第一个所述融合特征图进行特征提取,得到第一个特征提取结果;

第二特征提取单元,用于将第j+1个所述融合特征图与第j个所述特征提取结果相加,并通过所述注意力模块对相加结果进行特征提取,得到第j+1个所述特征提取结果;j依次取值1至m-1;

相加单元,用于将第m+1个所述融合特征图与第m个所述特征提取结果相加。

在上述实施例的基础上,作为一种具体的实施方式,所述注意力模块处理输入的图像的方式包括:

所述注意力模块对输入的图像依次进行全局平均池化、1×1卷积、批量归一化处理,并通过激活函数确定权重,以及根据所述权重对输入的图像进行点乘,得到处理结果。

在上述实施例的基础上,作为一种具体的实施方式,特征提取模块10具体用于:

通过多尺度融合模块对所述原始图像进行下采样;所述多尺度融合模块包括多个多尺度融合层,每个所述多尺度融合层处理输入的图像的方式包括:

将输入的图像拆分为两份;

对第二份进行通道压缩,并将通道压缩后的结果进行四等分,得到四个部分;

对第一个部分不做处理,对第二个部分进行卷积操作,得到第一个卷积操作结果,将第三个部分与第一个所述卷积操作结果相加后进行卷积操作,得到第二个卷积操作结果,将第四个部分与第二个所述卷积操作结果相加后进行卷积操作,得到第三个卷积操作结果;

将所述第一部分以及各个所述卷积操作结果在通道维度上拼接,并将拼接结果与所述第二份通过跳跃连接相加;

对相加结果进行通道扩张,将通道扩张结果与第一份进行通道拼接,并对通道拼接结果进行特征提取,得到处理结果。

在上述实施例的基础上,作为一种具体的实施方式,所述卷积操作为深度可分离卷积。

本申请还提供了一种基于多尺度融合的图像语义分割设备,参考图6所示,该设备包括存储器1和处理器2。

存储器1,用于存储计算机程序;

处理器2,用于执行计算机程序实现如下的步骤:

对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图;i依次取值1至m;所述m小于等于N-2;对各个所述融合特征图进行处理,并将处理结果还原为所述原始图像的大小,得到图像语义分割结果。

对于本申请所提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。

本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下的步骤:

对原始图像进行不同倍数的下采样,得到N层特征图;自下向上为第一层至第N层,N为正整数;融合第N层的所述特征图与第N-1层的所述特征图,得到第一个融合特征图;融合第N-i层的所述特征图、第N-(i+1)层的所述特征图以及第i个所述融合特征图,得到第i+1个所述融合特征图;i依次取值1至m;所述m小于等于N-2;对各个所述融合特征图进行处理,并将处理结果还原为所述原始图像的大小,得到图像语义分割结果。

该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请所提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的基于多尺度融合的图像语义分割方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围。

技术分类

06120116511024