掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度结构的实时语义分割方法

文献发布时间:2023-06-19 12:21:13


基于多尺度结构的实时语义分割方法

技术领域

本发明属于图像视频信息智能处理技术领域,具体涉及一种基于多尺度结构的实时语义分割方法。

背景技术

语义分割作为深度学习领域的重要视觉任务之一,对于图像理解和场景解析是一项具有挑战性的技术,其应用范围十分广泛,其中视频处理领域对语义分割任务对深度卷积神经网络实现快速推理(Prediction)和实时(Real-Time)响应有更高的要求。在语义分割发展的历程中,涌现出了众多优秀的算法,致力于提高分割模型在精度水平的提高。时至今日,语义分割在精度提高的速度愈发缓慢,而在模型推理速度的提高使得模型的兼容性更强。

现有的实时语义分割算法,在优化卷积神经网络结构的同时,还会采取一些模型精简的方法,如模型压缩、知识蒸馏和模型剪枝等改进方案,通常是用精度换速度的策略。值得关注的是,网络结构的改进是实现实时语义分割任务最直接可行的研究方向。

目前的经典实时语义分割网络BiSeNet网络,在语义分支中采用类似U-shape的级联结构,然而这种类似U-shape的级联结构实现从高维特征恢复到原始大小仍然引入较多计算量,也会因此导致整个模型推理速度减慢。受限于深层语义特征图拥有较高通道数的弊端,在进行卷积等操作时,不可避免地使得计算量骤增。

申请号为202011137108.7的中国发明专利公开一种基于空间信息引导的实时语义分割方法,利用浅层的空间细节信息不断地引导深层的全局上下文特征向邻域传播,从而有效地对全局上下文特征中所丢失的空间信息进行重构该方式采用单流分割方式,该网络是一种典型的“ 编码器-解码器”的网络结构。其中,编码器旨在对输入图片进行编码,从而得到更加抽象、更加语义化的特征表达。在解码器部分,设计了轻量级的双向网络对编码后的特征进行解码,并在解码的过程中引入了空间细节信息的引导。该专利采用的是单流分割方式,参数量大,速度慢,不适用于快速处理大量图片的情况。

发明内容

本发明解决的技术问题:提供一种由改进空间分支的组成并依据多尺度结构的语义分支结构组成的语义分割网络,实现参数量较少,处理速度更快的基于多尺度结构的实时语义分割方。

技术方案:为了解决上述技术问题,本发明采用的技术方案如下:

一种基于多尺度结构的实时语义分割方法,对语义信息分支进行高维特征提取;建立上下文语义分支和空间分支;语义特征和空间特征输入特征融合模块进行特征融合,最终输出对应的预测图,实现语义分割任务。

基于多尺度结构的实时语义分割方法具体包括以下步骤:

步骤1:首先利用残差网络完成语义分支的高维特征图提取;

步骤2:构建空间分支,将高维特征图下采样1/4尺寸的特征图经过池化层,并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图,作为特征融合模块的输入之一;

步骤3:构建语义分支,将ResNet的4个Bottleneck对应特征图分别经过卷积层,并在通道维度归一化为128维特征图,之后进行合并、压缩到适合特征融合模块输入的通道维度特征图,在经过合上采样模块之后进入特征融模块;

步骤4:将步骤2步骤3获得的空间特征和语义特征进行特征融合,最终输出对应的预测图,实现语义分割任务。

作为优选,步骤1中高维特征的提取,以ResNet18浅层卷积神经网络作为基干模型,通过网络中预定义的卷积块对输入图像层层提取语义特征,最终将图像映射到512维的具有原始图像尺寸1/32的特征图,合理的提取到高维的特征。

作为优选,步骤2中空间分支,将语义分支中ResNet提取特征中的某层结合上采样操作生成空间分支,作为补充空间细节信息的特征图。

作为优选,步骤3构建语义分支,利用4个不同类型的卷积层结合上采样对4个残差阶段的特征图进行卷积操作,使得每个残差阶段均输出128维通道的1/16原图像空间尺寸的特征图。

作为优选,利用Concat层合并所有特征图,充分聚合了深层、粗略、语义信息和浅层、细节、空间信息,利用通道卷积将特征图降维为128维,以便输入特征融合模块。

作为优选,并联结构的4层卷积包括标准卷积与扩张卷积,以应对多个不同尺寸特征图感受野的变化较大的问题,利用扩张卷积在适当缩小特征图的同时增加语义信息。

有益效果:与现有技术相比,本发明具有以下优点:

本发明主要针对实时语义分割网络模型的改进研究,构建一种新的实时语义分割的快速体系结构,称为SPCCNet(Spatial and Parallel Context Combined Network),从现有的双边分割网络出发,提出一种分割推理速度上更有优势的实时语义分割模型,使用了新的上下文语义分支和空间分支结构,语义信息分支在ResNet18主干中逐级编码输入,并为特征融合模块提供上下文信息。前一阶段的特性通常包含丰富的低级细节,而后一阶段提供高级语义。语义信息分支中嵌入的多重卷积,集合了不同阶段的相应特征,并以较小的计算代价生成了一个强大的全局上下文特征表示,空间分支由一个汇集层和一个上采样操作符以及投影卷积层组成,简洁的组件为网络提供了更多的空间细节。本发明使用了双流的方式进行空间信息提取,同时具有参数量较少,速度更快等特点。与BiSeNet相比,本算法实现了更快的速度和相当的性能,在基于ResNet18主干的城市景观数据集上,mIoU准确率为72.34%,FPS为195.7。

附图说明

图1为本发明SPCCNet网络整体结构图;

图2为本发明SPCCNet中的语义分支;

图3为本发明SPCCNet中的空间分支。

具体实施方式

下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

本发明的基于多尺度结构的实时语义分割方法是在BiSeNet实时语义分割网络架构上展开的。该模型首先利用ResNet18残差网络完成语义分支的高维特征图(512×h×w)提取;将下采样1/4尺寸的特征图经过池化层,并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图,作为特征融合模块的输入之一;对于语义分支,将ResNet的4个Bottleneck对应特征图分别经过卷积层,并在通道维度归一化为128维特征图,之后进行合并压缩到适合特征融合模块输入的通道维度特征图,在经过上采样模块之后进入特征融合模块FFM(Feature Fusion Module),最终输出对应的预测图,实现语义分割任务。具体包括以下步骤:

步骤1,提取高维特征:首先利用ResNet18残差网络完成语义分支的高维特征图(512×h×w)提取;

高维特征的提取以ResNet18这样的浅层卷积神经网络作为基干模型,通过网络中预定义的卷积块对输入图像层层提取语义特征,最终会将图像映射到512维的具有原始图像尺寸1/32的特征图,能够合理的提取到高维的特征。

步骤2,对空间分支进行改进:将高维特征图下采样1/4尺寸的特征图经过池化层,并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图,作为特征融合模块的输入之一;

空间分支改进,主要流程如下:在空间分支,原有的BiseNet网络采用单层大卷积核的卷积操作和两层3×3核的卷积层对原始图像提取空间信息并编码细节信息,最终将图像映射到1/8大小的特征图上,以补充语义分支缺失的空间信息。这是网络在保证精度的前提下的加速策略,而其他算法通常是通过减小输入图像分辨率来加速。本算法借助“共享权重”的思想,移除原网络中用于提取空间信息的三个卷积层,将语义分支中ResNet提取特征中的某层(倒数第二层)结合上采样操作生成空间分支,作为补充空间细节信息的特征图。一方面由于ResNet在提取特征过程中并未完全丢失空间信息,利用合理的上采样操作可以以更小的计算量生成所需的特征图,同时由于是在ResNet中间层获取的特征图,因此深层语义信息仍然丰富,有利于提高分割精度。此外,考虑到融合更为原始的空间细节信息,本算法还利用计算量较少的池化操作从ResNet中第一个Bottleneck的输出获取到原尺寸1/8大小的浅层特征图。

步骤3,对语义分支进行改进:将ResNet的4个Bottleneck对应特征图分别经过卷积层,并在通道维度归一化为128维特征图,之后进行合并压缩到适合特征融合模块输入的通道维度特征图,在经过上采样模块之后进入特征融合模块。

语义分支改进的主要流程如下:取消了解码器阶段的级联结构,并移除了原有网络中用于增强特征的ARM和Refines模块,使其仅保留ResNet残差网络的基干结构。结合ResNet四个卷积阶段语义信息和空间信息的变化规律,设计分别利用4个不同类型的卷积层(分别为5×5、3×3、1×1和1×1大小的卷积核)结合上采样对4个残差阶段的特征图进行卷积操作,使得每个残差阶段均输出128维通道的1/16原图像空间尺寸的特征图。在这一过程中,不同阶段输出的特征图包含不同的层次的信息,如低通道64维特征图经过扩张卷积操作获得输出包含丰富的空间信息也同样拥有少量的语义信息,将空间信息转移到了通道维度;而512维特征图经过上采样和标准卷积操作的输出包含丰富的语义信息和少量的空间信息,将语义信息转移到了空间尺度。

随后利用Concat层合并所有特征图,充分聚合了深层、粗略、语义信息和浅层、细节、空间信息。之后利用通道卷积将特征图降维为128维,以便输入特征融合模块,在最后由于特征融合模块需要输入两个同尺寸的特征图,因此还对该特征图进行了一次上采样操作。这个并联结构的4层卷积包括标准卷积与扩张卷积以应对多个不同尺寸特征图感受野的变化较大的问题,卷积操作与感受野变化定义如下式:

其中,

进一步的,本模型中用于展示模型效果所用的评价分割效果的指标包括mIoU、mAcc和allAcc,mIoU(Mean Intersection over Union)是最为经典的评价指标,其中IoU是通过计算真实值集合与预测值集合的交集与并集之比获得,而mIoU则是在每个预测类别上分别计算IoU,然后取平均值,定义如式:

而mAcc(Mean Accuracy)与allAcc(All Classes Accuracy)则是利用真阳性的像素数量与正确类别总像素数量的比例来评价语义分割效果,定义如下式:

还使用mIoU_noback(mIoU with no background)指标,在该指标表示在去除背景类的精度评估之后的平均交并比。

其中,

由于本章是关注于实时语义分割模型的研究,因此针对模型的分割推理速度进行评价,因此采用评价语义分割速度的FPS(Frame Per Second)每秒预测帧数,定义如下式:

其中,

步骤4:将步骤2步骤3所获得的空间特征和语义特征进行特征融合,最终输出对应的预测图,实现语义分割任务。

为验证本模型的有效性,整个实验过程均采用相同的训练策略保证公平性。SPCCNet以ResNet18作为基干网络提取特征,设置初始学习学习率base_lr=1e

其中,

其中,

辅助预测分支是一种有效的增强训练策略。其中,辅助分支的加入可以增强网络对不同尺度下的特征的学习,并加速网络收敛,而且辅助分支并不会影响预测阶段的计算量和推理速度。在实际训练阶段,在不同的位置均添加了由三层卷积组成的简单辅助预测分支,并利用α调整不同分支的比重,来指导网络的训练过程。从loss损失函数中可以观察到,为不同预测类别使用了辅助权重

对于数据增强,图像将会在[0.75, 1, 1.25, 1.5, 1.75, 2.0]范围内被随机放大或者缩小、以50%的概率随机水平翻转、随机旋转-10到10度以及随机高斯噪声等,此外考虑到Cityscapes图片分辨率过大,还将对图片进行随机裁剪,最终归一化到768×1536大小以防止内存溢出。

针对Cityscapes数据集的训练,训练共计19个类别,训练epochs设置为80次,每个epoch内都会以batch_size=8的批次大小进行1000次迭代,以保证在每个epoch训练中都能用到所有训练样本。

针对验证模型速度测试,采用了5000张图片进行分割任务,并取平均值的策略,以保证验证模型速度的准确性。

实验中除使用经典mIoU和allAcc语义分割精度指标之外,还使用mIoU_noback(mIoU with no background)指标,在该指标表示在去除背景类的精度评估之后的平均交并比。针对模型的分割推理速度进行评价采用评价语义分割速度的FPS(Frame PerSecond)每秒预测帧数,定义如下式:

其中,

表1语义分割模型综合性能对比

改进语义分支和空间分支的SPCCNet分割模型(Ours)与BiSeNet网络的性能进行对比,从表1中可以观察到,在同是以ResNet18为基干网络的情况下,本算法的SPCCNet模型在一定程度上引入的参数量更少,更精简;输入图像尺寸为512×1024分辨率时,在语义分割推理速度FPS指标上远超BiSeNet,相当于每秒钟可以多计算45张左右分辨率为512×1024的图像,效率大大提高。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 基于多尺度结构的实时语义分割方法
  • 基于多尺度分割融合的实时语义分割方法
技术分类

06120113268880