掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Laplace特征约束的双分支非对称实时语义分割算法

文献发布时间:2024-04-18 19:54:45


一种基于Laplace特征约束的双分支非对称实时语义分割算法

技术领域

本发明属于计算机视觉技术领域,具体涉及一种基于Laplace特征约束的双分支非对称实时语义分割算法。

背景技术

图像语义分割是计算机视觉领域中的一个重要部分,其任务是将图像中每个像素精确地分类到它所属的类别,并与图像本身的视觉呈现内容相匹配。因此,图像语义分割也被称为像素级的图像分类任务

常见的语义分割网络在设计过程中通常不考虑推理速度和计算成本,而更注重网络的骨干结构设计,如ResNet-101、Xception和HRNet等。这些结构多层次、复杂而深入,能够从更大范围的空间中提取综合特征,具备更强的特征表达能力。然而,这些庞大的主干模型往往计算复杂度高、推理速度较低,这对于一些实际应用来说不太合适,这些应用需要低延迟及竞争力较好的预测精度。因此,如何在高效的推理速度及较高的分割准确率之间寻求平衡,已成为一项具有挑战性的任务。

发明内容

本发明的目的是:旨在提供一种基于Laplace特征约束的双分支非对称实时语义分割算法,能够主要通过特征融合模块和特征细化提取模块降低图像计算的复杂度,进而提高推理速度,同时还具有较好的较好的分割准确率,进而使该模型具有分割准确率的同时提高图像的推理速度。

为实现上述技术目的,本发明采用的技术方案如下:

一种基于Laplace特征约束的双分支非对称实时语义分割算法,包括以下步骤:

步骤10:根据待识别的图像M,搜索相关数据并制作成数据集S;

步骤20:对数据集S中的图像进行预处理,包括图像的翻转、旋转、缩放和裁剪;

步骤30:搭建神经网络模型框架,包括图像处理模块、特征提取模块、ASSP模块、特征融合模块、Laplace二阶微分特征提取模块、特征细化提取模块和卷积块注意力模块

步骤40:训练神经网络模型;

步骤50:将待识别的图像M输入到训练好的神经网络模型中,得到识别结果。

所述特征提取模块使用MobilenetV3网络,将第5个步长为2的下采样bneck模块替换为步长为1、卷积核大小为5×5的bneck模块。

所述ASSP模块参照Deeplabv3网络中ASSP模块设计,将其中三个空洞卷积的扩张率更换为2、7、15。

所述特征融合模块首先将输入进行2倍上采样,之后与特征提取模块中对应分辨率的低级特征图进行通道相连,将得到的256通道的特征图通过通道自注意力机制获得256个权重值,将权重值与与256通道的特征图对应相乘,获得输出特征图。

所述通道自注意力机制首先将输入特征图分别进行全局平局池化与全局最大池化,分别获得256个尺寸为1×1的特征,之后将两组特征分别先后经过第一次1×1卷积、ReLu激活函数和第二次1×1卷积,第一个1×1卷积输入特征通道数为256,输出特征通道数为64,第二个1×1卷积输入特征通道数为64,输出特征通道数为256,然后将两组特征相加融合,最后经过sigmoid函数激活后与输入特征相乘。

所述Laplace二阶微分特征提取模块使用Laplace卷积核对输入图像的3通道分别卷积得到三通道特征图,将得到的三通道特征取绝对值后相加,得到二阶微分特征。

所述特征细化提取模块具有3层,卷积核的个数分别为16,64,128,Laplace二阶微分特征提取模块得到的特征图先通过16个7×7的卷积核获得16个特征图,16个特征图再分别通过4个5×5的卷积核获得64个特征图,64个特征图分别通过2个3×3的卷积核获得128个特征图。

所述卷积块注意力模块包括通道自注意力机制和空间自注意力机制。

所述通道自注意力机制首先将输入特征图分别进行全局平局池化与全局最大池化,分别获得128个尺寸为1×1的特征,之后将两组特征分别先后经过第一次1×1卷积、ReLu激活函数和第二次1×1卷积,第一个1×1卷积输入特征通道数为128,输出特征通道数为32,第二个1×1卷积输入特征通道数为32,输出特征通道数为128,然后将两组特征相加融合,最后经过sigmoid函数激活后与输入特征相乘。

所述空间自注意力机制首先将输入特征图在通道维度分别进行全局平局池化与全局最大池化,将获得的两个特征图在通道维度相连,之后通过7×7的卷积获得一个空间约束特征。

本发明能够主要通过特征融合模块和特征细化提取模块降低图像计算的复杂度,进而提高推理速度,同时还具有较好的较好的分割准确率,进而使该模型具有分割准确率的同时提高图像的推理速度。

附图说明

本发明可以通过附图给出的非限定性实施例进一步说明。

图1为本发明一种基于Laplace特征约束的双分支非对称实时语义分割算法的总体结构示意图;

图2为本发明一种基于Laplace特征约束的双分支非对称实时语义分割算法的特征融合模块示意图;

图3为本发明一种基于Laplace特征约束的双分支非对称实时语义分割算法的特征细化提取模块示意图;

图4为本发明一种基于Laplace特征约束的双分支非对称实时语义分割算法的卷积块注意力模块示意图;

图5为本发明一种基于Laplace特征约束的双分支非对称实时语义分割算法与其他算法的对比示意图。

具体实施方式

为了使本领域的技术人员可以更好地理解本发明,下面结合附图和实施例对本发明技术方案进一步说明。

如图1-5所示,本发明的一种基于双分支非对称结构的语义分割算法,

首先搜素与待识别图像M相关的数据集S,然后建立基于双分支非对称结构神经网络架构,将图像进行图像处理模块、特征提取模块、ASSP模块、特征融合模块、Laplace二阶微分特征提取模块、特征细化提取模块和卷积块注意力模块;

通过搭建的神经网络模型框架训练神经网络模型包括:

1、使用MobilenetV3网络,将第5个步长为2的下采样bneck模块替换为步长为1、卷积核大小为5×5的bneck模块去将数据进行特征提取得特征图。

2、参照Deeplabv3网络中ASSP模块设计对数据进行处理,将其中三个空洞卷积的扩张率更换为2、7、15。

3、首先将输入数据进行2倍上采样,之后与特征提取模块中对应分辨率的低级特征图进行通道相连,将得到的256通道的特征图通过通道自注意力机制获得256个权重值,将权重值与与256通道的特征图对应相乘,获得输出特征图。

此时通道自注意力机制首先将输入特征图分别进行全局平局池化与全局最大池化,分别获得256个尺寸为1×1的特征,之后将两组特征分别先后经过第一次1×1卷积、ReLu激活函数和第二次1×1卷积,第一个1×1卷积输入特征通道数为256,输出特征通道数为64,第二个1×1卷积输入特征通道数为64,输出特征通道数为256,然后将两组特征相加融合,最后经过sigmoid函数激活后与输入特征相乘。

4、使用Laplace卷积核对输入图像的3通道分别卷积得到三通道特征图,将得到的三通道特征取绝对值后相加,得到二阶微分特征。

5、将数据输入到3层卷积核个数分别为16、64、128的特征细化提取模块中,将Laplace二阶微分特征提取模块得到的特征图先通过16个7×7的卷积核获得16个特征图,16个特征图再分别通过4个5×5的卷积核获得64个特征图,64个特征图分别通过2个3×3的卷积核获得128个特征图。

6、将数据进行卷积块注意力模块中进行处理,卷积块注意力模块包括通道自注意力机制和空间自注意力机制;

其中通道自注意力机制首先将输入特征图分别进行全局平局池化与全局最大池化,分别获得128个尺寸为1×1的特征,之后将两组特征分别先后经过第一次1×1卷积、ReLu激活函数和第二次1×1卷积,第一个1×1卷积输入特征通道数为128,输出特征通道数为32,第二个1×1卷积输入特征通道数为32,输出特征通道数为128,然后将两组特征相加融合,最后经过sigmoid函数激活后与输入特征相乘;

而空间自注意力机制首先将输入特征图在通道维度分别进行全局平局池化与全局最大池化,将获得的两个特征图在通道维度相连,之后通过7×7的卷积获得一个空间约束特征。

最后将待识别的图像M输入到训练完成的神经网络模型进行识别,得到识别结果。

在训练神经网络模型中选择Camvid数据集,划分成训练数据集、验证数据集、测试数据集,训练神经网络模型,进行道路场景图像语义分割。

关于激活函数,本发明使用ReLu作为激活函数,这是由于ReLu激活函数本身的一些优点,包括:

采用sigmoid等函数,算激活函数时(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相对大,而采用Relu激活函数,整个过程的计算量节省很多。

对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况,ReLu能有效解决这个问题。

ReLu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。

本文使用Adam(Kingma&Ba,2014)优化器和SGD优化器相结合训练所有的模型,使用“poly”学习率更新策略,在每一步之后将学习率乘以

将图像以0.5-2的倍率进行缩放,之后将图像以0.5的概率随机水平翻转,再使用均值=[0.485,0.456,0.406]和方差=[0.229,0.224,0.225]对图像进行归一化,最后根据不同的数据集S将图像进行随机裁剪;使用加权交叉熵损失来训练网络,将行人、路灯等难分割的语义赋予较大的权重。

本文在CUDA 11.6进行所有实验。该平台是Windows 10,具有Inter(R)Core(TM)i7-1170KF CPU@3.60GHz CPU和一个NVIDIA GeForce RTX3070 GPU。

上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

相关技术
  • 一种基于非对称空间特征卷积的实时语义分割方法
  • 一种基于双分支特征融合的遥感图像语义分割方法
技术分类

06120116381342