掌桥专利:专业的专利平台
掌桥专利
首页

一种基于图像边缘监督的语义分割算法

文献发布时间:2023-06-19 19:38:38



技术领域

本发明属于图像识别领域,具体涉及一种基于图像边缘监督的语义分割算法,用于实现图像识别任务中的目标分割。

背景技术

从卷积神经网络的网络结构中可知,随着网络不断地进行卷积和池化,神经网络的语义表征能力在不断地增强的同时,也在损失越来越多的图像特征信息。由于语义分割本质上实现的是像素级别的分类任务,这些损失的图像特征信息对于语义分割任务而言是非常重要的。近年来,为减少图像信息的损失,许多语义分割算法在基础的神经网络上做了改进。

由于语义分割任务要求输出图像的分辨率大小跟输入图像一致,本质上是实现像素级的分类任务,这导致用于实现目标检测或者分类的神经网络无法应用在语义分割任务上。2014 年FCN网络的提出,首次将端到端的卷积神经网络应用到了语义分割中。FCN网络将传统用于分类的神经网络的全连接层改成了全卷积层,来保留特征的空间信息,然后再利用上采样恢复图像的分辨率,使得输出图像的分辨率大小跟输入图像一致。然而FCN网络对池化层造成的信息损失没有进行处理,使得最后得到的分割结果图很粗糙。

为了解决FCN网络的问题,2015年Olaf等人提出了U-Net网络。U-Net网络在继承FCN 的基础上提出了完全对称的编解码模型,以恢复图像损失的信息。U-Net网络的下采样和上采样过程是完全对称的,构成了一个U形的结构。U-Net网络同一层级的下采样和上采样之间进行了对应图像通道的合并,以此来联合高层语义信息和低层的细粒度表层信息,这种连接方式减少了图像下采样造成的信息损失,提升了分割的准确率。然而U-Net算法的缺陷在于,其跨层连接方式并不能很好地融合高层语义信息和低层的细粒度表层信息,粗糙的融合方式带来了较大的噪声。

空洞卷积是减少网络下采样过程中造成的图像信息损失的另一种有效方法。2016年, Fisher Yu等人提出了空洞卷积,以替换卷积网络中的池化层。空洞卷积一方面可以通过在卷积核中填充0来扩大感受野,同时可以通过在卷积核中填充不同数量的0值来获得多尺度信息。然而引入空洞卷积也会带来新的问题。一方面,空洞卷积会产生网格效应,当多次叠加的空洞卷积具有相同的扩张率时,会使得特征图中的部分特征不会参与卷积运算,相当于会损失掉一部分图像特征,这对于语义分割这种像素级别的分类任务而言难以接受。另一方面,从空洞卷积的设计可知,空洞卷积会造成图像特征在空间信息上的不连续。虽然空洞卷积能够保证在参数不变的情况下带来更大的感受野,但是对于不需要大感受野的小物体而言,这种空间上的不连续以及信息损失是非常不利的。

图像的大部分信息都存在于图像的边缘中,图像边缘是图像最基本也最重要的特征之一。在识别目标的时候,人类的视觉系统首先利用图像边缘来分离出目标和背景,然后视觉系统才能感知到图像的细节。由此可见,图像边缘对于物体识别任务的非常重要。

由于神经网络需要通过下采样来提升感受野和减小计算损耗,图像信息的损失不可避免,然而语义分割任务对于信息损失非常敏感,尽量减少图像信息的损失有利于提高算法的分割准确率。若能先单独提取出图像的边缘信息,然后在网络完成下采样后,再融合提取出的图像边缘信息,就能在一定程度上弥补网络在下采样过程中损失的图像信息,从而提升网络的语义分割效果。

综上所述,设计一种基于图像边缘监督的语义分割算法具有必要性。

发明内容

本发明目的在于针对上述现有语义分割算法的不足,以及现有基于神经网络算法无法很好地弥补下采样造成的信息损失的问题,提供了一种弥补图像信息损失新方法——基于图像边缘监督的语义分割算法,实现对图片中的待检测目标的精准分割,并且对大目标的分割能够具有更好的完整性,以及能够实现对图片中小目标的精准识别,避免在图像识别中忽略小目标。

本发明采用的技术方案包括以下步骤:

步骤1、获取某一待识别的图片,基于现有图像梯度算子f,使用算子f提取待识别图片的图像梯度,由此得到待识别图片的边缘轮廓图。

步骤2、根据生成的边缘轮廓图,构造待识别图片的边缘轮廓图片数据集。

步骤3、构造语义分割数据集,并给数据集中的图片打上标签。

步骤4、往语义分割网络中输入一张三通道的待识别图片。

步骤5、由于提取图像边缘对于神经网络易于实现,基于现有的神经网络算法,提出一种新的图像边缘提取算法EdgeUNet,利用待识别图片的边缘轮廓图作为目标图片,提取出待识别图片中的边缘信息。

步骤6、使用图像特征提取网络ResNet-50实现对待识别图片的高级语义信息提取。

步骤7、利用双线性插值的方法对提取出的高级语义信息进行上采样,以恢复图片的分辨率。

步骤7.1、对特征进行上采样的过程中,利用跨层连接的方法融合语义分割网络中的底层细粒度信息,和高级语义信息,以及通过EdgeUNet提取出的待识别图片中的边缘信息。

步骤7.2、总共会进行五次的上采样,每次上采样之后都会进行特征融合。

步骤8、生成分辨率大小和输入图片一样的结果图,并利用损失函数Dice Loss计算结果图和目标图的差异,并将误差返回网络中,利用反向传播算法调整神经网络的参数,最终语义分割网络能正确分割出待识别图片中的目标。

本发明的积极效果

(1)本发明利用Sobel算子获得待识别图片的边缘轮廓图,并提出了一种新的算法来提取图像边缘信息,可以有效地提取出图像中的边缘信息。

(2)本发明利用提取出的图像边缘信息,可以有效地弥补神经网络由于下采样而造成的图像信息损失。

(3)本发明提出的基于图像边缘监督的语义分割算法,可以有效地解决语义分割算法对目标分割的整体性不足的问题,且可以精准地识别出图片中的小目标,解决了现有算法对小目标识别不佳的问题。

附图说明

图1是EdgeUNet算法的算法框架;

图2是基于图像边缘监督的语义分割算法框架图。

具体实施方式

现有的基于神经网络的语义分割算法,大多数都是通过跨层连接或者空洞卷积,来解决神经网络由于下采样而造成的图像信息损失问题。跨层连接确实能一定程度上弥补损失的图像信息,然而其特征融合方式太粗糙,会给网络带来较大的噪声,影响最终的分割效果。引入空洞卷积也会带来新的问题。一方面,空洞卷积会产生网格效应,当多次叠加的空洞卷积具有相同的扩张率时,会使得特征图中的部分特征不会参与卷积运算,相当于会损失掉一部分图像特征,这对于语义分割这种像素级别的分类任务而言难以接受。另一方面,从空洞卷积的设计可知,空洞卷积会造成图像特征在空间信息上的不连续。虽然空洞卷积能够保证在参数不变的情况下带来更大的感受野,但是对于不需要大感受野的小物体而言,这种空间上的不连续以及信息损失是非常不利的。

图像的大部分信息都存在于图像的边缘中,图像边缘是图像最基本也最重要的特征之一。在识别目标的时候,人类的视觉系统首先利用图像边缘来分离出目标和背景,然后视觉系统才能感知到图像的细节。由此可见,图像边缘对于物体识别任务的非常重要。

由于神经网络需要通过下采样来提升感受野和减小计算损耗,图像信息的损失不可避免,然而语义分割任务对于信息损失非常敏感,尽量减少图像信息的损失有利于提高算法的分割准确率。若能先单独提取出图像的边缘信息,然后在网络完成下采样后,再融合提取出的图像边缘信息,就能在一定程度上弥补网络在下采样过程中损失的图像信息,从而提升网络的语义分割效果。在上述思想的指导下,本研究提出了一种基于图像边缘监督的语义分割算法,该算法利用图像的边缘信息来弥补网络在下采样过程中损失的图像信息。

本发明改进了传统的基于神经网络的语义分割算法算法,并结合了传统的图像梯度算子,在精准实现语义分割任务的同时,达到了更高的准确性,对小目标的识别效果也更好。本发明的一种基于图像边缘监督的语义分割算法,具体过程如下:

步骤1、获取某一待识别的图片,基于现有图像梯度算子f,使用算子f提取待识别图片的图像梯度,由此得到待识别图片的边缘轮廓图。

步骤2、根据生成的边缘轮廓图,构造待识别图片的边缘轮廓图片数据集。

步骤3、构造语义分割数据集,并给数据集中的图片打上标签。

步骤4、往语义分割中输入一张三通道的待识别图片。

步骤5、由于提取图像边缘对于神经网络易于实现,基于现有的神经网络算法,提出一种新的图像边缘提取算法EdgeUNet,利用待识别图片的边缘轮廓图作为目标图片,提取出待识别图片中的边缘信息。

步骤6、使用图像特征提取网络ResNet-50实现对待识别图片的高级语义信息提取。

步骤7、利用双线性插值的方法对提取出的高级语义信息进行上采样,以恢复图片的分辨率。

步骤7.1、对特征进行上采样的过程中,利用跨层连接的方法融合语义分割网络中的底层细粒度信息,和高级语义信息,以及通过EdgeUNet提取出的待识别图片中的边缘信息。

步骤7.2、总共会进行五次的上采样,每次上采样之后都会进行特征融合。

步骤8、生成分辨率大小和输入图片一样的结果图,并利用损失函数Dice Loss计算结果图和目标图的差异,并将误差返回网络中,利用反向传播算法调整神经网络的参数,最终语义分割网络能正确分割出待识别图片中的目标。

技术分类

06120115982249