掌桥专利:专业的专利平台
掌桥专利
首页

一种基于双边注意力机制的复杂背景下目标检测方法

文献发布时间:2023-06-19 15:47:50



技术领域

本发明涉及一种基于双边注意力机制的复杂背景下的目标检测方法,适用于计算机视觉中复杂背景下的目标检测技术领域。

背景技术

图像和视频是人类获取信息的重要来源,因此利用计算机针对海量图像和视频进行分析处理的应用也得到了大力发展。目标检测作为计算机视觉领域的基本任务之一,是帮助计算机理解图像数据的重要手段,在行人检测、车辆检测、自动驾驶、安防系统和医疗等领域都有着广泛的应用前景。

得益于深度学习技术的发展,目标检测在最近几年吸引了广泛的注意力,并取得了巨大的成功,一大批高效的检测算法被提出。现有的基于卷积神经网络(ConvolutionNeural Networks,CNN)的目标检测算法主要分为两大类:单阶段检测算法和两阶段检测算法。单阶段检测算法的代表性算法有YOLO和SSD,两阶段算法的代表性算法有Faster R-CNN和Cascade R-CNN。当前的通用目标检测已经取得了长足的发展,能够达到较高的检测准确率,但是由于现实中的场景的复杂性,以及目标的伪装色和遮挡情况对高精度检测带来了很大的挑战。一些应用领域例如医疗、农业、海洋、军事等采集到的图像数据中,背景的复杂程度往往较高。由于光照强度、色彩复杂度以及物体本身的伪装颜色等因素,待检测目标往往与周围环境融为一体,前景与背景之前的差距极小,物体的边缘难以区分,导致通用的目标检测算法无法直接应用。因此开展复杂背景下的目标检测算法的研究具有重要的意义。

发明内容

针对现有复杂背景下的目标检测算法检测精确度不足的问题,本发明在当前算法SINet的基础上,提出了一种基于双边注意力机制的复杂背景下的目标检测方法,被命名为Bi-SINet。本发明中的Bi-SINet网络模型采用渐进式的检测框架,由粗到细地对待检测目标进行推理检测。同时,利用双边注意力来提高特征融合的效率。训练好的Bi-SINet网络模型的检测性能优于Bi-SINet模型,在降低平均绝对误差(Mean Absolute Error,MAE)的同时,提高了检测结果的增强-对齐指标(Enhanced-alignment Measure,EM)、结构指标(Structure Measure,SM)和加权的F指标(Weighted F Measure,WFM),说明本发明有效提高了复杂背景下的目标检测精度。

为了实现上述目的,本发明提供如下技术方案:

一种基于双边注意力机制的复杂背景下的目标检测方法,其特征在于,包括如下步骤:

步骤S1:根据公开的复杂背景下的目标检测数据集,构建训练集、验证集和测试集;

步骤S2:构建基于双边注意力机制的Bi-SINet网络模型,利用所构建的训练集对Bi-SINet网络模型进行监督训练,直到模型收敛到最优性能;

步骤S3:将待检测图像输入步骤S2得到的收敛的Bi-SINet网络模型进行前向运算,即可得到检测结果。将收敛的Bi-SINet网络模型在所构建的测试集上进行检测,根据检测结果评估模型性能。

进一步地,所述步骤S1具体包括:

步骤S101:获取公开的复杂背景下的目标检测数据集,包含COD10K数据集、CAMO数据集和CHAMELEON数据集;

步骤S102:所构建的训练集4040对图像标签对,所构建的验证集包含101对图像标签对,所构建的测试集包含2352对图像标签对。

进一步地,所述步骤S2具体包括:

步骤S203:在训练阶段,采用交叉熵损失函数和交并比损失函数对模型输出的5个检测结果进行监督训练,总体损失函数可以用L

其中,

其中,H表示图像高度,W表示图像宽度,

其中,A

步骤S204:在训练过程中,采用随机梯度下降优化算法对网络参数进行迭代更新,同时以多项式法对学习率进行衰减。训练过程中,间隔200次迭代使用所构建的验证集对模型性能进行验证,确保模型收敛到最优性能;

步骤S205:利用优化收敛后固定参数的Bi-SINet网络模型对输入的待检测图像进行前向计算,即可获得前景目标分割图作为检测结果。

进一步地,所述步骤S3具体包括:

步骤S301:将待检测图片归一化后,输入收敛的Bi-SINet网络模型进行检测,在输出的5个不同尺度的检测结果中,选择尺度最大的

步骤S302:根据模型的检测结果mask

其中,H表示图像高度,W表示图像宽度,mask

步骤S303:根据模型的检测结果mask

其中,H代表图像高度,W表示图像宽度,φ

步骤S304:根据模型的检测结果mask

SM=αS

其中S

步骤S305:根据模型的检测结果mask

其中P

最后,可以通过收敛的Bi-SINet网络模型进行复杂背景下的目标检测,输入待检测图像进行前向计算,输出预测的前景目标分割图作为检测结果。

本发明的有益效果是:本发明提出的Bi-SINet网络模型采用双边注意力机制模拟人脑的信号处理机制,对目标特征进行筛选和强化,从而提高特征融合的效率。渐进式的检测框架输出的多层检测结果在训练阶段增强了对模型各层特征的监督和约束能力,同时在检测时能够由粗到细地检测复杂背景下的目标。相比于当前主要的复杂背景下的目标检测模型,本发明所提出的Bi-SINet网络模型能够实现更加精确的检测结果,同时有效缓解误检和漏检的现象,具体体现在:检测结果的平均绝对误差MAE显著降低,同时结构指标SM、增强-对齐指标EM和加权的F指标WFM也有显著提高。

附图说明

图1为实施例1中基于双边注意力机制的复杂背景下的目标检测方法的流程图。

图2为实施例1中Bi-SINet网络模型结构图。

图3为实施例1中基于双边注意力的特征融合模块结构图。

图4为实施例1中双边注意力机制的内部结构图。

图5为实施例1中Bi-SINet网络训练与预测流程图。

图6为实施例1中本发明方法与当前主要方法检测性能在评估指标上的对比。

图7为实施例1中本发明方法与当前主要方法检测性能在图像效果上的对比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

参见图1-图5,本实施提供一种基于双边注意力机制的复杂背景下目标检测方法。

具体的说,参见图1,本方法具体包括:

步骤S1:获取公开的复杂背景下的目标检测数据集,包括:COD10K数据集、CAMO数据集和CHAMELEON数据集,据此构建训练集、验证集和测试集;

更具体的说,所构建的训练集包含COD10K数据集中的3040对图像数据对和CAMO对数据集中的100对图像数据对,共4040条数据;所构建的验证集包含COD10K数据集中的101对图像数据对;所构建的测试集包含COD10K中的2026对图像数据对、CAMO数据集中的250对图像数据对和CHAMELEON数据集中的76对图像数据对,共2352条数据。

步骤S2:构建基于双边注意力机制的Bi-SINet网络模型。

更具体的说,所构建的Bi-SINet网络模型的具体结构如图2所示,Bi-SINet网络模型主要由特征提取器和渐进式的检测框架组成。其中特征提取器采用ResNet-50网络,特征提取器输出4层不同尺度的特征到渐进式的检测框架中进行检测。如图2所示,渐进式的检测框架主要由感受野增强模块、基于双边注意力的特征融合模块和检测模块组成。

a)感受野增强模块包含4重不同感受野尺度的卷积分支和一个残差连接分支,每个感受野分支使用两层卷积层和一层膨胀卷积层模拟不同尺度的感受野,经过不同感受野分支增强后的特征通过拼接和卷积的方式进行融合。

b)基于双边注意力的特征融合模块中包含双边注意力机制,辅助高层特征与本层特征的融合。其主要结构如图3所示,对于第k层(k=1,2,3)的特征融合,高层增强特征f

c)检测模块的主要结构是一个小型的Unet网络,在编码阶段和解码阶段分别只进行一次下采样和上采样。

更具体的说,双边注意力机制的内部结构如图4所示,其主要组成部分为值注意力和距离注意力两个分支。输入特征分别在两个注意力分支上完成编码,编码后的特征经过特征拼接和卷积操作后输出。其中,在计算某像素点特征的值注意力编码时,需要综合考虑当前像素点特征与周围像素点特征在值方面的相关性,用特征的点积运算来衡量。其计算表达式如下所示:

其中,

在计算某像素点特征的距离注意力编码时,需要考虑当前像素点为中心,周围像素点特征与当前像素店特征在距离方面的相关性,利用欧几里得距离和高斯分布函数来刻画。距离注意力编码过程可以用下式表示:

其中,

其中,d表示两像素点之间的欧几里得距离,α

步骤S3:在Pytorch深度学习框架上,利用所构建的训练集对Bi-SINet网络模型进行监督训练,每隔一定迭代次数利用验证集验证模型性能,直到模型收敛到最优性能;

更具体的说,Bi-SINet网络模型的训练和预测流程如图3所示,包括:

步骤S301:对训练数据进行预处理,首先利用双线性插值法将原始图像及对应的真实标签的大小修改为384×384,随后进行随机放缩、随机旋转等图像数据增强处理,最后将图像进行归一化处理后出入Bi-SINet网络模型进行训练;

步骤S302:Bi-SINet网络模型对输入图像进行特征提取,随后将提取到的多层特征输入渐进式的检测框架中进行检测。渐进式的检测框架会基于每层特征进行前景目标分割,共输出5个不同尺度的检测结果用于多层监督训练,用

步骤S303:在训练阶段,采用交叉熵损失函数和交并比损失函数对模型输出的5个检测结果进行监督训练,总体损失函数可以用L

其中,

其中,H表示图像高度,W表示图像宽度,

其中,A

步骤S304:在训练过程中,采用SGD优化器对网络参数进行迭代更新,同时以多项式法对学习率进行衰减。训练过程中,间隔一定迭代次数使用所构建的验证集对模型性能进行验证,确保模型收敛到最优性能;

步骤S305:利用收敛后固定参数的Bi-SINet网络模型对输入的待检测图像进行前向计算,即可获得前景目标分割图作为检测结果。

需要说明的是,本实施例提供的Bi-SINet网络模型并不局限于Pytorch深度学习框架,只要能对所构建的训练数据集进行训练,且在训练过程中迭代若干次达到收敛,最终能够实现复杂背景下的目标检测即可。

步骤S4:将归一化后的待检测图像输入步骤S3得到的收敛的Bi-SINet网络模型进行前向运算,得到检测结果。将收敛的Bi-SINet网络模型在所构建的测试集上进行检测,根据检测结果评估模型性能。

更具体的说,将待检测图片归一化后,输入收敛的Bi-SINet网络模型进行检测,在输出的5个不同尺度的检测结果中,选择尺度最大的

1)根据模型的检测结果mask

其中,H表示图像高度,W表示图像宽度,mask

2)根据模型的检测结果mask

其中,H代表图像高度,W表示图像宽度,φ

3)根据模型的检测结果mask

SM=αS

其中S

4)根据模型的检测结果mask

其中P

需要说明的是,平均绝对误差M越小,结构指标S、增强-对齐指标E和加权的F指标

图6展示了本发明所提出方法与SINet网络模型在所构建测试集上目标检测性能的对比。由图可知,本发明提出的Bi-SINet网络模型相比SINet模型在降低了平均绝对误差的同时,SM、EM和WFM指标均有提升,说明本发明能有效提高复杂背景下目标检测的精确度,缓解误检和漏检现象。

图7为本发明所提出方法与SINet网络模型在图像效果上的检测性能对比,从第1列图片对比可知,Bi-SINet网络模型能够在复杂背景下保证检测结果的完整性,这得益于渐进式的检测框架和由粗到细的检测过程。从第2列和第3列图片可以看出,Bi-SINet网络模型能够在前景目标部分边缘区域模糊不清的情况下,依然将待检测目标准确地与背景目标进行区分,有效提高检测结果的精确程度。由图7中第四列图片的对比可知,本发明提出的Bi-SINet网络模型能够有效避免复杂背景带来的干扰,准确地检测感兴趣目标。

本发明未详述之处,均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

技术分类

06120114582274