掌桥专利:专业的专利平台
掌桥专利
首页

基于边缘信息自适应特征融合网络的伪装目标检测方法

文献发布时间:2024-05-31 01:29:11


基于边缘信息自适应特征融合网络的伪装目标检测方法

技术领域

本发明属于伪装目标检测技术领域,具体涉及一种基于边缘信息自适应特征融合网络的伪装目标检测方法。

背景技术

伪装目标检测COD(Camouflaged Object Detection)旨在识别和分割“完美”融入周围环境的伪装目标,它的挑战性在于伪装目标的形状、纹理、颜色等与背景高度相似,且其边缘与周围环境的区分度极其有限。COD技术具有广泛应用前景,例如息肉分割、病虫害检测、图案设计和工业缺陷检测等。

近年来,由于深度学习的快速发展和大规模COD数据集(如COD10K)的出现,研究人员提出了许多基于深度学习的伪装目标检测方法。虽然这些方法的性能远超传统方法,取得了显著的进展,但是它们主要依赖于卷积神经网络(CNN),无法对远程依赖关系建模,当遇到复杂场景时,COD性能较差。与CNN相比,transformer能够有效地利用自注意力机制对远程依赖关系建模。因此,为了克服基于CNN模型的上述缺点,研究人员尝试将transformer引入COD任务,都取得了良好的性能。然而,无论是基于CNN的方法还是基于transformer的方法仍然难以应对诸如遮挡、边缘细节丰富、多个目标等更具挑战性的场景,提供不完整或不准确的目标区域预测。现有COD方法的性能有待进一步提升。

有研究表明通过模仿人类视觉行为来设计模型,有助于提升伪装目标检测COD的结果,即先从复杂环境中定位目标,然后聚焦于定位区域,从而更好地将伪装目标与背景区分开来。复杂环境中搜索伪装目标时,上下文信息起着一个重要的角色。最近,一些方法采用不同大小的子采样层或者不同膨胀率的膨胀卷积来丰富上下文信息。然而,这些方法容易造成细节信息的丢失,并且这些信息难以恢复。定位伪装目标需要聚合多个特征来生成粗略的定位图。聚合多个特征时,有的方法使用跳跃连接方式,它减少了计算复杂度,但是相邻层特征之间交互不充分。识别伪装目标时,有效地融合编码器和解码器的特征可以在不增加额外线索的情况下提高识别性能。然而一些方法将编码器与解码器的特征以通道连接,相加或相乘的方式直接融合,忽略了不同层次特征的特点和贡献。

发明内容

为解决现有技术的不足,实现多层特征聚合时的交互充分,避免丰富上下文信息时的细节信息丢失,避免编、解码器特征融合时忽略不同层次特征的特点和贡献,提升复杂场景中伪装目标检测准确性的目的,本发明采用如下的技术方案:

一种基于边缘信息自适应特征融合网络的伪装目标检测方法,包括如下步骤:

步骤1,获取伪装目标图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集;

步骤2,构建基于边缘信息自适应特征融合网络,网络包括PVTv2骨干网、多尺度上下文特征增强模块MCFE、多层交互解码器MID和自适应特征融合模块AFF,网络执行过程包括如下步骤:

步骤2.1,利用预训练好的PVTv2骨干网,从输入的图像数据中提取多层不同尺度的特征f

步骤2.2,对每层提取的特征,利用多尺度上下文特征增强模块MCFE,提高骨干网每个层表征多尺度上下文信息的能力,并使用混合注意力机制突出对伪装目标响应高的区域,得到优化后的侯选特征f′

步骤2.3,利用多层交互解码器MID根据候选特征f′

步骤2.4,使用自适应特征融合模块AFF,以级联的方式自适应地融合当前层的所述候选特征和上一层自适应特征融合模块的输出,并利用位置信息M,进一步优化融合特征,得到包含位置信息的特征A

步骤2.5,根据各层包含位置信息的特征A

步骤3,基于伪装目标图像数据中的训练集,对基于边缘信息自适应特征融合网络进行训练,得到训练完成后的伪装目标检测模型;

步骤4,通过训练完成后的伪装目标检测模型,对待检测的伪装目标图像进行检测。

进一步地,所述步骤2.2中的多尺度上下文特征增强模块MCFE,为单层提取的特征构建多个分支,每个分支包含依次连接的输入卷积层、不同数量的卷积层和最大池化层、一组并联的膨胀卷积和不对称卷积、连接层、输出卷积层,后一分支在卷积层和最大池化层前融入前一分支的输出,且每个分支的卷积层和最大池化层数量与分支数量配合设置,随串联分支的增加而递减,最后一个分支的输出经通道注意力模块和空间注意力模块后,得到优化后的侯选特征;

输入卷积层用于压缩通道大小,减少计算量,卷积层和最大池化层用于将单层特征放缩到不同尺度,从而对不同尺度的上下文信息进行建模,膨胀卷积和不对称卷积用于同时增强感受野,以丰富上下文信息,前一分支特征的融入通过一个卷积调整融合特征的通道数,特征的融合用于恢复连续使用最大池化层、膨胀卷积和不对称卷积丢失的细节信息,同时保持丰富的多尺度上下文信息,通道注意力模块和空间注意力模块用于突出对伪装目标响应高的区域和通道。

进一步地,第一分支对压缩特征f

其中,P

第二分支首先使用通道连接将

其中,

在后续分支中,逐分支减少最大池化层的数量并继续集成高分辨率的输入特征,得到最后一个分支的输出特征。

进一步地,最后一个分支的输出经通道注意力模块后与自身主元素相乘,再将得到的结果经空间注意力模块后与得到的结果自身主元素相乘,最终得到优化后的候选特征。

进一步地,所述步骤2.3中的多层交互解码器MID对候选特征进行如下操作:

其中,

进一步地,所述步骤2.4中,为自下而上的PVTv2骨干网各层设置自适应特征融合模块AFF,以获取当前层的候选特征与上一层自适应特征融合模块AFF的输出特征,其中顶层的上一层自适应特征融合模块AFF的输出用当前层的候选特征代替,对两个特征分别进行平滑操作,并将得到平滑特征S

进一步地,所述特征组合表达式如下:

S

f

其中,f′

所述融合特征的表达式如下:

其中,(i,j)表示两个特征映射的位置,f

进一步地,所述权重W

g

其中,f

进一步地,所述位置信息的注入采用条件归一化方法,表达式如下:

其中,f

进一步地,所述步骤3的训练过程中,构建一组监督损失,分别对应粗定位图P

其中,G

其中,

本发明的优势和有益效果在于:

本发明通过使用多尺度上下文特征增强MCFE模块,提高每个特征层对多尺度上下文信息建模的能力,并强调突出对伪装目标响应突出的区域和通道,解决了丰富上下文信息时容易丢失细节信息的问题;通过使用多层交互解码器MID模块聚合多层特征,生成定位图,解决了聚合多层特征时相邻层特征交互不充分的问题;通过使用自适应特征融合AFF模块,自适应融合来自编码器和解码器特征,解决了融合编码器和解码器特征时忽略不同层次特征的特点和贡献的问题;所提出的网络能够有效解决复杂场景下伪装目标检测性能差的问题,提供更加准确的检测结果。

附图说明

图1是本发明实施例的方法中基于边缘信息自适应特征融合网络的结构示意图。

图2是本发明实施例的方法中多尺度上下文特征增强模块的结构示意图。

图3是本发明实施例的方法中多层交互解码器的结构示意图。

图4是本发明实施例的方法中自适应特征融合模块的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

一种基于边缘信息自适应特征融合网络的伪装目标检测方法,应用搜索-定位-识别的策略,先从图中搜索可能存在伪装目标的区域,然后粗略地定位目标,最后聚焦于定位区域,实现复杂场景中伪装目标的准确检测,具体包括如下步骤:

步骤1,获取伪装目标图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集。

在本发明实施例中,使用4个基准COD数据集(包括CHAMELEON、CAMO、COD10K和NC4K数据集)作为图像数据。COD10K数据集包含3040张训练图像和2026张测试图像。CAMO数据集包含1000张训练图像和250张测试图像。CHAMELEON数据集有76张测试图像。NC4K数据集包含4121张测试图像。本示例中的训练集由COD10K和CAMO的训练图像组成,测试集则由COD10K、CAMO、CHAMELEON和NC4K的测试图像组成。将所有测试集和训练集的图像大小调整至352×352。对数据增强,采用多尺度输入图像。

步骤2,构建基于边缘信息自适应特征融合网络,如图1所示,网络包括PVTv2骨干网络、4个多尺度上下文特征增强模块(MCFE)、多层交互解码器(MID)和4个自适应特征融合模块AFF,网络执行过程包括如下步骤:

步骤2.1,利用预训练好的PVTv2骨干网络从输入图片中提取四层不同尺度的特征f

具体地,PVTv2骨干网络采用金字塔结构,从下到上提取四层不同尺度的包含目标信息的特征f

步骤2.2,利用四个多尺度上下文特征增强模块(MCFE)提高骨干网络每个层表征多尺度上下文信息的能力,并使用混合注意力机制突出对伪装目标响应高的区域,得到对应的优化后的侯选特征f′

具体地,PVTv2骨干网络提取每层特征f

如图2所示,多尺度上下文特征增强模块MCFE在优化PVTv2骨干网络单层的特征时,将PVTv2单层的输入复制4份,形成四个分支,每个分支主要包含以下内容:(1)一个1×1的卷积层,用来压缩通道大小,减少计算量;给定输入特征f,则压缩后的特征为{f

第一分支对压缩特征f

其中,P

第二分支首先使用通道连接将

其中,

类似地,在第三和第四分支中,逐分支减少最大池化层的数量并继续集成高分辨率的输入特征,得到输出特征

其中,CA和SA分别表示通道和空间注意力机制,

步骤2.3,利用多层交互解码器(MID)根据候选特征f

其中,

步骤2.4,使用四个自适应特征融合模块AFF,以级联的方式自适应地融合当前层的候选特征和上一层解码器(AFF模块)的输出,并利用位置信息M,进一步优化融合特征,得到各阶段AFF模块的输出A

具体地,如图1所示,第k个(k∈{1,2,3,4})AFF模块有两种输入特征,即当前阶段MCFE模块获得的特征(记为f

S

f

g

其中,C

最后,使用条件批归一化方法,将位置信息M注入到经过处理后的融合特征f

其中,C

步骤2.5,将A

具体地,如图1所示,将A

步骤3,利用图像数据训练集对基于边缘信息自适应特征融合网络进行训练,得到训练完成后的伪装目标检测模型。

在本发明实施例中,在步骤3的训练过程中,网络总共有5个监督损失,分别对应粗定位图P

其中,G

其中,

步骤4,采集待检测的伪装目标图像,对待检测的图像进行预处理,然后输入到训练完成后的伪装目标检测模型中,生成当前检测图像的检测结果。

为进一步验证本发明构建的伪装目标模型的有效性和检测性能的优越性,利用以下示例进行说明。本例使用Pytorch框架实现本发明构建的伪装目标模型,使用标准的Adam算法来对网络的参数进行更新,并在RTX 4090GPU上进行训练。训练前,将所有输入图像的大小都调整为352×352。对数据增强,采用多尺度输入图像。骨干网络PVTv2的参数采用ImageNet1k预训练模型的权重来初始化,其他层的参数随机初始化。在训练阶段,Epoch设置为150,批大小设置为8,学习率从5e-5开始,每50个epoch除以10。

对模型进行多轮训练,将表现最好的一轮模型参数保存。随后将保存的最好参数加载到模型中,然后将测试集数据输入到模型中,训练好的伪装目标检测模型能够较为准确地检测出伪装目标。表1展示了本发明构建的伪装目标检测模型与主流模型在测试集上的平均结果,表明本发明构建的伪装目标检测模型平均性能优于目前的主流模型。具体而言,与最近的基于ResNet50方法(即CINet和FEDER)相比,本发明构建的伪装目标检测模型在测试集上的平均S

表1本发明构建的伪装目标检测模型和主流模型在测试集上的平均结果

注:-表示数据不可得;↑表示数值越高性能越好;↓表示数值越低性能越好。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

相关技术
  • 基于多尺度跨层特征融合网络的伪装目标检测算法
  • 一种基于特征融合和注意力机制的伪装目标检测方法
技术分类

06120116623864