掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进DAB-DETR的目标检测方法及系统

文献发布时间:2024-04-18 20:02:40


一种基于改进DAB-DETR的目标检测方法及系统

技术领域

本发明涉及计算机视觉技术领域,具体而言,涉及一种基于改进DAB-DETR的目标检测方法及系统。

背景技术

目标检测是指确定目标在给定图像中的位置(目标定位)以及每个目标所属的类别(目标分类)。但是,由于同一类物体的不同实例间可能存在很大的差异性,而不同类别物体间可能非常相似,以及不同的成像条件和环境因素等会对物体的外观产生巨大的影响,使得目标检测具有很大的挑战性。

在过去的十年里,基于卷积神经网络的各种检测器,例如Faster R-CNN、YOLOv3、FCOS和YOLOX等,依赖于预先在特征网格上平铺的密集先验进行检测,在检测精度和速度方面取得了显著进展。然而,这些检测器存在一些缺点,比如复杂的结构和手工设计的组件等,这些因素阻碍了模型设计的简洁性和端到端的优化。最近,Carion等人提出了一种使用Transformer进行目标检测的范式DEtection TRansformer(DETR),它将目标检测看作一个集合预测问题,使用一组可学习的查询探寻图像中的潜在目标,并通过匈牙利匹配强制唯一的预测。DETR极大简化了检测算法的设计流程,并有效移除了非极大值抑制和锚框生成步骤,实现了端到端的检测。尽管DETR取得了令人惊异的结果,但该模型仍然存在收敛速度较慢和检测性能较低的限制。后续进一步的改进DAB-DETR将位置查询建模成锚框形式,并在Transformer解码器中逐层调整锚框,同时采用宽高调制的交叉注意力替代原有的交叉注意力,提高了收敛速度和检测精度,但仍然存在一定的局限性。

深入研究发现导致这两个限制的因素还包括两方面。一方面是使用查询作为输入的Transformer注意力模块没有很好地关注包含目标边界或目标框内部的空间范围,导致每个查询的预测框偏离了相应的空间范围。当目标附近的查询数量不足时,需要借助更多远离目标的查询来定位目标的边界,这会导致同一目标物体由多个查询重复预测。另一方面是预测的分类置信度和定位精度的相关性较弱,模型可能会产生具有较高定位精度和较高分类置信度的预测。然而,具有最高定位精度或最高分类置信度的预测可能被视为负样本,这很容易导致训练过程中的优化目标不一致。因此,有必要设计一种改进DAB-DETR的目标检测方法及系统,加快收敛速度并提高检测精度。

发明内容

针对上述技术的不足,本发明的目的在于提供一种改进DAB-DETR的目标检测方法及系统,用以解决现有技术中查询之间的冗余预测问题,以及分类置信度和定位精度之间的不对齐问题。该方法使用基本的DAB-DETR网络结构,采用了一种查询感知的区域约束缩小查询的管理范围,解决了查询之间的冗余预测问题,避免了不必要的内部冲突。此外,设计了一种位置调制的分类损失,利用定位精度监督分类置信度,鼓励模型产生分类置信度对齐定位精度的预测,解决了分类置信度和定位精度之间的不对齐问题。提出的两种设计只在训练阶段中使用,在推理阶段可以舍弃,没有增加模型的参数量和计算成本就能得到好的检测效果。

为了实现上述目的,本发明提供了一种采用查询感知的区域约束和位置调制的分类损失改进DAB-DETR的目标检测方法,包括以下步骤:

S1、构建基本的DAB-DETR网络结构;

S2、在查询对应的锚框和预测框之间采用查询感知的区域约束限制每个查询的责任区域;

S3、采用位置调制的分类损失作为改进后的DAB-DETR的分类损失函数;

S4、利用MS COCO训练集对改进后的DAB-DETR模型进行训练,将训练好的权重文件导入DAB-DETR模型并在验证集上验证。

本发明还提供了一种端到端训练的DAB-DETR目标检测系统,包括:(1)预处理模块,用于对数据集中的图像进行预处理,便于后续统一训练和检测;(2)参数配置模块,根据实际使用的硬件设备、预期要达到的检测效果与推理FPS,配置合适的模型参数,包括批次大小、优化器、学习率、训练轮数、调整学习率的训练轮数、特征提取网络等;(3)模型训练模块,在真实目标和预测之间通过最小化全局匹配成本来进行一对一标签分配,进而最小化总损失,包含位置调制的分类损失、修改后的回归损失和查询感知的区域约束损失三部分;(4)目标检测模块,利用训练好的权重文件和改进的DAB-DETR模型对MS COCO验证集进行检测得到检测结果,比较检测效果与推理FPS是否达到预期。

本发明与现有技术相比,具备以下有益效果:(1)本发明采用了位置约束和宽高比相似性约束,通过限制每个查询的责任区域,避免了查询之间不必要的内部冲突,提高了模型对不同尺度、宽高比的目标物体的鲁棒性。(2)本发明针对分类置信度和定位精度之间的不对齐问题,通过使用与定位精度相关的分类标签制约模型对分类的学习,鼓励模型产生分类置信度对齐定位精度的预测,并且使用此标签对正样本进行加权,使得模型能够关注高质量正样本的学习。(3)本发明提出的两种设计在推理阶段可以舍弃,没有引入额外的参数量和计算成本就可以得到好的检测效果。此外,可以很容易集成到现有基于DETR的模型,带来进一步的提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明专利中网络整体结构图;

图2是本发明专利中查询感知的区域约束的示意图;

图3是本发明专利中位置调制的分类损失的示意图;

图4是DAB-DETR和本发明改进后的DAB-DETR训练收敛曲线对比示意图;

图5是DAB-DETR和本发明改进后的DAB-DETR检测效果对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合说明书附图以及具体的实施方式对本发明作详细说明。

根据本申请的一个方面,提供了一种采用查询感知的区域约束和位置调制的分类损失改进DAB-DETR的目标检测方法,包含步骤S1~S4:

S1、构建基本的DAB-DETR网络结构;

S2、在查询对应的锚框和预测框之间采用查询感知的区域约束限制每个查询的责任区域;

S3、采用位置调制的分类损失作为改进后的DAB-DETR的分类损失函数;

S4、利用MS COCO训练集对改进后的DAB-DETR模型进行训练,将训练好的权重文件导入DAB-DETR模型并在验证集上验证。

在步骤S1中,构建基本的DAB-DETR网络结构,如图1所示。该检测网络包括:特征提取网络Backbone、Transformer编码器和解码器、分类预测头和回归预测头。给定一幅输入图像,DAB-DETR首先使用CNN backbone抽取深度特征。其次,CNN特征进行空间位置编码并经过Transformer编码器得到编码器特征。然后,将编码器特征和查询送入Transformer解码器,探寻图像中潜在的目标物体,并对解码器输出进行微调。最后,对于每个Transformer解码器层的输出,使用分类预测头和回归预测头得到预测集合。为了便于理解,我们在图1中绘制了查询感知的区域约束和位置调制的分类损失的具体位置。

在步骤S2中,在查询对应的锚框和预测框之间采用查询感知的区域约束限制每个查询的责任区域,如图2所示。其步骤具体为:

S201、我们在任一查询对应的锚框和预测框之间引入位置约束损失

其中,

S202、我们进一步引入宽高比相似性损失

其中,ε

我们在原有损失的基础上,增加额外的查询感知的区域约束损失

其中,λ

如图2右部所示,对于锚框,模型可能会产生中心点落在非约束区域内的预测框1和预测框2,以及中心点落在非约束区域外的预测框3,我们对超出非约束区域的预测框3给予惩罚,同时对宽高变化较小的预测框给予惩罚,迫使查询关注对应管理范围内的目标物体并提高模型对不同尺度和宽高比的目标物体的鲁棒性。

在步骤S3中,采用位置调制的分类损失作为改进后的DAB-DETR的分类损失函数,如图3所示。其步骤具体为:

S301、我们根据真实框和匹配的预测框的IoU值,即定位精度,将其作为分类标签,并对正负样本采用不对称加权。具体而言,在分类损失中,对于负样本,我们保持损失计算不变;而对于正样本,使用定位精度对其进行加权。最终的分类损失可以表示为:

其中,u

如图3右部所示,对于真实框(红色实线框),模型可能会产生匹配成本较小的预测框1(橙色虚线框)和匹配成本较大的预测框2(绿色虚线框)。其中,由于预测框1具有更小的匹配成本,选择作为与真实框匹配的正样本;相应地,预测框2作为负样本。我们利用正样本(预测框1)的定位精度(与真实框的IoU值为0.6)作为分类标签。通过使用定位精度约束模型对分类的学习,最准确的回归预测也会具有最高的分类分数,保证了预测的一致性,提高了模型的检测精度。

S302、为了与改进后的分类损失保持一致性。我们在回归损失

其中,

在步骤S4中,利用MS COCO训练集对改进后的DAB-DETR模型进行训练,将训练好的权重文件导入DAB-DETR模型并在验证集上验证。其步骤具体为:

S401、配置训练的相关参数。使用2张Nvidia 3090显卡训练,总的批次大小为8,使用AdamW优化器,设置学习率为1×10

其中,N是查询的数量,对应N个预测;ξ

S402、经过匈牙利匹配后,根据得到的匹配对,我们可以计算匹配的预测框和真实框之间的匈牙利损失

其中,

其中,

S403、将步骤S402中表现最好的模型权重文件导入DAB-DETR模型,在MS COCO验证集上进行验证。

图4展示了在训练过程中DAB-DETR和本发明改进后的DAB-DETR的收敛曲线对比。其中,横坐标表示训练迭代轮数,纵坐标表示检测精度AP。可以观察到,相较于原始的DAB-DETR,改进后的DAB-DETR在模型训练早期的性能更高,且在不断的训练迭代后都有明显的提升。

图5第一列和第二列分别展示了DAB-DETR和本发明改进后的DAB-DETR的检测效果对比。在图5(a)中感兴趣的目标物体都被检测出来了,但是改进后的DAB-DETR对于人的定位更加准确。对于图5(b),原始的DAB-DETR错误地检测出一个不存在的人。在图5(c)中,原始的DAB-DETR错误地将圆柱线检测为棒球棒,而改进后的DAB-DETR没有检测出来,同时检测出原始的DAB-DETR没有检测出的棒球手套。可以发现,改进后的DAB-DETR边界框定位的准确性更高,同时误检和漏检的情况更少。

为了具体分析查询感知的区域约束和位置调制的分类损失对DAB-DETR的有益效果,我们做了消融实验验证每个组件的有效性,如表1所示。在DAB-DETR的基础上,单独使用查询感知的区域约束提高了模型的性能0.6AP,而单独采用位置调制的分类损失带来1.2AP的提升,同时使用两个组件后模型的性能提高了1.7AP。此外,我们的方法未引入额外的参数量和计算成本就可以得到好的检测效果,如表1最后两列所示。

表1:消融每个组件对实验结果的影响。QARC表示查询感知的区域约束,PMC表示位置调制的分类损失。

根据本申请的另一个方面,还提供了一种基于改进DAB-DETR的目标检测系统,包含以下几个模块:

预处理模块:对数据集中的图像进行预处理,便于后续统一训练和检测。

参数配置模块:根据实际使用的硬件设备、预期要达到的检测效果与推理FPS,配置合适的模型参数,包括批次大小、优化器、学习率、训练轮数、调整学习率的训练轮数、特征提取网络等。

模型训练模块:在真实目标和预测之间通过最小化全局匹配成本来进行一对一标签分配,进而最小化总损失,包括位置调制的分类损失、修改后的回归损失和查询感知的区域约束损失三部分。

目标检测模块:利用训练好的权重文件和改进的DAB-DETR模型对MS COCO验证集进行检测得到检测结果,比较检测效果与推理FPS是否达到预期。

本发明采用了位置约束和宽高比相似性约束,通过限制每个查询的责任区域,避免了查询之间不必要的内部冲突,提高了模型对不同尺度、宽高比的目标物体的鲁棒性;针对分类置信度和定位精度之间的不对齐问题,通过使用与定位精度相关的分类标签制约模型对分类的学习,鼓励模型产生分类置信度对齐定位精度的预测,并且使用此标签对正样本进行加权,使得模型能够关注高质量正样本的学习;本发明提出的两种设计在推理阶段可以舍弃,没有引入额外的参数量和计算成本就可以得到好的检测效果。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

相关技术
  • 一种基于改进ViBe算法的运动目标检测方法及系统
  • 一种基于改进的darknet神经网络进行目标检测的方法和系统
  • 一种基于改进目标检测框的目标检测方法及装置
  • 一种基于改进目标检测网络的雾霾图像目标检测方法
技术分类

06120116586877