掌桥专利:专业的专利平台
掌桥专利
首页

一种基于transformer架构的目标检测方法

文献发布时间:2024-04-18 20:00:50


一种基于transformer架构的目标检测方法

技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种基于transformer架构的目标检测方法。

背景技术

目标检测一直是计算机视觉领域的一个基本但十分重要的任务,其目的是预测出一幅图像中感兴趣目标的边界框及其对应的类别,目前已经被广泛应用于诸如视频监控、疾病检测、打击预警、沉船搜索等各种领域。

目前目标检测领域的检测器主要分为两大主流架构:基于卷积神经网络架构(CNN-based)的目标检测器和基于transformer架构(Transformer-based)的目标检测器。

CNN-based在后处理过程中仍然需要使用NMS来过滤掉大量的冗余框,进而产生计算瓶颈,并且NMS的超参数对探测器的精度和速度会产生很大的影响。因此,CNN-based算法并不能被称为真正意义上的端到端检测器,且由于难以避免NMS的使用,其实时性的进一步提升也存在着难以逾越的鸿沟。

相较于CNN-based目标检测器,DETR的推出,因其抛弃了预选框选取与NMS处理等手工元素从而开启真正意义上实现了图像目标的端到端检测。虽然多种DETR方法取得了一定的效果,但是由于transformer注意力机制的计算复杂度瓶颈,其实时性成为了很大的挑战,另外仅仅通过减少执行注意力机制的特征层数量来减少模型的计算损耗,并未考虑调整注意力机制的实现来减少计算损耗,因而其实时性能有待进一步提升。

发明内容

本发明旨在至少解决相关技术中存在的技术问题之一。为此,本发明提供一种基于transformer架构的目标检测方法。

一种基于transformer架构的目标检测方法,包括:

S1:基于现有数据集组建目标检测训练集;

S2:选取主干网络,选取目标检测识别集对所述主干网络进行预训练,获得预训练网络,创建融合模块、感知选择模块和检测头网络与所述预训练网络搭建整体网络;

S3:通过所述融合模块细化低层特征图,并融合细化后的低层特征图和经过所述整体网络中的编码器处理的高层特征图;

S4:通过所述感知选择模块,以边界框信息和类别信息为目标选取token,获得token选取结果,通过所述token选取结果为所述整体网络中的解码器初始化对象查询;

S5:通过所述感知选择模块去除所述整体网络中的memory特征层中的无用token,通过去除无用token后的memory特征层优化所述解码器;

S6:分别为用于训练所述整体网络的真实目标检测框添加正样本噪声和负样本噪声,获得正负样本去噪组,在解码器中对多对所述正负样本去噪组、所述对象查询和所述memory特征层进行交叉注意力操作,通过所述检测头网络将交叉注意力输出转化为检测结果,通过损失函数处理所述检测结果获得训练损失;

S7:通过所述训练损失对所述整体网络进行训练,获得目标检测器,通过所述目标检测器对所述目标检测训练集进行检测,获得检测结果。

根据本发明提供的一种基于transformer架构的目标检测方法,步骤S2中所述融合模块包括多个上采样单元和多个下采样单元,所述上采样单元通过双线性差值方法实现,所述下采样单元通过max pooling方法实现。

根据本发明提供的一种基于transformer架构的目标检测方法,步骤S4包括:

S41:将memory特征层送入所述感知选择模块,获得所述memory特征层中每个token对应的类别评分;

S42:根据所述类别评分选取高分token,作为内容查询;

S43:将所述高分token通过边界框预测获得边界框预测结果,将所述边界框预测结果编码为位置查询;

S44:相加所述内容查询和所述位置查询,获得初始化的所述对象查询。

根据本发明提供的一种基于transformer架构的目标检测方法,步骤S5中的所述无用token为不包含感兴趣目标的特征信息的token。

根据本发明提供的一种基于transformer架构的目标检测方法,步骤S7中所述目标检测器包括多个解码器,其中每个所述目标检测器中的解码器均包括第一处理方式和第二处理方式,所述第一处理方式为所述对象查询的自注意力处理,所述第二处理方式为所述对象查询、正负样本去噪组和去除无用token后的memory特征层交互的交叉注意力处理。

根据本发明提供的一种基于transformer架构的目标检测方法,所述第二处理方式为deformable注意力机制。

根据本发明提供的一种基于transformer架构的目标检测方法,步骤S3还包括:

所述融合模块输出细化后的低层特征图和经过所述整体网络中的编码器处理的高层特征图的融合结果,将所述融合结果调整为所述感知选择模块处理的所需形式。

根据本发明提供的一种基于transformer架构的目标检测方法,步骤S7还包括:

由所述现有数据集中组建目标检测验证集,通过所述目标检测验证集对所述目标检测器进行验证。

本发明提供的一种基于transformer架构的目标检测方法,在通过对RT-DETR中的Neck部分进行分析后,针对PAN部分进行特征融合处理时设计了新的融合模块(ReduceInformationLevel Differences and Feature-Fusion modules;RILDFM)来调节不同特征层权重,再对处理后的特征层进行融合处理,以此降低不同特征层之间信息层级差异带来的负面影响,同时也为后续技术改进奠定了基础,同时设计感知选择模块对解码器层中的对象查询(object query)进行初始化外,还利用感知选择模块找到并抛弃那些具有更低分数甚至接近于0的分数对应的无用token,减少进行交叉注意力处理时K和V中的token数量,有效降低了解码器中交叉注意力处理的计算损耗,提升目标检测器的实时性能。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于transformer架构的目标检测方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下实施例用于说明本发明,但不能用来限制本发明的范围。

在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1描述本发明的实施例。

本发明提供一种基于transformer架构的目标检测方法,包括:

S1:基于现有数据集组建目标检测训练集;

S2:选取主干网络,选取目标检测识别集对所述主干网络进行预训练,获得预训练网络,创建融合模块感知、选择模块和检测头网络与所述预训练网络搭建整体网络;

进一步的,本发明中选用ResNet-50作为主干网络,并在ImageNet目标识别数据集上对其进行预训练,输入主干网络的图像尺寸是

由于通过对RT-DETR的Neck网络部分分析,本发明认为在编码器部分仅对S5特征层进行处理会增加其与S3、S4特征层之间的信息特征层级差异,直接对它们进行融合会对最终结果产生负面影响,所以设计了融合模块。

S3:通过所述融合模块细化低层特征图,并融合细化后的低层特征图和经过所述整体网络中的编码器处理的高层特征图;

进一步的,Neck网络中包含两个部分:一个编码器与一个融合模块(RILDFM模块),本发明只将S5特征图送入编码器进行自注意力处理,然后将S3、S4特征层与经编码器处理后得到的特征层送入RILDFM模块进行融合处理,并将处理后特征图调整为感知选择模块能够处理的形式。

其中,步骤S2中所述融合模块包括多个上采样单元和多个下采样单元,所述上采样单元通过双线性差值方法实现,所述下采样单元通过max pooling方法实现。

进一步的,其中RILDFM模块包含多个上采样、下采样模块,分别采用双线性差值和max pooling方法实现,目的是在对特征图融合时保持尺度一致,在每一次融合之前低层特征图都要通过一个细化模块(RRM)来细化特征图以降低其与高级特征图之间的信息层级差异,每一个RRM模块包含一个SE模块及多个

其中,步骤S3还包括:

所述融合模块输出细化后的低层特征图和经过所述整体网络中的编码器处理的高层特征图的融合结果,将所述融合结果调整为所述感知选择模块处理的所需形式。

进一步的,PAN结构网络最终输出三个不同尺度的特征图,其具体尺寸分别为

S4:通过所述感知选择模块,以边界框信息和类别信息为目标选取token,获得token选取结果,通过所述token选取结果为所述整体网络中的解码器初始化对象查询;

进一步的,感知选择模块为IOU感知查询选择模块,感知选择模块主要包括两个用途:第一为解码器选择并初始化合适的高质量对象查询,降低查询优化难度;第二为交叉注意力处理筛选剔除多余的低质量token,减小解码器中的计算损耗,改善检测器的实时性能。

其中,步骤S4包括:

S41:将memory特征层送入所述感知选择模块,获得所述memory特征层中每个token对应的类别评分;

S42:根据所述类别评分选取高分token,作为内容查询;

S43:将所述高分token通过边界框预测获得边界框预测结果,将所述边界框预测结果编码为位置查询;

S44:相加所述内容查询和所述位置查询,获得初始化的所述对象查询。

进一步的,由于目标的信息都包含在Neck网络部分输出的memory特征图中,且解码器所需的对象查询包含关于图像中感兴趣目标的边界框信息与语义信息,因而从memory中选取优质的token来初始化对象查询是合理的做法。

进一步的,上述方法具体实现为将memory特征层通过感知选择模块中的IOU感知单元得到每一个token对应的类别评分,根据类别评分高低选择得分最高的300个token作为内容查询,并将这些token通过边界框预测模块得到对应的边界框预测结果,再将其编码为位置查询,最后将内容查询和位置查询相加得到初始化的对象查询。

经过该方法得到的对象查询包含更优质的目标边界框信息与类别信息,在模型训练中更易于优化,加快模型的收敛速度。

S5:通过所述感知选择模块去除所述整体网络中的memory特征层中的无用token,通过去除无用token后的memory特征层优化所述解码器;

其中,步骤S5中的所述无用token为不包含感兴趣目标的特征信息的token。

进一步的,对于低类别分数对应的token,我们认为其很大概率对应于图像中的前景信息,不包含或包含极少的感兴趣目标的特征信息,因而其对于最终边界框的预测几乎不提供正向收益,但是在进行交叉注意力处理的时候却会消耗大量的计算资源,进而影响检测器的实时性能。

进一步的,针对该问题,本发明筛选出1000个具有较低评分的token并将其抛弃掉,再将抛弃低分token后得到的新memory送入解码器中进行交叉注意力处理,以降低解码器的计算损耗,突破transformer注意力机制的计算损耗瓶颈,有效提升检测器的实时性能。

S6:分别为用于训练所述整体网络的真实目标检测框添加正样本噪声和负样本噪声,获得正负样本去噪组,在解码器中对多对所述正负样本去噪组、所述对象查询和所述memory特征层进行交叉注意力操作,通过所述检测头网络将交叉注意力输出转化为检测结果,通过损失函数处理所述检测结果获得训练损失;

进一步的,针对二分图匹配部分的优化问题,本发明采用正负样本去噪训练方法,即对于每张图片设计十对正负样本去噪组共同参与解码器部分的交叉注意力操作,经检测头预测后,正负样本去噪组不参与300个对象查询的二分图匹配过程,为其设计另外的匹配组并单独计算预测损失。

进一步的,正负样本去噪组的设置主要体现在添加在真实框上噪声尺度的大小中,一般给正样本去噪组添加一个较小尺度的噪声,使真实检测框更容易“接纳”它;给负样本去噪组添加一个相对较大尺度的噪声,使真实检测框更容易“拒绝”它,但需要注意的是,负样本添加的噪声尺度也应该在一定范围内以保证去噪训练不会受到较远距离检测框的影响。

S7:通过所述训练损失对所述整体网络进行训练,获得目标检测器,通过所述目标检测器对所述目标检测训练集进行检测,获得检测结果。

其中,步骤S7还包括:

由所述现有数据集中组件目标检测验证集,通过所述目标检测验证集对所述目标检测器进行验证。

其中,步骤S7中所述目标检测器包括多个解码器,其中每个所述目标检测器中的解码器均包括第一处理方式和第二处理方式,所述第一处理方式为所述对象查询的自注意力处理,所述第二处理方式为所述对象查询、正负样本去噪组和去除无用token后的memory特征层交互的交叉注意力处理。

其中,所述第二处理方式为deformable注意力机制。

进一步的,本发明中目标检测器包含6个解码器,每个解码器都有对应检测头以输出检测结果,在每个解码器中包含一次对象查询的自注意力处理和对象查询与memory特征层交互的交叉注意力处理,其中自注意力处理的实现与编码器中的保持一致,均为经典的自注意力实现方法,交叉注意力处理的实现采用deformable注意力机制,进一步减小所需的计算损耗,加快模型收敛。

进一步的,在通过检测头得到预测结果后,需要将去噪组预测结果与300个对象查询的预测结果分别进行二分图匹配,去噪组计算损失函数使用经典的损失函数,即分别对类别预测分数和检测框分别计算对应的损失,正负样本去噪组损失计算函数为:

其中,

而300个对象查询的损失计算函数则需要将IOU损失加入到类别损失计算中以保证感知选择模块对token进行筛选时能够综合考虑检测框与真实框的IOU损失与类别损失,交并比损失主要用于判断两个集合的相似程度,使最终筛选出的token同时具有较高的类别分数与检测框分数,object query的损失计算函数为:

其中,

进一步的,对于损失函数的设计,我们在考虑了全局网络的情况下,还加入了对感知选择模块的考虑,在二值交叉熵损失函数中加入交并比损失,在对全局结果并没有影响的情况下调节感知选择模块使其更倾向于选择同时具有高分类分数和高交并比的token来初始化解码器中的对象查询,也使得筛选剔除的token同时具有低分类分数和低交并比,达到更容易加速模型收敛的目的。

在一些实施例中,首先组建通用目标检测训练集与验证集:对于模型的训练本发明选用COCO 2017目标检测数据集,COCO 2017数据集包括训练集(118287张)、验证集(5000张)、测试集(40670张),且提供了多种高质量的标注,图像内感兴趣目标共包含共80小类,类别id号不连续,最大为90。在COCO2017训练集上对提出的目标检测器进行训练,并在COCO2017验证集上对其进行验证,评价标准使用标准的COCO AP度量,以单个比例图像作为输入。

其次,进行模型训练:基于百度paddlepaddle深度学习框架进行训练,超参数的设置如下:训练epochs数量为72次、每次输入图像数量batch-size为8、初始学习率为0.0001、使用poly方式进行训练、学习率衰减为0.9、权重衰减设置为0.0005、输入图像分辨率为640×640、优化器选择AdamW优化器、动量为0.9,数据增强方法包括—随机颜色变化、随机扩展、随机裁剪、随机翻转、随机尺寸变化与mosaic增强等方法。

再次,输入COCO 2017测试集并获得结果:训练完成后将COCO 2017测试集输入网络中进行即可获得图像的目标检测结果,测试集无需进行正反样本去噪组设置、二分图匹配与计算函数损失等操作,可直接得到每张图片的检测识别结果,并且可用每秒处理多少张图片来评价检测器的实时性能。

本发明设计的PAF-DETR的网络架构整体框架包括主干网络、Neck网络(包含一个编码器与RILDFM模块)、感知选择模块(IOU感知query选择模块)、六个解码器与其各自对应的检测头模块。

主干网络使用在ImageNet上进行过预训练的ResNet-50作为主网络,负责初步提取输入图像中的特征,后续会使用其输出的S3、S4与S5特征层进一步处理。

Neck部分包含一个编码器与RILDFM模块,本发明中只将S5特征层送入编码器内进行自注意力处理,对其特征进行细化,下文中将经编码器处理过的S5特征层称为

感知选择模块能够将Neck部分的输出转化为类别预测分数的形式,本发明中选取使用300个最高的分数对应的token初始化解码器部分的对象查询,对1000个最低的分数对应的token进行丢弃处理,将简化后的特征图作为解码器内交叉注意力处理中的K也就是所有时间步键向量,和V也就是所有时间步值向量,在几乎不影响检测精度的情况下有效降低了解码器中交叉注意力处理的计算消耗,提高检测器的实时性。在每一个解码器中首先对初始化的查询进行自注意力处理,然后将其与筛选简化后的输出特征图进行交叉注意力处理,最后将得到的查询经过检测头得到输出结果。在训练模式中,需要进一步使用二分图匹配方法将预测结果与真实目标检测框进行匹配,并通过损失函数计算损失进行梯度反向传播调整模型参数。本发明中沿袭DINO的方法,在解码器中加入正反去噪组以优化二分图匹配部分,进一步加速模型的收敛,提高测量精度。

本发明提供的一种基于transformer架构的目标检测方法,提出了RILDFM模块这一新颖的卷积神经网络结构和IOU感知查询筛选剔除策略,RILDFM模块通过SE模块及多个

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 用于自然冷冻淡化苦咸水的控制杆及其使用方法
  • 机械压汽蒸馏全自然能海水和苦咸水淡化方法及其装置
技术分类

06120116541940