掌桥专利:专业的专利平台
掌桥专利
首页

一种基于CenterNet改进的多尺度缺陷目标检测方法及系统

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及计算机视觉的研究领域,特别涉及一种基于CenterNet改进的多尺度缺陷目标检测方法及系统。

背景技术

工业缺陷检测是人类观察产品的“眼睛”,用于监视产品的生产过程并控制良好的表面质量,尤其是在电饭煲生产领域,用户更注重产品的外观质量而不是功能质量。此类产品若有变形、脏污、划痕等表面缺陷,产品的美观度会大打折扣,其价值也会大打折扣。

随着深度学习领域的巨大进步,深度学习在工业缺陷检测中的应用也得到了越来越多的研究。目前从网络模型的算法结构上,可以将此种目标检测所要解决的问题简单地定义为“什么目标在哪里”,它可以分为“二阶段”和“一阶段”的目标检测算法,前者分两步检测目标位置:首先基于区域建议网络(RPN,Region Proposal Network)生成可能的目标框,然后对目标框进行分类,即将检测问题转化为分类问题;后者直接从图像的卷积层特征回归出目标框,即将检测问题转化为回归问题。以往的二阶段网络比后者能达到更高的精度,而一阶段网络直接输入输出则被视为是“端到端”的训练、其推理方式速度快,便于部署,随着人们的深入研究,一阶段网络的精度已大大提高,已有的一阶段网络的精度不亚于二阶段的方法。

当前主流一阶段网络目标检测算法,包括各种单阶段的SSD、RetinaNet等算法都是基于Anchor实现的。Anchor的本质就是候选框,DNN学习了如何对这些候选框进行分类,在不同规模和比例的候选框设计之后,DNN学习了如何分类这些候选框,是否包含物体以及物体的类别,以及postive anchor学习如何使它回归到正确的位置。其所起的作用与传统检测算法中的滑窗等机制相似。但这种设计思路存在一个明显的问题,Anchor的设置需要手工设计,对于不同的数据集也需要不同的设计,相当麻烦,也不符合DNN的设计理念。

在上述这种基于Anchor的方法被人们诟病之后,很多人做出了改进,催生出了基于Anchor free的方法。CenterNet就是一种可视为单阶段的无锚框的算法,避免了设计anchor-box的繁杂,与yolo,ssd,faster_rcnn相比,它依赖于大量anchor-free的目标探测网络,它在速度和精度方面更具优势。

而CenterNet使用的特征提取网络Hourglass,由于其特殊的嵌套结构,是密集连接并深度堆叠的网络。其感受野过大,网络层较深,导致小目标信息丢失较大,因此小目标和密集目标的检测效果表现不佳;并且由于其结构复杂、计算量大、推理速度慢,不适合在轻量级算法中使用。而根据实际电饭煲生产过程观察发现,目前CenterNet用于电饭煲缺陷检测常常存在以下不足:

1.电饭煲缺陷目标往往小而密集,现有CenterNet的目标检测算法不能很好地检测

这样的目标。存在很多误判。

2.CenterNet未达到实际生产过程中的轻量且精度较高的监视。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于CenterNet改进的多尺度缺陷目标检测方法及系统,使用跨层连接的形式对CenterNet网络进行多尺度的训练,通过真实目标检测框的大小决定要训练的特征图层次,而非直接训练类别和宽高信息,能给出更稳定更符合真实物体框大小的预测。此外新定义的多尺度热力图生成规则和多尺度宽高及中心偏移生成规则以一定的的比例反映了目标的形状。所提出的多尺度训练和多尺度标签生成方法能够在一定程度上达到无Anchor检测多尺度目标物体的效果。

本发明的第一目的在于提供一种基于CenterNet改进的多尺度缺陷目标检测方法;

本发明的第二目的在于提供一种基于CenterNet改进的多尺度缺陷目标检测系统

本发明的第一目的通过以下的技术方案实现:

一种基于CenterNet改进的多尺度缺陷目标检测方法,包括以下步骤:

获取缺陷目标图片,对所述缺陷目标图片进行预处理,得到预处理图片;

对CenterNet网络结构进行改进,得到改进CenterNet网络结构;

将所述预处理图片输入到所述改进CenterNet网络结构,生成若干个第一部分特征图;

将所述若干个第一特征图进行信息叠加,形成若干个第二部分特征图;

通过限定多种目标尺度信息生成多层分支热力图以产生类别标签,将目标映射到对应的第二部分特征图;

经过若干个第二部分特征图后通过热力图生成分支产生预测类别,通过目标宽高及中心偏移生成分支产生位置信息,进而得到检测结果。

进一步地,所述获取缺陷目标图片,对所述缺陷目标图片进行预处理,得到预处理图片,具体为:对缺陷目标图片尺寸统一缩放到固定尺寸后,对缩放后图片进行归一化处理,进而对归一化处理后图片采用数据增强方法处理;所述数据增强方法包括:随机裁剪、随机拼接、mixup、随机缩放、随机水平翻转、随机平移、色彩增强。

进一步地,所述改进CenterNet网络结构,具体为:所述改进CenterNet网络结构包括:特征提取主干网络、特征图分层网络、分支预测输出头网络。

进一步地,所述特征提取主干网络采用ResNet网络主干,可分别使用ResNet18、ResNet32、ResNet50、ResNet101、ResNet152作为主干的提取网络,对其剔除头一层卷积层和最后全连接层,保留其剩余的卷积层,用于分层提取特征图;

所述特征图分层网络通过ResNet的4个layer自下而上提取4层特征图,并通过FPN特征金字塔进行自上而下的信息叠加,后分别接卷积核大小为3的卷积消除混叠效应的影响,每层输出接入分支预测头网络;

所述分支预测头网络具体包含了两个分支:热力图生成分支、目标宽高及中心偏移生成分支;所述热力图生成分支输出层数数量为目标的类别数,目标宽高及中心偏移生成分支输出层数设置为4,包含目标的宽高值以及与中心的偏移值;训练数据集图片通过热力图生成分支产生预测类别,通过目标宽高及中心偏移生成分支产生维度信息,且对不同特征层的预测头网络进行多尺度分层训练的同时实现多层预测分支的参数权值共享,而分支的结果是独立的。

进一步地,所述将所述预处理图片输入到所述改进CenterNet网络结构,生成若干个第一部分特征图,具体如下:经过ResNet网络对原图逐倍下采样4x,8x,16x,32x,分别对应第一部分的四层特征图。

进一步地,所述将若干个第一特征图进行信息叠加,形成若干个第二部分特征图,具体为:将第一部分特征图的最高层特征图,经下采样32x的特征图逐倍上采样2x,4x,8x,16x,并与第一部分特征图对应的特征层融合,形成第二部分的四层特征图。

进一步地,所述通过限定多种目标尺度信息生成多层分支热力图以产生类别标签,具体为:

原标签是自制的缺陷数据集提供,根据标签的面积占据原缺陷图的大小比例范围来划分多个尺度获得多尺度标签,生成的多尺度标签的层次是根据目标框面积所占原图面积的比例决定的,相应的目标框映射特征层的公式为:

其中FLayer表示第几个特征层;w,h表示原始目标框的宽高,W,H表示原始图的宽高分辨率;H_ratio(x)是一个分段函数,具体为:

其中l

进一步地,所述经过若干个第二部分特征图后通过热力图生成分支产生预测类别,通过目标宽高及中心偏移生成分支产生位置信息,进而得到检测结果,具体为:将各个第二部分特征图别经过两个分支的四层3x3卷积核组处理,在第一分支的卷积核组后使用sigmoid函数输出预测类别,在第二分支的卷积核组后输出目标宽高及中心偏移。

本发明的另一目的通过以下技术方案实现:

一种基于CenterNet改进的多尺度缺陷目标检测系统,包括:骨干特征提取模块、多尺度融合模块、损失函数模块、生成多尺度标签模块、多尺度训练模块、模型多尺度输出模块、多尺度解码输出模块、图片输入模块;

所述骨干特征提取模块,用于深层提取原始图片的特征;

所述多尺度融合模块,用于有效融合高层的语义信息和低层的细节信息;

所述损失函数模块,用于度量真实值和预测值的关系,指导模型更有效的训练;

所述生成多尺度标签模块,用于划分多尺度标签,为后续多尺度训练模块做准备;

所述多尺度训练模块,用于有效利用各个尺度标签的信息,使模型充分训练各尺度的目标;

所述模型多尺度输出模块,用于输出模型在各个尺度上的抽象预测信息;

所述多尺度解码输出模块,用于将模型在各个尺度上的抽象预测信息解码成直观的、具体的预测目标框;

所述图片输入模块,用于将图片进行预处理。

进一步地,所述生成多尺度标签模块具体工作如下:

原标签是自制的缺陷数据集提供,根据标签的面积占据原缺陷图的大小比例范围来划分多个尺度获得多尺度标签,生成的多尺度标签的层次是根据目标框面积所占原图面积的比例决定的,相应的目标框映射特征层的公式为:

其中FLayer表示第几个特征层;w,h表示原始目标框的宽高,W,H表示原始图的宽高分辨率;H_ratio(x)是一个分段函数,具体为:

其中l

本发明的工作过程:

S1、改进现有的CenterNet网络结构,改进后的CenterNet网络结构包括:特征提取主干网络、特征图分层网络和分支预测输出头网络;

S2、所述特征提取主干网络采用ResNet网络主干,可分别使用ResNet18、ResNet32、ResNet50、ResNet101、ResNet152作为主干的提取网络,对其剔除头一层卷积层和最后全连接层,保留其剩余的卷积层,用于分层提取特征图;

S3、所述特征图分层网络通过ResNet的4个layer自下而上提取4层特征图,并通过FPN特征金字塔进行自上而下的信息叠加,后分别接卷积核大小为3的卷积消除混叠效应的影响。最后每层输出接入分支预测头网络;

S4、所述分支预测头网络具体包含了两个分支,分别为:热力图生成分支,目标宽高及中心偏移生成分支;热力图生成分支输出层数数量为目标的类别数,目标宽高及中心偏移生成分支输出层数设置为4,包含目标的宽高值以及与中心的偏移值。训练数据集图片通过热力图生成分支产生预测类别,通过目标宽高及中心偏移生成分支产生维度信息,且对不同特征层的预测头网络进行多尺度分层训练的同时实现多层预测分支的参数权值共享,而分支的结果是独立的;

S5、训练数据集通过限定多种目标尺度信息生成多层分支热力图以产生类别标签,训练数据集通过限定多种目标尺度信息产生多层目标宽高及中心偏移标签。按照特征图尺度与调整原图后的比例缩放标签尺度。将此热力图标签和宽高及偏移维度标签与预测值进行反向传播;

S6、将待检测的图片输入训练完成后的改进CenterNet网络进行检测,对改进后的网络输出结果进行解析,得到目标检测框。

步骤S4训练数据集图片通过热力图生成分支产生标签,通过目标宽高及中心偏移生成分支产生维度信息,且对不同特征层的预测头网络进行多尺度分层训练的同时实现多层预测分支的参数权值共享,而分支的结果是独立的,具体为:

A1、热力图生成分支通过四组卷积层和ReLu层在保持分辨率的同时提取特征,最后通过一层卷积和sigmoid激活函数获得最终的输出,输出维度为[class,h

A2、目标宽高及中心偏移生成分支通过四组卷积层和ReLu层在保持分辨率的同时提取特征,最后通过一层卷积层获得最终的输出,输出维度为[4,h

A3、对不同特征层的预测头网络进行多尺度分层训练的同时实现多层预测分支的参数权值共享,而分支的结果是独立的,即训练是基于多种目标框尺寸映射到特定特征层的相同权值的预测头网络的训练,测试是相同权值的预测头网络负责多种特定尺度的样本。对各层分支只训练一定范围内的目标样本,避免极端目标对性能的影响,从而并行多分支学习输入图像不同尺度目标的特征。

步骤S5将训练数据集通过限定多种目标尺度信息生成多层分支热力图以产生类别标签,训练数据集通过限定多种目标尺度信息产生多层目标宽高及中心偏移标签,具体为:

A1、生成的多尺度标签的层次是根据目标框面积所占原图面积的比例决定的,相应的目标框映射特征层的公式为:

其中l

步骤S5将热力图标签和宽高及偏移维度标签与预测值进行反向传播,具体为:

A1、定义改进后的CenterNet网络的损失函数为:

Loss=λ

A2、根据步骤A1所定义的损失函数,使用CosineDecay反向传播得到的结果与真实标签结果的误差,使学习过程更加平滑,优化改进后的CenterNet网络;

步骤S6将待检测的图片输入训练完成后的改进CenterNet网络进行检测,具体为:

A1、解析待预测图片通过训练完成后改进的CenterNet网络得到的输出信息,通过解析分支预测头网络得到的多层特征图信息,将其对应到多个特征层上进行信息解析,使得预测框信息恢复到原图像的尺寸,得到多种尺度大小的预测结果。

A2、对多尺度的预测结果综合进行非极大值抑制,采用原CenterNet的nms方法,即MaxPool,并设置kernel size为7。

本发明与现有技术相比,具有如下优点和有益效果:

本发明基于CenterNet网络模型,把原始直接对类别和宽高做预测的分支网络调整为基于多尺度特征层的多输出预测,再通过网络输出结果还原原始预测目标框信息,重点解决了不同尺度的目标预测能力受限的问题。新定义的多尺度热力图生成规则和多尺度宽高及中心偏移生成规则以一定的的比例反映了目标的尺度和形状;

本发明具备以下优点:

1.定义的根据目标框面积与原图面积的比例决定标签特征层映射的规则可以防止因调整图片不同分辨率而导致的特征层不统一的情况,使得在特征层上生成的标签更具统一性和合理性。

2.新定义的多尺度热力图生成规则和多尺度宽高及中心偏移生成规则反应了多尺度目标的形状特征,对多尺度变化导致的长宽变化有更好的适应性;

3.CenterNet网络模型在构建模型时,使用不同的方法,将目标作为一个点,再利用关键点估计方法寻找中心点,并对目标属性进行回归。本发明提出将宽高和中心偏移回归统一作为一个分支预测头网络的输出,即增加宽高回归预测的中心偏移融合分支,使中心偏移与宽高回归分支融合,且使用Smooth L1损失函数避免了损失波动和训练初期不稳定的问题。而在分类损失里加入激活函数以替代log函数,防止梯度爆炸不利于反向传播的情况。以此设计的损失函数只包含两部分,分类损失和回归损失,能够达到训练较快收敛的效果,而几乎不增加额外的计算量。

4.使用Resnet主干网络和简单的FPN特征融合网络,而非DLA-34主干网络和Hourglass特征融合网络,大大节约了计算量。

附图说明

图1是本发明所述一种基于CenterNet改进的多尺度缺陷目标检测方法的流程图;

图2是本发明所述实施例中多尺度缺陷目标检测方法的具体步骤图;

图3是本发明所述一种基于CenterNet改进的多尺度缺陷目标检测系统结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例1

一种基于CenterNet改进的多尺度缺陷目标检测方法,如图1所示,包括以下步骤:

获取缺陷目标图片,对所述缺陷目标图片进行预处理,得到预处理图片;

对CenterNet网络结构进行改进,得到改进CenterNet网络结构;

将所述预处理图片输入到所述改进CenterNet网络结构,生成若干个第一部分特征图;

将所述若干个第一特征图进行信息叠加,形成若干个第二部分特征图;

通过限定多种目标尺度信息生成多层分支热力图以产生类别标签,将目标映射到对应的第二部分特征图;

经过若干个第二部分特征图后通过热力图生成分支产生预测类别,通过目标宽高及中心偏移生成分支产生位置信息,进而得到检测结果。

图2为多尺度缺陷目标检测方法的具体步骤图,具体如下:

步骤1:对电饭煲缺陷检测所需要用到的数据集图片和标签进行处理,对图片尺寸和物体框统一缩放到固定尺寸后,对图片进行归一化处理。此外,在训练阶段时以随机的概率对图片进行随机裁剪,随机拼接,mixup,随机缩放,随机水平翻转,随机平移、色彩增强等数据增强方法以防止数据训练时造成过拟合。

步骤2:基于对电饭煲缺陷数据集图片的预处理结果,将其图片输入骨干特征提取模块进行训练。卷积神经网络的主干和多尺度融合模块分别负责多尺度的编码和多尺度的交互编码。来自主干的特征作为多尺度融合网络即FPN的输入,将主干的特征映射到FPN的输出。主干和FPN中的多尺度特征映射分别表示成C={C1,C2,C3,C4}和P={P2,P3,P4},即第一部分特征图和第二部分特征图,其中C中的特征映射是主干中4个卷积阶段的最终特征映射,P中的特征映射是多尺度FPN中3个融合阶段的最终特征映射,对应模型多尺度输出模块。

步骤3:基于对电饭煲缺陷数据集标签的预处理结果,根据所提目标框映射特征层公式经过多尺度标签生成模块进行各比例标签的缩放,缩放内容包括物体框的热力图,高和宽,以及中心坐标的偏移,以此作为监督信息。其中热力图标签使用高斯核

按照类别分布到热力图标签上,对于真实目标的中心点p,相应的经过下采样后的位置为

步骤4:在步骤2经过骨干特征提取模块输出各层后,经过多尺度训练模块,多层次输出预测的信息,每一层的预测信息包含两个分支,即热力图模块和宽高及中心偏移模块。其中,热力图模块由四组卷积块和ReLu激活函数再接一层卷积块和sigmoid激活函数构成,最后一层的卷积核的数目由待检测任务的类别数目决定。热力图以判断检测的目标在图片上的中心点位置以及所属的类别;宽高及中心偏移模块由四组卷积块和ReLu激活函数再接最后一层卷积块构成,最后一层卷积核的数目设定为4,分别代表了物体框的高、宽、y轴上的中心点偏移坐标,x轴上的中心点偏移坐标。该两个模块均使用了比例缩放的形式,决定最终输出的目标大小物体框的尺度。

步骤5:根据设计的损失函数计算步骤3和步骤4的损失,反向传播训练网络参数,具体的分类损失使用改进后的Focal loss使其分类训练聚焦于难分类的样本上,回归损失采用Smooth L1 Loss对边框进行回归。具体为:

Loss=∑(λ

其中L

训练电饭煲数据集真实标签生成的热力图以高斯散射核的形式围绕目标框中心点向外发散,其中在x轴和y轴方向上发散衰减较缓,在其他方向上发散衰减较快,中心点值为1。使用高斯核半径确定发散的范围,高斯核半径狭义上意为确定最小半径r(r为预测的框在真实框的中心点的一个半径r内)使得预测框与真实框的IOU大于0.7。对类别进行训练的是调整后的Focal Loss函数如下,其中α和β是超参数,分别设置为2和4:

其中Y

L

设输出预测头网络中的回归分支输出的预测值为

步骤6:输入待测缺陷图片,图片经过骨干特征提取模块、多尺度融合模块后输出预测信息,此预测信息经过多尺度解码输出模块将下采样的预测框信息映射恢复到原输入图片的尺寸上,具体为先乘以对应的特征层下采样倍数恢复到卷积前的分辨率,再乘以4恢复到统一输入的图片尺寸。最后根据多尺度解码信息生成预测框信息保存。

根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明。应当理解,流程图和/或框图中的每个过程和/或块,以及流程图和/或框图中的过程和/或块的组合可以通过计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机、嵌入式处理器或其他可编程数据处理设备的处理器生成机器,以便计算机或其他计算机的处理器执行指令。可编程数据处理设备可生成供使用的设备,它是实现流程图中的一个或多个进程和/或框图中的一个或多个块中规定的功能的设备。

本发明的特征提取主干网络和多尺度融合网络结构,先是使用ResNet系列网络逐层次提取特征图的特征,形成自下而上的网络;而后从顶层开始,逐渐上采样2倍,形成自上而下的网络,使得处于同一层次分辨率的特征图能够跨层相加组成多尺度特征融合网络,从而加强多尺度物体的预测能力。

本发明的分支预测头网络,其包含两个分支模块:热力图模块和宽高及中心偏移模块。

一种基于CenterNet改进的多尺度缺陷目标检测系统,如图3所示,包括:骨干特征提取模块、多尺度融合模块、损失函数模块、生成多尺度标签模块、多尺度训练模块、模型多尺度输出模块、多尺度解码输出模块、图片输入模块;

所述骨干特征提取模块,用于深层提取原始图片的特征;

所述多尺度融合模块,用于有效融合高层的语义信息和低层的细节信息;

所述损失函数模块,用于度量真实值和预测值的关系,指导模型更有效的训练;

所述生成多尺度标签模块,用于划分多尺度标签,为后续多尺度训练模块做准备;

所述多尺度训练模块,用于有效利用各个尺度标签的信息,使模型充分训练各尺度的目标;

所述模型多尺度输出模块,用于输出模型在各个尺度上的抽象预测信息;

所述多尺度解码输出模块,用于将模型在各个尺度上的抽象预测信息解码成直观的、具体的预测目标框;

所述图片输入模块,用于将图片进行预处理。

图片输入模块先将图片进行预处理,归一化为统一的大小,再将处理后的图片经过骨干卷积神经网络,生成多个尺度图片的特征。模型的输出分为两部分,一部分为热力图模块,一部分为宽高及中心偏移模块。热力图模块确定物体的类别和中心点位置;宽高及中心偏移模块确定物体框的宽高及中心点偏移值以对目标的大小和位置进行回归。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

相关技术
  • 一种基于CenterNet改进的多尺度缺陷目标检测方法及系统
  • 一种基于改进CenterNet的图像小目标检测方法
技术分类

06120114692115