掌桥专利:专业的专利平台
掌桥专利
首页

目标检测模型的训练方法及装置、电子设备、存储介质

文献发布时间:2023-06-19 19:30:30


目标检测模型的训练方法及装置、电子设备、存储介质

技术领域

本公开涉及目标识别技术领域,特别涉及一种目标检测模型的训练方法及装置、电子设备、存储介质。

背景技术

视觉表示的自监督学习是计算机视觉中的一个重要问题,旨在利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征,使其有助于许多下游任务,如图像分类、目标检测和语义分割。以往的自监督学习方法侧重于设计不同的前置任务,具体可分为基于上下文自监督学习方法、基于时序自监督学习方法和基于对比自监督学习方法。其中,最有前途的方向之一是基于对比自监督学习方法,它将一幅图像转换为多个视图,使同一图像的视图之间的距离最小化,并使特征图中不同图像的视图之间的距离最大化。

现有的目标检测算法有单阶段和双阶段两种。其中,双阶段检测指的是检测算法需要分两步完成。第一步需要获取候选区域,在获取候选区域时通常采用选择性搜索,其算法原理为:首先将每个像素作为一组,然后,计算每一组的纹理,并将两个最接近的组结合起来。在这一步骤中,为了避免单个区域吞噬其他区域,首先对较小的组进行分组,之后继续合并区域,直到所有区域都结合在一起。第二步使用支持向量机(Support VectorMachine,SVM)对区域进行分类,使用线性回归损失来校正边界框,以实现目标分类并得到检测框。与双阶段检测相对的是单阶段检测,其检测算法仅需一步完成,不需要单独寻找候选区域,直接通过神经网络产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,因此,与双阶段检测相比,单阶段检测有着更快的检测速度。其中,单阶段检测采用的神经网络包含三个部分:卷积层,用于提取图片特征;目标检测层,根据提取的图片特征使用区域生成网络头(RPNhead)生成检测框,非极大值抑制(Non MaximumSuppression,NMS)层,用于去除冗余的检测框。

然而,现有的监督式学习过于依赖大规模标注数据集,数据集的收集和人工标注会耗费大量的人力成本,缺乏适用于目标检测的自监督辅助任务。同时,现有的目标检测算法无法准确检测小目标物体,且容易出现分类错误的问题。

发明内容

本公开旨在至少解决现有技术中存在的问题之一,提供一种目标检测模型的训练方法及装置、电子设备、存储介质。

本公开的一个方面,提供了一种目标检测模型的训练方法,所述训练方法包括:

确定原始行为识别数据集;

对所述原始行为识别数据集进行数据增强处理;

对数据增强后的所述原始行为识别数据集进行裁剪处理,得到目标数据集;

构建基于自监督学习的目标检测模型;

利用所述目标数据集对所述目标检测模型进行训练,得到训练好的所述目标检测模型。

可选的,所述对所述原始行为识别数据集进行数据增强处理,包括:

对所述原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理。

可选的,所述对所述原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理,包括:

根据下式(1)对所述原始行为识别数据集进行归一化处理:

其中,i表示所述原始行为识别数据集中的图像数据,i

可选的,所述对所述原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理,包括:

根据下式(2)对归一化后的所述原始行为识别数据集进行多尺度缩放处理:

其中,f

可选的,所述对所述原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理,包括:

根据下式(3)对多尺度缩放处理后的所述原始行为识别数据集进行旋转增强处理:

其中,α表示旋转的角度,w′和h′分别表示旋转增强后的所述原始行为识别数据集中图像的宽和高。

可选的,所述对数据增强后的所述原始行为识别数据集进行裁剪处理,得到目标数据集,包括:

根据数据增强后的所述原始行为识别数据集对应的标注文件,提取目标框信息;

根据预设的数据增强流程,对所述目标框信息进行相应转换;

根据转换后的目标框信息,对数据增强后的所述原始行为识别数据集进行裁剪,得到所述目标数据集。

可选的,所述构建基于自监督学习的目标检测模型,包括:

构建基于MOCOV3的自监督学习框架,并采用ResNet-50模型作为所述自监督学习框架对应的骨干模型,得到第一模型;

根据下式(4)将所述第一模型包括的所述自监督学习框架中的动量编码器方式更改为指数加权移动平均算法,得到第二模型,其中,θ

θ

根据下式(5)将所述第二模型的编码器输出转换为预测输出,得到所述目标检测自监督模型:

prediction=p(f

其中,prediction表示分类结果,p表示预测器,f

采用YOLOX网络作为目标检测框架,并采用CSPDarknet模型作为所述目标检测框架对应的骨干模型,利用所述目标检测自监督模型进行迁移学习,构建形成所述目标检测模型。

本公开的另一个方面,提供了一种目标检测模型的训练装置,所述训练装置包括:

确定模块,用于确定原始行为识别数据集;

数据增强模块,用于对所述原始行为识别数据集进行数据增强处理;

裁剪模块,用于对数据增强后的所述原始行为识别数据集进行裁剪处理,得到目标数据集;

构建模块,用于构建基于自监督学习的目标检测模型;

训练模块,用于利用所述目标数据集对所述目标检测模型进行训练,得到训练好的所述目标检测模型。

本公开的另一个方面,提供了一种电子设备,包括:

至少一个处理器;以及,

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前文记载的目标检测模型的训练方法。

本公开的另一个方面,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现前文记载的目标检测模型的训练方法。

本公开实施例相对于现有技术而言,基于自监督学习的目标检测模型能够从大规模未标记数据中学习图像特征,而无需使用任何人工标注数据,并能达到甚至超越监督学习方法达到的精度,有效解决现有的目标检测算法对小目标物体检测不准确且分类错误的问题。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种目标检测模型的训练方法的流程图;

图2为本公开另一实施方式提供的一种目标检测模型的训练装置的结构示意图;

图3为本公开另一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本公开实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本公开的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本公开各实施方式中,为了使读者更好地理解本公开而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便,不应对本公开的具体实现方式构成任何限定,各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种目标检测模型的训练方法S100,其流程如图1所示,包括:

步骤S110,确定原始行为识别数据集。

具体的,本步骤可以收集并整理相关的小目标数据集DelftBikes。小目标数据集DelftBikes包括训练集和验证集,其中,训练集包含22个类共8000个图像,验证集包含22个类共2000个图像。由于训练方法S100采用自监督图像分类算法进行训练,因此,在自监督训练过程中可以仅使用小目标数据集DelftBikes中的训练集作为原始行为识别数据集。与有监督图像分类算法相比,自监督图像分类算法能从大规模未标注数据中学习图像特征,无需使用任何人工标注数据,在数据集制作时能节约大量人工标注成本,减少数据集准备时间,还能达到甚至超越有监督图像分类算法达到的精度。

步骤S120,对原始行为识别数据集进行数据增强处理。

具体的,本步骤通过对原始行为识别数据集进行数据增强处理,可以增大数据集的规模,从而实现对原始行为识别数据集的优化增强。

示例性的,步骤S120包括:对原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理。

具体的,由于小目标数据集DelftBikes包括的训练集中,目标部位种类较少且图像数量也较少,因此,在将小目标数据集DelftBikes包括的训练集作为原始行为识别数据集时,会使得模型训练易出现过拟合,因此,本步骤分别依次采用归一化处理、多尺度缩放处理、旋转增强处理,来对原始行为识别数据集中的源图像进行变换。

示例性的,对原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理,包括:

根据下式(1)对原始行为识别数据集进行归一化处理:

其中,i表示原始行为识别数据集中的图像数据,i

具体的,在原始行为数据集为小目标数据集DelftBikes时,本步骤即可利用上式(1)对小目标数据集DelftBikes进行归一化处理。

通过对原始行为识别数据集进行归一化处理,可以使归一化后的原始行为识别数据集中的所有数据均处于[0,1]之间,从而提升模型收敛的速度,并提高模型的精度。

示例性的,对原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理,包括:

根据下式(2)对归一化后的原始行为识别数据集进行多尺度缩放处理:

其中,f

具体的,通过对步骤S110得到的原始行为识别数据集进行分析可以发现,该原始行为识别数据集与常见的行为识别数据集有着显著区别:不同图片的角度、亮度、对比度、目标大小等存在较大差异。因此,本步骤采用多尺度训练策略,将归一化后的原始行为识别数据集缩放为不同尺度进行输入,以提高目标检测模型对不同大小目标行为识别的适应能力。

本步骤可以利用wrapAffine将归一化后的原始行为识别数据集缩放为六种尺度进行输入,以避免丢失过多的源图像信息。

对原始行为识别数据集分别进行归一化处理、多尺度缩放处理、旋转增强处理,包括:

使用wrapAffine方法,根据下式(3)对多尺度缩放处理后的原始行为识别数据集进行旋转增强处理:

其中,α表示旋转的角度,w′和h′分别表示旋转增强后的原始行为识别数据集中图像的宽和高。

步骤S130,对数据增强后的原始行为识别数据集进行裁剪处理,得到目标数据集。

具体的,在通过数据增强处理增大原始行为识别数据集的规模后,本步骤可以根据目标位置对数据增强处理后的原始行为识别数据集进行裁剪,制作得到针对小目标的目标数据集,以提高模型对小目标的鲁棒性和多样性。

示例性的,对数据增强后的原始行为识别数据集进行裁剪处理,得到目标数据集,包括:

根据数据增强后的原始行为识别数据集对应的标注文件,提取目标框信息;根据预设的数据增强流程,对目标框信息进行相应转换;根据转换后的目标框信息,对数据增强后的原始行为识别数据集进行裁剪,得到目标数据集。

在这里,目标数据集中可以包括针对小目标的每个部位的小目标图像,从而使得利用该目标数据集对目标检测模型进行训练,能够有效提升目标检测模型对目标物体的检测能力,促进迁移学习的更好的任务对齐和体系结构对齐。

步骤S140,构建基于自监督学习的目标检测模型。

具体的,本步骤可以首先构建一个用于小目标检测的自监督模型,在得到带标签的目标数据集的基础上,提出一个自监督解决方案,以进一步有效提升目标检测模型对目标物体的检测能力,促进迁移学习的更好的任务对齐和体系结构对齐。之后,本步骤可以构建一个利用自监督模型进行迁移学习的复合主干网络作为识别图像中的小目标物体的目标检测模型,以利用该目标检测模型识别定位出图像中的小目标物体,并输出该小目标物体对应的类别。

示例性的,步骤S140包括:

构建基于MOCOV3的自监督学习框架,并采用ResNet-50模型作为自监督学习框架对应的骨干模型,得到第一模型。该步骤得到的第一模型引入了记忆库(memory bank)的概念,可以把之前模型产生的样本特征全部存储起来,在当前计算损失时可以直接使用存储的样本特征,每次模型更新完后都将当前的样本特征更新至memory bank中,以便下次使用。而采用队列存储样本特征时,模型每次更新后都需要将所有样本的特征全部存起来,通过队列来存储样本特征组成的字典,在训练过程中,每一个新的批(batch)完成编码后进入队列,同时最老的batch对应的样本特征出队列,这就使得样本特征组成的字典的大小与批尺寸(batchsize)相分离,可用的字典的大小远远大于batchsize,负样本的数量会大大扩增。因此,与采用队列存储样本特征的方式相比,引入memory bank的第一模型的训练效率会得到大幅提升。在此基础上,本实施方式通过以下步骤对第一模型进行改进,得到目标检测自监督模型,从而进一步提高模型在图像分类任务上自监督训练的表征学习效果。

首先,根据下式(4)将第一模型包括的基于MOCOV3的自监督学习框架中的动量编码器方式更改为指数加权移动平均(Exponential Moving Average,EMA)算法,得到第二模型,其中,θ

θ

在上式(4)中,各数值的加权影响力随时间呈指数式递减,时间越靠近当前时刻的数据加权影响力越大,因此,时间比较久远的变量值的影响力相对较低,时间比较远的全量值的影响力相对较高,以此来提高当前和早期特征之间的表示一致性。

其次,为防止模型在每次迭代中为每个图像输出相同的表示,使用预测器p将第二模型的编码器的输出转换为预测输出。具体的,根据下式(5)将第二模型的编码器输出转换为预测输出,得到目标检测自监督模型:

prediction=p(f

其中,prediction表示分类结果,p表示预测器,f

通过以上步骤提出的自监督解决方案对数据增强后的原始行为识别数据集进行裁剪处理,获取对小目标物体鲁棒性更强的目标检测自监督模型,可以有效促进迁移学习的更好的任务对齐和体系结构对齐。

采用YOLOX网络作为目标检测框架,并采用CSPDarknet模型作为目标检测框架对应的骨干模型,利用目标检测自监督模型进行迁移学习,构建形成目标检测模型。

具体的,本步骤在复合主干网络中使用YOLOX网络作为目标检测框架,使用CSPDarknet作为骨干模型,并使用基于MOCOV3得到的目标检测自监督模型进行迁移学习,可以有效提升目标检测模型对小目标物体的检测能力和泛化能力,促进迁移学习的更好的任务对齐和体系结构对齐。

步骤S150,利用目标数据集对目标检测模型进行训练,得到训练好的目标检测模型。

本公开实施方式相对于现有技术而言,基于自监督学习的目标检测模型能够从大规模未标记数据中学习图像特征,而无需使用任何人工标注数据,并能达到甚至超越监督学习方法达到的精度,有效解决现有的目标检测算法对小目标物体检测不准确且分类错误的问题。

本公开的另一个实施方式涉及一种目标检测模型的训练装置,如图2所示,包括:

确定模块201,用于确定原始行为识别数据集;

数据增强模块202,用于对原始行为识别数据集进行数据增强处理;

裁剪模块203,用于对数据增强后的原始行为识别数据集进行裁剪处理,得到目标数据集;

构建模块204,用于构建基于自监督学习的目标检测模型;

训练模块205,用于利用目标数据集对目标检测模型进行训练,得到训练好的目标检测模型。

本公开实施方式提供的目标检测模型的训练装置的具体实现方法,可以参见本公开实施方式提供的目标检测模型的训练方法所述,此处不再赘述。

本公开实施方式相对于现有技术而言,基于自监督学习的目标检测模型,能够从大规模未标记数据中学习图像特征,而无需使用任何人工标注数据,并能达到甚至超越监督学习方法达到的精度,有效解决现有的目标检测算法对小目标物体检测不准确且分类错误的问题。

本公开的另一个实施方式涉及一种电子设备,如图3所示,包括:

至少一个处理器301;以及,

与至少一个处理器301通信连接的存储器302;其中,

存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述实施方式所述的目标检测模型的训练方法。

其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的另一个实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式所述的目标检测模型的训练方法。

即,本领域技术人员可以理解,实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本公开的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本公开的精神和范围。

技术分类

06120115929742