掌桥专利:专业的专利平台
掌桥专利
首页

一种图像中目标的检测方法及系统

文献发布时间:2023-06-19 19:28:50


一种图像中目标的检测方法及系统

技术领域

本申请涉及图像检测技术领域,具体而言,涉及一种图像中目标的检测方法及系统。

背景技术

近年来,随着深度学习领域的持续发展,深度学习模型逐渐应用于工业检测领域,如通过深度学习技术进行零件检测,鉴别零件是否合格。深度学习是学习的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助,它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。

在通过深度学习技术进行目标检测的过程中,先获取包含待检测的目标的参考图像,在参考图像中标记用于表征目标的标记框,将包括标记框的参考图像输入检测模型中进行模型回归训练,目标为图像中用户感兴趣的区域。训练过程中,检测模型的主干模型(backbone)和多尺度特征层颈部(neck)部分提取标记框的语义和上下文特征,再通过检测模型监督的目标在参考图像中位置和目标的类别信息引导检测模型中的检测头(detecthead)的回归,不断精确对参考图像中目标的预测结果,输出带有检测框的检测图像,如图1所示,黑色框划出的区域即为检测框,检测框表征预测的目标结果,即检测模型在接收到包括标记框的参考图像后,通过输出带有检测框的检测图像,表征对检测图像中的目标的检测结果。

但是,通过这一方案进行目标检测时,有些场景下,参考图像中包括的目标较多,参考图像中的背景被遮挡,导致检测模型对参考图像中的背景学习较差,认知不足,检测模型会将参考图像及待检测图像中的背景识别为目标,而输出过检的检测框,进而导致目标检测结果不准确。

发明内容

为了解决深度学习检测模型检测图像目标时检测结果不准确的问题,本申请提供了一种图像中目标的检测方法及系统。

本申请的实施例是这样实现的:

本申请实施例的第一方面提供一种图像中目标的检测方法,包括:

获取包括目标的原始图像,以及所述原始图像对应的目标图像,所述原始图像的数量为第一数量,且所述目标图像的数量为第二数量;所述目标图像为标注有标记框的原始图像,所述标记框中的区域为包含所述目标的目标检测区域;

基于第一数量的所述目标图像和第二数量的所述原始图像,对初始的检测模型进行训练,获取训练后的检测模型;

输入待检测图像至训练后的检测模型,得到训练后的检测模型输出的检测图像,所述检测图像包括用于表征所述待检测图像中的目标所在区域的检测框。

在一些实施例中,所述第二数量取决于单张所述目标图像中目标的数量,所述目标的数量越大,所述第二数量越大。

在一些实施例中,所述第二数量与第三数量的比值为10%-30%,所述第三数量为所述第一数量和所述第二数量之和。

在一些实施例中,初始的所述检测模型的训练过程中,所述检测模型运行的损失函数L(p,t)的计算公式如下,

其中,L

L

在一些实施例中,所述惩罚权重项的具体值取决于权重惩罚因子、训练结果中检测框与标记框结果相同及不相同的数量和第一数量。

本申请实施例的第二方面提供一种图像中目标的检测系统,包括:

参考图像获取模块,用于获取原始图像和目标图像,所述原始图像与所述目标图像中包括相同的目标,且所述目标在所述原始图像与所述目标图像中的位置相同,所述目标图像中标注有标记框,所述标记框中的区域为包含所述目标的目标检测区域;

检测模型获取模块,用于基于第一数量的所述目标图像和第二数量的所述原始图像,对初始的检测模型进行训练,获取训练后的检测模型;

检测图像输出模块,用于输入待检测图像,通过所述训练后的检测模型进行检测,输出包含检测框的检测图像,所述检测框用于表征所述待检测图像中的目标所在的区域。

在一些实施例中,所述第二数量取决于单张所述目标图像中目标的数量,所述目标的数量越大,所述第二数量越大。

在一些实施例中,所述第二数量与第三数量的比值为10%-30%,所述第三数量为所述第一数量和所述第二数量之和。

在一些实施例中,初始的所述检测模型的训练过程中,所述检测模型运行的损失函数L(p,t)的计算公式如下,

其中,L

L

在一些实施例中,基于权重惩罚因子和所述第一数量确定所述惩罚权重项的具体值,且所述惩罚权重项的具体值还取决于训练结果中检测框与标记框结果相同及不相同的数量。

本申请的有益效果:通过获取目标图像和原始图像,且目标图像为标注有标记框的原始图像,并基于第一数量的目标图像和第二数量的原始图像,对初始的检测模型进行训练,此时,初始的检测模型能够通过充分学习第二数量的原始图像中的背景,进而能够准确认识到包含原始图像及目标图像中的背景,显著提升检测模型区分目标图像中目标与背景的能力,故训练后的检测模型在检测待检测图像时,可以更准确地识别待检测图像中的目标,降低将待检测图像中的背景误识别为目标的可能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为根据本申请背景技术中带有检测框的检测后图像示意图;

图2为根据本申请一个或多个实施例的图像中目标的检测方法的流程图;

图3为根据本申请一个或多个实施例的图像中目标的检测方法中用于显示所使用的初始的检测模型中的组成的示意图;

图4为通过训练集图像经本申请一个或多个实施例的图像中目标的检测方法获得的训练结果示意图;

图5为根据本申请一个或多个实施例的图像中目标的检测系统的结构示意图;

图6为根据本申请一个或多个实施例的图像中目标的检测装置的结构示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

目前,在图像处理领域,深度学习技术相对于传统算法而言,深度学习技术能够自动学习图像特征,检测效果较好,在工业领域的应用越来越广泛。通过深度学习技术对零件等进行质量检测等工业场景中,如检测零件缺陷的检测,或者定位零件中的某一特定区域时,一般均是直接通过基于标注有标记框的参考图像对检测模型对进行训练,然而,对于参考图像中目标较多的情况,由于繁多的目标容易遮挡参考图像中的背景,使得检测模型在训练回归的过程中,并不能很好地区分参考图像中的目标和背景,错把背景学习成目标,进而导致训练后的检测模型不能准确检测待检测图像,为此,本申请提供了一种图像中目标的检测方法,通过让初始的检测模型充分学习原始图像,在训练过程中,能够充分基于目标和背景进行回归,使得训练后的检测模型能够更加精准地检测待检测图像。

图2为图像中目标的检测方法的流程示意图。如图2所示,第一方面,图像中目标的检测方法包括:

步骤100中,获取包括目标的原始图像,以及原始图像对应的目标图像,原始图像的数量为第一数量,且目标图像的数量为第二数量;目标图像为标注有标记框的原始图像,标记框中的区域为包含目标的目标检测区域。

其中,获取原始图像及目标图像的过程中,可批量地获取物体表面合缺陷的图像或者无缺陷的图像,物体主要包括各类工业制品,例如某些机械仪器、用具,也可以是部分施工项目的成果,例如建筑、铺设好的铁轨等等。上述缺陷类型包括但不限于裂缝、划痕、缺口等形式,本申请不对原始图像及目标图像的来源做具体限定。

在一些实施例中,原始图像及目标图像是经过剪切提取操作后获得的具有能够适应初始的检测模型进行训练的尺寸的图像。原始图像与目标图像的不同之处在于,目标图像是通过人工标记的方式或者机器进行标记的方式在原始图像上标注有用于表征目标所在的目标检测区域的标记框后的图像。目标图像中的标记框是为了达到目标与该图像中的背景分开的效果,便于在后期检测模型训练过程中,检测模型能够准确学习提取标记框中的区域对应的所属类别,其中,类别是指标记框中的区域为目标或者背景。

原始图像及目标图像共同作为检测模型的训练图像集,参与后续的检测模型训练过程,其中,原始图像及目标图像均为参考图像。

步骤200中,基于第一数量的目标图像和第二数量的原始图像,对初始的检测模型进行训练,获取训练后的检测模型。

可以理解的是,将目标图像和原始图像混合输入初始的检测模型中,初始的检测模型随机调取目标图像或者原始图像进行训练。原始图像及目标图像的数量足量时,可以让初始的检测模型在训练过程中高效准确地识别背景及目标,第一数量及第二数量的总和可根据实际应用场景进行确定,故本申请不对原始图像及目标图像的总数量进行具体限定。

需要说明的是,当基于目标图像对检测模型进行训练时,目标图像中的目标越多,由于目标可能会遮盖目标中的背景,因此初始的检测模型在学习训练过程中越不容易学习到目标图像中的背景,因而训练后的检测模型容易将待检测图像中的背景识别为目标,故第二数量取决于单张目标图像中目标的数量,单张目标图像中目标的数量越大,第二数量越大,此时,初始的检测模型既可以充分学习到目标图像中的目标,也可以充分学习到原始图像中的背景,进而有助于让训练后的检测模型准确识别待检测图像中的目标。

在一些实施例中,第二数量与第三数量的比值为10%-30%,第三数量为第一数量和第二数量之和。当第二数量较少时,在训练初始的检测模型时,初始的检测模型并不能充分学习到背景,进而使得训练后的检测模型不能更有效地区分待检测图像中的目标及背景;然而,当第二数量较多时,容易造成训练后的检测模型因过度学习背景,而导致在检测待检测图像时,错把背景当作目标的情况。

在输入原始图像及目标图像之前,还需要选择合适的初始检测模型,初始的检测模型可采用yolov5模型,Swin、HTC或者yoloR模型。如图3所示,初始的检测模型无论采用何种类型,均可被分为图像输入、主干(backbone)、多尺度特征层颈部(neck)、检测头(detecthead)及预测输出五部分。

在图像输入部分,原始图像及目标图像均是随机单张输入的,初始的检测模型在backbone和neck部分提取原始图像或者目标图像的语义和上下文特征,再通过监督的标记框及检测框的位置及对应类别信息引导检测模型detect head的回归,不断精确对参考图像中目标的预测结果,可以理解的是,初始的检测模型中大部分参数在单次训练过程中均保持相同的训练目标,在一定程度上促进了计算梯度的稳定性,加快了模型收敛的速度。且各个类型的初始检测模型在训练过程中均是机遇是损失函数L进行收敛回归的,初始的检测模型在训练阶段学习什么样本的目标和背景由assign sample分配算法决策。

由于yolov5模型的效率和精度权衡的非常好,故接下来,以yolov5模型为例,对初始的检测模型运行的损失函数L(p,t)进行具体阐述,L(p,t)的计算公式如下:

其中,L

L

需要说明的是,上述对检测框和标记框的回归均需要过正负样本匹配(assignsample)来完成配对,负样本来自远离标记框所在背景区域,L

以目标为长方形垫片的参考图像为例,初始的检测模型在基于原始图像及目标图像进行训练后,输出的结果图如图4所示,由于输入了合适比例的原始图像,故显著降低过检现象,且降低率达90%以上,同时漏检率基本不变(低于0.06%)。

在一些实施例中,

N表示训练图像集中所有目标图像的数量,即第一数量;NC

步骤300中,输入待检测图像至训练后的检测模型,得到训练后的检测模型输出的检测图像,检测图像包括用于表征待检测图像中的目标所在区域的检测框。

训练后的检测模型基于在训练过程中确定好的各项参数,对待检测图像进行检测,输出标注有检测框的检测图像,此时,训练后的检测模型能够准确检测出待检测图像中的全部目标,且不会将背景误识别为目标,进而不需要进行对过检的图像作二次筛选这一费时且费力的操作。

可以理解的是,在工业质检行业中,为了尽可能检出不合格品,有时需要把初始的检测模型的预测置信度阈值设置的很低,即使在这种情况下,通过本申请中的上述检测方法,也可以显著地减少检测模型在低置信度阈值下的过检图像,增加检测模型在工业质检中端到端的应用的鲁棒性,减少复杂耗时的后处理筛选流程,大大提升检测模型的在工业质检上的应用价值。

作为一种示例,当需要通过检测模型检测图像中的裂缝所在区域时,待检测图像为包含缺陷的图像,此时,参考图像及原始图像中的目标均为相同裂缝形状的缺陷,采用下述图像中目标的检测方法:

步骤S1,获取第一数量的包括裂缝缺陷的原始图像,以及原始图像对应的目标图像,目标图像为标注有标记框的原始图像,标记框中的区域为包含裂缝的目标检测区域;目标图像的数量为第二数量。

在一种可能的实现方式中,根据单张目标图像中裂缝缺陷的数量,可将第一数量确定为270张,第二数量为30张。

步骤S2,基于第一数量的目标图像和第二数量的原始图像,对初始的检测模型进行训练,获取训练后的检测模型。

在一种可能的实现方式中,初始检测模型选择yolov5模型,且经过反复训练模型的尝试,同时结合训l练结果和yolov5模型的自身结构,可将yolov5的模型相关参数设置如下:初始学习率为0.01,学习率衰减权重为0.0005,训练迭代次数为200次。训练完毕后,将训练样本图像通过初始的检测模型后获得的训练学习结果全部储存,以便对待检测图像进行检测。

需要说明的是,检测模型运行的损失函数L(p,t)的计算公式如下,

其中,L

L

在一些可能的实现方式中,

N表示训练图像集中所有目标图像的数量,即第一数量;NC

步骤S3,输入待检测图像至训练后的检测模型,得到检测模型输出的检测图像,检测框用于表征待检测图像中的裂缝所在的区域。

通过上述步骤,训练后的检测模型能够准确检测出待检测图像中的全部裂缝,且不会将背景误识别为目标,检测待检测图像中的裂缝的过程便捷高效。

图5为图像中目标的检测系统的结构示意图,第二方面,如图5所示,图像中目标的检测系统包括:

参考图像获取模块,用于获取包括目标的原始图像,以及原始图像对应的目标图像,原始图像的数量为第一数量,且目标图像的数量为第二数量;目标图像为标注有标记框的原始图像,标记框中的区域为包含目标的目标检测区域;

检测模型获取模块,用于基于第一数量的目标图像和第二数量的原始图像,对初始的检测模型进行训练,获取训练后的检测模型;

检测图像输出模块,用于输入待检测图像至训练后的检测模型,得到训练后的检测模型输出的检测图像,检测图像包括用于表征待检测图像中的目标所在区域的检测框。

在一些实施例中,当获取包括目标的原始图像,以及原始图像对应的目标图像时,第二数量取决于单张目标图像中目标的数量,目标的数量越大,第二数量越大。

在一些实施例中,当获取包括目标的原始图像,以及原始图像对应的目标图像时,第二数量与第三数量的比值为10%-30%,第三数量为第一数量和第二数量之和。

在一些实施例中,初始的检测模型的训练过程中,检测模型运行的损失函数L(p,t)的计算公式如下,

其中,L

L

在一些实施例中,基于权重惩罚因子和第一数量确定惩罚权重项的具体值,且惩罚权重项的具体值还取决于训练结果中检测框与标记框结果相同及不相同的数量。

关于图像中目标的检测系统的具体限定可以参见上文中对于图像中目标的检测方法的限定,在此不再赘述。上述图像中目标的检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

如图6所示,第三方面,本申请提供一种图像中目标的检测装置,包括处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;

存储器用于存放至少一可执行指令,可执行指令使处理器执行上述第一方面中图像中目标的检测方法的操作。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

第四方面,本申请提供一种计算机可读存储介质,其特征在于,存储介质中存储有至少一可执行指令,可执行指令在图像中目标的检测系统上运行时,使得图像中目标的检测系统执行上述第一方面中的图像中目标的检测方法的操作。

本部分实施例的有益效果在于,通过获取原始图像和目标图像,并基于原始图像及目标图像对初始的检测模型进行训练,可增强初始的检测模型对背景的学习量,强化初始的检测模型对背景的学习,有助于使训练后的检测模型区分待检测图像中的背景及目标,降低出现将背景误判为目标情况的可能性。进一步通过调整第一数量及第二数量的比例,有助于提高训练后的检测模型的准确性。进一步通过设置惩罚权重项,有助于初始的检测模型能够基于充分学习目标及背景的前提下进行回归训练,进而使得训练后的检测模型能够更加准确地检测出待检测图像中的目标。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

技术分类

06120115922174