掌桥专利:专业的专利平台
掌桥专利
首页

一种边界框回归方法及系统

文献发布时间:2023-06-19 19:28:50


一种边界框回归方法及系统

技术领域

本申请涉及边界框回归领域,具体涉及一种边界框回归方法及系统。

背景技术

近几年来随着深度学习在交通检测、汽车的自动驾驶技术、目标跟踪、面部识别和图像分割等方面都有着十分广泛的应用,深度学习在这些场景广泛的应用都归根于目标检测框架的快速发展。

使用CNN(Convolutional Neural Networks)检测物体的想法在1998年就产生了,Lecun等人最先将CNN分类方法应用在检测图像中的目标。在后来,这种网络变换方式被称为全卷积网络((Fully Convolutional Network,FCN)。自从2012年AlexNet在图像分类任务中取得了重大的成功,CNN分类图像的的方法被广泛的应用起来。从而以图像分类网络为主干图像特征提取网络的下游任务如:3D目标检测、姿态检测、图像分割、面部识别等也得到快速的发展。Girshick等人将AlexNet的目标识别功能应用到目标检测中,提出了一个目标检测算法(Regions with features,R-CNN),R-CNN基于卷积神经网络(CNN)、线性回归和支持向量机(Support Vector Machines,SVM)等算法的目标检测框架,实现了目标检测技术。这是目标检测领域中第一个使用深度学习方法进行检测的模型,同样也是使用双阶段检测结构进行目标检测的开端。但RCNN的region proposal有几千个存在大量重叠部分,这些大量的重叠部分的特征会存在反复提取的情况,因此计算开销较大。

发明内容

本申请提出一种创新IoU损失函数完善了回归任务和评价指标的相关性和边界框中心点回归属性的完整性,提高了检测精度和收敛速度,同时弥补了IoU与GIoU在特殊情况下的缺点。

为实现上述目的,本申请提供了一种边界框回归方法,步骤包括:

获取目标场景当中待检测图像边界框损失函数的范式;

基于所述范式,得到改进IoU损失函数;

基于所述改进IoU损失函数,确定边界框回归损失函数;

将所述边界框回归损失函数应用到非极大值抑制处理中,提高检测精度。

优选的,确定所述范式的方法包括:

L=1-IoU+R(G,B)

式中,L为损失函数;R(G,B)为惩罚项;G为预测框的参数;B为目标框的参数;IoU为Jaccard系数。

优选的,所述惩罚项满足的条件包括:损失函数的收敛梯度方向要和两框重叠程度的评价指标相同;惩罚项数值稳定性和尺度不变性。

优选的,得到所述改进IoU损失函数的方法包括:选取两边界框的中心点所围成矩形的周长和包围两框的最小外包框的周长的比值作为惩罚项;所述比值中包含两框中心点的距离信息,确定所述改进IoU损失函数。

优选的,所述改进IoU损失函数包括:

式中,L

优选的,确定所述边界框回归损失函数的方法包括:

损失函数的收敛梯度方向和两框重叠程度的评价指标相同;

稳定的惩罚项数值;

尺度不发生变化的惩罚项数值。

优选的,提高所述检测精度的方法包括:将所述边界框回归损失函数应用到非极大值抑制中,利用所述边界框回归损失函数中惩罚项的中心点距离信息,来保证检测结果的准确性:

式中,M为最得分预测框;Bi为其他预测框;ε为得分的阈值;Si为分类得分。

本申请还提供了一种边界框回归系统,包括:构建模块、改进模块、确定模块和应用模块;

所述构建模块用于获取目标场景当中待检测图像边界框损失函数的范式;

所述改进模块用于基于所述范式,得到改进IoU损失函数;

所述确定模块用于基于所述改进IoU损失函数,确定边界框回归损失函数;

所述应用模块用于将所述边界框回归损失函数应用到非极大值抑制处理中,提高检测精度。

与现有技术相比,本申请的有益效果如下:

本申请完善边界框宽高属性回归属性,不但考虑重叠面积和边界框距离,进一步添加关于宽高回归的惩罚项,而且惩罚项避免了CIoU回归宽高比所造成的阻碍回归问题,保证了归回边界框回归属性的完整性。同时,将创新的CRIoU损失应用到目标检测网络的非极大值抑制(Non-Maximum Suppression,NMS)处理中,提升了检测精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,实施例一为初始分割实例,实施例二为区域合并实例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例一的方法流程示意图;

图2为本申请实施例一的A-CRIoU惩罚项示意图;

图3为本申请实施例一的不同回归状态时损失值的区别示意图;

图4为本申请实施例一的不同边界框损失函数的回归过程的区别示意图;

图5为本申请实施例二的系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图1所示,为本实施例的方法流程示意图,步骤包括:获取目标场景当中待检测图像边界框损失函数的范式;基于范式,得到改进IoU损失函数;基于改进IoU损失函数,确定边界框回归损失函数;将边界框回归损失函数应用到非极大值抑制处理中,提高检测精度。

在本实施例中,目标场景为自动驾驶车辆在行驶过程中扫描到的场景图像。

IoU被称为Jaccard系数,主要用于衡量两个区域的相交面积的相对大小,其在目标检测任务中通常作为衡量真实框和预测框的回归效果。IoU具有尺度不变性的优点,根据IoU损失函数进行改进通常是在IoU损失函数后加入适当的惩罚项来对IoU损失函数进行修正。本实施例中,使用相关性较强的IoU损失作为损失函数的基础范式,加入的关于两框中心点距离信息作为IoU损失的惩罚项,提高了模型的收敛速度和回归精度。改进后的损失函数范式包括:

L=1-IoU+R(G,B) (1)

式中,L为损失函数;R(G,B)为惩罚项;G为预测框的参数;B为目标框的参数;IoU为Jaccard系数。

根据在本实施例中提出的改进IoU损失函数根据公式(1)范式,加入带有特殊信息的惩罚项来提升检测效果,并且对GIoU损失的缺点加以弥补。其中引入的惩罚项之中的特殊信息要包含合适的边界框的误差信息如距离、重叠面积等,因此引入的惩罚项要满足如下条件:

1)损失函数的收敛梯度方向要和两框重叠程度的评价指标相同。若优化的误差信息和重叠评价指标的梯度方向不相同,会造成模型的收敛方向出现偏差,会影响回归的性能。

2)惩罚项数值稳定性。原始IoU损失在引入惩罚项后,收敛速度会加快,但是如果惩罚项的数值稳定性低,会造成惩罚项衰减速度过快,从而损失函数会退化成IoU损失,造成后期回归性能下降。

3)尺度不变性。对于大数据集中的目标进行检测时,需要考虑到图像中各个目标的尺度信息。当损失函数只对特定尺度敏感时,会降低模型的整体性能,降低了模型的泛化能力。

在本实施例中,基于上述确定的损失函数范式,设计了一种新型的IoU损失函数,在IoU函数基础上引入惩罚项,并且惩罚项中包含完整的回归属性,使得回归公式满足完整相关的条件。本实施例选取两边界框的中心点所围成矩形的周长和包围两框的最小外包框的周长的比值作为惩罚项,这个周长比值中包含两框中心点的距离信息,如图2中两个方框的长度P1和P2所示,设计以广义周长比值为距离信息的改进IoU损失函数(A-CRIoU):

式中,L

当预测框和回归框完全重叠时GIoU=A-CRIoU=1,GIoULOSS=A-CRIoULOSS=0;当两框距离无限远的时候。GIoU=A-CRIoU=-1,GIoULOSS=A-CRIoULOSS=2。但是在某些情况下,如图3所示,真实框的宽高都为1,预测框宽高的值为0.5。右侧回归状态明显是优于左侧回归状态。此时无论预测狂与真实值的中心点距离如何变化,GIoU与IoU的损失值都不变,但是A-CRIoU损失的却能可以在数值上很好的反映出两框的重叠情况,证明了A-CRIoU的数值稳定性。

需要说明的是,由于在IoU损失函数中存在两框没有相交的情况,在这种情况下会产生成梯度无法进行回传的问题,GIoU损失,通过在损失函数中引入惩罚项的方式来避免损失值为0,梯度无法回传的的情况。如公式(3)为GIoU公式,在式中1-IoU部分表示真实框和预测框之间不相交的面积,通过对这一部分进行回归来缩小两框不相交的面积,从而提高两框的重叠程度,公式的后半部分则使表示两框在最小外接矩形C中A与B不相交的空白区域,所以当两框不相交时,依然可以通过最小化空白区域来进行边界框回归,图4仿真了GIoU损失的回归过程,可以看出如果真实框和预测框是相互包含关系时,此时GIoU会退化成IoU损失,会导致收敛速度变慢。

式中,L

此外,一个优秀的边界框回归应该考虑重叠面积、中心点距离和宽高比这三种几何度量。DIoU和CIoU则包含这三种几何度量的回归,DIoU是在IoU的基础上引入了两框中心点距离的惩罚项,CIoU损失则是在DIoU的基础上添加宽高比惩罚项,因此CIoU损失包含了重叠面积、中心点距离和宽高比三种几何度量的回归。但是在CIoU添加的宽高比惩罚项中回归的具体数值是宽高比,CIoU中的宽高比惩罚项和具体的宽高值没有真实的对应关系,在回归比值过程中,如果预测的宽和高的真实值增大如图4中的CIoU回归过程所示,在第二次采样回归状态时,由于回归比值,使得预测框的高的误差增大,因此CIoU在回归比值的情况下会造成真实值和预测值的误差变大,这种情况下会对边界框的回归造成阻碍。

基于上述种种因素的考量,本实施例中,将实际的宽高误差作为惩罚项引入到A-CRIoU中,最后得到CRIoU损失函数如公式(4)所示:

/>

式中,P

如图4中的CRIoU回归过程所示,这样对真实的宽高值进行回归,使得回归过程中避免了CIoU在回归比值时会增大实际误差的特殊情况。

最后,将上述的A-CRIoU应用到非极大值抑制中,这样做的是因为A-CRIoU中的惩罚项中包含中心点距离信息,这在NMS过程中是可以作为更好的信息引入到其中。因为在两个不同物体距离很近时,由于IoU值比较大,这种情况下经过NMS处理后,会只剩下一个检测框,这回导致漏检的错误情况发生,所以引入中心点距离信息,就算两框IoU比较大,但是两个框的中心点距离比较大时,便会认为这是两个物体的检测框,这样可以正确识别到物体。A-CRIoU-NMS的公式如公式(6)所示:

其中,M为最得分预测框,Bi是其他预测框,ε是得分的阈值,Si为分类得分。至此,完成边界框回归,有上述内容可知,通过A-CRIoU可以提高回归时的检测精度和收敛速度。

实施例二

如图5所示,为本实施例的系统结构示意图,包括:构建模块、改进模块、确定模块和应用模块;其中,构建模块用于获取目标场景当中待检测图像边界框损失函数的范式;改进模块用于基于范式,得到改进IoU损失函数;确定模块用于基于改进IoU损失函数,确定边界框回归损失函数;应用模块用于将边界框回归损失函数应用到非极大值抑制处理中,提高检测精度。

在本实施例中,目标场景为自动驾驶车辆在行驶过程中扫描到的场景图像。

构建模块使用相关性较强的IoU损失作为损失函数的基础范式,加入的关于两框中心点距离信息作为IoU损失的惩罚项,提高了模型的收敛速度和回归精度。改进后的损失函数范式包括:

L=1-IoU+R(G,B) (7)

式中,L为损失函数;R(G,B)为惩罚项;G为预测框的参数;B为目标框的参数;IoU为Jaccard系数。

根据在本实施例中提出的改进IoU损失函数根据公式(8)范式,加入带有特殊信息的惩罚项来提升检测效果,并且对GIoU损失的缺点加以弥补。其中引入的惩罚项之中的特殊信息要包含合适的边界框的误差信息如距离、重叠面积等,因此引入的惩罚项要满足如下条件:

1)损失函数的收敛梯度方向要和两框重叠程度的评价指标相同。若优化的误差信息和重叠评价指标的梯度方向不相同,会造成模型的收敛方向出现偏差,会影响回归的性能。

2)惩罚项数值稳定性。原始IoU损失在引入惩罚项后,收敛速度会加快,但是如果惩罚项的数值稳定性低,会造成惩罚项衰减速度过快,从而损失函数会退化成IoU损失,造成后期回归性能下降。

3)尺度不变性。对于大数据集中的目标进行检测时,需要考虑到图像中各个目标的尺度信息。当损失函数只对特定尺度敏感时,会降低模型的整体性能,降低了模型的泛化能力。

在本实施例中,基于上述确定的损失函数范式,利用改进模块设计了一种新型的IoU损失函数,在IoU函数基础上引入惩罚项,并且惩罚项中包含完整的回归属性,使得回归公式满足完整相关的条件。本实施例选取两边界框的中心点所围成矩形的周长和包围两框的最小外包框的周长的比值作为惩罚项,这个周长比值中包含两框中心点的距离信息,如图2中两个方框的长度P1和P2所示,设计以广义周长比值为距离信息的改进IoU损失函数(A-CRIoU):

式中,L

当预测框和回归框完全重叠时GIoU=A-CRIoU=1,GIoULOSS=A-CRIoULOSS=0;当两框距离无限远的时候。GIoU=A-CRIoU=-1,GIoULOSS=A-CRIoULOSS=2。但是在某些情况下,如图3所示,真实框的宽高都为1,预测框宽高的值为0.5。右侧回归状态明显是优于左侧回归状态。此时无论预测狂与真实值的中心点距离如何变化,GIoU与IoU的损失值都不变,但是A-CRIoU损失的却能可以在数值上很好的反映出两框的重叠情况,证明了A-CRIoU的数值稳定性。

需要说明的是,由于在IoU损失函数中存在两框没有相交的情况,在这种情况下会产生成梯度无法进行回传的问题,GIoU损失,通过在损失函数中引入惩罚项的方式来避免损失值为0,梯度无法回传的的情况。如公式(3)为GIoU公式,在式中1-IoU部分表示真实框和预测框之间不相交的面积,通过对这一部分进行回归来缩小两框不相交的面积,从而提高两框的重叠程度,公式的后半部分则使表示两框在最小外接矩形C中A与B不相交的空白区域,所以当两框不相交时,依然可以通过最小化空白区域来进行边界框回归,图4仿真了GIoU损失的回归过程,可以看出如果真实框和预测框是相互包含关系时,此时GIoU会退化成IoU损失,会导致收敛速度变慢。

式中,L

此外,一个优秀的边界框回归应该考虑重叠面积、中心点距离和宽高比这三种几何度量。DIoU和CIoU则包含这三种几何度量的回归,DIoU是在IoU的基础上引入了两框中心点距离的惩罚项,CIoU损失则是在DIoU的基础上添加宽高比惩罚项,因此CIoU损失包含了重叠面积、中心点距离和宽高比三种几何度量的回归。但是在CIoU添加的宽高比惩罚项中回归的具体数值是宽高比,CIoU中的宽高比惩罚项和具体的宽高值没有真实的对应关系,在回归比值过程中,如果预测的宽和高的真实值增大如图4中的CIoU回归过程所示,在第二次采样回归状态时,由于回归比值,使得预测框的高的误差增大,因此CIoU在回归比值的情况下会造成真实值和预测值的误差变大,这种情况下会对边界框的回归造成阻碍。

基于上述种种因素的考量,本实施例中,通过确定模块来将实际的宽高误差作为惩罚项引入到A-CRIoU中,最后得到CRIoU损失函数如公式(10)所示:

式中,P

最后,利用应用模块将上述的A-CRIoU应用到非极大值抑制中,这样做的是因为A-CRIoU中的惩罚项中包含中心点距离信息,这在NMS过程中是可以作为更好的信息引入到其中。因为在两个不同物体距离很近时,由于IoU值比较大,这种情况下经过NMS处理后,会只剩下一个检测框,这回导致漏检的错误情况发生,所以引入中心点距离信息,就算两框IoU比较大,但是两个框的中心点距离比较大时,便会认为这是两个物体的检测框,这样可以正确识别到物体。A-CRIoU-NMS的公式如公式(12)所示:

其中,M为最得分预测框,Bi是其他预测框,ε是得分的阈值,Si为分类得分。至此,完成边界框回归,有上述内容可知,通过A-CRIoU可以提高回归时的检测精度和收敛速度。

以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

相关技术
  • 基于三维卷积神经网络的边界框回归方法、系统、设备及介质
  • 一种使用边界框约束的自底向上的多人姿态估计方法
  • 一种弹出框的封装方法、系统及存储介质
  • 一种输入框的监听方法、系统及存储介质
  • 通过回归分析从2D边界框获取伪3D框的方法以及使用该方法的学习装置和测试装置
  • 基于三维卷积神经网络的边界框回归方法、系统、设备及介质
技术分类

06120115921278