密集群体的冗余检测框处理方法及目标检测方法

文献发布时间：2024-04-18 19:53:33

技术领域

本申请涉及数字图像处理技术领域，更具体地说，涉及一种密集群体的冗余检测框处理方法及目标检测方法。

背景技术

NMS全称是Non-maximum supression，非极大值抑制。它是用于目标检测中对多个检测框进行后处理阶段，用于消除同一目标对象冗余的重叠的检测框。然而，NMS仅仅依据iou(交并比)阈值来区分不同的对象，也就是如果两个重叠的检测框之间的iou高于预先设定的阈值，他们将会被当做同一对象的检测框，其中一个将会被判定为重复而被删除。此种方案在通用目标检测任务中运行良好。然而，在检测对象密集场景中，即在多个不同对象存在重叠场景中，这种密集程度变化非常大的任务中却面临着窘境。当相邻之间的目标密度较高时，邻近非同一对象的检测框的与当前对象的检测的iou可能超过设定的阈值，NMS会将邻近非同一个对象的检测框误认为当前对象检测框的冗余检测框，从而抑制掉，造成模型漏检。

发明内容

针对现有技术，本申请解决的技术问题是提供一种密集群体的冗余检测框处理方法，该冗余检测框处理方法相对于传统的NMS方法适用于密集群体场景中，能够提高密集群体场景中的冗余检测框的处理精确度。

为解决上述技术问题，第一方面，本申请提供一种密集群体的冗余检测框处理方法，其包括：

在多个初步检测框中选定当前框；

检测在密集群体场景中当前框的与周边目标的密集程度，检测在密集群体场景中与当前框的最邻近的目标；以及，

结合所述密集程度和与当前框的最邻近的目标评价每一初步检测框的冗余程度分数。

在所述密集群体的冗余检测框处理方法中，相对于传统NMS方式中以框之间的交并比值来粗暴地处理冗余框，该冗余检测框处理方法在密集群体场景时，处理当前框周边的每一初步检测框的冗余程度时，考虑了周边目标的密度以及当前框最近邻的目标来重新衡量当前框周边的每一初步检测框的冗余程度，以更加精确地检测密集场景的冗余框的精确度，有利于提高目标检测准确度。

在一可能的实现方式中，结合所述密集程度和与当前框的最邻近的目标评价每一初步检测框的冗余程度分数，包括：

当一初步检测框与当前框的重合度大于或者等于第一阈值T1时，以最近目标框的对应目标的参数和当前框对应目标的参数重新计算每一初步检测框的冗余程度分数S＝S

其中，T

在一可能的实现方式中，当密集群体场景为密集人体场景时，设定第二阈值T

在一可能的实现方式中，结合所述密集程度和与当前框的最邻近的目标评价每一初步检测框的冗余程度分数，包括：

当一初步检测框与当前框的重合度小于第一阈值T1时，该初步检测框的冗余程度分数S＝S1，其中S1以NMS方法计算获得分数。

在一可能的实现方式中，第一阈值T1设定为设置阈值T3和密集程度d

在一可能的实现方式中，设置阈值T3取值0.3。

在一可能的实现方式中，在多个初步检测框中选定当前框的方式：依据检测多个初步检测框时获得的类别置信度从大至小的顺序选择当前框。

第二方面，本申请还提供一种目标检测方法，其包括：

利用深度学习的第一目标检测网络对密集群体场景图像进行目标检测，获得多个初步检测框；以及，

所述密集群体的冗余检测框处理方法对多个初步检测框进行冗余框处理，获得密集群体场景图像的最终的目标检测结果。

在一可能的实现方式中，检测获得密集程度和检测获得最邻近的目标，具体包括：

构建第二目标检测网络：第二目标检测网络包括连接第一目标检测网络的池化层的特征提取层F1、连接特征提取层的全连接层FC1以及用于预测当前框的最邻近目标和当前框与周边目标的密集程度的检测头Head1；

收集第二目标检测网络数据集：在密集群体场景图像中标注的每一目标、标注每一目标的对应的最邻近目标以及第一目标检测网络获得多个初步检测框；

以标注数据和第一目标检测网络获得多个初步检测框作为第二目标检测网络的训练数据，其中标注数据包括检测对象数据标注以及每一检测对象的最邻近对象的数据标注；

以Smooth-L1作为训练时的损失函数。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的密集群体的冗余检测框处理方法流程图目标检测方法采用的检测网络E的结构示意图；

图2为本申请实施例的密集群体的冗余检测框处理方法流程图。

具体实施方式

为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

现结合附图对本申请的密集群体的冗余检测框处理方法及目标检测方法。

该目标检测方法包括：利用深度学习的第一目标检测网络对密集群体场景图像进行目标检测，获得多个初步检测框；以及利用密集群体的冗余检测框处理方法对多个初步检测框进行冗余框处理，获得密集群体场景图像的最终的目标检测结果。本申请实施例提供的目标检测方法采用该目标检测方法对检测的目标检测框进行冗余框处理，适用于密集群体场景图像中目标检测，该密集群体可以包括但限于密集人群、密集车辆以及其他密集物体对象。

请参照图1，图1为目标检测方法采用的检测网络E的结构示意图。采用的检测网络E包括第一目标检测网络和第二目标检测网络。

具体地，第一目标检测网络对密集群体场景图像进行初步的目标检测，获得多个初步检测框。该第一目标检测网络包括用于提取特征获得特征图的主干网络、生成感应区区域的RPN网络结构、池化层以及输出多个初步检测框的检测头。所述主干网络可采用但不限于ResNet-50、Darknet53。池化层可采用RoI Align池化。检测头包括两个平行的fullconnection层分支，中一个full connection层分支输出每一初步检测框包括检测框的中心位置的横坐标、检测框的中心位置的纵坐标、检测框的长度和检测框的高度，另外一个full connection层分支连接激活层，用于输出类别置信度分数。

其中，第二目标检测网络用于检测从多个初步检测框中选定的当前框的最邻近目标的信息以及当前框与周边目标的密集程度。值得说明的时，在密集场景中进行目标检测时多个初步检测框中难易避免的出现冗余检测框的情况，为了抑制掉多余的冗余框，需逐步在初步检测框中选定考量的当前框，以当前框为对象，检测当前框的最邻近目标以及当前框值与周边目标的密集程度，以便后续以最邻近目标和密集程度去重新衡量其他的初步检测框是否冗余。以密集群体场景图像为密集人群场景图像为例，该场景图像中人体目标存在比较密集现象，即存在重叠现象；当前框框选一个人体目标A，而当前框的最邻近目标与人体目标A不为同一人体目标，最邻近目标不为人体目标A在检测时冗余框框选的目标。用于第二目标检测网络的数据集包括在密集群体场景图像中标注的每一目标、标注每一目标的对应的最邻近目标以及第一目标检测网络获得多个初步检测框。当前框与周边目标的密集程度以当前框与周边最接近目标的检测框的交并比来确定，即当前框与周边目标的密集程度为当前框与周边目标的检测框之间最大交并比；本申请中提及的检测框是指目标检测时框选目标的矩形框。

具体地，第二目标检测网络包括连接第一目标检测网络的池化层的特征提取层F1、连接特征提取层的全连接层FC1、用于预测当前框的最邻近目标以及当前框与周边目标的密集程度的检测头Head1。其中，特征提取层F1包括两个conv+relu模块，用于进一步提取更细致的特征，每一conv+relu模块模块包括依次连接的卷积层和激活层，该卷积层可为多层卷积层。其中，全连接层FC1包括前后分布的1024维的full connection层、relu层、fullconnection层和relu层。其中，连接全连接层FC1的检测头Head1包括两个并行的fullconnection层分支；其中一个full connection层分支输出每个选定的当前框的最邻近目标的信息，最邻近目标信息包括最邻近目标的检测框的中心位置横坐标、检测框的中心位置纵坐标、检测框的宽度和检测框的高度；另外一个full connection层分支连接激活层，用于输出每个选定当前框对应密集程度。

进一步地，在利用密集群体的冗余检测框处理方法机制对多个初步检测框进行冗余检测框抑制之后输出最终的目标检测结果。

请参照图2，本申请实施例提供的密集群体的冗余检测框处理方法包括如下处理步骤：

步骤S100：在多个初步检测框中选定当前框；该多个初步检测框由在密集群体场景图像中进行初步目标检测获得的，即该多个初步检测框还未进行冗余框的处理。

步骤S200：检测在密集群体场景中当前框的与周边目标的密集程度，检测在密集群体场景中与当前框的最邻近的目标。

步骤S300：结合所述密集程度和与当前框的最邻近的目标评价每一初步检测框的冗余程度分数。

对于步骤S100：在多个初步检测框中选定当前框的方式：依据检测多个初步检测框时获得的类别置信度从大至小的顺序选择当前框。因为类别置信度值最大的才是最有可能的需要检测的目标对象，故而优先处理类别置信度大对应检测框为当前框，即优先对类别置信度大的检测框进行冗余检测框抑制处理。

对于步骤S200，当前框的与周边目标的密集程度以及当前框的最邻近的目标可以采用上述目标检测方法采用的检测网络E获得，即具体可通过第二目标检测网络

对于步骤S300：结合所述密集程度和与当前框的最邻近的目标评价每一初步检测框的冗余程度分数，包括下述步骤S310和步骤S320。

其中，步骤S310：当一初步检测框与当前框的重合度大于或者等于第一阈值T

在上述步骤S310中，

其中，

在上述公式中，T

值得说明的是，上述的f(M,b

其中，步骤S320：当一初步检测框与当前框的重合度小于第一阈值T

在上述步骤S310和步骤S320中，第一阈值T

值得说明的是，考虑到当前框与周边其他目标的密集程度d

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：盛视科技股份有限公司;

上一篇：一种基于机器视觉的汽车零部件缺陷检测装置及方法
下一篇：纤连蛋白截短片段、组合物及用途