掌桥专利:专业的专利平台
掌桥专利
首页

人群检测模型训练方法、装置以及人群计数方法、装置

文献发布时间:2023-06-19 13:46:35


人群检测模型训练方法、装置以及人群计数方法、装置

技术领域

本发明涉及计算机技术领域,特别是涉及一种人群检测模型训练方法、装置以及人群计数方法、装置。

背景技术

人群计数是用于安防的重要计算机视觉技术。在智能安防领域,无人巡检车通过人群计数可以有效判断人群聚集情况,提前作出预警,预防异常行为的出现。

人头检测是一种常用的人群计数方法,该方法通过对人群中的头部进行识别,来计算人群数量。

发明内容

有鉴于此,本发明的主要目的在于提供一种人群检测模型训练方法、装置以及人群计数方法、装置,可以提高人群计数准确性。

为了达到上述目的,本发明实施例提出的技术方案为:

一种人群检测模型训练方法,所述方法包括:

获取样本数据集合;其中,样本图片中人的头部和五官标识有检测框;

利用所述样本数据集合,对预先构建的人群检测模型进行训练,得到目标人群检测模型;其中,所述训练包括:

检测样本图片中人的头部和所述五官,得到头部候选检测框和五官候选检测框;

基于所述头部候选检测框和所述五官候选检测框,利用启发式注意力加权网络,生成相应头部的注意力特征向量;

基于所述注意力特征向量,利用分类网络,识别相应头部的真伪;根据识别结果和所述样本图片中标识的检测框,调整所述人群检测模型的参数。

在一个实施方式中,所述检测样本图片中人的头部和所述五官,得到头部候选检测框和五官候选检测框包括:

利用预先训练的头部检测模型,检测所述样本图片中的头部,得到头部候选检测框;

基于所述头部候选检测框,得到相应头部的子图;

利用五官检测模型,检测所述子图中的每个所述五官,得到所述五官候选检测框。

在一个实施方式中,所述生成相应头部的注意力特征向量包括:

利用所述启发式注意力加权网络的第一感兴趣区域提取层,基于第一头部候选检测框,提取相应的头部子区域特征矩阵;

利用所述启发式注意力加权网络的第一全局池化层,对所述头部子区域特征矩阵,进行全局平均采样,得到相应的头部平均特征向量;

利用所述启发式注意力加权网络的第二感兴趣区域提取层,基于所述第一头部候选检测框内的每个所述五官候选检测框,提取相应的五官子区域特征矩阵;

利用所述启发式注意力加权网络的第二全局池化层,对每个所述五官子区域特征矩阵,进行平均采样,得到相应五官的平均特征向量;

基于所述头部平均特征向量和相应五官的所述平均特征向量,计算相应头部中每个所述五官的注意力权重向量;

将所述头部平均特征向量分别与相应的每个所述五官的注意力权重向量进行点乘,并对点乘结果求和,得到所述第一头部候选检测框所对应头部的注意力特征向量。

在一个实施方式中,所述计算相应头部中每个所述五官的注意力权重向量包括:

如果所述五官存在所述平均特征向量,则将相应五官的所述平均特征向量与所述头部平均特征向量点乘,得到相应的注意力权重向量;

如果所述五官不存在所述平均特征向量,则相应的注意力权重向量为零。

在一个实施方式中,所述调整所述人群检测模型的参数包括:

对所述头部检测模型、所述五官检测模型、所述启发式注意力加权网络和所述分类网络中的参数进行调整。

在一个实施方式中,所述五官包括:

左眼、右眼、左耳、右耳和嘴。

一种人群计数方法,包括:

获取目标检测图片;

基于人群检测模型,检测所述目标检测图片中人的头部,并对检测到的头部进行计数,得到所述目标检测图片中的人数;

其中,进行计数的头部的置信度大于预设阈值;所述人群检测模型预先采用如上所述的任一人群检测模型训练方法训练得到。

一种人群检测模型训练装置,包括:

样本数据获取模块,用于获取样本数据集合;其中,样本图片中人的头部和五官标识有检测框;

模型训练模块,用于利用所述样本数据集合,对预先构建的人群检测模型进行训练,得到目标人群检测模型;其中,所述训练包括:

检测样本图片中人的头部和所述五官,得到头部候选检测框和五官候选检测框;

基于所述头部候选检测框和所述五官候选检测框,利用启发式注意力加权网络,生成相应头部的注意力特征向量;

基于所述注意力特征向量,利用分类网络,识别相应头部的真伪;根据识别结果和所述样本图片中标识的检测框,调整所述人群检测模型的参数。

一种人群计数装置,包括:

检测目标获取模块,用于获取目标检测图片;

头部检测模块,用于基于人群检测模型,检测所述目标检测图片中的头部,并对检测到的头部进行计数,得到所述目标检测图片中的人数;其中,进行计数的头部的置信度大于预设阈值;所述人群检测模型采用如上所述的任一人群检测模型训练方法训练得到。

一种人群检测模型训练设备,包括处理器和存储器;

所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至6中任一项所述的人群检测模型训练方法。

一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的人群检测模型训练方法。

本发明实施例还提供了一种人群计数设备,包括处理器和存储器;

所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的人群计数方法。

本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的人群计数方法。

由上述技术方案可见,本发明实施例提出的模型训练方法、装置以及人群计数方法、装置,在利用样本图片对人群检测模型进行训练的过程中,在人头检测的基础上引入五官检测,并利用启发式注意力加权机制,对人头检测和五官检测的结果进行综合处理,生成人头检测出的每个头部的注意力特征向量。这样,可以利用五官检测的结果,采用启发式注意力加权机制,提高人的头部与其他外形相似物体的差异性,从而可以提高输入至分类网络的注意力特征向量的准确性,实现对人头检测结果中误检为人的头部的筛除,进而可以提高人群检测模型的检测准确性。相应地,也提高了利用人群检测模型进行人群计数的准确性。

附图说明

图1为本发明实施例一的方法流程示意图;

图2为基于本发明实施例一实现的人群检测模型网络结构示意图;

图3为本发明实施例二的方法流程示意图;

图4为本发明实施例三的装置结构示意图;

图5为本发明实施例四的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。

发明人在实现本发明的过程中发现现有的利用人头检测进行人群计数的方案存在:计数误差大的问题。通过认真研究分析,发现该问题的具体原因如下:

现有的人头检测方案是基于通用目标检测框架实现的。该方案中,首先提取目标特征,然后,通过分类和回归得到目标的类别和位置。在实际应用场景中,人相对于摄像头的角度会不同,不同角度下人的头部的特征差异性比较大,例如,正脸和后脑勺的差异性就比较大。这种较大差异性的存在,使得与人的头部特征差异性较小的相似物体容易被误检测为人的头部。因为,在实际场景中难免会存在:在某个角度下,人的头部与其他物体特征差异性小于不同角度下的人的头部特征的差异性。例如,毛绒玩具的头与人的后脑勺区的差异性很小。这样,采用现有的人头检测技术,就很容易将毛绒玩具的头识别为人的头部。因此,由于现有人头检测方案容易发生上述误检问题,使得其人群计数误差比较大。

图1为本发明实施例的模型训练方法流程示意图,如图1所示,该实施例实现的模型训练方法主要包括:

步骤101、获取样本数据集合。

其中,样本图片中人的头部和五官标识有检测框。

在实际应用中,本领域技术人员可以根据实际需要选择需要检测的五官。较佳地,为了有效筛除人头检测的误检结果,需要检测的五官可以包括:左眼、右眼、左耳、右耳和嘴。在实际应用中,本领域技术人员可以根据实际需要设置需要检测的五官集合,只要确保:无论何种拍摄角度,真人头部图像中都会包含五官集合中的至少一种五官即可。这样,就可以基于五官对误检的人的头部进行筛除,以提高检测准确性。

本步骤中,每张样本图片中的头部和预设五官需要标有检测框标识,以便在训练模型时,基于样本图片中的检测框标识和模型输出的检测结果,对模型参数进行调整。

步骤102、利用所述样本数据集合,对预先构建的人群检测模型进行训练,得到目标人群检测模型。

其中,基于样本数据集合中的样本图片,对人群检测模型进行训练具体可以采用下述步骤实现:

检测样本图片中人的头部和所述五官,得到头部候选检测框和五官候选检测框;

基于每个头部的所述头部候选检测框和所述五官候选检测框,利用启发式注意力加权网络,生成相应头部的注意力特征向量;

基于所述注意力特征向量,利用分类网络,识别相应头部的真伪;根据识别结果和所述样本图片中标识的检测框,调整所述人群检测模型的参数。

这里,根据识别结果和样本图片中标识的检测框,调整所述人群检测模型的参数的具体方法为本领域技术人员所掌握,在此不再赘述。

上述训练方法中,不仅需要检测样本图片中人的头部,还需要检测头部中的五官,利用五官的检测结果和启发式注意力加权网络,可以有效筛除人头检测结果中被误判为人的头部的物体,有效提高了输入至分类网络的头部注意力特征向量的准确性,从而提高了分类网络输入的头部识别结果的准确性,进而提高了人群检测模型的检测准确性。

并且,上述训练方法中,通过引入启发式注意力加权机制,来提高分类的准确性,这样,在生成人的头部的注意力特征向量之后,仅需要将其输入至模型的分类网络进行人的头部真伪的识别即可,而不需要像现有的人头检测方法一样,为提高检测准确性,还需要通过回归处理微调检测框,因此,相比于现有的人头检测方法可以有效提高检测速度。

上述分类网络,用于基于每个头部的注意力特征向量,识别相应人的头部的真伪。具体结构可采用现有的分类器实现,例如,可以包括两个全连接层和softmax激活函数,但不限于此,也可以利用一个全连接层或多个全连接层实现。

在一个实施方式中,在上述模型训练方法中,可以采用下述方法检测样本图片中的头部和五官,得到头部候选检测框和五官候选检测框:

步骤a1、利用预先训练的头部检测模型,检测所述样本图片中的头部,得到头部候选检测框。

本步骤中,头部检测模型检测出的图片中各头部的检测框,将作为头部候选检测框,以便在后续步骤中对其真伪进行核实。

这里,所述头部检测模型即对图片中人的头部进行检测的模型。

步骤a2、基于所述头部候选检测框,得到相应头部的子图。

本步骤中,将头部候选检测框内的图像,作为相应头部的子图,以便在后续步骤中基于子图,对其中的五官进行识别,以获取每个每官的子区域特征图。

步骤a3、利用五官检测模型,检测所述子图中的每个所述五官,得到所述五官候选检测框。

本步骤中,将对头部子图中的每个预设五官进行检测,将所检测出的检测框作为相应五官的候选检测框。例如,如果需要检测的五官包括左眼、右眼、左耳、右耳和嘴,则本步骤将需要从子图中检测这些五官,得到左眼的检测框、右眼的检测框、左耳的检测框、右耳的检测框和嘴的检测框。

需要说明的是,由于在实际应用中拍摄的角度不同,有可能一个头部子图中不能包含所有预设五官的图像,也就是说,子图中可能不存在部分预设五官的检测框。

上述方法中,所述头部检测模型和所述五官检测模型均可采用现有的目标检测方法实现,例如,可以采用区域候选网络(RPN)实现。

在一个实施方式中,在上述模型训练方法中,对于检测出的每个头部,可以采用下述方法利用启发式注意力加权网络,生成该头部的注意力特征向量包括:

步骤b1、利用所述启发式注意力加权网络的第一感兴趣区域提取层(ROIPooling),基于第一头部候选检测框,提取相应的头部子区域特征矩阵。

本步骤中,对于步骤a1中检测出的每个头候选检测框,将基于该头部候选检测框,提取相应的头部子区域特征矩阵(即头部子区域特征图),以便获得相应头部的头部平均特征向量。所述第一头部候选检测框表示步骤a1中检测出的任一头部候选检测框。

步骤b2、利用所述启发式注意力加权网络的第一全局池化层(Global Pooling),对所述头部子区域特征矩阵,进行全局平均采样,得到相应的头部平均特征向量。

步骤b3、利用所述启发式注意力加权网络的第二感兴趣区域提取层,基于所述第一头部候选检测框内的每个所述五官候选检测框,提取相应的五官子区域特征矩阵。

本步骤中,用于提取第一头部候选检测框内的每个预设五官的五官子区域特征矩阵,如果其中某个五官不存在候选检测框,则相应的五官子区域特征矩阵也不存在。

步骤b4、利用所述启发式注意力加权网络的第二全局池化层,对每个所述五官子区域特征矩阵,进行平均采样,得到相应五官的平均特征向量。

本步骤中,将对所述第一头部候选检测框内每个所述五官的五官子区域特征矩阵,进行平均采样,得到相应五官的平均特征向量,以便此后基于该平均特征向量进行注意力加权处理,以筛除人头检测中被误检为人的头部的特征。

步骤b5、基于所述头部平均特征向量和相应五官的所述平均特征向量,计算第一头部候选检测框所对应头部中的每个所述五官的注意力权重向量。

在一个实施方式中,具体可以按照

在上述计算方法中,如果所述五官存在所述平均特征向量,则将相应五官的所述平均特征向量与所述头部平均特征向量点乘,得到相应的注意力权重向量。如果所述五官不存在所述平均特征向量,则相应的注意力权重向量为零。如此,对于一个被误检为人的头部的物体,由于其子图中不会检测出五官检测框,因此,其对应的所有五官的注意力权重向量均为零。

步骤b6、将所述头部平均特征向量分别与相应的每个所述五官的注意力权重向量进行点乘,并对点乘结果求和,得到所述第一头部候选检测框所对应头部的注意力特征向量。

这里,如上步骤中所述,与人的头部相似的物体的五官的注意力权重向量会为零,这样,零向量与头部平均特征向量点乘后,结果将为零向量。如此,与人的头部相似的物体的注意力特征向量为零向量,从而提高了人的头部与其他外形相似物体的差异性,因此,利用步骤b6,可以有效筛除被误检为人的头部的物体。

在一个实施方式中,在上述模型训练方法中,根据分类网络输出的结果,调整人群检测模型的参数时,具体将会对模型中的头部检测模型、五官检测模型、启发式注意力加权网络以及分类网络中的参数进行优化调整。具体的调整方法为本领域技术人员所掌握,在此不再赘述。

在一个实施方式中,对启发式注意力加权网络以及分类网络中的训练,可以使用交叉熵损失函数,通过随机梯度下降法进行优化,但不限于此。

为了便于清楚理解本发明实施例提出的人群检测模型结构。图2给出了基于上述模型训练方法所得到的人群检测模型网络结构示意图。如图2所示,该模型包括头部检测模型、五官检测模型、启发式注意力加权网络和分类网络。该网络结构示例中,头部检测模型和五官检测模型均采用RPN实现。

基于上述模型训练方法实施例,本发明实施例还提供了一种人群计数方法,如图3所示,该人群计数方法包括:

步骤301、获取目标检测图片。

步骤302、基于人群检测模型,检测所述目标检测图片中人的头部,并对检测到的头部进行计数,得到所述目标检测图片中的人数。

其中,进行计数的头部的置信度大于预设阈值;所述人群检测模型预先采用上述人群检测模型训练方法实施例训练得到。

步骤302中,对于人群检测模型检测出的每个头部,根据其对应的置信度,进行人群计数,即统计置信度大于预设阈值的头部。检测结果置信度的具体计算方法可采用现有方法实现。

如上文分析中所述,本步骤中所使用的人群检测模型中,由于引入了五官检测手段,并结合启发式注意力机制,可以有效筛除人头检测的误检结果,从而可以保障人群检测模型的检测准确性。因此,步骤302中,利用本发明实施例一中训练得到的人群检测模型,对目标检测图片中人的头部进行检测,并根据检测结果进行计数,可以提高人群检测的准确性。

这里,所述阈值,用于限定检测到的人的头部参于计数的约束条件,具体可由本领域技术人员设置合适取值。

与上述模型训练方法实施例相对应,本发明实施例还提供了一种模型训练装置,如图4所示,该装置包括:

样本数据获取模块401,用于获取样本数据集合;其中,样本图片中人的头部和五官标识有检测框。

模型训练模块402,用于利用所述样本数据集合,对预先构建的人群检测模型进行训练,得到目标人群检测模型;其中,所述训练包括:

检测样本图片中人的头部和所述五官,得到头部候选检测框和五官候选检测框;

基于所述头部候选检测框和所述五官候选检测框,利用启发式注意力加权网络,生成相应头部的注意力特征向量;

基于所述注意力特征向量,利用分类网络,识别相应头部的真伪;根据识别结果和所述样本图片中标识的检测框,调整所述人群检测模型的参数。

与上述人群计数方法实施例相对应,本发明实施例还提供了一种人群计数装置,如图5所示,该人群计数装置包括:

检测目标获取模块501,用于获取目标检测图片;

头部检测模块502,用于基于人群检测模型,检测所述目标检测图片中人的头部,并对检测到的头部进行计数,得到所述目标检测图片中的人数;其中,进行计数的头部的置信度大于预设阈值;所述人群检测模型采用如上所述人群检测模型训练方法训练得到。

通过上述实施例可以看出,上述模型训练方法实施例在利用样本图片对人群检测模型进行训练的过程中,在头部检测的基础上引入了五官检测,并利用启发式注意力加权机制,对头部检测和五官检测的结果进行综合处理,生成头部检测出的每个头部的注意力特征向量。这样,可以利用五官检测的结果,采用启发式注意力加权机制,提高人的头部与其他外形相似物体的差异性,从而可以提高输入至分类网络的注意力特征向量的准确性,实现对人头检测的误检结果的筛除,进而可以提高所训练的人群检测模型的检测准确性。相应地,也提高了利用人群检测模型进行人群计数的准确性。

由于本发明实施例提出的人群检测模型能够有效克服拍摄角度对检测准确性的影响,因此,基于该人群检测模型实现的人群计数方法,具有更广泛的应用场景,适用于多种场景,例如人群密集场景、人群稀疏场景和角度变化多样性等场景。

与上述人群检测模型训练方法实施例相对应,本发明实施例还提供了一种人群检测模型训练设备,包括处理器和存储器;

所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的人群检测模型训练方法。

本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的人群检测模型训练方法。

与上述人群计数方法实施例相对应,本发明实施例还提供了一种人群计数设备,包括处理器和存储器;

所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的人群计数方法。

本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的人群计数方法。

上述实施例中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。

需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASiC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。

在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120113807328