一种人群计数方法、装置、设备和存储介质

文献发布时间：2023-06-19 09:55:50

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人群计数方法、装置、设备和存储介质。

背景技术

视频监控系统结果模拟视频监控和数字视频监控后，进入智能视频监控时代。在智能视频监控系统中，人群密度检测是一项核心人物，特别是在园区、车站等场景中，通过摄像头采集人群影像数据，快速分析和统计人数，以对高密度人群场景进行告警，有助于避免出现过度拥挤，甚至踩踏等安全事故。

现有技术通常是通过行人检测方法来统计人数，该方法对于人群密集，行人之间互相遮挡严重时，存在人数检测误差较大的问题。

发明内容

本申请提供了一种人群计数方法、装置、设备和存储介质，用于解决现有的行人检测方法对于人群密集，行人之间互相遮挡严重时，存在人数检测误差较大的技术问题。

有鉴于此，本申请第一方面提供了一种人群计数方法，包括：

将获取的目标视频中的各帧图像依次输入到预置头肩检测模型进行头肩检测，输出每帧所述图像的头肩检测框；

对连续两帧所述图像中各所述头肩检测框进行匹配，并判定匹配成功的两个所述头肩检测框为同一目标；

对所述目标视频中的同一目标进行跟踪，得到跟踪轨迹；

计算所述跟踪轨迹的数量，得到所述目标视频中的人数统计结果。

可选的，所述预置头肩检测模型包括：特征图缩减模块和多尺度感受野扩展模块；

相应的，所述将获取的目标视频中的各帧图像依次输入到预置头肩检测模型进行头肩检测，输出每帧所述图像的头肩检测框，包括：

将获取的目标视频中的各帧图像依次输入到预置头肩检测模型，使得所述特征图缩减模块对输入的所述图像进行特征提取，并对提取的特征图的尺寸进行缩减，所述多尺度感受野扩展模块对缩减后的所述特征图进行多尺度处理，并基于提取的多尺度特征进行头肩检测框预测，输出每帧所述图像的头肩检测框。

可选的，所述特征图缩减模块包括：第一卷积层、第二卷积层、第三卷积层和第四卷积层；

其中，所述第一卷积层的卷积核大小为7*7，所述第二卷积层、所述第三卷积层和所述第四卷积层的卷积核大小为3*3。

可选的，所述多尺度感受野扩展模块包括：Inception层、卷积层和3个预测层。

可选的，所述对连续两帧所述图像中各所述头肩检测框进行匹配，并判定匹配成功的两个所述头肩检测框为同一目标，包括：

计算连续两帧所述图像中各所述头肩检测框之间的交并比，当最大的所述交并比大于预置阈值时，最大的所述交并比对应的两个所述头肩检测框匹配成功；

判定匹配成功的两个所述头肩检测框为同一目标。

本申请第二方面提供了一种人群计数装置，包括：

输出单元，用于将获取的目标视频中的各帧图像依次输入到预置头肩检测模型进行头肩检测，输出每帧所述图像的头肩检测框；

匹配单元，用于对连续两帧所述图像中各所述头肩检测框进行匹配，并判定匹配成功的两个所述头肩检测框为同一目标；

跟踪单元，用于对所述目标视频中的同一目标进行跟踪，得到跟踪轨迹；

计算单元，用于计算所述跟踪轨迹的数量，得到所述目标视频中的人数统计结果。

可选的，所述预置头肩检测模型包括：特征图缩减模块和多尺度感受野扩展模块；

相应的，所述输出单元具体用于：

可选的，所述匹配单元具体用于：

判定匹配成功的两个所述头肩检测框为同一目标。

本申请第三方面提供了一种人群计数设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的人群计数方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一种所述的人群计数方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种人群计数方法，包括：将获取的目标视频中的各帧图像依次输入到预置头肩检测模型进行头肩检测，输出每帧图像的头肩检测框；对连续两帧图像中各头肩检测框进行匹配，并判定匹配成功的两个头肩检测框为同一目标；对目标视频中的同一目标进行跟踪，得到跟踪轨迹；计算跟踪轨迹的数量，得到目标视频中的人数统计结果。

本申请中，通过预置头肩检测模型检测目标视频中各帧图像的头肩进行检测，避免人群互相遮挡造成的误检和漏检；通过对连续两帧图像中的头肩检测框进行匹配，确定连续帧图像中属于同一目标的头肩检测框，并对其进行跟踪，最终通过跟踪轨迹的数量确定目标视频中人数统计结果，相比于基于单帧图像的行人检测的人群计数方法，通过结合跟踪规则来检测人群数量的方法可以进一步提升人群计数的准确性和可靠性，从而解决了现有的行人检测方法对于人群密集，行人之间互相遮挡严重时，存在人数检测误差较大的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种人群计数方法的一个流程示意图；

图2为本申请实施例提供的一种预置头肩检测模型的一个结构示意图；

图3为本申请实施例提供的一种人群计数装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种人群计数方法的一个实施例，包括：

步骤101、将获取的目标视频中的各帧图像依次输入到预置头肩检测模型进行头肩检测，输出每帧图像的头肩检测框。

通过摄像头获取人群密集区域的视频，得到目标视频，可以对目标视频进行分帧处理，得到各帧图像。

现有的行人检测网络较大，计算资源开销大，为了解决该问题，本申请实施例中的预置头肩检测模型为一种轻量级的神经网络模型，主要由两部分组成：特征图缩减模块和多尺度感受野扩展模块。将目标视频中的各帧图像依次输入到预置头肩检测模型，使得特征图缩减模块对输入的图像进行特征提取，并对提取的特征图的尺寸进行缩减，多尺度感受野扩展模块对缩减后的特征图进行多尺度处理，并基于提取的多尺度特征进行头肩检测框预测，输出每帧图像的头肩检测框。

进一步，该预置头肩检测模型的结构可以参考图2，特征图缩减模块可以快速缩减特征图空间尺寸，提升网络运行速度。特征图缩减模块包括：第一卷积层、第二卷积层、第三卷积层和第四卷积层；其中，第一卷积层Conv1的卷积核大小为7*7，第二卷积层Conv2、第三卷积层Conv3和第四卷积层Conv4的卷积核大小为3*3。

该特征图缩减模块首先采用7*7的卷积核尺寸，步长为4的卷积层对输入的图像进行尺寸的快速缩减，从而大幅度减少后续卷积层处理的特征图大小，进而减少计算量。同时，7*7的卷积核参数量和感受野相对较大，提取到的特征更为丰富，可以减少特征图尺寸快速下降带来的特征信息损失。在第一层卷积后，采用3*3卷积核尺寸、步长为2的卷积层进一步缩小特征图尺寸。随后采用3*3的卷积核尺寸、步长为1的卷积层，一方面减小特征信息的快速流失，另一方面加深网络深度使网络提取到更精确的深度特征。最后，第四卷积层Conv4将特征图尺寸快速缩小为输入的1/16。

特征图快速缩减模块在大幅提升速度的同时减轻特征信息损失带来的精度问题，不仅可以加快模型的运行速度，还使模型保持较高的精度。此外，网络分别将Conv1、Conv2、Conv3和Conv4的卷积核数量设置为12、24、24和48，降低参数冗余，进一步提升运行效率。

进一步，请参考图2，多尺度感受野扩展模块包括：Inception层、卷积层(膨胀卷积层)和3个预测层。多尺度感受野扩展模块用于对目标相关联感受野进行扩增，并结合多尺度感受野的形式为头肩目标特征提供丰富的上下文语义信息，本申请实施例中的多尺度感受野扩展模块为头肩数据分布设计更为适配的膨胀率(膨胀率优选为3)，并大幅缩减了由于多分支膨胀卷积层带来的精度损失，通过膨胀率为3的膨胀卷积层可以增大感受野的尺度。

在感受野尺度扩增和多尺度生成之后，多尺度感受野扩展模块采用在3个不同的卷积层分别预测的方式对头肩目标进行预测。在Inception后设置第1个预测层、在Conv6_1后设置第二个预测层、在Conv9_1后设置第三个预测层，并采用不同尺度的先验框设计。由于在头肩检测中，头肩目标宽高比趋近于1：1，因此，为了先验框能高效的回归目标以及节约计算量，本申请实施例采用宽高比为1：1的先验框。分层预测结合多尺度先验框设计可以有效的提升检测器的鲁棒性。本申请实施例中的预置头肩检测模型的损失函数包括Softmax loss损失函数和Smooth L1 loss损失函数，Softmax loss损失函数主要用于对预测的目标类别进行损失计算；Smooth L1 loss损失函数用于对预测的检测框和实际的检测框进行回归。

对于三个预测层的头肩检测框结果，本申请实施例中采用非极大抑制方法对头肩检测框进行筛选，将最佳的头肩检测框进行输出。

步骤102、对连续两帧图像中各头肩检测框进行匹配，并判定匹配成功的两个头肩检测框为同一目标。

在检测之后，当前帧图像的每个头肩目标都会对应一个头肩检测框，然后受限于检测器的检测精度，检测结果可能会出现漏检和误检。因此，为了提高人群计数方法的精度，本申请实施例在检测基础上加入多目标跟踪算法以修正检测结果，并获取每个头肩目标在连续视频帧中的跟踪轨迹。

本申请实施例以前后两帧图像检测出的头肩检测框之间的IOU(IOU为两个边框之间的交并比)作为关联依据，不需要考虑检测目标的外观信息、不对运动轨迹进行预测，直接对两帧中所有的头肩检测框进行匹配。

进一步，匹配过程可以为：计算连续两帧图像中各头肩检测框之间的交并比，当最大的交并比大于预置阈值时，最大的交并比对应的两个头肩检测框匹配成功；判定匹配成功的两个头肩检测框为同一目标。具体的，计算当前帧图像中各头肩检测框与上一帧图像中各头肩检测框之间的IOU，在处理每帧图像时，对每一个正在追踪的目标，从检测到的头肩检测框中选取一个与它之前位置之间的最大IOU，若该最大IOU大于预置阈值，则判定该最大IOU对应的两个头肩检测框匹配，并判断该最大IOU对应的两个头肩检测框为同一目标，否则匹配失败。

步骤103、对目标视频中的同一目标进行跟踪，得到跟踪轨迹。

对目标视频中的同一目标进行跟踪，每个目标对应得到一个跟踪轨迹tracklet。如果某一个tracklet匹配失败，则认为目标离开。如果存在没有匹配到tracklet的头肩检测框，则认为是新出现的目标，并为之创建一个新的tracklet。

本方申请实施例对头肩目标检测框进行跟踪，当同一目标在连续N帧图像(可以是连续3帧图像)中被检测到时，则开始跟踪该目标，并且如果在最后一次检测后，连续M帧图像(可以是连续10帧图像)内没有检测到该目标，则结束此次跟踪。

步骤104、计算跟踪轨迹的数量，得到目标视频中的人数统计结果。

最终根据跟踪轨迹的数量确定目标视频中的人数。相较于仅采用基于单帧图像目标检测的人群计数策略，跟踪结合检测的人群计数策略进一步提升了人群计数的精度和鲁棒性。

本申请实施例中，通过预置头肩检测模型检测目标视频中各帧图像的头肩进行检测，避免人群互相遮挡造成的误检和漏检；通过对连续两帧图像中的头肩检测框进行匹配，确定连续帧图像中属于同一目标的头肩检测框，并对其进行跟踪，最终通过跟踪轨迹的数量确定目标视频中人数统计结果，相比于基于单帧图像的行人检测的人群计数方法，通过结合跟踪规则来检测人群数量的方法可以进一步提升人群计数的准确性和可靠性，从而解决了现有的行人检测方法对于人群密集，行人之间互相遮挡严重时，存在人数检测误差较大的技术问题。

以上为本申请提供的一种人群计数方法，以下为本申请实施例提供的一种人群计数装置。

请参考图3，本申请实施例提供的一种人群计数装置，包括：

输出单元201，用于将获取的目标视频中的各帧图像依次输入到预置头肩检测模型进行头肩检测，输出每帧图像的头肩检测框；

匹配单元202，用于对连续两帧图像中各头肩检测框进行匹配，并判定匹配成功的两个头肩检测框为同一目标；

跟踪单元203，用于对目标视频中的同一目标进行跟踪，得到跟踪轨迹；

计算单元204，用于计算跟踪轨迹的数量，得到目标视频中的人数统计结果。

作为进一步地改进，预置头肩检测模型包括：特征图缩减模块和多尺度感受野扩展模块；

相应的，输出单元201具体用于：

将获取的目标视频中的各帧图像依次输入到预置头肩检测模型，使得特征图缩减模块对输入的图像进行特征提取，并对提取的特征图的尺寸进行缩减，多尺度感受野扩展模块对缩减后的特征图进行多尺度处理，并基于提取的多尺度特征进行头肩检测框预测，输出每帧图像的头肩检测框。

作为进一步地改进，匹配单元202具体用于：

计算连续两帧图像中各头肩检测框之间的交并比，当最大的交并比大于预置阈值时，最大的交并比对应的两个头肩检测框匹配成功；

判定匹配成功的两个头肩检测框为同一目标。

本申请实施例还提供一种人群计数设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述人群计数方法实施例中的人群计数方法。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述人群计数方法实施例中的人群计数方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：林嘉鑫;赖蔚蔚;吴广财;郑杰生;郑颖龙;周昉昉;刘佳木;
专利申请人：广东电力信息科技有限公司;

上一篇：利用波浪能发电的波浪滑翔机构
下一篇：一种可执行文件处理方法、装置、电子设备及存储介质