掌桥专利:专业的专利平台
掌桥专利
首页

用于拥挤人群计数的自适应多尺度上下文聚合方法

文献发布时间:2023-06-19 11:26:00


用于拥挤人群计数的自适应多尺度上下文聚合方法

技术领域

本发明涉及数据处理技术领域,具体地,涉及用于拥挤人群计数的自适应多尺度上下文聚合方法。

背景技术

人群计数是基于计算机视觉的人群分析的一项基本任务,旨在自动检测人群拥挤状况。

但是,在人群场景中,任务往往会遇到一些具有挑战性的因素,如严重的遮挡、尺度的变化、人群分布的多样性等,尤其是在非常拥挤的场景中,由于前景人群和背景对象在视觉上相似以及人头的尺度变化使得估计拥挤程度变得困难。

当前已有直接聚合不同尺度上下文特征的网络,但是并不是所有的特征都对最终的人群计数有用,直接聚合造成信息的冗余,会影响计数网络的性能。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种用于拥挤人群计数的自适应多尺度上下文聚合方法。

根据本发明提供的一种用于拥挤人群计数的自适应多尺度上下文聚合方法,包括:

步骤1:将样本图片输入到主干网络,提取大小为输入图像分辨率i倍的特征图;

步骤2:将提取的特征图以级联的形式输入到多个多尺度上下文聚合模块,提取并自适应聚合多尺度上下文信息,得到多尺度上下文特征;其中,每个多尺度上下文聚合模块的后面均设有一个上采样层,所述上采样层用于将多尺度上下文特征转为更高分辨率的特征图;

步骤3:对生成的多尺度上下文特征进行卷积层处理,生成密度图;

步骤4:计算生成的密度图与真值密度图之间的损失函数,对网络参数进行优化;

步骤5:对所述生成的密度图进行积分求和,得到预测人数。

可选地,所述步骤4包括:

根据有人头标注点的图片,通过高斯核卷积生成人群的真值密度图,所述密度图的计算公式如下:

其中,F

可选地,所述步骤2包括:

多尺度上下文聚合模块自适应选择小尺度上下文特征,并将所述小尺度上下文特征与大尺度上下文特征进行聚合;所述多尺度上下文聚合模块包括多个空洞率不同的空洞卷积的分支;

采用

将空洞卷积提取的特征图输入到通道注意力模块中,所述通道注意力模块采用一个选择函数f自适应的选择

Y

可选地,所述采用一个选择函数f自适应的选择

将每一个上下文特征通过一个全局空间平均池化层进行池化处理,输出特征信息

采用由两个完全连接的层组成瓶颈结构对特征信息F

式中:

在通道注意力机制的输入和输出之间加入残差连接,得到选择函数定义如下:

式中:

与现有技术相比,本发明具有如下的有益效果:

本发明提供的用于拥挤人群计数的自适应多尺度上下文聚合方法有效地提取了多尺度信息,解决了人头大小不统一的问题,并通过通道注意力机制自适应选择和聚合有用的上下文信息,避免了信息的冗余,可以在拥挤场景下有更精确的密度估计,具有较高的鲁棒性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明实施例提供的用于拥挤人群计数的自适应多尺度上下文聚合方法的原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供用于拥挤人群计数的自适应多尺度上下文聚合方法,用于拥挤场景中的人群密度估计。该方法主要包括以下步骤:输入一张图片,首先经过主干网络提取特征信息,然后将提取的特征图以级联的形式输入到多个多尺度上下文聚合模块。该模块首先用空洞率不同的卷积核提取多尺度信息,然后通过通道注意力机制自适应选择通道上下文特征信息并进行聚合。每通过一个多尺度上下文聚合模块,就通过上采样将特征图转化为分辨率更高的特征图,最后经过一个1*1的卷积核输出估计密度图,并通过积分求和得到预测的人数。本发明提供的方法通过多个空洞率不同的卷积核有效地提取了多尺度信息,解决了人头大小不统一的问题,并通过通道注意力机制自适应选择和聚合有用的上下文信息,避免了信息的冗余,可以在拥挤场景下有更精确的密度估计,具有较高的鲁棒性。

图1为本发明实施例提供的用于拥挤人群计数的自适应多尺度上下文聚合方法的原理示意图,如图1所示,可以包括以下步骤:

步骤S1:将样本图片输入到主干网络,提取大小为原图像分辨率i倍的特征图。

步骤S2:将提取的特征图以级联的形式输入到多个自适应多尺度上下文聚合模块,提取并自适应聚合多尺度上下文信息,每个模块的后面都有一个上采样层,用于将多尺度上下文特征转为更高分辨率的特征图。

步骤S3:对生成的多尺度上下文特征进行1*1的卷积层处理,生成密度图。

步骤S4:计算生成的密度图与真值密度图之间的损失函数,对网络参数进行优化;

步骤S5:对密度图进行积分求和得到预测人数。

本实施例中,根据有人头标注点的图片,通过高斯核卷积生成人群的真实密度图,将有人头的像素点表示为x

其中,F

具体地,步骤S2的自适应多尺度上下文聚合模块见图1,其自适应选择可靠的小尺度上下文特征,并将其与大尺度上下文特征进行聚合。具体操作为:

多尺度上下文聚合模块包括多个空洞率不同的空洞卷积的分支,我们用

式中:Y

示例性的,选择函数f采用通道注意力机制,用来聚合多尺度上下文信息,具体操作为:

每一个特征首先通过一个全局空间平均池化层(记为F

式中:

此外,为了更好的优化,在通道注意力机制的输入和输出之间加入残差连接,最终的选择函数定义为:

本实施例在ShanghaiTech Part A,UCF CC 50和UCF-QNRF三个数据集上与其他方法进行了比较,与现有的计数相比,本实施例采用多个空洞率不同的卷积提取多尺度信息,通过通道注意力机制自适应选择和聚合多尺度上下文信息,在人群拥挤的场景中表现了良好的性能,提高了人群计数的精度。

下面结合具体实施例对本发明的技术方案进行更加详细地说明。已知一张图片的像素值和标签,则通过高斯卷积得到该图片对应的真值密度图,可以表示为:

然后通过多尺度上下文聚合网络学习由输入图像到人群估计密度图的复杂非线性映射,具体细节如下:

选用VGG-16的前十层作为主干网络,图片输入到主干网络中,提取特征信息,特征图大小为输入图像的1\8。

用一个3*3的卷积核卷积提取到的特征图,然后将特征信息送到多尺度上下文聚合模块。首先通过多个空洞率不同的空洞卷积的分支提取不同的尺度特征,每个尺度特征记为

最后,我们直接将在通道注意力机制的输入和输出进行残差连接,最终的输出结果为:

将提取到的

通过多尺度上下文聚合模块提取到多尺度上下文信息后,再通过上采样转为更高分辨率的特征图。再送到多尺度上下文聚合模块,进行相同方式的特征提取,前后一共经过三个多尺度上下文聚合模块,最终通过一个1*1的卷积核输出估计的密度图,计算损失函数L(θ):

其中F(I

需要说明的是,本发明提供的所述用于拥挤人群计数的自适应多尺度上下文聚合方法中的步骤,可以利用用于拥挤人群计数的自适应多尺度上下文聚合系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

相关技术
  • 用于拥挤人群计数的自适应多尺度上下文聚合方法
  • 一种基于尺度自适应的头部检测和密度图的人群计数方法
技术分类

06120112922640