掌桥专利:专业的专利平台
掌桥专利
首页

分层多尺度人群计数的方法

文献发布时间:2023-06-19 10:27:30


分层多尺度人群计数的方法

技术领域

本发明涉及一种分层多尺度人群计数的方法。

背景技术

随着国家城市化步伐的加快和城市经济的迅猛发展,旅游事业和人群集会场景增多,但同时伴随而来的还有安全隐患。2014年上海外滩就因人数众多,发生踩踏事件。因此通过设计一种人群计数方法,预测人群数量,对高度拥挤的场景进行预警,可以帮助相关人员进行突发事件事前预警和事后决策,人们的生命和财产安全就可得到保障。

目前已有的人群计数主要分为两种:

1)基于传统方法的方法,例如支持向量机、决策树等;

2)基于深度学习的方法,如MCNN、CSRNet等网神经络方法。以上基于深度学习的人群计数方法均存在一定的局限性。

方法1)使用传统方法,复杂度高,精度差;方法2)使用现有神经网络,精度较低等问题。

发明内容

本发明的目的在于提供一种分层多尺度人群计数的方法。

为解决上述问题,本发明提供一种分层多尺度人群计数的方法,包括:

S1:获取数据集并进行预处理,以得到预处理后的数据集;

S2:构建层次化多尺度神经网络;

S3:基于所述预处理后的数据集,训练层次化多尺度神经网络并测试层次化多尺度神经网络有效性;

S4:获取摄像头图像,输入训练好的层次化多尺度神经网络进行测试,得到所述摄像头图像中的预测人数。

进一步的,在上述方法中,步骤S1包括:

S11:下载公开数据集;

S12:将所述公开数据集分为测试集和训练集;

S13:将图像数据的宽高像素补充为8的倍数,并按比例调整定位图的位置;

S14:利用高斯核大小为25的高斯核函数将定位图处理为密度图。

进一步的,在上述方法中,步骤S2包括:

S21:前端网络提取特征:以VGG16的feature层作为特征提取层,kernel=3,采用Conv2d卷积,每个卷积层后都加上Relu激活函数,层数为64、64、128、128,maxpooling(kernel=2),256、256、256,maxpooling(kernel=2),512、512、512,用此结构提取到特征feature;

S22:加载VGG16预训练参数;

S23:后端主干网络设计。

进一步的,在上述方法中,步骤S23包括:

S231:后端主干网络为二维卷积,kernel为3,输入网络层数为512,输出网络层数为128,后接Relu激活函数;自定义的注意力模块AT1;最近邻插值上采样,上采样倍数为原数图像两倍;二维卷积,kernel为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的注意力模块AT2;最近邻插值上采样,上采样倍数为原数图像两倍;二维卷积,kernel为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的注意力模块AT2;最近邻插值上采样,上采样倍数为原数图像两倍;最后一层为输入网络层数为16,输出网络层数为1,kernel为1的全卷积网络,后接Relu激活函数。输出预测密度图;

S232:构建像素注意力模块:将输入图像in二维卷积,输入通道等于输出通道,kernel为1,后接sigmoid函数处理得到out,最后输出为in和out的点乘加in;

S233:构建自定义层次化多尺度模块前端:输入为x,复制x通道数c。输入并行的四个不同方式提取特征,第一层卷积核大小为3,空洞卷积dilation为1,得到f1;第二层设置不同的卷积核和空洞卷积,得到f2;第三层设置不同的卷积核和空洞卷积,得到f3;第四层设置不同的卷积核和空洞卷积,得到f4;

S234:构建自定义层次化多尺度模块后端:截取f1,f2,f3前c/2通道为hf1、hf2、hf3,将hf1输入像素注意力模块,得到y1,将y1的前半数通道与下一层f2连接,二维卷积后通道数为c/2,输入像素注意力模块,得到y2,将y2的前半数通道与下一层f3连接,二维卷积后通道数为c/2,输入像素注意力模块,得到y3,将y3的前半数通道与下一层f4连接,二维卷积后通道数为c/4,输入像素注意力模块,得到y4;y1的后半通道、y2的后半通道、y3的后半通道、y4按通道连接后,得到输出y。

进一步的,在上述方法中,步骤S3包括:

S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,bitchsize设为1,学习率0.00001,epoch设为800;

S32:将处理后的高斯图输入层次化多尺度神经网络进行训练;

S33:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,估算网络性能。

进一步的,在上述方法中,步骤S4包括以下步骤:

S41:将摄像头图像处理为小于1024乘1024像素;

S42:将处理后的摄像头图像输入层次化多尺度神经网络,得到预测人数y。

与现有技术相比,本发明的有益效果是:

1:本发明可以对大规模人群进行更加准确的人群数量估计;

2:本发明改进了经典卷积神经网络的结构,通过特征提取模块和自定义分层多尺度模块代替了简单的卷积网络层,使用Adam优化器对神经网络的初始权值阈值进行优化,加快了网络的收敛速度,贴近网络最优参数,增强了网络对不同特征的提取;

3:本发明在VGG16feature层提取特征的基础上,通过自定义分层多尺度模块,进一步提取了不同空间的特征信息,并提高网络对密集人群的注意力,克服了单一尺度特征提取不够全面的问题。

附图说明

图1是本发明一实施例的基于多尺度特征融合的人群计数检测方法的流程结构示意图;

图2是本发明一实施例的分层多尺度神经网络结构示意图;

图3是本发明一实施例的分层注意力模块结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,本发明提供一种分层多尺度人群计数的方法,包括:

S1:获取数据集并进行预处理,以得到预处理后的数据集;

S2:构建层次化多尺度神经网络;

S3:基于所述预处理后的数据集,训练层次化多尺度神经网络并测试层次化多尺度神经网络有效性;

S4:获取摄像头图像,输入训练好的层次化多尺度神经网络进行测试,得到所述摄像头图像中的预测人数。

本发明能够适用于大规模场景时的人群数量检测,有效的提高检测结果准确性。本发明可用于大型集会及人群密集的旅游场所、商场等的人流量检测系统,利用单图片对当前图片人数进行预测,尤其在人数数量密集的情况下,本发明更加准确。

本发明的分层多尺度人群计数的方法一实施例中,步骤S1包括:

S11:下载公开数据集;

S12:将所述公开数据集分为测试集和训练集;

S13:将图像数据的宽高像素补充为8的倍数,并按比例调整定位图的位置;

S14:利用高斯核大小为25的高斯函数将定位图处理为密度图。

如图2所示,本发明的分层多尺度人群计数的方法一实施例中,步骤S2包括:

S21:前端网络提取特征:以VGG16的feature层作为特征提取层,kernel=3,采用Conv2d卷积,每个卷积层后都加上Relu激活函数,层数为64、64、128、128,maxpooling(kernel=2),256、256、256,maxpooling(kernel=2),512、512、512,用此结构提取到特征feature。

S22:加载VGG16预训练参数。

S23:后端主干网络设计。

本发明的分层多尺度人群计数的方法一实施例中,步骤S23包括:

S231:后端主干网络为二维卷积,kernel为3,输入网络层数为512,输出网络层数为128,后接Relu激活函数;自定义的注意力模块AT1;最近邻插值上采样,上采样倍数为原数图像两倍;二维卷积,kernel为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的注意力模块AT2;最近邻插值上采样,上采样倍数为原数图像两倍;二维卷积,kernel为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的注意力模块AT2;最近邻插值上采样,上采样倍数为原数图像两倍;最后一层为输入网络层数为16,输出网络层数为1,kernel为1的全卷积网络,后接Relu激活函数。输出预测密度图;

如图3所示,S232:构建像素注意力模块:将输入图像in二维卷积,输入通道等于输出通道,kernel为1,后接sigmoid函数处理得到out,最后输出为in和out的点乘加in。通过此方式为每个像素点增加一个权重参数,从而提高精度。

S233:构建自定义层次化多尺度模块前端:输入为x,复制x通道数c。输入并行的四个不同方式提取特征,第一层卷积核大小为3,空洞卷积dilation为1,得到f1;第二层设置不同的卷积核和空洞卷积,得到f2;第三层设置不同的卷积核和空洞卷积,得到f3;第四层设置不同的卷积核和空洞卷积,得到f4。

S234:构建自定义层次化多尺度模块后端:截取f1,f2,f3前c/2通道为hf1,hf2,hf3。将hf1输入像素注意力模块,得到y1,将y1的前半数通道与下一层f2连接,二维卷积后通道数为c/2,输入像素注意力模块,得到y2,将y2的前半数通道与下一层f3连接,二维卷积后通道数为c/2,输入像素注意力模块,得到y3,将y3的前半数通道与下一层f4连接,二维卷积后通道数为c/4,输入像素注意力模块,得到y4。y1的后半通道、y2的后半通道、y3的后半通道、y4按通道连接后,得到输出y。

本发明的分层多尺度人群计数的方法一实施例中,步骤S3包括:

S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,bitchsize设为1,学习率0.00001,epoch设为800。

S32:将处理后的高斯图输入层次化多尺度神经网络进行训练。

S33:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,估算网络性能。

如图3所示,本发明的分层多尺度人群计数的方法一实施例中,步骤S4包括以下步骤:

S41:将摄像头图像处理为小于1024乘1024像素。

S42:将处理后的摄像头图像输入层次化多尺度神经网络,得到预测人数y。

在此,利用摄像机获取图像数据,将图像数据处理为1024乘1024像素内,若为灰度图像则处理为RGB三通道图像,加载训练好的网络及其参数,输入图片,得到预测人数。

综上所述,本发明能够有效提取不同密集度人群的特征,同时将注意力集中到单个图片中人群数量密集的区域,解决单一尺度提取特征的特征不丰富问题,强化多个层次的特征图谱对于学习合适特征表达的现实意义。其特征在于以下步骤:

与现有技术相比,本发明的有益效果是:

1:本发明可以对大规模人群进行更加准确的人群数量估计;

2:本发明改进了经典卷积神经网络的结构,通过特征提取模块和自定义分层多尺度模块代替了简单的卷积网络层,使用Adam优化器对神经网络的初始权值阈值进行优化,加快了网络的收敛速度,贴近网络最优参数,增强了网络对不同特征的提取;

3:本发明在VGG16feature层提取特征的基础上,通过自定义分层多尺度模块,进一步提取了不同空间的特征信息,并提高网络对密集人群的注意力,克服了单一尺度特征提取不够全面的问题。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

相关技术
  • 分层多尺度人群计数的方法
  • 基于位置增强和多尺度融合网络的车厢内人群计数方法
技术分类

06120112553119