掌桥专利:专业的专利平台
掌桥专利
首页

一种融合型卷积神经网络人群异常行为检测的方法

文献发布时间:2023-06-19 09:49:27


一种融合型卷积神经网络人群异常行为检测的方法

技术领域

本发明涉及计算机视觉技术领域,具体涉及智能监控技术领域,尤其是一种融合型卷积神经网络人群异常行为检测的方法。

背景技术

随着全球人口激增及城市人口流动性增强,人们频繁地聚集在一起参加各项群体活动如观看一场万人演唱会、在大型的商业区购物娱乐以及春运时期大规模返乡等,各种群体性异常事件呈现出不断攀升的态势,发生战争暴乱、自然灾害以及安全隐患等威胁的可能性不断增大,给人民的生命财产安全带来极大的危害,公共空间的管理和社会安全迎来全新的挑战。本发明针对人群异常事件检测,提出一种使用融合型卷积神经网络对人群异常行为检测的方法,一旦出现当前场景下认定的异常行为,系统实现自动实时报警,无疑提升了监控领域的产业价值。

近年来,随着深度学习在目标检测,语义分割等模式识别领域取得了巨大的成功,越来越多的研究人员致力于利用深度学习检测视频异常的研究,大多数人建立正常行为的生成模型,根据重构数据与输入数据之间的误差检测异常。其中主要的异常检测方法分为卷积神经网络(Convolutional Neural Network,CNN),生成式对抗网络(GengerativeAdversarial Nets,GAN)以及卷积自动编码器(Convolutional Auto-encoder,CAE)。

卷积神经网络检测异常方法主要有通过时空卷积提取连续帧中外观和运动的编码信息,或者利用级联分类器对立方块进行异常定位方法,使用深层级模型降低异常检测的计算复杂度。而后研究人员试图利用生成式对抗网络,充分利用原始图像像素和相应的光流进行异常检测解决人群中的异常检测问题。与基于像素级的CNN相比,GAN直接对整幅图像进行衡量评估,相对来说考虑了整体信息且运算速度相对较快。尽管如此,由GAN训练的模型不稳定,且较难收敛。卷积自编码也可用来进行异常检测,通过评估重构概率替代重构误差,使用变分自编码进行异常检测。为捕获时间信息,CAE通过编码解码的步骤,直接比较重建图片和原始图片的差异,可以为多数情况下的异常事件检测提供较好的解决方案。此后,研究人员提出卷积自编码长短期记忆网络(Convolutional Auto-Encoder LongShort-Term Memory,CAE-LSTM)可以充分利用时间信息,但是这些方法主要基于整个帧的重建误差来检测异常,容易忽视局部的异常。

发明内容

本发明要解决的技术问题是:为了克服现有技术中之不足,本发明提供一种对背景干扰、人群分布不均、尺度不一等问题具有很强的鲁棒性的融合型卷积神经网络人群异常行为检测的方法。

本发明解决其技术问题所采用的技术方案是:一种融合型卷积神经网络人群异常行为检测的方法,包括以下步骤:

S1、利用深度卷积神经网络对视频监控下的运动目标的前景与背景信息进行分割,有效抵抗背景噪声;

S2、基于尺度不一、分布不均的人群静态图像,构建多尺度多任务卷积神经网络分析人群计数;

S3、基于深度神经网络的双通道卷积自编码-长短期记忆网络框架,通过自动学习群体正常行为的运动模式,根据重构误差检测群体中的异常行为,并通过全局-局部分析定位视频中的异常行为。

进一步,所述的步骤S1具体包括:

(1)、编码网络提取图像特征。

所述的编码网络采用预训练的VGG16前四块网络(去除第三块和第四块网络后的最大池化层),主要由步长为1的3×3卷积及步长为2的2×2最大池化层组成,其中滤波器个数分别为64,128,256,512。因此对于输入为W×H大小的图像,经过网络中两个2×2的最大池化层,输出的特征图大小为原图像的四分之一。为避免过拟合,第四块网络每个卷积层之后增加一个Dropout层。

(2)、特征金字塔池化模块提取中间层的特征。

随着扩张卷积在语义分割领域展现出强有力的表现,提出一种特征金字塔池化模块,该模块由一个2×2的最大池化层和几个具有不同膨胀率的膨胀卷积组成,其中3个3×3膨胀卷积的膨胀率分别4,8,16。此外批标准化层和Dropout层的速率设置为0.25,在批标准化之后添加ReLU函数。

(3)、解码网络学习从特征空间到图像空间的映射。

解码网络主要由5个块网络构成。第1个块网络通过一个步长为1的1×1转置卷积,将输入特征投影成64×W×H大小,通过输入一个步长为1的3×3转置卷积后,最后再以一个步长为1的1×1转置卷积,将64个W×H大小的输入特征投影成512×W×H大小以放大特征图的数量。第2个及第3个块网络也执行类似的操作,值得注意的是,5×5转置卷积采用的步长为2。第4块网络运用步长为2的5×5转置卷积放大特征图以匹配输入图像的原始大小。最后,将Sigmoid函数置于最后一层以判断每个像素是前景像素的概率大小,线性整流函数(Rectified Linear Unit,ReLU)置于除最后一层的每个转置卷积层后。不仅如此,为了减少网络训练过拟合,在前四个块网络后都增加了Dropout层和L2正则化。

进一步,所述步骤S2具体包括:

(1)、生成自适应人形密度图。

传统高斯核对标记点进行卷积生成的密度图,对于描述细胞或细菌等圆形物体的密度分布时尤为贴切。人体形状更接近于椭圆形,但是在不同尺度场景下,人体形状存在较大差异。人群密度稀疏且不存在遮挡情况时,人体形状可以看成一个圆形与椭圆的叠加,但当人群存在严重遮挡时并不适用。因此,针对不同密度人群,提出一种新颖的自适应人形核,并通过对标记点进行卷积生成更贴合真实场景的人群密度图:根据人体头部位置P

其中人群密度分布核包含两项,头部为归一化二维核函数N

其中d

为更好地表示行人轮廓,本发明设定N

(2)、改进的多尺度多任务卷积神经网络进行人群计数。

训练阶段,对于输入到多尺度多任务卷积神经网络的图像块,采用不重叠采样策略,避免由于样本相似性过大导致模型泛化能力差;测试阶段,以相同步幅重叠采样;

在保持原始图片大小(宽为W,高为H)不变的基础上,通过上采样和下采样获得不同尺度信息;

每个卷积神经网络通道有四个不同大小局部感受野的卷积层;

原始图像所得图像人群头部较大,采用1个9×9卷积,3个7×7卷积提取有效特征;W/2×H/2原始图像大小使用1个7×7卷积,3个5×5卷积提取特征;W/4×H/4原始图像大小则采用局部感受野较小的卷积层(1个5×5卷积,3个3×3卷积);

对具有较大感受野的CNN通道,使用较少数量的滤波器;

每个通道前四个卷积后都连接dropout层,PReLU激活层和LRN层,且前两层卷积之后连接步长为2的最大池化层,故不同通道第三层卷积的输入(conv1_3,conv2_3和conv3_3)是原图大小的1/4;

采用去卷积操作,保证要合并的特征大小相同(W×H)的同时弥补由于之前池化操作导致丢失的细节。去卷积运算次数取决于第4个卷积层输出特征的大小。

(3)、估计自适应人形密度图及人群密度等级。

将合并的特征首先输出到大小为3×3的第五层卷积(conv5)。然后采用1×1卷积将conv5的输出映射到自适应人形密度图,计算自适应人形密度图与真实值之间的损失,记为L

其中N表示图像子块的个数,O表示网络参数,P

通过一组级联卷积滤波器对conv5的输出进行处理,为了使用任意大小的图像进行训练,使用高度为3的空间金字塔池(SPP)消除包含全连接层的深层网络的固定尺寸约束。本发明中采用4个全连接层(FC),即FC1(包含有512个神经元),FC2(包含有256个神经元),FC3(包含有32个神经元)和FC4(包含有6个神经元)。前3个FC层后紧接着PReLU激活层,FC4之后连接sigmoid激活层,表示输入图像块的人群密度等级。估计人群密度等级与其真实值之间的损失,记为L

其中M是密度级别个数,F

卷积神经网络的加权损失函数最终定义为

L

其中,λ

进一步,所述步骤S3具体包括:

(1)、同时对原始数据及其对应光流信息进行行人特征编码,并根据双通道数据的编码重构结果进行异常检测。

将原始视频数据及对应的光流数据根据时间顺序依次输入到网络,通过含三个卷积层的编码器对输入的双通道数据进行编码,得到不同通道数据的空间变化特征。

将编码后的双通道数据的空间变化特征输入含三个卷积长短期记忆网络单元的时空处理模块STP(sptiao-temporal processing module),获取序列输入的双通道数据的时空变化特征。

将STP模块输出的双通道数据的时空变化特征送到含三个解卷积层的解码器,进行不同通道的数据重构。

(2)、加权欧几里德损失函数使网络关注运动目标,抑制背景噪声的影响。

对于输入的原始视频数据,采用分块鲁棒主成分分析分解将运动前景与静止背景分离,分割过程如下:

提出一种加权欧式损失函数,使网络更加专注于学习移动前景目标的时空特征表示,抑制背景噪声对于网络学习能力的影响。

加权欧式损失函数定义如下:L=||(E(I,O)-I)⊙W||

对于不同通道的数据,在训练阶段,通过最小化加权欧式损失函数使WCAE-LSTM网络学习得到原始数据与对应光流数据的时空编码特征,在测试阶段利用训练好的网络分别估计原始数据与对应光流数据的编码重构结果,利用编码重构结果进行后续的异常行为检测。

(3)、计算不同通道的全局异常值,并通过加权融合方式得到融合的全局异常值。

根据原始数据中某一帧的所有像素点处重构误差求和计算该帧处的重构误差,计算公式如下:E

计算第t帧原始数据的正则性得分S

计算光流数据的正则性得分S

(4)、对原始数据的编码重构结果进行分块,计算图像子块的局部异常值,并通过阈值化处理检测异常图像子块,实现异常行为的粗略定位

将原始数据的编码重构结果平均分成9×9的小块,计算每一小块的重构得分S

根据融合的全局异常值S

本发明的有益效果是:

(1)、可利用深度卷积神经网络对监控视频下运动目标的前景与背景信息,进行分割有效抵抗背景噪声对特征提取造成的影响。

(2)、针对具有不同尺度信息及分布不均的人群图像构建多尺度多任务卷积神经网络,提高人群计数准确率。

(3)、提出基于深度神经网络的双通道卷积自编码-长短期记忆网络框架,在训练阶段利用生成式策略自动学习群体正常行为的运动模式,从而在测试阶段通过重构误差检测群体中的异常行为,并通过全局-局部分析定位视频中的异常行为。

(4)、将前景分割、人群计数及人群异常检测三个卷积神经网络结合,通过构建融合网络感知不同人群状态。

附图说明

图1是本发明的系统流程图。

图2是本发明中提出的前景分割网络示意图。

图3是本发明中提出的人群计数网络示意图。

图4是本发明中提出的人群异常检测网络示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

如图1所示,一种融合型卷积神经网络人群异常行为检测的方法,考虑到人群密集程度越大,异常事件发生的可能性也越大,所以首先对图像进行人数预判。考虑到进行人群计数时,背景噪声对人群数目影响较大,故本发明采用卷积神经网络对图像进行前景分割。

本发明的具体操作步骤如下:

图2给出了前景分割网络示意图。

S1、编码网络提取图像特征,特征金字塔池化模块提取中间层的特征,解码网络学习从特征空间到图像空间的映射。

本发明提出的编码网络采用预训练的VGG16前四块网络(去除第三块和第四块网络后的最大池化层),主要由步长为1的3×3卷积及步长为2的2×2最大池化层组成,其中滤波器个数分别为64,128,256,512,因此对于输入为W×H大小的图像,经过网络中两个2×2的最大池化层,输出的特征图大小为原图像的四分之一,为避免过拟合,第四块网络每个卷积层之后增加一个Dropout层。

随着扩张卷积在语义分割领域展现出强有力的表现,提出一种特征金字塔池化模块,该模块由一个2×2的最大池化层和几个具有不同膨胀率的膨胀卷积组成,其中3个3×3膨胀卷积的膨胀率分别4,8,16。此外批标准化层和Dropout层的速率设置为0.25,在批标准化之后添加ReLU函数。

所述解码网络主要由5个块网络构成。第1个块网络通过一个步长为1的1×1转置卷积,将输入特征投影成64×W×H大小,通过输入一个步长为1的3×3转置卷积后,最后再以一个步长为1的1×1转置卷积,将64个W×H大小的输入特征投影成512×W×H大小以放大特征图的数量;第2个及第3个块网络也执行类似的操作,值得注意的是,5×5转置卷积采用的步长为2;第4块网络运用步长为2的5×5转置卷积放大特征图以匹配输入图像的原始大小,最后,将Sigmoid函数置于最后一层以判断每个像素是前景像素的概率大小,线性整流函数(Rectified Linear Unit,ReLU)置于除最后一层的每个转置卷积层后。不仅如此,为了减少网络训练过拟合,在前四个块网络后都增加了Dropout层和L2正则化。

图3给出了人群计数网络示意图。

S2、生成自适应人形密度图,利用改进的多尺度多任务卷积神经网络进行人群计数,估计自适应人形密度图及人群密度等级。

传统高斯核对标记点进行卷积生成的密度图,对于描述细胞或细菌等圆形物体的密度分布时尤为贴切。人体形状更接近于椭圆形,但是在不同尺度场景下,人体形状存在较大差异,人群密度稀疏且不存在遮挡情况时,人体形状可以看成一个圆形与椭圆的叠加,但当人群存在严重遮挡时并不适用。因此,针对不同密度人群,提出一种新颖的自适应人形核,并通过对标记点进行卷积生成更贴合真实场景的人群密度图:根据人体头部位置P

其中人群密度分布核包含两项,头部为归一化二维核函数N

其中d

为更好地表示行人轮廓,设定N

训练阶段,对于输入到多尺度多任务卷积神经网络的图像块,采用不重叠采样策略,避免由于样本相似性过大导致模型泛化能力差;测试阶段,以相同步幅重叠采样。

在保持原始图片大小(宽为W,高为H)不变的基础上,通过上采样和下采样获得不同尺度信息。

每个卷积神经网络通道有四个不同大小局部感受野的卷积层。

原始图像所得图像人群头部较大,采用1个9×9卷积,3个7×7卷积提取有效特征;W/2×H/2原始图像大小使用1个7×7卷积,3个5×5卷积提取特征;W/4×H/4原始图像大小则采用局部感受野较小的卷积层(1个5×5卷积,3个3×3卷积)。

对具有较大感受野的CNN通道,使用较少数量的滤波。

每个通道前四个卷积后都连接dropout层,PReLU激活层和LRN层,且前两层卷积之后连接步长为2的最大池化层,故不同通道第三层卷积的输入(conv1_3,conv2_3和conv3_3)是原图大小的1/4。

采用去卷积操作,保证要合并的特征大小相同(W×H)的同时弥补由于之前池化操作导致丢失的细节。去卷积运算次数取决于第4个卷积层输出特征的大小。

将合并的特征首先输出到大小为3×3的第五层卷积(conv5),然后采用1×1卷积将conv5的输出映射到自适应人形密度图,计算自适应人形密度图与真实值之间的损失,记为L

其中N表示图像子块的个数,O表示网络参数,P

通过一组级联卷积滤波器对conv5的输出进行处理,为了使用任意大小的图像进行训练,使用高度为3的空间金字塔池(SPP)消除包含全连接层的深层网络的固定尺寸约束。本发明中采用4个全连接层(FC),即FC1(包含有512个神经元),FC2(包含有256个神经元),FC3(包含有32个神经元)和FC4(包含有6个神经元),前3个FC层后紧接着PReLU激活层,FC4之后连接sigmoid激活层,表示输入图像块的人群密度等级,估计人群密度等级与其真实值之间的损失,记为L

其中M是密度级别个数,F

卷积神经网络的加权损失函数最终定义为

L

其中,λ

图4给出了人群异常检测网络示意图。

S3、同时对原始数据及其对应光流信息进行行人特征编码,并根据双通道数据的编码重构结果进行异常检测;利用加权欧几里德损失函数使网络关注运动目标,抑制背景噪声的影响;计算不同通道的全局异常值,并通过加权融合方式得到融合的全局异常值;对原始数据的编码重构结果进行分块,计算图像子块的局部异常值,并通过阈值化处理检测异常图像子块,实现异常行为的粗略定位。

将原始视频数据及对应的光流数据根据时间顺序依次输入到网络,通过含三个卷积层的编码器对输入的双通道数据进行编码,得到不同通道数据的空间变化特征。

将编码后的双通道数据的空间变化特征输入含三个卷积长短期记忆网络单元的时空处理模块(sptiao-temporal processing module,STP),获取序列输入的双通道数据的时空变化特征。

将STP模块输出的双通道数据的时空变化特征送到含三个解卷积层的解码器,进行不同通道的数据重构。

对于输入的原始视频数据,采用分块鲁棒主成分分析分解将运动前景与静止背景分离,分割过程如下:

提出一种加权欧式损失函数,使网络更加专注于学习移动前景目标的时空特征表示,抑制背景噪声对于网络学习能力的影响。加权欧式损失函数定义如下:L=||(E(I,O)-I)⊙W||

对于不同通道的数据,在训练阶段,通过最小化加权欧式损失函数使WCAE-LSTM网络学习得到原始数据与对应光流数据的时空编码特征,在测试阶段利用训练好的网络分别估计原始数据与对应光流数据的编码重构结果,利用编码重构结果进行后续的异常行为检测。

根据原始数据中某一帧的所有像素点处重构误差求和计算该帧处的重构误差,计算公式如下:E

计算第t帧原始数据的正则性得分S

计算光流数据的正则性得分S

将原始数据的编码重构结果平均分成9×9的小块,计算每一小块的重构得分S

根据融合的全局异常值S

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

相关技术
  • 一种融合型卷积神经网络人群异常行为检测的方法
  • 一种基于帧间特征的人群异常行为检测方法及系统
技术分类

06120112318060