掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深卷积神经网络的异常行为检测方法

文献发布时间:2023-06-19 10:00:31


一种基于深卷积神经网络的异常行为检测方法

技术领域

本发明涉及计算机视觉与视频检测分析领域,特别是涉及一种基于深卷积神经网络的异常行为检测方法。

背景技术

一个实用的异常监测系统的目标是一旦发生异常情况,能够及时发出信号,并识别该异常的类别。总的来说,异常检测可以看成是粗略的视频理解,它只是将异常与正常区分开。一旦检测到异常情况,就使用进一步的分类技术,将异常行为进行识别分类。

而要实现对于视频监控中的异常行为在线检测需要克服下面三个难点:算法能够满足实时性要求;算法能够有效利用长时序未裁剪视频数据集;算法能够应对监控摄像头所处环境的复杂性。

目前为止,图像分类和目标检测等基于图像的任务已经在深度学习(尤其是卷积神经网络)的推动下实现了革命性的发展。与传统方法相比,深度学习方法识别准确率更高,鲁棒性更强。但是,视频分析方面的进展却并不尽如人意,这说明学习时空数据的表征是非常困难的。其中主要的难点是:寻找视频中明显的运动信息需要某种新型网络设计,而这些设计尚未被找到和测试。

以往的研究已经通过在空间和时间维度上同时执行卷积运算来学习特征。光流特征在视频分析有着广泛和有效的应用。将光流应用到视频理解任务上可以明确而方便地实现运动线索的建模。然而,这种方法很低效,估计光流的计算和存储成本往往很高。

视频监控中的异常行为检测方法可以用于例如对乱扔垃圾行为的检测。生活垃圾随意丢弃会释放大量氨、硫化物等有害气体,造成水体污染、滋生细菌和害虫等危害,是城市环境污染问题的主要原因。为此,有必要进行生活垃圾分类措施。提供可精确且高效地检测诸如乱扔垃圾等异常行为的基于智能计算机视觉算法的异常行为检测方法是迫切需要的。

发明内容

本发明的主要目的在于克服上述背景技术存在的问题,提供一种基于深卷积神经网络的异常行为检测方法,实现精确且高效地完成异常行为的智能检测。

为实现上述目的,本发明采用以下技术方案:

一种基于深卷积神经网络的异常行为检测方法,所述方法包括:

A1:对输入视频帧进行编码;

A2:将已编码的流进行解码,得到外观流和运动流;

A3:经过异常检测模块,对帧进行评分并与阈值进行比较,判断异常行为。

进一步地:

所述步骤A1具体包括:

A11:输入层后加入Inception模块来确定低层级特征;

A12:使用卷积自编码器对视频进行编码。

所述步骤A11中:

输入层后加入Inception模块来尽早确定低层级特征,以使得模型自动选择适合的卷积运算,优选地,应用于处理固定角度拍摄的监控视频。

所述步骤A12中:

编码器采用卷积自编码器Conv-AE从正常表现的模版中学习到检测非正常目标的方法;编码器是一个层块序列,包括三层:卷积、批标准化和leaky-ReLU激活函数,直接应用卷积而不是使用池化层来降低特征映射的分辨率;

其中,通过参数化操作支持网络寻找信息方式来降低特征映射的空间分辨率,并在解码阶段中学习进一步的上采样。

所述步骤A2具体包括:

A21:将已编码的流经过外观解码器进行解码,得到外观流;

A22:将已编码的流经过运动解码器进行解码,得到运动流。

所述步骤A21中:

所述外观解码器从静止图像中学习外观信息,输出不同异常行为类别的概率分布,所述外观信息包括纹理、轮廓、兴趣点;所述外观解码器是一个层块序列,每个块的ReLU激活函数之前附加了一个Dropout层,作为一个正则化方法,用来减少训练阶段产生过度拟合的风险。

所述步骤A21中:

对于输入图像I与其重建图像

添加一个约束以保留重建图像中的原始梯度,即锐度,梯度损失定义为沿两个空间维度的绝对梯度之间的差异

其中,x,y分别表示图像空间的水平、垂直方向,g

所述步骤A22中:

所述运动解码器学习运动信息,预测不同异常行为类别的概率;所述运动解码器是一个层块序列,每个块的ReLU激活函数之前附加了一个Dropout层,作为一个正则化方法,用来减少训练阶段产生过度拟合的风险;且所述运动解码器使用的网络包含了跳跃连接,该跳跃连接可从原始图像中提取出低层级的特征;

其中采用预先训练的FlowNet2来估计光流;

其中采用U-Net子网学习模式与相应运动之间的关联;

输出光流与地面真值光流之间的基于距离的损失为

其中F

给定FlowNet2获得的输入视频帧I及其关联光流F,模型图中的网络产生重构帧

其中,x、y和c分别表示从鉴别器D输出的特征映射中的单元的空间位置和对应的通道,而λ值是模型中的部分损失相关联的权重;GAN通过交替最小化两个GAN损失来优化,用来指示运动预测的效率。

所述步骤A3具体包括:

采用一个分数估计方案,其中只考虑一个小区域而不是整个帧;

其中定义在共享相同补丁位置的两个模型流上分别估计的部分分数:

其中P表示图像面片,|P|是其像素数,i和j分别表示图像P水平和垂直方向的像素索引,I

其中,w

加权w

其中,i表示图像索引,

对每个评估视频的帧级分数进行归一化,最终的帧级分数是

其中t是包含m帧的视频中的帧索引,S

一种计算机可读存储介质,存储有计算机指令,所述计算机指令由处理器执行时实现所述的方法。

本发明具有如下有益效果:

本发明提供了一种基于深卷积神经网络的异常行为检测方法。本方法中充分利用了视频帧中提取出的结构信息和运动信息,能够精确且高效地完成异常行为的智能检测。优选的实施例中,深卷积神经网络结合了卷积自编码器(Conv-AE)和U-Net,使得每个流对于检测异常帧的任务都有贡献。通常网络深度是需要仔细挑选的超参数,为了减轻网络深度对准确率的影响,优选的,本方法在输入层之后集成了经调整的Inception模块。本方法进一步提供了一种基于补丁的方案,用于评估框架级标准化分数,该方案降低了模型输出噪声的影响。与其他高水平方法相比,本方法在基准数据集的运行效果上拥有明显的竞争优势。

附图说明

图1是本发明一种实施例基于深卷积神经网络的异常行为检测方法流程图;

图2是本发明一种实施例包含特征映射的空间分辨率的模型结构图。

具体实施方式

以下对本发明的实施方式作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。

本发明实施例提出一种基于深卷积神经网络的异常行为检测方法,主要思路为:输入视频经过一系列子模块构成的编码器后,分别通过外观解码器和运动解码器,分别得到外观流和运动流,最终经过异常检测模块,判断出输入视频是否存在异常行为。本发明可用于检测乱扔垃圾等异常行为。参阅图1和图2,所述方法包括如下步骤:

A1:对输入视频帧进行编码。编码器包括Inception、卷积、批标准化、激活模块;

A2:将已编码的流进行解码,经过外观解码器,得到外观流;经过运动解码器,得到运动流。

A3:经过异常检测模块,对帧进行评分并与阈值进行比较,判断异常行为。

在具体的实施方案中执行以上步骤时,可以按照以下方式操作。需注意的是,在实施过程中所采用的具体方法都仅为举例说明,本发明所涵盖的范围包括但不局限于所列举的以下方法。

A1:对输入视频帧进行编码。

优选实施例中的编码器包括Inception、卷积、批标准化、激活模块。

实施例中提出的网络包含编码-解码的结构,这样就产生了一个瓶颈。深层次的结构可能会忽略掉对解码至关重要的特征;相反地,浅层次的网络可能会损失掉高层级的抽象信息。Inception模块最初被提出的目的是让卷积神经网络自动决定过滤器的大小。优选的,本方法使用Inception模块可以使得模型自动选择适合的卷积运算。

一些实施例中主要应用于处理固定角度拍摄的监控视频。如果在输入层后边就加入预先定义大小的卷积层,从目标提取到的信息将会随着距离的变化而不同,这样的影响还会被传递到下一层,因此本方法在输入层后加入Inception模块来尽早确定低层级特征。Inception模块的使用相比于其他方法还明显减少了计算量。

一些实施例中使用的卷积自编码器(Conv-AE)可以从正常表现的模版中学习到检测非正常目标的方法。该卷积自编码器包括了编码器和解码器。

编码器由一系列块组成,包括三层:卷积、批标准化和leaky-ReLU激活函数。一些实施例直接应用了卷积,而不是使用池化层来降低特征映射的分辨率。这种参数化操作支持网络寻找一种信息方式来降低特征映射的空间分辨率,并在解码阶段中学习进一步的上采样。

A2:将已编码的流进行解码,经过外观解码器,得到外观流;经过运动解码器,得到运动流。

解码器是一个层块序列,每个块的ReLU激活函数之前附加了一个Dropout层,作为一个正则化方法,用来减少训练阶段产生过度拟合的风险。

外观解码器可以从静止图像中有效地学习纹理、轮廓、兴趣点等外观信息,输出不同异常行为类别的概率分布。运动解码器可以有效地学习运动信息,预测不同异常行为类别的概率。

一些实施例中使用的Conv-AE支持通过学习正常事件中的常见外观模板来检测输入帧内的异常对象。由于Conv-AE要学习正常事件的常见外观模式,我们考虑了输入图像I与其重建图像

仅使用l

其中,x,y分别表示图像空间的水平、垂直方向,g

这种损失组合为视频预测任务提供了良好的性能。

所述运动解码器可以有效地学习运动信息,预测不同异常行为类别的概率。运动解码器和外观解码器的不同之处在于,运动解码器使用的网络包含了跳跃连接,该跳跃连接可以从原始图像中提取出低层级的特征(边缘、图像块等)。

除了异常的物体结构外,典型物体的异常运动也适合用于对视频帧进行评估。编码器中的每个模块都是为了增强训练帧中常见对象的空间抽象水平。因此,本方法采用U-Net子网络学习模式与相应运动之间的关联。

一些实施例中采用了预先训练的FlowNet2来估计光流。与其他模型相比,FlowNet2输出的光流不仅平滑得多,而且保持了具有清晰边界的运动的不连续性。在编码器中使用leaky-ReLU激活也会保持弱响应,这有助于给解码器提供有用的信息。

U-Net子网侧重于学习这些模式与相应运动之间的关联,本方法中使用的地面真值光流是由一个预训练的FlowNet2估计的。为了在学习运动关联时减少这些异常值的影响,输出光流与其地面真值光流之间的损失由l

其中F

除了基于距离的损失L

给定FlowNet2获得的输入视频帧I及其关联光流F,模型图中提出的网络(G表示生成器)产生重构帧

其中,x、y和c分别表示从D输出的特征映射中的单元的空间位置和对应的通道,而λ值是与我们提出的模型中的部分损失相关联的权重。我们的GAN是通过交替最小化两个GAN损耗来优化的。GAN用来指示运动预测的效率。

A3:经过异常检测模块,对帧进行评分并与阈值进行比较,判断异常行为。

一些实施例中的异常检测模型旨在为每个帧提供一个标准化分数。在相关方法中,分数通常是测量地面真相与重建或预测输出之间相似性的量。每个视频帧的正态性是通过将其分数与阈值进行比较来决定的。很明显,由于所有像素位置的求和或平均操作,在小图像区域内发生的异常事件可能会被忽略。因此,方法提出了另一个分数估计方案,只考虑一个小区域,而不是整个帧。

定义在共享相同补丁位置的两个模型流上分别估计的部分分数:

其中P表示图像面片,|P|是其像素数,i和j分别表示图像P水平和垂直方向的像素索引,I

式中,w

加权w

最后,按照相关研究的建议,对每个评估视频的帧级分数进行归一化。

最终的帧级分数是

其中t是包含m帧的视频中的帧索引,S

本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。

相关技术
  • 一种基于深卷积神经网络的异常行为检测方法
  • 一种基于深卷积神经网络的自然场景图像文本检测方法
技术分类

06120112388291