掌桥专利:专业的专利平台
掌桥专利
首页

一种监控视频中的真实异常检测方法

文献发布时间:2023-06-19 12:22:51


一种监控视频中的真实异常检测方法

技术领域

本发明涉及视频处理技术改进领域,特别是涉及一种监控视频中的真实异 常检测方法。

背景技术

监控摄像头越来越多地应用于公共场所,如街道、十字路口、银行、购物 中心等,以提高公共安全。视频监控的一个关键任务是检测异常事件,一般来 说,与正常活动相比,异常事件很少发生。

因此,为了减轻人工和时间的浪费,开发用于视频异常自动检测的智能计 算机视觉算法是当务之急。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种监控视频中的 真实异常检测方法,监控视频中的真实异常检测方法,通过我们提出了一种深 度学习方法来检测监控视频中的真实世界异常,由于这些实际异常的复杂性, 仅使用正常数据可能不是异常检测的最佳方法,我们试图利用正常和异常的监 控录像。为了避免训练视频中对异常片段进行耗时的标注,我们学习了一种使 用弱标记数据的深度多示例排序框架进行异常检测的通用模型,为了验证所提 出的方法,一个新的大规模异常数据集组成的各种真实世界的异常被引入。

为实现上述目的及其他相关目的,本发明提供一种监控视频中的真实异常 检测方法,所述方法包括步骤:

S1:将监控视频分成多个片段,根据所述多个片段获取包含第一标签的正 包和包含第二标签的负包,所述正包包含至少一个正样本,所述负包包含至少 一个负样本;

S2:将包含正包和负包的训练集导入C3D网络中,并对每个分割片段进行 时空特征提取,经过神经网络后对每一个分割片段进行打分,分别返回正包中 得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片 段作为优化的分界面,优化后即可以在若监督中学习一个健壮的分类器并根据 优化函数进行优化;

S3:根据S2所得到的优化器函数进行损失函数的定义和计算,损失函数定 义为成异常事件与正常事件异常值的排序;

S4:通过排名损失函数反向传播可计算出相应的阈值,以在没有超过异常 的阈值的情况下,正示例和负示例在异常得分方面相距很远;

S5:通过最小化相邻视频片段的分数差来加强时间上相邻视频片段的异常 分数之间的时间平滑性;

S6:通过多次迭代,获得目标函数,

其中,ω代表模型权重,β

具体的,所述优化函数的具体表达为:

其中,

具体的,所述排名损失函数的具体表达为:

其中,B

如上所述,本发明实施例提供的一种监控视频中的真实异常检测方法,监 控视频中的真实异常检测方法,通过我们提出了一种深度学习方法来检测监控 视频中的真实世界异常,由于这些实际异常的复杂性,仅使用正常数据可能不 是异常检测的最佳方法,我们试图利用正常和异常的监控录像。为了避免训练 视频中对异常片段进行耗时的标注,我们学习了一种使用弱标记数据的深度多 示例排序框架进行异常检测的通用模型,为了验证所提出的方法,一个新的大 规模异常数据集组成的各种真实世界的异常被引入。

附图说明

图1是本发明实施例的监控视频中的真实异常检测方法的一种流程示意图。

图2为本发明ROC和AUC的定量比较图;

图3为本发明AUC比较各种方法图;

图4为本发明在一个训练视频上的分数在迭代过程中的演变图;

图5为本发明正常测试视频的误报率比较图;

图6为本发明a图和b图显示数据集使用的C3D和TCNN进行活动识别的混 淆矩阵图;

图7为发明C3D和TCNN的活动识别结果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本 说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过 另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于 不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1。需要说明的是,本实施例中所提供的图示仅以示意方式说明本 发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时 的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为 一种随意的改变,且其组件布局型态也可能更为复杂。

本发明实施例的一种监控视频中的真实异常检测方法的主体可以为一种监 控视频中的真实异常检测系统,提出利用正常和异常视频来学习异常;提出利 用弱标记的训练视频,通过深度多示例排序框架来学习异常,即训练标签(异常 或正常)是在视频级而不是剪辑级;在排序损失函数中引入稀疏性和时间平滑约 束,以便在训练过程中更好地定位异常。

具体的,如图1所示,公开了一种监控视频中的真实异常检测方法,包括 以下步骤:

S1:将监控视频分成多个片段,根据所述多个片段获取包含第一标签的正 包和包含第二标签的负包,所述正包包含至少一个正样本,所述负包包含至少 一个负样本;

S2:将包含正包和负包的训练集导入C3D网络中,并对每个分割片段进行 时空特征提取,经过神经网络后对每一个分割片段进行打分,分别返回正包中 得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片 段作为优化的分界面,优化后即可以在若监督中学习一个健壮的分类器并根据 优化函数进行优化;

S3:根据S2所得到的优化器函数进行损失函数的定义和计算,损失函数定 义为成异常事件与正常事件异常值的排序;

S4:通过排名损失函数反向传播可计算出相应的阈值,以在没有超过异常 的阈值的情况下,正示例和负示例在异常得分方面相距很远;

S5:通过最小化相邻视频片段的分数差来加强时间上相邻视频片段的异常 分数之间的时间平滑性;

S6:通过多次迭代,获得目标函数。

在步骤S1中,提出的方法首先是在训练期间将监控视频分成固定数量的 片段,这些段在一个包中创建示例,同时使用正(异常)包和负(正常)包,我们使 用提出的深度MIL排序损失训练异常检测模型;

首先解释一下多示例学习(MIL),平常的深度学习训练都是一个样本对应 一个标签,而在MIL中,有了包这个概念。一个包对应一个标签,且一个正包 中至少需要有一个是正样本,一个负包中只能全部是负样本。而一个包中包含 多个样本,所以称为多示例学习。本文在训练过程中,将视频分割为32段剪辑 片段以分别根据标签构成正例包和负例包已备训练。

在步骤S2中,将S1中所得的训练集用于导入C3D网络中并对每段分割 片段进行时空特征提取。正负异常检测当作一个回归的问题。经过神经网络后 对每一个分割片段进行打分,分别返回正包中得分最高的异常片段和负包中得 分最高的异常片段,负包中得分最高的异常片段作为优化的分界面。即通过神 经网络主要是返回异常的得分值,

在MIL中,视频中异常事件的发生位置是未知的。相反,只需要显示整个 视频中出现异常的视频级标签,包含异常的视频标记为正,没有异常的视频标 记为负,由于正示例的确切信息(即示例级标签)是未知的,我们可以针对每个包 中得分最高的示例来优化目标函数。当且在铰链损失函数达到最大时进行优化, 优化后即可以在若监督中学习一个健壮的分类器。同时,通过下式来进行优化:

式中,

在步骤S3中,根据S2所得到的优化器进行损失函数的定义和计算。损失 函数定义为成异常事件与正常事件异常值的排序。因为在包中不清楚每个具体 分割样本的标签,即认为异常事件的异常得分一定要高于正常事件的异常得分。 例如:

f(V

其中,V

max接管了每个包中的所有视频片段。我们没有对包的每个示例都强制执 行排序,而是只对在正包和负包中分别具有最高异常值的两个示例强制执行排 序。

在步骤S4中,由上文可知S3产生的正包中异常值最高对应的段最有可能 是真正的正示例(异常段)。负包中异常值最高对应的段,就是看起来与异常段最 相似但实际是正常示例的段,这就会在异常检测中产生误报的现象,图5为本 发明正常测试视频的误报率比较图。为了尽可能避免这一现象,希望将正示例 和负示例在异常得分方面相距很远。因此,我们在铰链损失公式中的排名损失 如下:

通过排名损失函数反向传播可计算出相应的阈值,且可以降低误报率,即 在若监督下将负包中的异常示例归为正常示例(没有超过异常的阈值,正示例 和负示例在异常得分方面相距很远)。

在步骤S5中,但是,由S4得到的排名损失函数有缺陷,即会忽略异常视 频潜在的时间结构。因为视频中的异常片段通常只发生很短时间,考虑到这种 情况,视频包中的异常示例的异常值是稀疏的。其次,因为视频是一个片段序 列,异常评分应该在示例之间平滑变化,所述通过最小化相邻视频片段的分数 差来加强时间上相邻视频片段的异常分数之间的时间平滑性;

S6:最后,为了防止模型的过拟合,我们增加了L2正则化来防止过拟合的 发生。通过对大量正包和负包的训练,我们期望网络能够学习到一个广义模型 来预测正包中异常片段的高分,最后,经过多次迭代之后,图4为本发明在一个 训练视频上的分数在迭代过程中的演变图。我们给出了完整的目标函数,其中 W表示模型权重;

训练出来的模型权重可以在训练的数据集上测试,将对视频进行异常检测 可以利用迁移学习将某个数据集上的模型权重微调再使用,或者泛化到更大, 更若监督的数据集上进行良好的异常检测。在弱监督条件下,网络能够根据所 训练的权重预测异常的时间位置。

其中,C3D网络的FC层FC6中提取视觉特征。

其中,使用基于帧的ROC曲线和曲线下对应的面积AUC来评价我们的方 法的性能。图2为本发明ROC和AUC的定量比较图。

最后,我们引入了混淆矩阵和准确度。这些最新的动作识别方法在这个数 据集上表现不佳。这是因为这些视频都是未经修剪的长视频,分辨率很低。此 外,由于摄像机视点、照明和背景噪音的变化,会有很大的内部变化。在此方 面上我们的模型还有进一步的提升空间,图7为发明C3D]和TCNN的活动识别 结果图。

本发明的工作原理及使用流程:传统的动作识别方法不能用于真实监控视 频中的异常检测。这是因为我们的数据集包含未经修剪的长视频,其中异常通 常在短时间内发生,因此,从这些未经裁剪的训练视频中提取的特征对异常事 件的识别能力不够。在实验中,二值分类器对几乎所有测试视频都产生很低的 异常分数,习的字典不足以区分正常和异常模式。除对视频的正常部分产生低 重构误差外,对异常部分也产生低重构误差,很好地学习正常模式。然而,即 使对于新常态模式,它也往往会产生较高的异常分数,该方法的性能明显优于, 证明了该方法的有效性,并强调了使用异常和正常视频进行训练对于鲁棒异常 检测系统是必不可少的。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言, 可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变 化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。 任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进 行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所 揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利 要求所涵盖。

相关技术
  • 一种监控视频中的真实异常检测方法
  • 一种基于视频监控中的异常行为检测方法
技术分类

06120113269633