掌桥专利:专业的专利平台
掌桥专利
首页

一种基于实时视频流的目标检测和识别方法

文献发布时间:2023-06-19 09:38:30



技术领域

本发明涉及运动目标检测和识别技术领域,具体涉及一种基于实时视频流的目标检测和识别方法。

背景技术

基于视频的实时运动目标检测和识别目前应用非常广泛,运动目标检测(MotionDetection)是指将图像序列或视频中发生空间位置变化的物体作为前景提出并标示的过程。它一直是一个十分热门的研究领域,广泛应用于智能监控、多媒体应用等领域。

这些年来,根据应用场合、技术方法等方面的不同,学者们提出了众多不同的运动目标检测的方法,一方面要适应环境和自身的变化,另一方面要兼顾检测的准确性与实时性。目前,运动目标计算机视觉检测有以下基本方法:帧差法、光流法和背景减法,此外还有特征匹配法、KNN及这些方法的变种(三帧差分、五帧差分)。其中背景减算法因其算法简单,易于实现,适应性好等特点得到了广泛的应用。

而在一些摄像头检测视域范围较大的场景下,由于运动目标在画面中成像区域较小,噪声的干扰大,导致难以实现对运动目标的检测,尤其在背景模糊的场景中误检率高,同时特征点数量不够,目标类型的很难识别。

发明内容

针对现有技术中的问题,本发明提供了一种基于实时视频流的目标检测和识别方法,该方法采用巡检的方式将视域范围较大的场景分解成视频流实现大区域内的小目标有效检测;

为实现本发明的目的,本发明采用以下技术方案:

一种基于实时视频流的目标检测和识别方法,包括如下步骤:

S1:根据用户需求制定的巡检计划;

S2:根据巡检计划控制摄像头转动到指定预制位;

S3:从摄像头获取视频流中检测当前视频帧序列是否存在目标,存在目标则执行步骤S4,否则延时等待继续获取视频流检测当前视频帧,延时结束后还未发现目标,则跳转至步骤S2控制摄像头转动到下一个指定预制位;

S4:发现目标则控制摄像头聚焦到目标区域;

S5:截取当前区域图像,识别当前目标类别;

S6:输出检测和识别结果;

S7:返回步骤S2继续执行巡检计划。

优选的,在执行步骤S3时,从摄像头获得视频帧序列之后,选择第一帧为背景帧,同时利用中值滤波对视频帧进行背景建模,并以此计算出背景阈值,最后利用帧差法快速得到运动目标活动区域;执行步骤S4时根据其相对位置,调整摄像头的方位和焦距。此方法综合了背景减的准确性以及帧差法的快速性能;目的是为了判断目标是否存在快速获得目标所在区域。

优选的,在步骤S5截取当前区域图像后,通过输入深度学习网络模型来识别目标类别。

优选的,所述的输入深度学习网络模型识别目标类别的步骤包括:

Sa1:输入待处理图像至深度学习网络模型;

Sa2:深度学习网络将图像经过初始化卷积映射到高维特征空间:

Sa3:经过特征提取网络、特征增强模块获得图像中每个目标的特征信息;特征提取网络提取不同层次的特征,浅层特征有利于小目标检测,深层特征有利于目标识别;

Sa4:预测输出,通过分类和回归得到目标类别及位置信息。

优选的,步骤Sa2中的初始化卷积依次包括3×3×1的卷积a、3×3×2的卷积b、批归一化BN、激活函数Relu;待处理图像首先经过卷积a将通道数增加,通过3×3×2的卷积b进行下采样得到特征图,然后进行批归一化BN处理,经过激活函数Relu后作为下一级网络输入;

优选的,步骤Sa3中特征提取网络则是由10-30个残差卷积模块组成,每几个残差卷积之间连接一个3×3×2的卷积b进行下采样;每个残差卷积模块从输入到输出依次为1×1×1的卷积c、批归一化BN、激活函数Relu、3×3×1的卷积a、批归一化BN、激活函数Relu;卷积b可以改变特征图的大小,从而得到更高层次的特征图,再通过残差卷积的级联,提取高层次上的特征信息。

优选的,步骤Sa3中特征增强模块利用深层特征通过空间金字塔池化SPP之后,与浅层特征一起经过路径聚合网络PAN进行融合,其主要作用是通过多层次特征学习提升目标检测与识别精度,特别是小目标的检测与识别;

优选的,步骤Sa4中具体预测输出时,通过sofmax函数,得到目标的类别置信度和目标框的坐标;输出具体构成为目标框的偏移量Δx、Δy,锚点的缩放尺度a、b,检测到目标的概率,目标属于每个类别的置信度;根据目标框的坐标,在原图上标记目标所在位置,并显示预测的类别置信度;检测到目标的概率,用于对目标框的初步筛选。

优选的,在预测时,进行三种尺度下的预测,取最后三个尺度的特征图,经过SPP和PAN之后,将三个尺度的特征输入到检测模块进行回归和分类得到输出结果;检测模块由3个残差模块加上固定通道数等于(分类类别数+5)*3的卷积c构成。

优选的,当检测到目标的概率大于设定阈值时,其中阈值设定为0.4~0.5之间,即当前像素点位属于待检测目标的可能性大于设定值,则保留该结果,并对目标框进行非极大值抑制筛选去重,确定该位置处交并比IoU最大的目标框,最后将该目标框及其置信度作为最终结果输出并显示。

本发明与现有技术相比,具有以下有益效果:

1)该方法实现基于摄像头的大区域内目标检测与识别,可配合巡检任务在摄像头视域范围较大或目标成像区域较小的情况下,实现运动目标的实时监测与识别,准确性、实时性较好。

2)该方法采用了连续的两阶段过程,首先对监控视频进行运动检测。当检测到当前视频下有目标存在时,才会进入第二阶段的深度学习网络检测识别过程,降低硬件计算开销。

3)运动检测结果为后续目标检测识别提供了高可靠性的目标区域,使得后续目标检测与识别能够依靠轻量级网络实现高精度结果输出,进一步提升实时性能。

4)该方法采用帧差法结合中值滤波进行背景建模,提升运动检测的准确度。

5)该方法在小目标检测与识别问题中,本方法结合了路径聚合网络和空间金字塔池化,在卷积过程中尽可能地保留了足够丰富的小目标特征信息。

附图说明

图1是本发明一种基于实时视频流的目标检测和识别方法的流程图;

图2是本发明一种基于实时视频流的目标检测和识别方法中图像输入深度学习网络模型识别目标类别的流程图。

图3是本发明一种基于实时视频流的目标检测和识别方法中特征提取网络的结构图;

图4是本发明一种基于实时视频流的目标检测和识别方法中残卷积模块的结构图;

图5是本发明一种基于实时视频流的目标检测和识别方法中SPP的结构图;

图6是本发明一种基于实时视频流的目标检测和识别方法中PAN的结构图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述:

如图1所示,在本发明的一个实施例中,一种基于实时视频流的目标检测和识别方法,包括如下步骤:

S1:根据用户需求制定的巡检计划;

S2:根据巡检计划控制摄像头转动到指定预制位;

S3:从摄像头获取视频流中检测当前视频帧序列是否存在目标,存在目标则执行步骤S4,否则延时等待继续获取视频流检测当前视频帧,延时结束后还未发现目标,则跳转至步骤S2控制摄像头转动到下一个指定预制位;

S4:发现目标则控制摄像头聚焦到目标区域;

S5:截取当前区域图像,识别当前目标类别;

S6:输出检测和识别结果;

S7:返回步骤S2继续执行巡检计划。

具体的,在执行步骤S3时,从摄像头获得视频帧序列之后,选择第一帧为背景帧,同时利用中值滤波对视频帧进行背景建模,并以此计算出背景阈值,最后利用帧差法快速得到运动目标活动区域;执行步骤S4时根据其相对位置,调整摄像头的方位和焦距。此方法综合了背景减的准确性以及帧差法的快速性能;目的是为了判断目标是否存在快速获得目标所在区域。

具体的,在步骤S5截取当前区域图像后,通过输入深度学习网络模型来识别目标类别。

如图2所示,具体的,所述的输入深度学习网络模型识别目标类别的步骤包括:

Sa1:输入待处理图像至深度学习网络模型;

Sa2:深度学习网络将图像经过初始化卷积映射到高维特征空间:

Sa3:经过特征提取网络、特征增强模块获得图像中每个目标的特征信息;特征提取网络提取不同层次的特征,浅层特征有利于小目标检测,深层特征有利于目标识别;

Sa4:预测输出,通过分类和回归得到目标类别及位置信息。

具体的,步骤Sa2中的初始化卷积依次包括3×3×1的卷积a、3×3×2的卷积b、批归一化BN、激活函数Relu;待处理图像首先经过卷积a将通道数增加,通过3×3×2的卷积b进行下采样得到特征图,然后进行批归一化BN处理,经过激活函数Relu后作为下一级网络输入;

具体实施时假设待处理图像尺寸为H×W×3(长、宽及RGB三通道),待处理图片经初始化卷积a将通道数增至32尺寸变为H×W×32,再通过3×3×2的卷积b进行下采样得到H/2×W/2×64的特征图,然后进行批归一化BN处理,经过激活函数Relu后作为下一级网络的输入;

具体的,步骤Sa3中特征提取网络则是由10-30个残差卷积(block)模块组成,每几个残差卷积之间连接一个3×3×2的卷积b进行下采样(如图3所示);每个残差卷积模块从输入到输出依次为1×1×1的卷积c、批归一化BN、激活函数Relu、3×3×1的卷积a、批归一化BN、激活函数Relu(如图4所示);卷积b可以改变特征图的大小,从而得到更高层次的特征图,再通过残差卷积的级联,提取高层次上的特征信息。

具体的,步骤Sa3中特征增强模块利用深层特征通过空间金字塔池化SPP之后,与浅层特征一起经过路径聚合网络PAN进行融合,其主要作用是通过多层次特征学习提升目标检测与识别精度,特别是小目标的检测与识别。

其中,SPP的结构如图5所示,SPP操作是通过将一个特征图划分为不同的大小块状区域,例如图5的4x4、2x2、1x1。对每个区域进行最大池化操作。因此,在上述三种不同的划分方式下,一个特征图可以被分别表示为16、4、1个值。将这些值串接之后,一个特征图可以被表示为一个具有21个值的向量。当输入为256个特征图时,SPP操作之后,即得到21*256维的向量。SPP主要有两个作用:1.不同大小的输入都可以得到固定长度的特征向量,便于后续的全连接层操作。2.能够在一个特征向量中融合一个特征图中的多尺度池化的特征信息。同时计算消耗更少。

PAN则是在不同层次的特征图之间进行特征融合(如图6所示)。经过下采样过程,特征图尺寸逐渐变小。如下图所示:第i层的特征图N

具体的实施时从初始化卷积开始,经过特征网络提取,再到特征增强模块的过程如下表所示:

其中,conv-BN-relu为完整的卷积过,conv是离散卷积层(表示卷积a、b、c过程),其定义为:

经过BN层(批归一化层)之后,将得到的结果y归一化至均值为0,方差为1的概率分布

Relu层是选用Relu为激活函数的激活层。执行神经元的激活操作。Relu被定义为:

具体的,步骤Sa4中具体预测输出时,通过sofmax函数,得到目标的类别置信度和目标框的坐标;输出具体构成为目标框的偏移量Δx、Δy,锚点的缩放尺度a、b,检测到目标的概率,目标属于每个类别的置信度;根据目标框的坐标,在原图上标记目标所在位置,并显示预测的类别置信度;检测到目标的概率,用于对目标框的初步筛选。

在预测时,进行三种尺度下的预测,取最后三个尺度的特征图,经过SPP和PAN之后,将三个尺度的特征输入到检测模块进行回归和分类得到输出结果;检测模块由3个残差模块加上固定通道数=(分类类别数+5)*3的卷积c构成。

具体地,当检测到目标的概率大于设定阈值时(一般设定为0.4~0.5之间),即当前像素点位属于待检测目标的可能性大于设定值,则保留该结果,并对目标框进行非极大值抑制(Non-Maximum Suppression)筛选去重,确定该位置处交并比IoU最大的目标框,最后将该目标框及其置信度作为最终结果输出并显示;

以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围。

相关技术
  • 一种基于实时视频流的目标检测和识别方法
  • 一种基于实时视频流采集的视频实时识别方法
技术分类

06120112244849