掌桥专利:专业的专利平台
掌桥专利
首页

一种基于帧间信息的目标检测方法及装置

文献发布时间:2023-06-19 13:29:16


一种基于帧间信息的目标检测方法及装置

技术领域

本发明属于计算机视觉领域,尤其涉及一种基于帧间信息的目标检测方法及装置。

背景技术

目标检测是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人、建筑物或汽车等),其在视频安防、自动驾驶、交通监控、无人机场景分析和机器人视觉等领域有广阔的应用前景。

近些年,由于卷积神经网络的发展和硬件算力提升,基于深度学习的目标检测取得了突破性的进展。目前,深度学习算法已在计算机视觉的整个领域得到广泛采用。目前主流的目标检测方法大致可分为两类:一类是基于区域的方法,一类是基于回归的方法。

基于区域的方法,也被称为两阶段算法,2014年Grishick等人使用候选区域网络替代滑动窗口及手工设计特征,设计了RCNN框架,为目标检测提供了新的解决思路。随后,在RCNN基础上,Fast-RCNN、Faster-RCNN、SPP-Net等算法相继出现,在速度和精度上均得到提升。然而,由于算法仍分为两个阶段,难以实时性检测。

基于回归的方法,也称一阶段算法。2016年Redmon等人提出YOLO算法,其借助了回归的思想,大大加快了检测速度。Liu等人提出SSD,在YOLO中融合了Faster-RCNN中的anchor框思想,解决了YOLO定位精准性问题。在此基础上,后又相继出现了YOLOV2、YOLOV3等算法,在保持速度优势的同时,提升了一阶段算法的检测精度。

因此,两阶段算法更追求目标的检测精度,一阶段算法则在精度和速度之间做出了有效地权衡。对于实时目标检测,对检测速度的要求往往更高,所以优先选择一阶段算法作为基础算法。但常见目标检测算法仅利用单帧信息,当目标与背景相似时则无法准确定位目标。

发明内容

为解决上述技术问题,本发明提出了一种基于帧间信息的目标检测方法及装置,所述方法及装置,用于解决现有技术的目标检测方法仅使用单帧图像信息,无法准确检测难正例的技术问题。

根据本发明的第一方面,提供一种基于帧间信息的目标检测方法,所述方法包括以下步骤:

步骤S101:获取视频的当前帧及当前帧的上一帧图像,分别提取所述当前帧的关键点特征及上一帧图像的关键点特征,将两帧图像的关键点特征进行匹配,得到若干匹配对;所述关键点为图像中表征特征的像素点;

步骤S102:基于所述若干匹配对,获取背景运动向量、绝对光流向量;所述绝对光流向量是指目标和拍摄视频的摄像装置均发生运动时,所述目标在所述摄像装置中产生的运动向量;

步骤S103:基于所述背景运动向量,计算所述摄像装置的运动参数;

步骤S104:基于所述运动参数,计算所述绝对光流向量的补偿向量;

步骤S105:基于所述补偿向量对所述绝对光流向量进行补偿,得到关键点相对光流向量;所述相对光流向量为所述目标相对于自身的运动向量;

步骤S106:基于所述关键点相对光流向量,获取所有像素点的相对光流向量,并将所述所有像素点的相对光流向量拆分为两张相对光流场图;

步骤S107:将所述两张相对光流场图叠加在当前帧上,将叠加后的当前帧输入目标检测网络;

步骤S108:所述目标检测网络输出当前帧的目标检测结果;

步骤S109:若当前帧为所述视频的最后一帧,方法结束;否则,将当前帧的下一帧置为当前帧,进入步骤S101。

根据本发明第二方面,提供一种基于帧间信息的目标检测装置,所述装置包括:

匹配模块:配置为获取视频的当前帧及当前帧的上一帧图像,分别提取所述当前帧的关键点特征及上一帧图像的关键点特征,将两帧图像的关键点特征进行匹配,得到若干匹配对;所述关键点为图像中表征特征的像素点;

绝对光流向量获取模块:配置为基于所述若干匹配对,获取背景运动向量、绝对光流向量;所述绝对光流向量是指目标和拍摄视频的摄像装置均发生运动时,所述目标在所述摄像装置中产生的运动向量;

运动参数获取模块:配置为基于所述背景运动向量,计算所述摄像装置的运动参数;

补偿向量获取模块:配置为基于所述运动参数,计算所述绝对光流向量的补偿向量;

运动向量获取模块:配置为基于所述补偿向量对所述绝对光流向量进行补偿,得到关键点相对光流向量;所述相对光流向量为所述目标相对于自身的运动向量;

拆分模块:配置为基于所述关键点相对光流向量,获取所有像素点的相对光流向量,并将所述所有像素点的相对光流向量拆分为两张相对光流场图;

叠加模块:配置为将所述两张相对光流场图叠加在当前帧上,将叠加后的当前帧输入目标检测网络;

检测模块:配置为所述目标检测网络输出当前帧的目标检测结果;

判断模块:配置为判断当前帧是否为所述视频的最后一帧。

根据本发明第三方面,提供一种基于帧间信息的目标检测系统,包括:

处理器,用于执行多条指令;

存储器,用于存储多条指令;

其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的基于帧间信息的目标检测方法。

根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的基于帧间信息的目标检测方法。

根据本发明的上述方案,是一种通过当前帧和上一帧图像关键点特征匹配获取光流向量,并通过计算相机模型参数得到运动补偿向量,两者叠加后得到的相对运动光流场作为运动特征与当前帧图像共同作为轻量级目标检测模型输入,通过结合帧间目标运动信息,提高检测网络对运动物体的注意力,从而有效提高与背景相似的难正例检测的准确率。通过计算相机运动参数得到运动补偿向量,对光流向量进行补偿,获得更准确的具有相对运动的目标运动信息;通过将运动信息与图片叠加的方式,在图片特征中融入目标运动特征,结合运动信息进行目标检测有效提高检测准确率;通过使用轻量级目标检测模型作为检测模型,提升目标检测速度,达到了实时目标检测效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:

图1为本发明一个实施方式的基于帧间信息的目标检测方法流程图;

图2为本发明一个实施方式的基于帧间信息的目标检测方法细节实现流程图;

图3为本发明一个实施方式的目标检测网络结构示意图;

图4为本发明一个实施方式基于帧间信息的目标检测装置结构框图;

具体实施方式

首先结合图1-2说明本发明一个实施方式的基于帧间信息的目标检测方法流程,所述方法包括以下步骤:

步骤S101:获取视频的当前帧及当前帧的上一帧图像,分别提取所述当前帧的关键点特征及上一帧图像的关键点特征,将两帧图像的关键点特征进行匹配,得到若干匹配对;所述关键点为图像中表征特征的像素点;

本实施例中,所述关键点为图像中的具有明显特征的点,例如图像中的边缘点、角点等。

步骤S102:基于所述若干匹配对,获取背景运动向量、绝对光流向量;所述绝对光流向量是指目标和拍摄视频的摄像装置均发生运动时,所述目标在所述摄像装置中产生的运动向量;

步骤S103:基于所述背景运动向量,计算所述摄像装置的运动参数;

步骤S104:基于所述运动参数,计算所述绝对光流向量的补偿向量;

步骤S105:基于所述补偿向量对所述绝对光流向量进行补偿,得到关键点相对光流向量;所述相对光流向量为所述目标相对于自身的运动向量;

即所述摄像装置不动时,所述目标的运动向量。

步骤S106:基于所述关键点相对光流向量,获取所有像素点的相对光流向量,并将所述所有像素点的相对光流向量拆分为两张相对光流场图;

步骤S107:将所述两张相对光流场图叠加在当前帧上,将叠加后的当前帧输入目标检测网络;

步骤S108:所述目标检测网络输出当前帧的目标检测结果;

步骤S109:若当前帧为所述视频的最后一帧,方法结束;否则,将当前帧的下一帧置为当前帧,进入步骤S101。

所述步骤S101:获取视频的当前帧及当前帧的上一帧图像,分别提取所述当前帧的关键点特征及上一帧图像的关键点特征,将两帧图像的关键点特征进行匹配,得到若干匹配对,其中:

本实施例中,使用ORB算法提取关键点,关键点特征匹配以汉明距离作为特征点相似性度量的依据。本实施例中,提取的关键点的数量上限为500,金字塔图像之间的尺度参数为1.2,高斯金字塔的层数为8。

进一步地,所述关键点还包括如下像素点基于图像灰度值,选择图像中的每个像素点作为候选特征点,检测候选特征点周围领域的像素值,确定关键点;所述关键点为以某候选特征点为中心点的周围邻域内的候选特征点,所述关键点的像素灰度值大于预设第一阈值,且关键点与该中心点的灰度值差别大于预设第二阈值。

所述步骤S102:基于所述若干匹配对,获取背景运动向量、绝对光流向量;所述绝对光流向量是指目标和拍摄视频的摄像装置均发生运动时,所述目标在所述摄像装置中产生的运动向量,包括:

使用RANSAC算法剔除关键点,即在所有匹配对中,采用迭代的方法,寻找最优参数模型,将不符合最优参数模型的匹配对对应的关键点剔除。通过预先设置第三阈值,剔除匹配对中处于运动目标上的点,得到背景运动向量,所述背景运动向量是在当前帧和上一帧所有关键点匹配向量的基础上,剔除运动目标关键点匹配向量后剩余的匹配向量,所述背景运动向量用于描述随着拍摄视频的摄像装置的运动而发生的背景移动;预先设置第四阈值,剔除误匹配的关键点,得到绝对光流向量,所述绝对光流向量是指在当前帧和上一帧所有关键点匹配向量的基础上,仅剔误匹配关键点后剩余的匹配向量,所述绝对运动向量用于表征随着拍摄视频的摄像装置运动时,背景和运动目标在相机中产生的运动向量。

所述步骤S103:基于所述背景运动向量,计算所述摄像装置的运动参数,其中:

根据所述背景运动向量能够计算出所述摄像装置的模型参数,所述摄像装置的模型为六参数仿射变换模型,所述六参数仿射变换模型能够处理摄像装置的平移、旋转及缩放等运动,所述六参数仿射变换模型表示为:

其中,x

所述步骤S104:基于所述运动参数,计算所述绝对光流向量的补偿向量,其中:

本实施例中,通过所述运动参数,求出上一帧关键点坐标分别对应的当前帧坐标,获得运动补偿向量;基于当前帧中每个运动补偿向量所对应的关键点坐标,将运动补偿向量中关键点与绝对光流向量关键点一一对应,得到所述绝对光流对应的向量补偿向量。

所述步骤S105:基于所述补偿向量对所述绝对光流向量进行补偿,得到关键点相对光流向量;所述相对光流向量为所述目标相对于自身的运动向量,其中:

将所述补偿向量与实际相邻帧帧产生的所述绝对光流向量逐一叠加,计算公式如下:

其中,

所述步骤S106:基于所述关键点相对光流向量,获取所有像素点的相对光流向量,并将所述所有像素点的相对光流向量拆分为两张相对光流场图,其中:

对当前帧图像,使用双线性插值求得非关键点区域的相对光流向量,计算公式如下:

其中,(x,y)为非关键点坐标,(x

所有像素点的相对光流向量表示为:T=(Tx

将其拆分为两张相对光流场图,包括:X轴方向光流场图表示为I

所述步骤S107:将所述两张相对光流场图叠加在当前帧上,将叠加后的当前帧输入目标检测网络,其中:

所述I

步骤S108:所述目标检测网络输出当前帧的目标检测结果,其中:

通过卷积神经网络模型回归算法,输出当前帧的目标检测结果。如图3所示,本实施例使用轻量级目标检测模型yolov3-tiny进行目标检测,主干网络采用一个7层网络提取特征,网络结构简单,计算量较小。

本发明实施例进一步给出一种基于帧间信息的目标检测装置,如图4所示,所述装置包括:

匹配模块:配置为获取视频的当前帧及当前帧的上一帧图像,分别提取所述当前帧的关键点特征及上一帧图像的关键点特征,将两帧图像的关键点特征进行匹配,得到若干匹配对;所述关键点为图像中表征特征的像素点;

绝对光流向量获取模块:配置为基于所述若干匹配对,获取背景运动向量、绝对光流向量;所述绝对光流向量是指目标和拍摄视频的摄像装置均发生运动时,所述目标在所述摄像装置中产生的运动向量;

运动参数获取模块:配置为基于所述背景运动向量,计算所述摄像装置的运动参数;

补偿向量获取模块:配置为基于所述运动参数,计算所述绝对光流向量的补偿向量;

运动向量获取模块:配置为基于所述补偿向量对所述绝对光流向量进行补偿,得到关键点相对光流向量;所述相对光流向量为所述目标相对于自身的运动向量;

拆分模块:配置为基于所述关键点相对光流向量,获取所有像素点的相对光流向量,并将所述所有像素点的相对光流向量拆分为两张相对光流场图;

叠加模块:配置为将所述两张相对光流场图叠加在当前帧上,将叠加后的当前帧输入目标检测网络;

检测模块:配置为所述目标检测网络输出当前帧的目标检测结果;

判断模块:配置为判断当前帧是否为所述视频的最后一帧。

本发明实施例进一步给出一种基于帧间信息的目标检测系统,包括:

处理器,用于执行多条指令;

存储器,用于存储多条指令;

其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的基于帧间信息的目标检测方法。

本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的基于帧间信息的目标检测方法。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

相关技术
  • 一种基于帧间信息的目标检测方法及装置
  • 一种基于帧间差分法和形态学的连续视频小目标检测方法
技术分类

06120113691525