掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多尺度空间语义感知的遮挡抑制跟踪方法

文献发布时间:2024-04-18 19:48:15


一种基于多尺度空间语义感知的遮挡抑制跟踪方法

技术领域

本发明属于计算机图像处理技术及目标跟踪领域,具体涉及一种基于多尺度空间语义感知的遮挡抑制跟踪方法。

背景技术

目标跟踪是计算机视觉领域的一个重要研究方向。目标跟踪技术是计算机视觉领域重要的基础性问题之一。它的主要任务是在给定第一帧目标的位置后在后续帧中能对目标持续定位。

目前,目标跟踪技术在民用和军事方面都有着十分广泛的应用。在民用方面,目标跟踪技术包括智能视频监控、智能交通系统、无人驾驶、人机交互等。这些应用能够提高公共安全和生活质量,同时也需要保证技术的可靠性和安全性。在军事方面,目标跟踪技术包括无人飞行器、精确制导、空中预警、战场监视等。这些应用对于提高战斗力和保障军事安全具有重要的意义。

尽管目标跟踪技术已经取得了很大的进展,但是在实际应用中仍然存在着许多挑战和问题。比如,目标跟踪技术面临着场景复杂、光照变化、姿态变化、遮挡等问题的挑战。

近年来,基于孪生网络的目标跟踪方法凭借其出色的跟踪效果引起了广泛关注。孪生网络是由两支结构和参数完全相同的卷积神经网络并联组成的一种网络结构。得益于卷积神经网络中卷积核对二维数据局部不变形性特征的捕捉能力,基于孪生网络的目标跟踪算法能很好的克服平移、旋转、尺度变换的挑战。但是由于孪生网络中无法对模板进行在线更新,无法对遮挡物和目标信息有效的区分,在跟踪过程中常会因为遮挡干扰较为敏感而发生跟踪漂移,导致跟踪失败。

发明内容

本发明的技术解决问题是:针对目标跟踪过程中会遇到目标被遮挡而导致跟踪失败的问题,采用基于多尺度空间语义感知的思路,增强了跟踪器在目标被遮挡情况下的跟踪鲁棒性,提升了跟踪精度,有效地处理了目标部分被遮挡问题。

实现本发明目的的技术解决方案为:一种基于多尺度空间语义感知的遮挡抑制跟踪方法,包括以下步骤:

步骤1,选择多尺度图像模板。在第T帧中用K×K大小的方形框截取目标图像作为原始图像模板,记作z

步骤2,以原始图像模板为中心截取3组尺度图像块集合P

将P

步骤3,将3个尺度搜索区域分别输入到CNN网络得到特征图

进一步,将3个尺度的搜索区域图像s

步骤4,通过特征图

步骤5,将特征图

步骤6,将响应图h(s

步骤7,将遮挡抑制峰值图H

步骤8,将融合峰值图H的最大响应值的位置更新为第T帧的位置坐标,并计算第T-1帧及以前的峰值旁瓣比方差σ

附图说明

图1为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法的流程图。

图2为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法中图像块、搜索区域和图像模板的关系示意图。

图3为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法与其他13种方法在OTB2015跟踪数据集的精度图对比。

图4为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法与其他13种方法在OTB2015跟踪数据集的成功图对比。

图5为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法与其他3种方法在Jogging视频序列中的可视化对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明作进一步的阐述。

如图1所述,本发明提出一种基于多尺度空间语义感知的遮挡抑制跟踪方法,包括如下步骤:

步骤1,选择多尺度图像模板。在第T帧中用64×64的方形框截取目标图像作为原始图像模板,记作z

具体为利用数据集Youtube-BB和ImageNet训练的CNN网络作为特征提取网络

表1为CNN网络的参数表

CNN网络包括依次连接的4个卷积层和3个池化层组成,在前3个卷积层后分别连接一个最大池化层,同时在两者间都有Dropout随机失活层和RELU非线性激活函数。

步骤2,以原始图像模板为中心截取3组尺度图像块集合P

将3组图像块集合P

将3组图像块集合P

进一步,分别将各个集合中的特征图连接成一个二维矩阵M

进一步,分别对二维矩阵M

其中主成分分析PCA具体操作为,对二维矩阵去中心化,即矩阵的每一个元素减去矩阵所有元素的平均值;通过公式

步骤3,将3个尺度搜索区域分别输入到CNN网络得到特征图

进一步,将3个尺度的搜索区域图像s

步骤4,通过特征图

其中,

进一步,计算二进制掩码C

步骤5,将特征图

其中,

步骤6,将响应图h(s

H

H

H

其中,⊙表示点积运算。

步骤7,将遮挡抑制峰值图H

H=H

步骤8,将融合峰值图H的最大响应值的位置更新为第T帧的位置坐标,并根据峰值旁瓣的波动判断是否更新变换矩阵和滤波器。具体为,

计算峰值旁瓣比,公式如下,

其中,h

进一步,计算第T-1帧及以前的峰值旁瓣比方差σ

σ

其中,T表示当前帧的编号,

如果

OTB2015跟踪数据集序列包括遮挡场景的目标挑战,视频分辨率高,视频数据集共有100组视频序列。图3展示了本方法与其他13种方法在OTB2015跟踪数据集的精度图对比。它反映了跟踪方法估计的目标位置的中心点与真值的目标的中心点,这两者的距离小于给定阈值的视频帧占总帧数的百分比。

交并比(IOU)反映了预测的跟踪框与人工标注的跟踪框的重叠程度,其定义为预测框与真实标注框交集为面积比预测框与真实标注框并集的面积,其公式为:

其中,A为跟踪方法得到的矩形框区域,B真值给的矩形框区域,|·|表示区域的像素数目。当某一帧的IOU大于设定的阈值时,则该帧被视为跟踪成功,总的跟踪成功的帧数占所有帧数的百分比即为成功率。图4展示了本方法与其他13种方法在OTB2015跟踪数据集的成功图对比。从图3和图4可以看出,本方法在精度和成功率在遮挡场景下都优于其他13种方法。

Jogging视频序列中,本方法以及其他3中方法的跟踪结果如图5所示。在经过遮挡物后本方法依然能稳定跟踪目标,但是其他3中方法因为抗遮挡性不足发生了跟踪漂移,跟踪框落在了其他目标上。

如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

技术分类

06120116306025