掌桥专利:专业的专利平台
掌桥专利
首页

一种基于旋转自适应卷积网络的视觉跟踪方法

文献发布时间:2023-06-19 10:58:46



技术领域

本发明属于视觉目标跟踪技术领域,尤其是涉及一种基于旋转自适应卷积网络的视觉跟踪方法。

背景技术

视觉目标跟踪已经研究了几十年,但仍然是一种具有挑战性的热点问题。视觉目标跟踪在许多领域都得到了实际应用,如自动驾驶、行为识别和机器人导航等。相比传统的视觉目标跟踪算法,近些年提出的基于深度学习的跟踪方法在跟踪性能和评估方法方面都取得了很大的进展。在目标跟踪过程中,大多数跟踪方法一旦遇到全遮挡、快速运动、运动模糊、目标丢失等复杂场景的挑战时,跟踪器的整体性能会受到影响。因此,构建一个鲁棒高效的视觉跟踪方法仍然存在着相当大的挑战。

在目标跟踪过程中,跟踪器通常依赖于被跟踪对象的空间布局。绝大多数的跟踪算法一般只对跟踪目标的位置和尺度进行预测,而忽略了目标对象在跟踪过程中可能发生了旋转。假设跟踪的目标发生了显著的旋转变化,而跟踪器中的跟踪框不会随之自适应旋转,那么即使是性能非常优秀的跟踪器也很难跟上处于旋转中的目标。以 OTB2015数据集中的MotorRolling视频序列为例,该视频中的目标从第一帧开始,就处于旋转状态,直到整个视频的最后一帧,整个过程目标经历了显著的旋转变化。因此,该视频序列挑战难度比较大,很多经典的跟踪器成功跟踪10多帧以后,跟踪框就开始偏离目标位置,导致整体的跟踪性能大幅度下降。

针对跟踪过程中出现的目标旋转变化问题,提出了一种新型的旋转自适应卷积网络视觉跟踪方法,需要在提高精度值和成功值这两方面进行优化。

发明内容

针对现有技术的不足,本发明提出一种新型的旋转自适应卷积网络视觉跟踪方法。利用卷积网络能快速提取目标丰富的层次特征(包括浅层特征和深层特征),并添加旋转自适应模块来增强跟踪器应对目标旋转变化的稳定性,从而进一步提升跟踪算法的准确性和鲁棒性。此外,本发明提出的旋转自适应模块,为各类目标跟踪方法提供一种鲁棒、准确的目标旋转位置估计方法。

一种基于旋转自适应卷积网络的视觉跟踪方法,该方法具体包括以下步骤:

步骤1、搭建VGG19网络模块;

1.1、VGG19网络模块包含19个隐藏层,其中前16个卷积层为卷积和池化操作的交替,最后一个卷积层后紧连接3个全连接层。每个卷积层的卷积核为3x3。

在本实验中需要提取conv3-4,conv4-4,conv5-4作为目标表征。

1.2、为了解决pool5卷积特征图过小的问题,使用双线性插值将每个卷积特征图的大小调整为固定尺度大小。令h表示特征图,x 表示上采样特征图,第i个位置的特征向量为:

其中,插值权重α

1.3、VGG-19神经网络框架的基本原理是,能够在conv3的特征图中清晰的看到目标的轮廓,但是在conv5的特征图中已经很难看到细节所在。然而,在conv5的特征图包含了较多的语义信息。

1.4、在高层特征当中,根据所提取特征的语义信息,能够很容易的找到目标所在的大概区域范围,然后逐步使用较低层次的特征对目标进行精确定位,从而得到最终的目标位置的最大响应值,从而找到最初目标中心位置所在。

步骤2、搭建旋转自适应模块;

2.1、构建旋转角度区间模型Model

Model

其中,x为向右旋转的角度个数,一般取值为3。θ

2.2、对当前第t帧目标中心位置所在角度的最大响应值施以高斯变换,相比上一帧目标中心位置所在角度的最大响应值,构建当前第t帧的目标中心位置所在角度的最大响应置信值模型

其中,

2.3、遍历(2x+1)个旋转角度,分别计算每次旋转后的目标中心位置所在角度的响应图、最大响应值response

2.3.1、设置跟踪框向右旋转θ

所的跟踪框内目标图像特征和背景图像特征的计算通过VGG19 网络模块实现。

2.3.2、通过目标中心位置position

通过响应图获得最大响应值response

2.3.3、遍历剩余的2x个旋转位置,分别计算所有目标中心位置 position

2.4、对(2x+1)个目标中心位置position

2.5、由于单独的最大响应值response

Confidence(i)=μ*response

其中,response

2.6、构建相邻帧跟踪结果置信程度比较模型:

其中,

2.6.1、如果Υ=1,则相比上一帧的跟踪结果置信值,当前帧的跟踪结果置信值有所下降,即当前帧的跟踪结果不理想,跟踪器模板有可能遭到污染。反之Υ=0,则表明当前帧通过最优旋转角度θ

2.6.2、当Υ=1时,则使用最初目标中心位置所在角度的目标图像特征和背景图像特征进行跟踪器的模型训练,并设置旋转角度的步长θ

步骤3、公开数据集上进行实验;

为了验证本算法,在OTB2015数据集上进行性能评估验证,并和基线算法HCFTstar进行实验对比分析。实验结果显示,基线算法 HCFTstar的准确值和成功值分别为0.834和0.693,在加入旋转自适应模块后,本算法的准确值提升到0.847,成功值提升到0.704。因此,本算法的旋转自适应模块能一定程度的提升跟踪器的准确性和鲁棒性。

附图说明

图1为本发明和基线算法HCFTstar进行跟踪性能比较图。

具体实施方式

一种基于旋转自适应卷积网络的视觉跟踪方法,该方法具体包括以下步骤:

步骤1、搭建VGG19网络模块;

1.1、VGG19网络模块包含19个隐藏层,其中前16个卷积层为卷积和池化操作的交替,最后一个卷积层后紧连接3个全连接层。每个卷积层的卷积核为3x3。

在本实验中需要提取conv3-4,conv4-4,conv5-4作为目标表征。

1.2、为了解决pool5卷积特征图过小的问题,使用双线性插值将每个卷积特征图的大小调整为固定尺度大小。令h表示特征图,x 表示上采样特征图,第i个位置的特征向量为:

其中,插值权重α

1.3、VGG-19神经网络框架的基本原理是,能够在conv3的特征图中清晰的看到目标的轮廓,但是在conv5的特征图中已经很难看到细节所在。然而,在conv5的特征图包含了较多的语义信息。

1.4、在高层特征当中,根据所提取特征的语义信息,能够很容易的找到目标所在的大概区域范围,然后逐步使用较低层次的特征对目标进行精确定位,从而得到最终的目标位置的最大响应值,从而找到最初目标中心位置所在。

步骤2、搭建旋转自适应模块;

2.1、构建旋转角度区间模型Model

Model

其中,x为向右旋转的角度个数,一般取值为3。θ

2.2、对当前第t帧目标中心位置所在角度的最大响应值施以高斯变换,相比上一帧目标中心位置所在角度的最大响应值,构建当前第t帧的目标中心位置所在角度的最大响应置信值模型

其中,

2.3、遍历(2x+1)个旋转角度,分别计算每次旋转后的目标中心位置所在角度的响应图、最大响应值response

2.3.1、设置跟踪框向右旋转θ

所的跟踪框内目标图像特征和背景图像特征的计算通过VGG19 网络模块实现。

2.3.2、通过目标中心位置position

通过响应图获得最大响应值response

2.3.3、遍历剩余的2x个旋转位置,分别计算所有目标中心位置 position

2.4、对(2x+1)个目标中心位置position

2.5、由于单独的最大响应值response

Confidence(i)=μ*response

其中,response

2.6、构建相邻帧跟踪结果置信程度比较模型:

其中,

2.6.1、如果Υ=1,则相比上一帧的跟踪结果置信值,当前帧的跟踪结果置信值有所下降,即当前帧的跟踪结果不理想,跟踪器模板有可能遭到污染。反之Υ=0,则表明当前帧通过最优旋转角度θ

2.6.2、当Υ=1时,则使用最初目标中心位置所在角度的目标图像特征和背景图像特征进行跟踪器的模型训练,并设置旋转角度的步长θ

步骤3、公开数据集上进行实验;

为了验证本算法,在OTB2015数据集上进行性能评估验证,并和基线算法HCFTstar进行实验对比分析。实验结果显示,基线算法 HCFTstar的准确值和成功值分别为0.834和0.693,在加入旋转自适应模块后,本算法的准确值提升到0.847,成功值提升到0.704。因此,本算法的旋转自适应模块能一定程度的提升跟踪器的准确性和鲁棒性。

我们选取了4个具有旋转挑战的代表性视频序列,分别为 Ironman、Bolt、Panda和Box,如表1所示。

表1 4个具有旋转挑战的代表性视频序列

这4个视频序列不仅包括了平面内旋转(in-plane rotation, IPR)和平面外旋转(out-of-plane rotation,OPR)挑战,还包含了遮挡(occlusion,OCC)、背景杂乱(background clutter,BC)、形变(deformation,DEF)、运动模糊(motion blur,MB)、光照变化(illumination variation,IV)、快速运动(fast motion,FM)、尺度变化(scalevariation,SV)、目标丢失(out of view,OV) 和低分辨率(low resolution,LR)等挑战。此外,Panda和Box视频序列在OTB2015数据集中属于长视频跟踪序列,视频序列长度分别为1000帧和1161帧,非常考验跟踪算法的长时间跟踪性能。

将本算法和基线算法HCFTstar进行跟踪性能比较,如图1所示。基线算法HCFTstar在Ironman、Bolt、Panda和Box视频序列进行跟踪性能测试时,都只能在视频的一段时间内跟踪上目标。随着视频帧的增大,目标对象不同程度上遭遇了旋转挑战,使得HCFTstar的跟踪器模板逐渐遭受到污染,导致跟踪框偏离目标对象。然而,本算法在HCFTstar的基础上加入旋转自适应模块后,能较好的应对旋转挑战。目标在旋转的过程中,本算法能自适应的调整跟踪器模板的旋转角度,并且本专利提出的方法找到最优的旋转角度θ

相关技术
  • 一种基于旋转自适应卷积网络的视觉跟踪方法
  • 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法
技术分类

06120112756622