掌桥专利:专业的专利平台
掌桥专利
首页

一种基于状态感知模板更新的目标跟踪算法

文献发布时间:2023-06-19 11:39:06


一种基于状态感知模板更新的目标跟踪算法

技术领域

本发明涉及计算机视觉中的目标跟踪领域,针对长时目标跟踪场景下的目标形变问题,提出一种改进的状态感知模板更新的目标跟踪算法。

背景技术

视觉目标跟踪技术,是计算机视觉的重要基础技术之一,也一直是计算机视觉领域中的一个重要课题和研究热点。其旨在通过在视频中的初始帧给定目标的初始位置,进而在后续的视频序列中能够估计出目标的位置和大小。目前,目标跟踪在计算机视觉研究领域受到了广泛的关注,同时在机器智能领域拥有广泛的应用,包括在军事制导、自动驾驶、人机交互、智能监控以及智能交通等方面。

在目标跟踪时,随着图像采集设备和目标之间角度的变化,或者目标本身特性造成的形态变化,往往也会造成图像序列中目标形状、大小上的变化,即目标形变问题。在长时跟踪场景,由于序列较长,此时目标前后形态、大小往往会发生较大的变化,这给目标跟踪算法带来了一定的挑战。

针对目标形变问题,主要通过模板更新使得跟踪器能够适应目标的变化。目前常见的模板更新方法多为简单的对目标特征进行组合,这种方法可以一定程度上适应目标的形变,但是同时也会引入当前帧目标的背景信息,这部分信息往往是不必要的,长久以往,反而会造成误差累积,同样会导致目标偏移和丢失。

发明内容

为了克服上述现有技术的不足,优化目标跟踪算法对于目标跟踪场景下的目标形变问题的适应能力,本发明提出了一种改进的基于状态感知模板更新的目标跟踪技术。该技术基于SiamRPN目标跟踪算法,从如何更新和何时更新两个角度进行了改进。

本发明所采用的技术方案是:

步骤1:开始基于状态感知模板更新的目标跟踪算法;

步骤2:读取视频序列,读取第一帧图像,选择目标,对目标进行特征提取,作为初始目标模板;

步骤3:判断视频序列是否结束,若未结束,进入步骤4;若结束,则直接结束基于状态感知模板更新的目标跟踪算法;

步骤4:基础跟踪模块,读取下一帧图像,以上一帧目标位置为中心建立候选区域,并进行特征提取,使用候选区域特征和目标模板进行分类和回归,获得该帧的最佳候选目标;

步骤5:状态感知模块,根据当前帧目标信息和之前帧所留下的时域信息,判断当前帧目标所处的状态;

步骤6:根据该状态决定是否对目标模板进行更新,若进行更新,则进入步骤7;若不需要更新,则进入步骤2;

步骤7:模板更新模块,基于元学习思路,将当前目标模板,初始目标模板和上一帧模板模板相结合进行目标模板更新,并在下一帧的跟踪里使用新的模板进行搜索匹配,进入步骤2。

与现有技术相比,本发明的有益效果是:

(1)结合元学习的思想,修改网络的训练思路,使得网络可以通过一次或几次的迭代达到一个较好的收敛效果,从而实现快速可靠的模板更新;

(2)通过构建一个长短记忆网络来对目标状态进行判断,决定更新目标模板的时机,从而进一步减少背景误差带来的影响。

附图说明

图1为:基于自适应模板更新的Siamese目标跟踪算法整体框图。

图2为:基础跟踪模块结构图。

图3为:基础跟踪模块网络参数。

图4为:目标跟踪表述为one-shot learning示意图。

图5为:模板更新模块结构图。

具体实施方式

下面结合附图对本发明进一步说明。

本发明提出了一种改进的基于自适应模板更新的Siamese模板跟踪算法,旨在优化目标跟踪算法对于目标形变问题的适应能力。算法总体框架如图1所示。

该算法由基础跟踪模块、模板更新模块和状态感知模块三个模块组成。基础跟踪模块主要对于搜索区域中可靠的对象进行回归和分类;状态感知模块旨在动态的判断目标当前的状态,决定是否进入模板更新模块;模板更新模块则专注于能够快速有效的进行目标的模板更新。

(1)基础跟踪模块

基础跟踪模块如图2所示,其结构和SiamRPN算法相似。由模板分支和搜索分支两个分支组成,模板分支将第一帧给定的目标图像z作为输入,搜索分支则将基于上一帧目标位置得出的当前帧的局部搜索区域x作为输入。通过一个共享参数的孪生网络

其中*表示互相关运算,

对于分类的cls子任务和回归的reg子任务,则如图3-3右边部分所示。经过孪生网络的目标特征

在训练基础跟踪网络时,从选定视频片段中随机采样出两帧图像,根据标注信息获取其中一帧的目标图像z,获取另一帧的搜索区域图像X,二者组成(X,z)对。并根据X中目标位置生成真实的置信图y∈{-1,+1}

其中,p表示响应图中每个可能位置P的集合中的一个位置,而ζ(y[p]))是一个加权函数,用于改善标签不平衡的问题。

为了提高跟踪器对于相同类别目标的判别能力,在训练时使用了一种语义否定的方式,通过分别构造目标不同类别和相同类别的负样本。和目标不同类别的负样本可以避免跟踪器在目标形变或遮挡等情况时漂移至背景图像上,而相同类别的负样本则使得跟踪器专注于细粒度表示,在一定程度上抑制相似目标的影响。同时,为了进一步发挥跟踪网络的潜力,还使用了平移,比例变化和光照变化等图像增强方式进行数据增强。

在基础跟踪模块,综合考量跟踪器的速度和性能的因素,本章参考SiamRPN算法,使用一种修改的AlexNet作为特征提取网络。使用5个卷积层,并在前两个卷积层之后使用2个核为3、步长为2的池化层。在每个卷积层之后插入归一化层。网络具体参数如图3所示。

之后,将目标特征和搜索区域特征送入至RPN进行目标尺度和位置的回归,由于跟踪时两个相邻帧之间目标的变化不会很大,因此,本章所使用的anchor ratio设为[0.33,0.5,1,2,3]。

损失函数使用Adam优化器进行了优化,batch size为8,设置学习率为10

(2)模板更新模块

模板更新模块旨在能够学习到形变后目标的特征,并尽可能的忽略其背景信息带来的影响。可以注意到在SiamRPN算法中,作者首次将目标跟踪算法表述为一种“one-shotlearning”的任务,该任务旨在通过一次学习中从目标的单个样本中学习到网络参数。这样,可以将基础跟踪模块中的目标特征提取分支认为是一种元学习过程,从单个目标样本中学习到了一组参数,学习到的参数则用于在搜索分支中对目标进行检测,从而跟踪到目标。而在SiamRPN的跟踪过程中,元学习器只在第一帧被触发,在后续帧中则执行检测任务。因此,基础跟踪模块又可以表示为图4所示。

通过这种表述方式,可以看出,要对目标模板更新,主要针对元学习器进行改进,提出一种改进的模板更新方法。通过学习一个通用函数来对模板进行更新,表示如下式(3)。

其中要学习的函数φ(.)根据初始的目标模板

其中特征提取部分使用的依旧为基础跟踪模块下的特征提取网络。从初始帧中给定的初始目标进行

同时,由于初始帧的模板

在训练模板更新网络时,主要目标是该模块所预测的模板

由上式(4)可知,为了训练网络,首先需要获取三元组

在模板更新模块,使用一个两层的卷积神经网络进行模板更新,一层为1×1×3·C×96的卷积层,之后经过一个Relu的激活函数后,进入一个1×1×96×C的卷积层。其中C表示的式基础跟踪模块中提取特征的维数,本章中C=512。

权重从0开始初始化,使用大小为64的批处理大小训练模型。使用动量为0.9,衰减为0.0005的随机梯度下降(SGD)。

(3)状态感知模块

一个好的模板更新器可以准确的捕捉目标的形变以及抑制目标的背景信息,但是若该更新出现在不适当的情况下,同样也会出现跟踪器的降级甚至跟踪漂移。因此,本章提出一个状态感知模块,旨在利用跟踪时的时序信息,对当前的跟踪状态进行判断,决定跟踪器是否进行模板更新。状态感知模块主要可分为信息提取部分和状态感知部分。

信息提取部分。在这里,首先基于基础跟踪模块,通过挖掘其中目标的时序信息、位置信息、尺度信息以及置信值信息来进行状态感知模块中输入部分的构建。

位置尺度信息:在第t帧中,跟踪器会输出一个目标的位置和尺度信息b

置信值信息:文本跟踪器可以被认为是区分目标与周围背景的分类任务,其在跟踪过程中会将搜索区域构建成置信图R

s

时序信息:将上述目标的位置尺度信息,置信值信息,根据时序,集成到一个矩阵中,如式(6)所示。

其中x

状态感知网络。在目标跟踪时,通常根据当前帧得出的目标最大置信值判定为目标,对于目标所处于的状态也是通过置信图的置信值大小、峰值旁瓣比(PSR)、平均峰值相关能量和MAX-PSR等信息来进行人工判断的,这些方法仅仅依赖当前帧的信息,而目标跟踪是一种严重依赖时间序列的过程。因此,本章中所提出的状态感知模块希望可以通过一种方式能够利用目标跟踪时产生的信息结合时序信息,对当前帧的目标状态进行判断。

循环神经网络是一种用于处理序列形数据的神经网络,能够处理序列变化的数据,而长短记忆网络是一种特殊的RNN,可以在长时的序列中有更好的表现。其数学描述如式(7)所示。

其中σ(.)和tanh(.)分别表示sigmoid激活函数和tanh激活函数,⊙表示对应元素逐个相乘的运算W、U和b表示需要学习的权重矩阵和偏差向量。下标f、i、o和c分别表示遗忘门、输入门、输出门和记忆单元。x

将上面信息提取所得的X

在训练状态感知模块时,首先进行正负样本的采集和判定。使用以上基础跟踪模块和模板更新模块的跟踪器在一系列序列上运行测试,并记录下每一帧的结果。每帧的结果包括该帧的目标框,响应值等信息。并使用下式(8)的方式确定标签。

其中b

在状态感知模块,使用一个具有完全连接层的LSTM网络。LSTM网络中具有64个单元。ts,t1和t2分别设置为20、8和3。遗忘偏差设置为1.0。最后,将输出发送到两个具有64个隐藏单元的完全连接的层中,以获取最终的二进制值。LSTM的每个训练阶段的批处理大小为16,并通过100000次迭代进行训练,学习率为10

相关技术
  • 一种基于状态感知模板更新的目标跟踪算法
  • 一种基于压缩感知的实时目标跟踪算法
技术分类

06120113006581