掌桥专利:专业的专利平台
掌桥专利
首页

一种基于孪生网络的Anchor-free目标跟踪方法

文献发布时间:2024-04-18 19:58:26


一种基于孪生网络的Anchor-free目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域,具体为一种基于孪生网络的Anchor-free目标跟踪方法。

背景技术

目标跟踪利用图像序列估计目标的位置和尺度,为目标行为分析和理解提供必要的信息,是计算机视觉领域的重要研究内容。它在视频监控、车辆导航、人机交互、智能交通等民用领域,以及视觉制导、目标定位和火力控制等军事领域均有广阔的应用前景。近年来,随着深度学习技术的发展,目标跟踪有了较大进步,已经提出了诸多方法,但是其仍然面临“复杂背景、目标变化和快速性要求”等诸多难题,目前仍然是计算机视觉领域中研究的热点问题。

由于目标或者成像设备的运动,使得目标的尺度在跟踪过程中是不断变化的,目标的尺度估计是影响目标跟踪性能的重要因素。目标尺度估计方法主要有多尺度搜索、锚框回归或无锚框回归等。SiamFC等跟踪方法使用多尺度搜索得到目标的尺度,计算复杂度高且尺度估计不准确;SiamRPN等跟踪方法利用锚框回归估计目标尺度,需要根据先验知识铺设锚框,存在较多的超参数;SiamBAN等跟踪方法利用无锚框回归计算目标的尺度,虽然减少了超参数,但是精度较低。目前,主流的目标跟踪方法有相关滤波跟踪和孪生网络跟踪。它们使用矩形框表示目标,当目标发生旋转或形变时,矩形框表示目标会产生误差,导致跟踪精度降低。与矩形框相比,掩膜描述目标更准确。受视频目标分割的启发,一些学者将分割集成到目标跟踪中,提出了基于分割的目标跟踪方法,其中代表性的方法有SiamMask、D3S和AFOD等。这些方法能同时得到目标矩形框和掩膜,提升了跟踪精度。但是,它们使用基于区域的分割方法,一方面,需要将目标区域特征图归一化为同一尺度,然后对目标区域内的像素进行逐点分类;另一方面,需要执行掩膜上采样等后处理操作。这两个方面导致其存在对跟踪矩形框敏感和速度慢等问题。

发明内容

本发明的目的在于提供一种基于孪生网络的Anchor-free目标跟踪方法,旨在改善现有利用多尺度搜索、锚框回归或者无锚框回归得到目标矩形框,并对目标矩形框进行区域分割时,计算复杂度高并且掩膜精度受限于目标跟踪框的问题。

本发明是这样实现的:一种基于孪生网络的Anchor-free目标跟踪方法,其使用于包括孪生网络和轮廓分割网络的系统,孪生网络负责提取目标模板和搜索区域的卷积神经网络(CNN)特征并计算搜索区域的得分图,输出初始矩形框,轮廓分割网络负责目标轮廓的回归;

Anchor-free目标跟踪方法包括如下步骤:

输入:初始目标框b

输出:t时刻的目标框b

步骤1:根据初始目标框b

步骤2:利用孪生骨干网络计算模板图像z的特征

FOR t=2:T

步骤3:计算搜索区域,x

步骤4:裁剪大小为255×255的搜索区域x

步骤5:利用孪生骨干网络计算搜索区域x

步骤6:计算得分图,

步骤7:计算t时刻目标位置,

步骤8:初始化t时刻目标尺度,

步骤9:得到t时刻目标初始框,

步骤10:将

步骤11:根据目标轮廓V

步骤12:输出t时刻目标框b

优选的,

优选的,

优选的,b

优选的,F

优选的,目标轮廓是图像上一组有序点

优选的,孪生网络由孪生骨干网络和分类模块两部分组成,它以模板图像和搜索区域图像组成的图像对作为输入,输出搜索区域的得分图;孪生骨干网络由相同结构的模板分支和搜索区域分支组成,它们共享网络参数。

优选的,若模板图像与搜索区域中某一图像块表示同一目标,则输出较大的得分值,否则输出较小的得分值。

优选的,孪生网络的任务是学习一个度量模板图像z和搜索区域x的相似度函数

优选的,轮廓分割网络将矩形框分割为目标轮廓的过程是:首先,连接矩形框各边的中点得到菱形轮廓;其次,菱形轮廓通过轮廓分割网络得到极值点,进而得到八边形轮廓;最后,八边形轮廓通过轮廓分割网络迭代变形为目标轮廓,迭代次数为3。

与现有技术相比,本发明的有益效果是:

1、本发明提出一个孪生目标跟踪网络,该网络不需要根据先验知识预先定义锚框,减少了超参数,并且可以端到端地进行训练。

2、本发明实现一种Anchor-free目标跟踪方法,该方法用区域分类与轮廓回归对目标跟踪建模,能够同时得到目标矩形框和轮廓,提高了目标跟踪的速度和精度。

附图说明

图1是本发明的方法与系统设计示意图;

图2是本发明的轮廓分割网络流程图示意图;

图3是本发明的实验结构对比图;

图4是本发明的目标跟踪方法在OTB-2015数据集上的性能指标曲线图。

具体实施方式:

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图和具体实施例,做进一步的说明:

实施例1

本发明在深度学习框架下,设计了基于孪生网络的Anchor-free目标跟踪系统,如图1所示。该系统包括孪生网络和轮廓分割网络两部分。孪生网络负责提取目标模板和搜索区域的卷积神经网络(Convolutional Neural Network,CNN)特征并计算搜索区域的得分图,输出初始矩形框;轮廓分割网络用于目标轮廓的回归。

孪生网络的工作原理如下:孪生网络由孪生骨干网络和分类模块两部分组成,它以模板图像和搜索区域图像组成的图像对作为输入,输出搜索区域的得分图。孪生骨干网络由相同结构的模板分支和搜索区域分支组成,它们共享网络参数。如果模板图像与搜索区域中某一图像块表示同一目标,则输出较大的得分值,否则输出较小的得分值。孪生网络的任务是学习一个度量模板图像z和搜索区域x的相似度函数

为了得到相似度函数f(z,x),要用图像对(z,x)离线训练神经网络,训练神经网络使用的损失函数如下:

其中

l(y[u],v[u])=log(1+exp(-y[u]v[u])) (2)

其中y[u]是得分图的标注值,v[u]是得分图的预测值,y[u]的定义如下:

其中k为网络步长,c是目标在特征图上的中心坐标,R是圆形区域的半径。

轮廓分割网络的工作原理如下:目标轮廓是图像上一组有序点

其中

其中

在(1)式、(4)式和(5)式的基础上,定义训练孪生目标跟踪网络的多任务损失函数L

L

其中,λ

网络训练过程和细节是:利用COCO、ImageNet-VID和YouTube-VOS数据集对孪生目标跟踪网络训练20个周期,优化算法为SGD,学习率初值为10

假设t时刻目标框是b

基于上述系统,本发明设计一个用于Anchor-free目标跟踪的孪生目标跟踪网络,该网络由孪生网络和轮廓分割网络两部分组成,不需要根据先验知识预先定义锚框,减少了超参数;另一方面,针对基于区域分割的目标跟踪方法存在速度慢和掩膜精度受限于目标跟踪框的问题,本发明基于孪生网络实现一种Anchor-free目标跟踪方法,该方法用区域分类与轮廓回归对目标跟踪建模,能够同时得到目标矩形框和轮廓。

为了测试上述网络的性能,在SYS-7048GR-TR台式机(CPU型号为Intel Xeon(R)ES-2630v4@2.20GHz×20,内存为64GB,GPU为RTX2080Ti11G)进行测试。软件环境是:Ubuntu18.04、Python 3.7、cuda10.0和cudnnT.5。利用OTB-2015数据集对提出的目标跟踪方法进行实验验证。OTB-2015数据集包含100个视频序列,具有光照变化(IV)、尺度变化(SV)、遮挡(OCC)、形变(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、平面外旋转(OPR)、目标出界(OV)、背景混杂(BC)和低分辨率(LR)11个挑战属性。该数据集利用OPE(One-PassEvaluation)方式计算Precision和Success指标评价跟踪器的精度和鲁棒性。由于OTB-2015数据集的标注矩形框为正矩形框,因此,本方法利用目标轮廓的最小外接矩形框计算Precision和Success。表1给出了本方法、DaSiamRPN、SiamRPN++、ECO、MDNet、C-COT、MCPF、TADT、DeepSRDCF和SRDCF共10种目标跟踪方法在OTB-2015数据集上的Precision、Success与FPS指标,图4为10种目标跟踪方法在OTB-2015数据集上的Precision和Success指标曲线。由图3和图4可以看出:本方法的Success指标最优,对于Precision指标,本方法与SiamRPN++相近并略低于DaSiamRPN,但仍具有竞争优势;在跟踪速度方面,本方法优于其它方法。本方法的Precision指标小于DaSiamRPN的原因是:DaSiamRPN在训练网络时利用ImageNet和COCO数据集对训练集进行了增强,而本方法没有使用这一技巧。与DASiamRPN相比,本方法的优势有两个方面:一方面,本方法利用轮廓分割网络将初始框变形为目标轮廓,本质是利用多点回归目标的尺度,对目标变化具有鲁棒性,而DASiamRPN是基于Anchor的回归,其结果受限于Anchor的设置,因此本方法在Success指标上优于DASiamRPN另一方面,本方法通过目标轮廓拟合出正矩形框或旋转矩形框,而DASiamRPN只能得到正矩形框。

实施例2

本发明在深度学习框架下,设计了基于孪生网络的Anchor-free目标跟踪系统,如图1所示。该系统包括孪生网络和轮廓分割网络两部分。孪生网络负责提取目标模板和搜索区域的卷积神经网络(Convolutional Neural Network,CNN)特征并计算搜索区域的得分图,输出初始矩形框;轮廓分割网络用于目标轮廓的回归。

孪生网络的工作原理如下:孪生网络由孪生骨干网络和分类模块两部分组成,它以模板图像和搜索区域图像组成的图像对作为输入,输出搜索区域的得分图。孪生骨干网络由相同结构的模板分支和搜索区域分支组成,它们共享网络参数。如果模板图像与搜索区域中某一图像块表示同一目标,则输出较大的得分值,否则输出较小的得分值。孪生网络的任务是学习一个度量模板图像z和搜索区域x的相似度函数

为了得到相似度函数f(z,x),要用图像对(z,x)离线训练神经网络,训练神经网络使用的损失函数如下:

其中

l(y[u],v[u])=log(1+exp(-y[u]v[u])) (2)

其中y[u]是得分图的标注值,v[u]是得分图的预测值,y[u]的定义如下:

其中k为网络步长,c是目标在特征图上的中心坐标,R是圆形区域的半径。

轮廓分割网络的工作原理如下:目标轮廓是图像上一组有序点

其中

其中

在(1)式、(4)式和(5)式的基础上,定义训练孪生目标跟踪网络的多任务损失函数L

L

其中,λ

网络训练过程和细节是:利用COCO、ImageNet-VID和YouTube-VOS数据集对孪生目标跟踪网络训练20个周期,优化算法为SGD,学习率初值为10

假设t时刻目标框是b

基于上述系统,本发明设计一个用于Anchor-free目标跟踪的孪生目标跟踪网络,该网络由孪生网络和轮廓分割网络两部分组成,不需要根据先验知识预先定义锚框,减少了超参数;另一方面,针对基于区域分割的目标跟踪方法存在速度慢和掩膜精度受限于目标跟踪框的问题,本发明基于孪生网络实现一种Anchor-free目标跟踪方法,该方法用区域分类与轮廓回归对目标跟踪建模,能够同时得到目标矩形框和轮廓。

为了测试上述网络的性能,在SYS-7048GR-TR台式机(CPU型号为Intel Xeon(R)ES-2630v4@2.20GHz×20,内存为64GB,GPU为RTX2080Ti11G)进行测试。软件环境是:Ubuntu18.04、Python 3.7、cuda10.0和cudnn7.5。利用OTB-2015数据集对提出的目标跟踪方法进行实验验证。OTB-2015数据集包含100个视频序列,具有光照变化(IV)、尺度变化(SV)、遮挡(OCC)、形变(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、平面外旋转(OPR)、目标出界(OV)、背景混杂(BC)和低分辨率(LR)11个挑战属性。该数据集利用OPE(One-PassEvaluation)方式计算Precision和Success指标评价跟踪器的精度和鲁棒性。由于OTB-2015数据集的标注矩形框为正矩形框,因此,本方法利用目标轮廓的最小外接矩形框计算Precision和Success。表1给出了本方法、DaSiamRPN、SiamRPN++、ECO、MDNet、C-COT、MCPF、TADT、DeepSRDCF和SRDCF共10种目标跟踪方法在OTB-2015数据集上的Precision、Success与FPS指标,图4为10种目标跟踪方法在OTB-2015数据集上的Precision和Success指标曲线。由图3和图4可以看出:本方法的Success指标最优,对于Precision指标,本方法与SiamRPN++相近并略低于DaSiamRPN,但仍具有竞争优势;在跟踪速度方面,本方法优于其它方法。本方法的Precision指标小于DaSiamRPN的原因是:DaSiamRPN在训练网络时利用ImageNet和COCO数据集对训练集进行了增强,而本方法没有使用这一技巧。与DASiamRPN相比,本方法的优势有两个方面:一方面,本方法利用轮廓分割网络将初始框变形为目标轮廓,本质是利用多点回归目标的尺度,对目标变化具有鲁棒性,而DASiamRPN是基于Anchor的回归,其结果受限于Anchor的设置,因此本方法在Success指标上优于DASiamRPN;另一方面,本方法通过目标轮廓拟合出正矩形框或旋转矩形框,而DASiamRPN只能得到正矩形框。

依据上述跟踪网络,设计了Anchor-free目标跟踪方法,包括如下步骤:

输入:初始目标框b

输出:t时刻的目标框b

步骤1:根据初始目标框b

步骤2:利用孪生骨干网络计算模板图像z的特征

FOR t=2:T

步骤3:计算搜索区域,x

步骤4:裁剪大小为255×255的搜索区域x

步骤5:利用孪生骨干网络计算搜索区域x

步骤6:计算得分图,

步骤7:计算t时刻目标位置,

步骤8:初始化t时刻目标尺度,

步骤9:得到t时刻目标初始框,

步骤10:将

步骤11:根据目标轮廓V

步骤12:输出t时刻目标框b

END FOR

上述步骤涉及的参数说明如下:

(1)

(2)

(3)b

(4)F

以上仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法
  • 基于多重孪生神经网络与区域神经网络的目标跟踪方法
技术分类

06120116496009