掌桥专利:专业的专利平台
掌桥专利
首页

一种基于孪生神经网络的单目标跟踪方法

文献发布时间:2023-06-19 13:49:36


一种基于孪生神经网络的单目标跟踪方法

技术领域

本发明涉及是深度学习技术的单目标跟踪方法,特别是深度学习网络结构中的孪生网络和无需事先设置先验框的目标检测技术,属于目标跟踪技术领域。

背景技术

目标跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而进行下一步的处理与分析,实现对运动目标的行为理解,以完成更高一级的任务。

目标跟踪(单目标)领域的研究者们将跟踪算法分为生成式和判别式方法。一:生成式方法采用特征模型描述目标的外观特征,再最小化跟踪目标与候选目标之间的重构误差来确认目标;生成式方法着重于目标本身的特征提取,忽略目标的背景信息,比较著名的方法有卡尔曼滤波,粒子滤波,mean-shift等,在目标外观发生剧烈变化或者遮挡时候容易出现目标漂移或者目标丢失情况。二:判别式方法将目标跟踪看做是一个二元分类问题,通过训练关于目标和背景的分类器来从候选目标中确定目标,该方法可以显著的区分背景和目标,具有性能鲁棒,准确率高的有点,渐渐成为目标跟踪领域主流方法。且目前大多数基于深度学习的目标跟踪算法也属于判别式方法。

在人工智能顶级会议AAAI上发表了一篇文章SiamFC++:Towards Robust andAccurate Visual Tracking with Target Estimation Guidelines实现单目标跟踪功能,该文献提出分类和状态估计任务的分离,分类任务将目标从干扰物和背景中分类出来,目标状态的估计如iou-loss回归等有利于对目标尺度变化的适应性;分类分数应该直接表示目标存在的置信度分数,即在“视野”中对应像素的子窗口,而不是预设置的锚点框。抛弃目标比例或比率这样的先验知识,提高了模型的泛化能力。使用与分类无关的估计质量评分而非使用分类置信度进行边框选择,提高了模型的准确率。但该方法还存在下列问题:

该方法在模型训练阶段,SiamFC++采用特征图上的特征点映射回原输入图像时,映射回的像素点在目标框内即为正样本。但通常情况下,目标框占据输入图像很小的比例,因此会导致正样本数量很少,负样本数量太多,产生类别不均衡问题,严重影响模型的精度。

该方法类别预测分支使用Focal-loss作为损失函数,它是在标准交叉熵损失基础上修改得到的。这个损失函数可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。但是难分类样本很可能是离群点,过度关注离群点容易产生过拟合现象,降低模型泛化能力。

该方法边框回归分支采用IOU-loss,IoU是真实框和预测框的交集和并集之比,当它们完全重合时,IoU就是1,不相交时为0。但是IOU-loss在IoU值是相同时,IoU值不能反映两个框是如何相交的。当预测框和目标框不相交时,IoU(A,B)=0时,不能反映A,B距离的远近,此时损失函数不可导,IoU Loss无法优化两个框不相交的情况。

发明内容

本发明解决的技术问题是:克服现有技术的不足,提供一种容易训练、防止过拟合,提高模型泛化能力,同时减少误识别的方法。

本发明的技术解决方案是:一种基于孪生神经网络的单目标跟踪方法,该方法包括如下步骤:

S1、获取模板图像和当前帧搜索图像。

S2、将模板图像和当前帧搜索图像分别送入训练好的siamfc++网络中,得到预测分类响应图、预测质量响应图和回归响应图;

S3、将预测分类响应图和预测质量评估响应图进行点乘得到预测概率图;

S4、获取预测概率图最大响应点所对应的回归响应图上坐标值,作为预测目标的坐标值,将预测目标的坐标值映射到搜索图像对应的坐标系下,得到目标的位置。

优选地,所述siamfc++网络为孪生神经网络,所述孪生神经网络包括类别预测分支、预测质量评估分支,边框回归分支;

模板图像和搜索图像输入至类别预测分支后,得到模板图像和搜索图像的分类特征图,模板图像和搜索图像的分类特征图进行卷积操作,得到分类响应图;

模板图像和搜索图像输入至预测质量评估分支后,得到模板图像和搜索图像的预测质量评估特征图,模板图像和搜索图像的预测质量评估特征图进行卷积操作,得到质量评估响应图;

模板图像和搜索图像输入至边框回归分支后,得到模板图像和搜索图像的回归特征图,模板图像和搜索图像的回归特征图进行卷积操作,得到回归响应图。

优选地,所述siamfc++网络的训练方法如下:

S1.1、从LaSOT数据集中获取裁剪后的模板图像和搜索图像;

S1.2、将裁剪后的模板图像和搜索图像输入至siamfc++网络,得到预测分类响应图、预测质量响应图和回归响应图;

S1.3、预测分类响应图、预测质量响应图和回归响应图,分别计算类别预测分支、预测质量评估分支,边框回归分支的损失函数;

S4、将三支路损失函数的总和作为siamfc++网络总的损失函数,使用随机梯度下降算法进行损失优化,得到使得siamfc++网络总的损失函数达到最小值,从而确定siamfc++网络的参数。

优选地,所述边框回归分支采用GIOU函数作为损失函数。

优选地,所述类别预测分支采用梯度模长作为损失函数,该损失函数公式如下:

式中,N为分类响应图中的特征点数;i为分类响应图中的特征点序号,即类别预测分支模型样本的序号;GD(g

优选地,所述梯度密度GD(g

式中,δ

优选地,所述梯度模长g

其中,

优选地,所述质量评估分支采用BCE-loss作为损失函数。

在分配正负样本时,通过事先设置阈值的方式来减少负样本数量。在类别预测分支使用梯度模长技术防止过拟合,边框回归分支采用GIOU损失函数。

具体实现如下:

(1)、保持原有的确定正样本的方式不变之外,在确定负样本数量时,事先确定一个阈值,低于阈值的为负样本,高于或等于阈值的在计算梯度损失时忽略不计。

(2)、梯度模长做法则是从样本的梯度范数出发,通过梯度范数所占的样本比例,对样本进行动态的加权,使得具有小梯度容易区分的样本降权。具有中梯度的难分样本加权,高梯度的离群点降权。具体损失函数公式如下:

其中梯度密度GD(g)的物理含义是单位梯度模长g的样本个数,具体公式如下:

δ

而梯度模长g的计算公式如下:

其中p是模型预测概率,p

在进行边框回归的损失函数中本发明采用Giou损失函数,如图2所示,C代表包围A、B的最小体积(或面积)。首先计算A与B的交互比,然后根据交互比计算L

L

本发明与现有技术相比的有益效果是:

(1)梯度模长技术使得容易区分的样本,特别难以区分的样本或者称为离群点的样本等少数的样本权重降低,梯度模长技术使得模型更加关注大多数样本,提高模型泛化能力。

(2)GIoU作为度量距离损失函数时,具有非负性、对称性、以及三角不等性、尺度不变性。另外如图3,三种不同的重叠方式,Iou的值均是0.33,GIoU从左至右分别是0.33,0.24和0.1。GIoU在同一方向具有更高的匹配度。GIoU考虑到了IoU没有考虑到的非重叠区域,能够反映出A、B重叠方式。

附图说明

图1为本发明实施例SiamFC++网络结构图;

图2为本发明实施例IOU交互比示意图;

图3为本发明实施例不同交互方式示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。

本发明提供了一种基于孪生神经网络的单目标跟踪方法,该方法包括如下步骤:

S1、获取模板图像和当前帧搜索图像。

S2、将模板图像和当前帧搜索图像分别送入训练好的siamfc++网络中,得到预测分类响应图、预测质量响应图和回归响应图;

S3、将预测分类响应图和预测质量评估响应图进行点乘得到预测概率图;

S4、获取预测概率图最大响应点所对应的回归响应图上的特征点,将回归响应图上该特征点的坐标值映射到搜索图像对应的坐标系下,得到目标的位置。

所述siamfc++网络为孪生神经网络,所述孪生神经网络包括类别预测分支、预测质量评估分支,边框回归分支;

模板图像和搜索图像输入至类别预测分支后,得到模板图像和搜索图像的分类特征图,模板图像和搜索图像的分类特征图进行卷积操作,得到分类响应图;

模板图像和搜索图像输入至预测质量评估分支后,得到模板图像和搜索图像的预测质量评估特征图,模板图像和搜索图像的预测质量评估特征图进行卷积操作,得到质量评估响应图;

直接使用分类得分来选择最终预测边框,可能会导致定位精度降低,因为分类置信度与定位精度没有很好的相关性。假设预测目标的中心点周围的特征像素比其他像素具有更好的估计质量。估计质量计算如下:

其中l

模板图像和搜索图像输入至边框回归分支后,得到模板图像和搜索图像的回归特征图,模板图像和搜索图像的回归特征图进行卷积操作,得到回归响应图。

该支路得到的预测目标的坐标值(x,y)到真实框四条边的距离,四维向量m

其中l

所述真实目标框(x

如图1所示,上述siamfc++网络的训练方法如下:

S1.1、从LaSOT数据集中获取裁剪后的模板图像和搜索图像;

本发明中使用模板图像大小是127*127大小,搜索图像大小是255*255大小。输入图片是RGB格式图片。当图片大小不满足裁剪需求时,不足部分采用RGB通道均值进行填充。

S1.2、将裁剪后的模板图像和搜索图像输入至siamfc++网络,得到预测分类响应图、预测质量响应图和回归响应图;

S1.3、预测分类响应图、预测质量响应图和回归响应图,分别计算类别预测分支、预测质量评估分支,边框回归分支的损失函数;

S4、将三支路损失函数的总和作为siamfc++网络总的损失函数,使用随机梯度下降算法进行损失优化,得到使得siamfc++网络总的损失函数达到最小值,从而确定siamfc++网络的参数。

梯度模长技术使得容易区分的样本,特别难以区分的样本或者称为离群点的样本等少数的样本权重降低,梯度模长技术使得模型更加关注大多数样本,提高模型泛化能力。

因此所述类别预测分支采用梯度模长作为损失函数,该损失函数公式如下:

式中,N为分类响应图中的特征点数;i为分类响应图中的特征点序号,即类别预测分支模型样本的序号;GD(g

所述梯度密度GD(g

式中,δ

所述梯度模长g

其中,

所述质量评估分支采用BCE-loss作为损失函数。

BCEloss=-zlog(x)-(1-z)log(1-x)

式中,x是质量评估分支的输出,z是训练集的标签。

所述边框回归分支采用GIOU函数作为损失函数。

L

GIoU作为度量距离损失函数时,具有非负性、对称性、以及三角不等性、尺度不变性。另外如图3,三种不同的重叠方式,Iou的值均是0.33,GIoU从左至右分别是0.33,0.24和0.1。GIoU在同一方向具有更高的匹配度。GIoU考虑到了IoU没有考虑到的非重叠区域,能够反映出A、B重叠方式。

综上所述,本发明的基于Siamese网络的单目标跟踪方法,首先构建Siamese网络的神经网络部分,Siamese网络特征提取部分采用经典的图片分类网络GooLeNet,并使用LaSOT数据集训练Siamese卷积神经网络权重,在训练过程中基于交叉熵、GIOU、梯度模长等损失函数,并使用随机梯度下降算法(Stochastic gradient descent,SGD)进行损失优化,得到分类与回归的结果,最后针对分类与回归的结果进行后续帧的跟踪。

本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

相关技术
  • 一种基于孪生神经网络的单目标跟踪方法
  • 基于多重孪生神经网络与区域神经网络的目标跟踪方法
技术分类

06120113820590