掌桥专利:专业的专利平台
掌桥专利
首页

一种基于融合特征解码结构的单目标跟踪方法

文献发布时间:2024-04-18 19:58:30


一种基于融合特征解码结构的单目标跟踪方法

技术领域

本发明属于计算机视觉技术领域,具体涉及的是一种基于融合特征解码结构的单目标跟踪方法。

背景技术

目标跟踪是一种计算机视觉任务,其目标是在给定视频序列中实时跟踪特定目标对象的位置。这个目标对象在视频的不同帧中可能会发生运动、变形、遮挡或其他外部干扰,其挑战在于在这些复杂条件下如何准确地跟踪目标的位置。

目标跟踪的过程包括首先在视频中选择一个初始的目标区域(通常称为模板帧),然后在接下来的帧中通过比较当前帧与模板帧之间的相似度或距离来确定目标的新位置。孪生网络(Siamese)是目标跟踪中常用的特征融合方法,它通过计算两个特征之间的互相关系来匹配目标。然而,由于目标跟踪任务的复杂性,传统的孪生网络可能导致次优的跟踪结果,特别是在目标被遮挡或部分可见的情况下。因此,为解决这些问题,提出了基于Transformer的结构,通过捕捉全局上下文信息和保留目标的语义信息提高目标跟踪的鲁棒性和准确性。

目前,在计算机视觉领域中,DETR和ViT已经成功引入Transformer模型,为目标检测和图像分类任务带来了突破性进展。在目标跟踪方面,TransT、Stark和SwinTrack等算法都利用Transformer中的注意力(Attention)思想,取代传统的孪生网络中的相关操作,用于模板与搜索区域之间的特征融合,从而显著提高了跟踪性能。然而,传统的交叉特征增强操作在应对相似物干扰时难以判别目标与相似物。

发明内容

本发明的主要目的在于克服现有技术中的不足,解决传统的交叉特征增强操作在应对相似物干扰时难以判别目标与相似物的技术问题,本发明提供一种基于融合特征解码结构的单目标跟踪方法。

本申请的设计构思为:提出一种新颖的交叉注意力增强模块(Enhanced Cross-Attention,ECA),通过引入ECA模块,能够对跟踪的目标进行注意力增强,增强融合特征中目标信息,使网络在处理相似物时具有更优良的关注度和建模能力。其亮点在于将ECA模块嵌入到传统的Vision Transformer结构中,为解码器提供具有更优良关注度信息的特征,从而有效提升特征图中目标的信息,进一步提高了网络的建模能力。这一方法的关键在于在目标跟踪中引入增强交叉注意力模块,显式地增强建模序列中元素之间的交互关系,提高了特征的建模能力和对目标的关注度,使得网络能够更好地识别并跟踪目标对象,尤其在复杂场景下具有更强的鲁棒性,为目标跟踪任务带来了显著的性能提升,具有广泛的应用前景。

本发明以TransT作为基准跟踪,通过以下技术方案予以实现:一种基于融合特征解码结构的单目标跟踪方法,使用融合解码特征的交叉注意力模块增强目标区域特征信息,包括以下步骤:

S1、从增强的训练集中裁剪一对图片,通过孪生网络提取模板并搜索区域的特征,分别得到模板特征f

S2、使用基于Transformer的特征融合方法将步骤S1中得到的模板特征f

S3、将第三交叉注意力增强模块输出的数据输入预测头,预测头由一个分类分支和一个回归分支组成,每个分支包括一个隐藏维数为d的三层感知器和一个ReLU激活函数;对于特征融合网络生成的特征图

进一步地,所述步骤S1包括以下步骤:

S1-1、从视频数据集中的任一个视频序列中对图像进行采样,收集训练样本,然后采用常规数据增强方法(如平移或者亮度抖动)扩大训练集,获得增强训练集;

S1-2、在增强训练集中,首先,将视频序列首帧中以目标为中心、各边边长向外扩展两倍所围成的区域定义为模板图片

S1-3、将裁剪后的模板图片和搜索区域图片输入在ImageNet数据集上预训练的ResNet-50网络,用于特征提取,分别得到模板特征

进一步地,所述步骤S2包括以下步骤:

S2-1、将模板特征f

S2-2、由于Transformer的输入为一组特征向量,所以分别将模板特征f

S2-3、将模板分支f

式中,Softmax为归一化函数,Q和K是维度为d

通过缩放点积运算得到Q和K之间的注意力分数,然后通过Softmax运算生成注意力图,再根据注意力图重新计算加权值V;这样,注意力机制根据Q和K的相关性,自适应地聚焦于V中有用的位置;

扩展到多头注意力计算公式如下:

MultiHead(Q,K,V)=Concat(H

式中,

自注意力利用残差形式的多头注意力自适应地整合特征图不同位置的信息,通过引入正弦函数生成空间位置编码P

X

式中,P

S2-4、将自注意力模块输出的X

FFN(x)=max(0,xW

式中,W为权重矩阵,b为偏置向量,x为自注意力模块输出的特征向量,下角标1、2分别表示第1层、第2层;

综上所述交叉注意力增强模块的计算公式为:

式中,X

当注意力分数大于0.7时,注意力分数乘以预先设置的系数完成注意力增强,其原理是:首先计算搜索序列中每个位置的平均关注程度,得到平均注意力权重;其次根据关注程度对位置进行排序,找出关注程度最高的前512个位置的索引Topk_idx;然后再对搜索序列中的元素进行加权处理,将关注程度高的位置权重再提高30%,其他位置权重保持不变;最后将加权后的搜索序列和模板序列拼接在一起,形成目标序列,以提高匹配准确率。

进一步地,所述步骤S3包括以下步骤:

S3-1、根据分类结果中数值最大的位置定位目标的位置,并将该位置映射回搜索区域得到目标的中心位置;根据分类结果中值最大的位置选择回归结果中对应的目标上、下、左、右相对于中心位置的偏移值;

S3-2、若存在跟踪失败或者分类得分过低时,通过梯度下降方法对整个模型进行更新;

S3-3、根据目标的中心位置和偏移值绘制跟踪的坐标框,得到追踪结果。

本发明的有益效果在于:本发明在目标跟踪技术中引入了融合解码特征的交叉注意力机制,增强了建模序列中元素之间的交互关系,使得网络能够更好地识别和跟踪目标对象。本发明提出的注意力增强模块提高了特征建模能力和目标关注度,显著提升了目标跟踪性能,尤其在处理相似物和复杂场景方面表现出色,具有广泛的应用前景。同时,该技术在复杂场景下表现出较强的鲁棒性,能够有效地应对干扰,为目标跟踪领域带来积极的效果。

附图说明

图1为本发明的总体框架图;

图2为本发明基于Transformer的自注意力模块的流程图;

图3为本发明中融合解码特征的交叉注意力增强模块的ECA模块流程图;

图4为本发明在OTB100通用数据集上与其他现有跟踪器的跟踪效果的成功率对比图;

图5为本发明在OTB100通用数据集上与其他现有跟踪器的跟踪效果的精确率对比图;

图6为本发明在OTB100数据集上与其他跟踪器跟踪效果的对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细描述。

如图1所示的一种基于融合特征解码结构的单目标跟踪方法,首先从视频数据集做数据增强后得到训练集,随后从训练集中裁剪出一对模板图片和搜索区域图片,然后将这一对图片输入到ResNet-50网络中做特征提取,其次将提取后的特征送入到特征融合网络中,其中自注意力模块用来做模板特征和搜索区域特征的自注意力增强,交叉注意力增强模块用来将融合这两个特征映射并进行特征交互,最后将融合后的特征送入预测头进行分类任务和回归任务;并结合分类结果与回归结果对目标进行精确的定位,具体包括以下步骤:

S1、从增强的训练集中裁剪一对图片,通过孪生网络提取模板并搜索区域的特征,分别得到模板特征f

S1-1、从视频数据集中的任一个视频序列中对图像进行采样,收集训练样本,然后采用常规数据增强方法扩大训练集,获得增强训练集;

S1-2、在增强训练集中,首先,将视频序列首帧中以目标为中心、各边边长向外扩展两倍所围成的区域定义为模板图片

S1-3、将裁剪后的模板图片和搜索区域图片输入在ImageNet数据集上预训练的ResNet-50网络,用于特征提取,分别得到模板特征

S2、使用基于Transformer的特征融合方法将步骤S1中得到的模板特征f

S2-1、将模板特征f

S2-2、由于Transformer的输入为一组特征向量,所以分别将模板特征f

S2-3、将模板分支f

式中,Softmax为归一化函数,Q和K是维度为d

通过缩放点积运算得到Q和K之间的注意力分数,然后通过Softmax运算生成注意力图,再根据注意力图重新计算加权值V;

扩展到多头注意力计算公式如下:

MultiHead(Q,K,V)=Concat(H

式中,

自注意力利用残差形式的多头注意力自适应地整合特征图不同位置的信息,通过引入正弦函数生成空间位置编码P

X

式中,P

S2-4、如图3所示,将自注意力模块输出的X

FFN(x)=max(0,xW

式中,W为权重矩阵,b为偏置向量,x为自注意力模块输出的特征向量,下角标1、2分别表示第1层、第2层;

综上所述交叉注意力增强模块的计算公式为:

式中,X

当注意力分数大于0.7时,注意力分数乘以预先设置的系数完成注意力增强;

S3、将第三交叉注意力增强模块输出的数据输入预测头,预测头由一个分类分支和一个回归分支组成,每个分支包括一个隐藏维数为d的三层感知器和一个ReLU激活函数;对于特征融合网络生成的特征图

S3-1、根据分类结果中数值最大的位置定位目标的位置,并将该位置映射回搜索区域得到目标的中心位置;根据分类结果中值最大的位置选择回归结果中对应的目标上、下、左、右相对于中心位置的偏移值;

S3-2、若存在跟踪失败或者分类得分过低时,通过梯度下降方法对整个模型进行更新;

S3-3、根据目标的中心位置和偏移值绘制跟踪的坐标框,得到追踪结果。

本具体实施方式中对本发明提出的融合特征解码结构方案做了初步测试实验,具体如下。

使用Pytorch框架在一台NVIDIA TITAN RTX4090的服务器上进行实验。软件平台为Pycharm,用Python语言编程实现了融合特征解码结构方案。在实验中,首先测试在OTB100数据集上的成功率和精确率,然后测试OTB100数据集中真实跟踪结果的对比。

如图4、图5所示,其中Ours为本发明所提出的跟踪器,SiamCAR、SiamBAN、SimRPN++、TransT、OcECAn、DaSiamRPN、SiamRPN、TCTrack、SiamFC为近几年其他的学者提出的跟踪器的名称,各跟踪器名称对应的数字分别表示跟踪器的平均精确率和平均成功率。

如图4所示,精确率图中表示的是跟踪算法预测框中心点与Ground Truth框的中心点的欧氏距离,通常阈值为20像素。即它们的欧氏距离在20像素之内就视为跟踪成功。如图5所示,成功率图中表示的是跟踪算法绘制的跟踪框和人工标注的跟踪框之间的重叠率(Overlap Score,OS)大于给定阈值的百分比。由图4和图5可以看出,在通用数据集OTB100上与近些年先进跟踪器进行对比,本发明的跟踪方法Ours在精确率和成功率上都有明显的提高。

图6为本发明和近些年先进跟踪器MDNet、SiamRPN++、TransT、OcECAn、DaSiamRPN、SiamRPN、Staple在OTB100数据集中真实跟踪结果的对比,从图5中可以看出,本发明的跟踪方法在搜索区域出现相似目标和长时间跟踪时,产生的包围框要比其他的跟踪器更加准确。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 一种基于多特征融合的运动目标跟踪方法
  • 一种基于多层次特征融合的单目标跟踪方法
  • 一种基于特征融合的Siamese网络视频单目标跟踪方法
技术分类

06120116502038