掌桥专利:专业的专利平台
掌桥专利
首页

目标跟踪方法、装置、设备、介质及程序产品

文献发布时间:2023-06-19 11:35:49


目标跟踪方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及图像处理技术领域,并且更具体地,涉及一种目标跟踪方法、装置、设备、介质及程序产品。

背景技术

随着人工智能技术的快速发展,视觉目标跟踪是计算机视觉中的一个重要研究方向,在多个领域都具有广泛的应用。

目前,视觉目标跟踪技术通过利用深度学习的目标跟踪方法,在理想环境中取得了令人满意的效果,使得目标跟踪技术获得了突破方向。其中,大量的跟踪算法已被提出来应用于各种场景,例如:视频监控场景、人机交互场景以及无人驾驶场景等。

但是,在实际的应用场景中,由于现实环境中诸如形变、遮挡、光照变化、背景杂乱、快速运动等因素的影响,当前目标跟踪方法的稳健性难以得到保证。

发明内容

本申请实施例提供的目标跟踪方法、装置、设备、介质及程序产品,以能够提高目标跟踪方法的稳健性。

第一方面,本申请实施例提供了一种目标跟踪方法,包括:

获取目标区域图像以及搜索区域图像,其中,所述目标区域图像中包括待跟踪目标;

通过预设目标跟踪模型对所述目标区域图像以及所述搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,其中,所述目标跟踪模型为基于孪生网络跟踪算法所生成的算法模型;

根据所述目标区域图像特征以及所述搜索区域图像特征生成响应图,其中,所述响应图中的各个响应点特征用于表征所述目标区域图像特征与所述搜索区域图像特征中各个部分的相似度;

根据所述响应图确定所述待跟踪目标在所述搜索区域图像中的位置。

在一种可能的设计中,所述通过预设目标跟踪模型对所述目标区域图像以及所述搜索区域图像分别进行特征提取,包括:

利用所述预设目标跟踪模型中的目标区域学习分支对所述目标区域图像进行特征提取;

利用所述预设目标跟踪模型中的搜索区域学习分支对所述搜索区域图像进行特征提取,其中,所述目标区域学习分支与所述搜索区域学习分支之间权重共享。

在一种可能的设计中,所述利用所述预设目标跟踪模型中的目标区域学习分支对所述目标区域图像进行特征提取,包括:

利用所述目标区域学习分支中的第一特征提取器网络对所述目标区域图像进行特征提取,其中,所述第一特征提取器网络中包括双注意力机制;

对应的,所述利用所述预设目标跟踪模型中的搜索区域学习分支对所述搜索区域图像进行特征提取,包括:

利用所述搜索区域学习分支中的第二特征提取器网络对所述搜索区域图像进行特征提取,其中,所述第二特征提取器网络中包括所述双注意力机制;

所述双注意力机制用于提高所述待跟踪目标对应的关键特征的权重值,所述关键特征用于表征待跟踪目标的物体特性。

在一种可能的设计中,所述根据所述响应图确定所述待跟踪目标在所述搜索区域图像中的位置,包括:

根据所述响应图确定响应值最大的目标特征位置;

将所述目标特征位置映射到所述搜索区域图像的原始尺寸,则所述目标特征位置在搜索区域图像中对应的目标位置为所述待跟踪目标在所述搜索区域图像中的位置。

在一种可能的设计中,所述获取目标区域图像以及搜索区域图像,包括:

获取目标选择指令,所述目标选择指令用于从当前帧图像中确定所述待跟踪目标,所述搜索区域图像为所述当前帧图像的下一帧图像。

在一种可能的设计中,在所述根据所述响应图确定所述待跟踪目标在所述搜索区域图像中的位置之后,还包括:

在所述搜索区域图像中显示跟踪标识,所述跟踪标识用于在所述搜索区域图像标识所述待跟踪目标,其中,所述跟踪标识的显示位置根据所述待跟踪目标在所述搜索区域图像中的位置以及所述待跟踪目标的尺寸进行确定。

在一种可能的设计中,所述的目标跟踪方法,还包括:

获取训练样本集,所述训练样本集包括目标区域图像训练集以及搜索区域图像训练集;

利用所述目标区域图像训练集中的训练目标区域图像以及所述搜索区域图像训练集中的训练搜索区域图像对所述预设目标跟踪模型进行训练。

在一种可能的设计中,所述利用所述目标区域图像训练集中的训练目标区域图像以及所述搜索区域图像训练集中的训练搜索区域图像对所述预设目标跟踪模型进行训练,包括:

根据所述预设目标跟踪模型对所述训练目标区域图像以及所述训练搜索区域图像分别进行特征提取,以确定训练目标区域图像特征以及训练搜索区域图像特征,所述训练目标区域图像包括训练待跟踪目标;

根据所述训练目标区域图像特征以及所述训练搜索区域图像特征生成训练响应图;

根据所述训练响应图确定所述训练待跟踪目标在所述搜索区域图像中的训练位置;

根据所述训练位置以及标注响应图中的标注位置进行损失计算,并根据计算结果对所述预设目标跟踪模型中的梯度进行计算和更新。

第二方面,本申请实施例还提供了一种目标跟踪装置,包括:

获取模块,用于获取目标区域图像以及搜索区域图像,其中,所述目标区域图像中包括待跟踪目标;

提取模块,用于通过预设目标跟踪模型对所述目标区域图像以及所述搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,其中,所述目标跟踪模型为基于孪生网络跟踪算法所生成的算法模型;

生成模块,用于根据所述目标区域图像特征以及所述搜索区域图像特征生成响应图,其中,所述响应图中的各个响应点特征用于表征所述目标区域图像特征与所述搜索区域图像特征中各个部分的相似度;

确定模块,用于根据所述响应图确定所述待跟踪目标在所述搜索区域图像中的位置。

在一种可能的设计中,所述提取模块,具体用于:

利用所述预设目标跟踪模型中的目标区域学习分支对所述目标区域图像进行特征提取;

利用所述预设目标跟踪模型中的搜索区域学习分支对所述搜索区域图像进行特征提取,其中,所述目标区域学习分支与所述搜索区域学习分支之间权重共享。

在一种可能的设计中,所述提取模块,具体用于:

利用所述目标区域学习分支中的第一特征提取器网络对所述目标区域图像进行特征提取,其中,所述第一特征提取器网络中包括双注意力机制;

对应的,所述利用所述预设目标跟踪模型中的搜索区域学习分支对所述搜索区域图像进行特征提取,包括:

利用所述搜索区域学习分支中的第二特征提取器网络对所述搜索区域图像进行特征提取,其中,所述第二特征提取器网络中包括所述双注意力机制;

所述双注意力机制用于提高所述待跟踪目标对应的关键特征的权重值,所述关键特征用于表征待跟踪目标的物体特性。

在一种可能的设计中,所述确定模块,具体用于:

根据所述响应图确定响应值最大的目标特征位置;

将所述目标特征位置映射到所述搜索区域图像的原始尺寸,则所述目标特征位置在搜索区域图像中对应的目标位置为所述待跟踪目标在所述搜索区域图像中的位置。

在一种可能的设计中,所述获取模块,具体用于:

获取目标选择指令,所述目标选择指令用于从当前帧图像中确定所述待跟踪目标,所述搜索区域图像为所述当前帧图像的下一帧图像。

在一种可能的设计中,所述目标跟踪装置,还包括:

显示模块,用于在所述搜索区域图像中显示跟踪标识,所述跟踪标识用于在所述搜索区域图像标识所述待跟踪目标,其中,所述跟踪标识的显示位置根据所述待跟踪目标在所述搜索区域图像中的位置以及所述待跟踪目标的尺寸进行确定。

在一种可能的设计中,所述目标跟踪装置,还包括:训练模块,具体用于:

获取训练样本集,所述训练样本集包括目标区域图像训练集以及搜索区域图像训练集;

利用所述目标区域图像训练集中的训练目标区域图像以及所述搜索区域图像训练集中的训练搜索区域图像对所述预设目标跟踪模型进行训练。

在一种可能的设计中,所述训练模块,具体用于:

根据所述预设目标跟踪模型对所述训练目标区域图像以及所述训练搜索区域图像分别进行特征提取,以确定训练目标区域图像特征以及训练搜索区域图像特征,所述训练目标区域图像包括训练待跟踪目标;

根据所述训练目标区域图像特征以及所述训练搜索区域图像特征生成训练响应图;

根据所述训练响应图确定所述训练待跟踪目标在所述搜索区域图像中的训练位置;

根据所述训练位置以及标注响应图中的标注位置进行损失计算,并根据计算结果对所述预设目标跟踪模型中的梯度进行计算和更新。

第三方面,本申请实施例还提供一种电子设备,,包括:处理器以及存储器,所述处理器分别与所述存储器连接;

所述存储器,用于存储所述处理器的计算机程序;

其中,所述处理器被配置为通过执行所述计算机程序来实现第一方面中任一种可能的目标跟踪方法。

第四方面,本申请实施例还提供一种机器可读存储介质,其上存储有可执行指令,所述可执行指令在被机器执行时使得实现第一方面中任一种可能的目标跟踪方法。

第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现第一方面中任一种可能的目标跟踪方法。

可见,在上述技术方案中,通过获取目标区域图像以及搜索区域图像,然后,通过基于孪生网络跟踪算法所生成的预设目标跟踪模型对目标区域图像以及搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,从而根据目标区域图像特征以及搜索区域图像特征生成响应图,以根据响应图确定待跟踪目标在搜索区域图像中的位置,从而提高目标跟踪方法的稳健性。

附图说明

为了更清楚地说明本申请的实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单介绍。然而,本领域技术人员应当理解的是,下面描述中的附图仅仅是本申请的一些示例,并不限制其范围。

图1是本申请根据一示例性实施例示出的目标跟踪方法的应用网络架构图;

图2是本申请根据一示例性实施例示出的目标跟踪方法的流程示意图;

图3是图2所示实施例中S102的一种实现方式的流程示意图;

图4是图2所示实施例中S104的一种实现方式的流程示意图;

图5是一种场景下用于评价跟踪方法的成功率对比图;

图6是另一种场景下用于评价跟踪方法的成功率对比图;

图7是再一种场景下用于评价跟踪方法的成功率对比图;

图8是本申请根据另一示例性实施例示出的目标跟踪方法的流程示意图;

图9是本申请根据一示例性实施例示出的目标跟踪装置的结构示意图;

图10是本申请根据另一示例性实施例示出的目标跟踪装置的结构示意图;

图11是本申请根据一示例性实施例示出的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。本领域技术人员应当理解的是,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员可以进行任何适当的修改或变型,从而获得的所有其它实施例。

目前,视觉目标跟踪技术通过利用深度学习的目标跟踪方法,在理想环境中取得了令人满意的效果,使得目标跟踪技术获得了突破方向。其中,大量的跟踪算法已被提出来应用于各种场景,例如:视频监控场景、人机交互场景以及无人驾驶场景等。但是,在实际的应用场景中,由于现实环境中诸如形变、遮挡、光照变化、背景杂乱、快速运动等因素的影响,当前目标跟踪方法的稳健性难以得到保证。

鉴于此,本申请实施例提供了一种目标跟踪方法、装置、设备、介质及程序产品,通过获取目标区域图像以及搜索区域图像,然后,通过基于孪生网络跟踪算法所生成的预设目标跟踪模型对目标区域图像以及搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,从而根据目标区域图像特征以及搜索区域图像特征生成响应图,以根据响应图确定待跟踪目标在搜索区域图像中的位置,从而提高目标跟踪方法的稳健性。下面将结合具体实施例来详细描述上述技术方案。

图1是本申请根据一示例性实施例示出的目标跟踪方法的应用网络架构图。如图1所示,在实施本实施例提供的目标跟踪方法对特定的目标进行跟踪时,可以先获取目标区域图像100以及搜索区域图像200,其中,在目标区域图像100中包括待跟踪目标。例如:在视频监控场景中,当监督人员在监控视频的当前帧图像中发现了可疑人员,则可以通过目标选择指令选择该可疑人员作为待跟踪目标,其中,可以是通过在当前帧图像上面框选可疑人员,所框选的范围则为上述的目标区域图像100,而框选范围中的可疑人员则即为上述的待跟踪目标。

然后,通过预设目标跟踪模型中的卷积层分别对目标区域图像100以及搜索区域图像200进行特征提取,从而形成确定目标区域图像特征110以及搜索区域图像特征210。再将目标区域图像特征110以及搜索区域图像特征210通过双注意力机制400,从而通过增加了双注意力机制400的特征提取器网络提高待跟踪目标对应的关键特征的权重值,其中,关键特征用于表征待跟踪目标的物体特性,例如,当待跟踪目标为可疑人员时,则关键特征为用于表征人物的特征,从而使得表征人物的特征更加具有突出性。

再根据目标区域图像特征以及搜索区域图像特征通过相似性度量500的方式生成响应图600。最后,根据响应图600确定待跟踪目标在搜索区域图像中的位置。例如,根据响应图600确定可疑人员在当前帧图像的下一帧图像中的位置,从而实现对于可疑人员在视频监控中的目标跟踪效果。

图2是本申请根据一示例性实施例示出的目标跟踪方法的流程示意图。如图2所示,本实施例提供的目标跟踪方法,包括:

S101、获取目标区域图像以及搜索区域图像。

具体的,获取目标区域图像以及搜索区域图像,其中,在目标区域图像中包括待跟踪目标。值得理解的,目标区域图像为在当前帧图像中所选择的待跟踪目标所对应的图像,然后,搜索区域图像为当前帧图像的下一帧图像,以根据目标区域图像对搜索区域图像中待跟踪目标进行定位和跟踪。

S102、通过预设目标跟踪模型对目标区域图像以及搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征。

在本步骤中,可以是通过预设目标跟踪模型对目标区域图像以及搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,其中,目标跟踪模型为基于孪生网络跟踪算法所生成的算法模型。值得说明的,孪生网络跟踪算法是离线阶段训练一个相似性学习网络,使用离线的模型进行在线跟踪,它的目标区域学习分支和搜索区域学习分支是两个相同的网络,而模型学习之间权重共享,去计算两张图片的相似性的算法。孪生网络使用了两个分支结构相同,参数相同的网络。两个不同的图像输入到孪生网络中,网络的输出可以认为是用某种方法提取了两个图像的相同特征,得到的相似性度量。

其中,对于目标区域图像以及搜索区域图像,网络学习一个映射函数目标函数𝑓(𝑧, 𝑥),相似性学习的输出结果是标量的得分图,当𝑓(𝑧, 𝑥)得到一个较高的相似度分数,说明目标区域图像𝑧和搜索区域图像𝑥为同一目标可能性越高;当𝑓(𝑧,𝑥)得到一个较低的相似度值时候,目标区域图像以及搜索区域图像同一目标可能性越低,其中映射相似性函数𝑓(𝑧,𝑥)通过采用的目标识别大规模监督数据训练得到的。

S103、根据目标区域图像特征以及搜索区域图像特征生成响应图。

在本步骤中,可以根据目标区域图像特征以及搜索区域图像特征生成响应图,其中,响应图中的各个响应点特征用于表征目标区域图像特征与搜索区域图像特征中各个部分的相似度。

S104、根据响应图确定待跟踪目标在搜索区域图像中的位置。

在本步骤中,当通过相似性度量的方式得到二维响应图之后,可以将响应图中映射到原图大小,其中,响应图中最大值位置就是搜索区域的目标位置,即待跟踪目标在搜索区域图像中的位置。

在本步骤中,通过获取目标区域图像以及搜索区域图像,然后,通过基于孪生网络跟踪算法所生成的预设目标跟踪模型对目标区域图像以及搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,从而根据目标区域图像特征以及搜索区域图像特征生成响应图,以根据响应图确定待跟踪目标在搜索区域图像中的位置,从而提高目标跟踪方法的稳健性。

图3是图2所示实施例中S102的一种实现方式的流程示意图。如图3所示,在本实施例中,上述实施例中的S102,包括:

S1021、利用预设目标跟踪模型中的目标区域学习分支对目标区域图像进行特征提取。

S1022、利用目标区域学习分支中的第一特征提取器网络对目标区域图像进行特征提取。

S1023、利用搜索区域学习分支中的第二特征提取器网络对搜索区域图像进行特征提取。

具体的,可以是利用预设目标跟踪模型中的目标区域学习分支对目标区域图像进行特征提取,然后,利用预设目标跟踪模型中的搜索区域学习分支对搜索区域图像进行特征提取,其中,目标区域学习分支与搜索区域学习分支之间权重共享。而对于特征提取的具体步骤,可以是利用目标区域学习分支中的第一特征提取器网络对目标区域图像进行特征提取,其中,第一特征提取器网络中包括双注意力机制,然后,利用搜索区域学习分支中的第二特征提取器网络对搜索区域图像进行特征提取,其中,第二特征提取器网络中包括双注意力机制。值得说明的,双注意力机制用于提高待跟踪目标对应的关键特征的权重值,关键特征用于表征待跟踪目标的物体特性。其中,关键特征用于表征待跟踪目标的物体特性,例如,当待跟踪目标为可疑人员时,则关键特征为用于表征人物的特征,从而使得表征人物的特征更加具有突出性。

其中,经过增加了双注意力机制的特征提取器网络得到目标区域图像的特征和搜索区域图像特征。其中,双注意力机制包括通道注意力机制以及空间注意力机制。具体的,通道注意力机制即是对原始特征的一种重新权重分布,首先计算出每一个通道的最大值,然后所有最大值在经过归一化,产生了每个通道权重值,最后直接乘到原始特征上,将原始的特征进行重新排布。而:空间注意力机制是通过使用最大池化和平均池化操作来得到特征图的空间信息,它体现信息突出的部分,这是对通道注意力图的补充。沿着通道轴应用最大池化和平均池化操作,并将它们连接起来以生成有效的特征。

在本实施例中,基于全卷积孪生网络的目标跟踪算法为基础,增加了双注意力机制模块,将目标跟踪的过程看作是图像相似度度量的问题。使得特征的提取更具有鲁棒性,同时能提高跟踪器的精度,可以有效地避免网络的过拟合,也不会引入额外的噪声;这种简单的方法可以与大部分网络结构相结合,改善了跟踪器的性能,提高了跟踪器的精确度。

而双注意力的全卷积孪生网络跟踪算法实现步骤,它的目标区域学习分支和搜索区域学习分支是两个相同的网络,模型学习之间权重共享,其目标区域学习分支输入目标区域图像;其搜索区域学习分支输入搜索区域图像块;双注意力机制使得网络结构学习目标特征更加具有突出性;计算目标区域分支输出特征和搜索区域分支的输出特征相似性,将其相似性度量中最大值区域映射到原图,即得到搜索区域的目标位置,从而使得跟踪算法变得更稳健、准确。

图4是图2所示实施例中S104的一种实现方式的流程示意图。如图4所示,在本实施例中,上述实施例中的S104,包括:

S1041、根据响应图确定响应值最大的目标特征位置。

S1042、将目标特征位置映射到搜索区域图像的原始尺寸,目标特征位置在搜索区域图像中对应的目标位置为待跟踪目标在搜索区域图像中的位置。

具体的,先根据响应图确定响应值最大的目标特征位置,然后,将目标特征位置映射到搜索区域图像的原始尺寸,则目标特征位置在搜索区域图像中对应的目标位置为待跟踪目标在搜索区域图像中的位置。

基于全卷积孪生网络目标跟踪算法方法,由于网络CNN具有非常强大的学习能力,特征拟合标签信息很强,导致并不能精确的区别特征之间的重要性。而本申请实施例则在原有全卷积孪生网络基础上加入双注意力机制模块,使得很好区分即自适应地重新校准特征映射,以增强有重要意义的特征,同时抑制一般的特征,且能提高网络和模型的泛化能力。从而在原始的数据上对数据进行归一化处理,使得特征的提取更具有鲁棒性,同时能提高跟踪器的精度,可以有效地避免网络捕获表示所需能力的过拟合,也不会引入额外的噪声。这种简单的方法可以与大多数的正则化技术相结合,进一步缓解了系统可能出现过拟合的情况,在目标遭受部分遮挡、背景混乱、低分辨率等各种情况时,显著地提高跟踪算法的鲁棒性,使得跟踪算法依然可以有效地跟踪到目标物体

图5是一种场景下用于评价跟踪方法的成功率对比图;图6是另一种场景下用于评价跟踪方法的成功率对比图;图7是再一种场景下用于评价跟踪方法的成功率对比图。如图5-图7所示,可以采用两种评价准则评估本申请实施例中的改进跟踪方法与现有跟踪方法的性能。在成功率图中,横坐标表示重叠阈值,纵坐标表示成功率,重叠率是通过计算跟踪结果目标框与真实结果目标框的重叠率获得的。

通过上述成功率评价方式,选取OTB2015公共标准数据集上进行实验,这些数据集含有不同的挑战因素,包括:光照变化、尺寸变化、遮挡、变形、快速运动、背景混乱、面内旋转、超出范围、面外旋转、背景混乱和低分辨率。同时,将本申请设计的改进跟踪方法与现有跟踪方法进行了比较。

如图5所示,为本申请设计的改进跟踪方法与现有跟踪方法的对比。从图5可以看出改进跟踪方法,在100组测试视频上跟踪器表现得鲁棒性能最好,OPE成功率值为0.610,而现有跟踪方法的成功率值为0.582,可见,改进跟踪方法在成功率上提高了2.8个百分点,因此,本申请实施例中所提供的改进跟踪方法在跟踪的效果表现得更加鲁棒。

如图6所示,在低分辨率挑战下,可以看出改进跟踪方法的成功率值达到0.661,而现有跟踪方法的成功率值为0.618,相当于提高了4.3个百分点。

如图7所示,在背景混乱挑战下,看出本申请实施例提供的改进跟踪方法成功率值达到了0.577,而现有跟踪方法的成功率值只有0.523,相当于提高了5.4个百分点。

由此可见,上述实验也证明了本申请提供的改进跟踪方法,自适应地重新校准特征映射,以增强有重要意义的特征,同时抑制一般的特征,且能提高网络和模型的泛化能力;双注意力机制主要体现在通道和空间的对特征的操作,有助于增加特征的鲁棒性,以进一步改善跟踪器的性能。

而在上述实施例的基础上,若在具体的应用场景中,获取目标选择指令,目标选择指令用于从当前帧图像中确定待跟踪目标,搜索区域图像为当前帧图像的下一帧图像。例如,视频监控场景中,当监督人员在监控视频的当前帧图像中发现了可疑人员,则可以通过目标选择指令选择该可疑人员作为待跟踪目标,其中,可以是通过在当前帧图像上面框选可疑人员,所框选的范围则为上述的目标区域图像,而框选范围中的可疑人员则即为上述的待跟踪目标。

此外,在根据响应图确定待跟踪目标在搜索区域图像中的位置之后,在搜索区域图像中显示跟踪标识,跟踪标识用于在搜索区域图像标识待跟踪目标,其中,跟踪标识的显示位置根据待跟踪目标在搜索区域图像中的位置以及待跟踪目标的尺寸进行确定。

图8是本申请根据另一示例性实施例示出的目标跟踪方法的流程示意图。如图8所示,本实施例提供的目标跟踪方法,包括:

S201、获取训练样本集。

在本步骤中,获取训练样本集,训练样本集包括目标区域图像训练集以及搜索区域图像训练集。

然后,利用目标区域图像训练集中的训练目标区域图像以及搜索区域图像训练集中的训练搜索区域图像对预设目标跟踪模型进行训练。

S202、根据预设目标跟踪模型对训练目标区域图像以及训练搜索区域图像分别进行特征提取。

具体的,根据预设目标跟踪模型对训练目标区域图像以及训练搜索区域图像分别进行特征提取,以确定训练目标区域图像特征以及训练搜索区域图像特征,训练目标区域图像包括训练待跟踪目标。

S203、根据训练目标区域图像特征及训练搜索区域图像特征生成训练响应图。

S204、根据训练响应图确定训练待跟踪目标在搜索区域图像中的训练位置。

S205、根据训练位置以及标注响应图中的标注位置进行损失计算,并根据计算结果对预设目标跟踪模型中的梯度进行计算和更新。

具体的,通过标注响应图中的标注位置为圆心,以预设半径来确定目标正负样本的像素范围,再确定正负样本的像素范围之后,通过交叉熵损失进行梯度的计算和更新。其中,若训练响应图中的训练位置在该像素范围内,则说明训练效果好,此时损失较小,而若训练响应图中的训练位置不在该像素范围内,则说明训练效果交叉,此时损失较大,需要根据计算结果对预设目标跟踪模型中的梯度进行计算和更新。

图9是本申请根据一示例性实施例示出的目标跟踪装置的结构示意图。如图9所示,本实施例提供的目标跟踪装置300,包括:

获取模块301,用于获取目标区域图像以及搜索区域图像,其中,所述目标区域图像中包括待跟踪目标;

提取模块302,用于通过预设目标跟踪模型对所述目标区域图像以及所述搜索区域图像分别进行特征提取,以确定目标区域图像特征以及搜索区域图像特征,其中,所述目标跟踪模型为基于孪生网络跟踪算法所生成的算法模型;

生成模块303,用于根据所述目标区域图像特征以及所述搜索区域图像特征生成响应图,其中,所述响应图中的各个响应点特征用于表征所述目标区域图像特征与所述搜索区域图像特征中各个部分的相似度;

确定模块304,用于根据所述响应图确定所述待跟踪目标在所述搜索区域图像中的位置。

在一种可能的设计中,所述提取模块302,具体用于:

利用所述预设目标跟踪模型中的目标区域学习分支对所述目标区域图像进行特征提取;

利用所述预设目标跟踪模型中的搜索区域学习分支对所述搜索区域图像进行特征提取,其中,所述目标区域学习分支与所述搜索区域学习分支之间权重共享。

在一种可能的设计中,所述提取模块302,具体用于:

利用所述目标区域学习分支中的第一特征提取器网络对所述目标区域图像进行特征提取,其中,所述第一特征提取器网络中包括双注意力机制;

对应的,所述利用所述预设目标跟踪模型中的搜索区域学习分支对所述搜索区域图像进行特征提取,包括:

利用所述搜索区域学习分支中的第二特征提取器网络对所述搜索区域图像进行特征提取,其中,所述第二特征提取器网络中包括所述双注意力机制;

所述双注意力机制用于提高所述待跟踪目标对应的关键特征的权重值,所述关键特征用于表征待跟踪目标的物体特性。

在一种可能的设计中,所述确定模块304,具体用于:

根据所述响应图确定响应值最大的目标特征位置;

将所述目标特征位置映射到所述搜索区域图像的原始尺寸,则所述目标特征位置在搜索区域图像中对应的目标位置为所述待跟踪目标在所述搜索区域图像中的位置。

在一种可能的设计中,所述获取模块301,具体用于:

获取目标选择指令,所述目标选择指令用于从当前帧图像中确定所述待跟踪目标,所述搜索区域图像为所述当前帧图像的下一帧图像。

在图9所示实施例的基础上,图10是本申请根据另一示例性实施例示出的目标跟踪装置的结构示意图。如图10所示,本实施例提供的目标跟踪装置300,还包括:

显示模块305,用于在所述搜索区域图像中显示跟踪标识,所述跟踪标识用于在所述搜索区域图像标识所述待跟踪目标,其中,所述跟踪标识的显示位置根据所述待跟踪目标在所述搜索区域图像中的位置以及所述待跟踪目标的尺寸进行确定。

在一种可能的设计中,所述目标跟踪装置,还包括:训练模块306,具体用于:

获取训练样本集,所述训练样本集包括目标区域图像训练集以及搜索区域图像训练集;

利用所述目标区域图像训练集中的训练目标区域图像以及所述搜索区域图像训练集中的训练搜索区域图像对所述预设目标跟踪模型进行训练。

在一种可能的设计中,所述训练模块306,具体用于:

根据所述预设目标跟踪模型对所述训练目标区域图像以及所述训练搜索区域图像分别进行特征提取,以确定训练目标区域图像特征以及训练搜索区域图像特征,所述训练目标区域图像包括训练待跟踪目标;

根据所述训练目标区域图像特征以及所述训练搜索区域图像特征生成训练响应图;

根据所述训练响应图确定所述训练待跟踪目标在所述搜索区域图像中的训练位置;

根据所述训练位置以及标注响应图中的标注位置进行损失计算,并根据计算结果对所述预设目标跟踪模型中的梯度进行计算和更新。

在本申请实施例中,模块的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式。例如,多个模块或组件可以进行组合或者可以集成到另一个系统中。另外,各个模块之间的耦合可以是直接耦合或间接耦合。另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是单独的物理存在等等。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中。因此,本申请的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程。上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

图11是本申请根据一示例性实施例示出的电子设备的结构示意图。如图11所示,本实施例提供的电子设备400,包括:

处理器401以及存储器402,所述处理器401与所述存储器403连接;

所述存储器402,用于存储所述处理器401的计算机程序;

其中,所述处理器401被配置为通过执行所述计算机程序来实现上述任一方法实施例中的步骤。

可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。

当所述存储器402是独立于处理器401之外的器件时,所述电子设备400,还可以包括:

总线403,用于连接所述处理器401以及所述存储器402。

此外,本申请实施例还提供一种机器可读存储介质。该机器可读存储介质可以存储有可执行指令,可执行指令在被机器执行时使得机器实现上面方法实施例中的具体过程。

本申请上述的机器可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

本申请实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述方法中的各个步骤。

此外,本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现。这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本申请的范围。

以上内容仅为本申请的具体实施方式,本申请的保护范围并不局限于此。本领域技术人员在本申请所公开的技术范围内可以进行变化或替换,这些变化或替换都应当在本申请的保护范围之内。

相关技术
  • 目标跟踪方法、装置、设备、介质及程序产品
  • 目标跟踪方法、系统、计算机可读存储介质和程序产品
技术分类

06120112985332