掌桥专利:专业的专利平台
掌桥专利
首页

基于空间拓扑和身份聚合的目标域数据的多目标跟踪方法

文献发布时间:2023-06-19 18:35:48


基于空间拓扑和身份聚合的目标域数据的多目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种基于空间拓扑和身份聚合的目标域数据的多目标跟踪方法。

背景技术

随着深度学习的发展,卷积神经网络应用在越来越多的场景中,而多目标跟踪由于其在视频监控、人机交互和虚拟现实中的广泛应用,在计算机视觉领域受到越来越多的重识。多目标跟踪旨在定位给定视频序列中的多个目标对象,为不同的对象分配不同的身份ID并记录每个ID在视频中的轨迹。目前,随着基于卷积神经网络的目标检测技术不断发展,基于检测的跟踪算法已成为多目标跟踪的主流方向。基于检测的跟踪算法首先需要在每个视频帧上执行目标检测获取每帧的检测结果,然后根据检测结果进行数据关联以创建每个对象在视频中的轨迹。

传统的两阶段多目标跟踪算法将检测和跟踪视为两个独立的模型,即先利用一个检测模型获取检测结果,然后将检测结果和原始视频输入到跟踪模型中进行多目标跟踪。由于独立的检测和跟踪模型是分开执行的,这造成了资源浪费并且可能导致效率问题。近年来,随着深度学习技术的快速成熟,一阶段多目标跟踪框架开始引起更多的研究关注,其核心思想是在单个网络中同时考虑检测和跟踪。这类方法在效率和准确率上为多目标跟踪任务带来了显著的改进。但是由于高成本的注释,一阶段多目标跟踪方法仍然难以在实际场景中应用。因此,如何设计一个能够适应新的无标签跟踪场景的一阶段多目标跟踪模型,是一个尚未探索、需要解决的挑战性问题。

现有技术中的一种一阶段多目标跟踪方法包括:在一个深度学习网络中同时进行目标检测和跟踪,通过共享大部分计算量来减少推理时间。该方法的缺点包括:该方法主要将重点放在对跟踪效率的研究上,而忽略了对跟踪精度的要求。

现有技术中另一种同时兼容跟踪效率和精度的一阶段多目标跟踪方法,该方法使用ResNet-34结构作为特征提取器,并通过在特征提取器上添加DLA(深层聚合,Deep LayerAggregation)结构来实现不同尺度的检测,这种网络设计可以根据目标的尺度和姿势动态地适应感受野,同时有助于缓解对齐问题。

基于特征提取器,该方法添加了目标检测和身份嵌入两个分支以实现一阶段的多目标跟踪。其中目标检测分支看作是高分辨率特征图上基于中心的包围框回归任务,三个平行回归head被添加到特征提取器中,分别用来预测热图、目标包围框大小和中心偏移量。每个head的实现方法是对特征提取器的输出特征图进行3×3卷积(256通道),再经过1×1卷积层生成最终目标。身份嵌入分支的目的是生成能够区分不同目标的特征。理想情况下,不同目标之间的距离应该大于同一目标之间的距离。为了实现这一目的,在特征提取器得到的特征图上应用一个有128个核的卷积层来提取每个位置的身份嵌入特征。最后,该方法根据网络输出的检测值和身份嵌入特征实现多目标跟踪。根据第一帧中的检测框初始化目标轨迹,在接下来的帧中,根据身份嵌入特征和IoU所测量的轨迹距离,将检测值与现有轨迹进行关联以实现多目标跟踪。该方法的缺点包括:该方法的性能得益于大量的训练数据,然而,在实际应用中,获取大量费时费力的训练数据是不现实的,如果直接将训练得到的模型应用到一个新的跟踪场景中,性能会大幅度下降。

发明内容

本发明的实施例提供了基于空间拓扑和身份聚合的多目标跟踪网络演化方法,以解决多目标跟踪的域适应问题,提高多目标跟踪网络模型在无标签目标域的跟踪性能。

为了实现上述目的,本发明采取了如下技术方案。

一种基于空间拓扑和身份聚合的多目标跟踪网络演化方法,包括:

步骤S1、在有标签的源域中训练基于空间拓扑结构的多目标跟踪网络和身份聚合网络,得到参数更新后的多目标跟踪网络和身份聚合网络;

步骤S2、利用参数更新后的多目标跟踪网络和身份聚合网络获取无标签目标域数据的伪标签;

步骤S3、利用所述无标签目标域数据的伪标签和多目标跟踪网络中的自监督模块更新所述多目标跟踪网络的参数。

优选地,所述的在有标签的源域中训练基于空间拓扑结构的多目标跟踪网络和身份聚合网络,得到参数更新后的多目标跟踪网络和身份聚合网络,包括:

构建一阶段多目标跟踪模型框架,该一阶段多目标跟踪模型框架包括基于空间拓扑结构的多目标跟踪网络模块和身份聚合网络模块,多目标跟踪网络包括特征提取器、检测分支、身份嵌入分支和自监督上下文预测分支;身份聚合网络学习目标特征在不同数据帧中的权重,并根据权重对历史数据帧的目标特征进行融合,将融合后的目标特征作为目标的特征表示;

将有标签的源域序列数据输入到基于空间拓扑结构的多目标跟踪网络中,多目标跟踪网络使用特征提取器提取有标签的源域序列数据的全局特征,计算检测分支、身份嵌入分支和自监督上下文预测分支的损失函数,并根据损失函数反向传播调整网络参数,获取在源域中训练得到的参数更新后的多目标跟踪网络;

利用训练得到的多目标跟踪网络提取所述有标签的源域序列数据的编码,将编码输入到身份聚合网络中,身份聚合网络通过使用不同学习权重聚合具有相同身份的历史嵌入,根据身份聚合网络的损失函数反向传播调整整个身份聚合网络的参数,获取在源域中训练得到的参数更新后的身份聚合网络。

优选地,所述的利用参数更新后的多目标跟踪网络和身份聚合网络获取无标签目标域数据的伪标签,包括:

将无标签目标域中的每帧数据依次输入到参数更新后的多目标跟踪网络和身份聚合网络中,多目标跟踪网络利用特征提取器提取数据帧中的全局特征,利用检测分支检测数据帧中的感兴趣的目标,利用身份嵌入分支获得数据帧中的能够区别不同身份对象的判别特征,所述数据帧中检测分支得到的目标构成每帧数据的检测值,身份嵌入分支得到的判别特征构成检测值的特征,身份聚合网络自动学习历史嵌入的权重,并根据学习到的权重聚合具有相同标识的嵌入,对模糊、不正确或者部分遮挡的检测分配低关注权重,得到每帧数据的目标特征表示;

根据每帧数据的检测值的特征和目标特征表示生成二部图,使用匈牙利算法对所述二部图进行匹配,实现检测值和已经跟踪到的目标之间的数据关联,将关联的检测值加入到对应的目标中,用于更新已经跟踪到的目标,最后所有的目标构成目标域中的伪标签。

优选地,所述的利用所述无标签目标域数据的伪标签和多目标跟踪网络中的自监督模块更新所述多目标跟踪网络的参数,包括:

利用多目标跟踪网络中的自监督上下文预测分支学习无标签目标域数据的上下文特征,利用所述无标签目标域数据的伪标签和自监督上下文预测分支对多目标跟踪网络中的特征提取器、检测分支和身份嵌入分支的参数进行更新;

循环执行上述步骤S2和步骤S3的处理过程,不断进行多目标跟踪网络的参数更新,使更新后的特征提取器、检测分支和身份嵌入分支适应于目标域的数据分布。

由上述本发明的实施例提供的技术方案可以看出,本发明实施例设计了一种基于空间拓扑和身份聚合的多目标跟踪网络演化方法,可以解决一阶段多目标跟踪的域适应问题,抑制多目标跟踪网络模型在没有标签的跟踪场景中性能大幅度下降的问题。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于空间拓扑和身份聚合的一阶段多目标跟踪网络演化模型框架的结构示意图;

图2为本发明实施例提供的基于空间拓扑和身份聚合的多目标跟踪网络演化方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种基于空间拓扑和身份聚合的多目标跟踪网络演化方法,用于提高多目标跟踪网络在目标域(即没有数据标签用于网络训练的跟踪场景)的泛化能力。其中,设计了一个基于空间拓扑的一阶段跟踪网络通过自监督机制学习跟踪场景的空间拓扑关系,从而在不借助标签数据的前提下获取具有判别性的特征表示;并设计一个身份聚合网络,融合每个目标在不同数据帧中的特征,以提供更加可靠的目标表示。在目标域中,基于空间拓扑结构的多目标跟踪网络和身份聚合网络一起迭代地执行伪标签收集和参数更新,以实现多目标跟踪网络从源域到目标域的网络演化。进行演化后的网络可以捕捉目标域的分布,从而避免由于源域和目标域分布不同而导致的性能大幅度下降。

技术人员开发之前需要配置实验环境,包括安装Linux操作系统、Pycharm软件、PyTorch深度学习框架,此外,因为深度学习模型训练过程耗时较长,最好在GPU下进行训练。在开发过程中,需要注意损失函数所对应的前向传播公式的代码实现。整个开发过程中最难掌控的是一些超参数的设置,如不同模块的阈值、学习率的取值、迭代次数等,这些参数的设置对实验结果具有很大的影响。

相比于将目标检测和跟踪放在两个深度学习网络中独立执行的两阶段多目标跟踪,一阶段多目标跟踪方法的核心思想是在一个深度学习网络中同时进行目标检测和跟踪,通过共享大部分计算量来减少推理时间。

本发明实施例提供的一阶段多目标跟踪模型框架的结构示意图如图1所示,主要包括基于空间拓扑结构的多目标跟踪网络模块和身份聚合网络模块,其中,基于空间拓扑结构的多目标跟踪网络又包括特征提取器、检测分支、身份嵌入分支和上下文预测分支。本发明将有标签的源域序列、无标签的目标域序列输入到上述一阶段多目标跟踪模型框架,通过伪标签收集、参数更新等进行网络演化,从而实现多目标跟踪的域适应。

基于空间拓扑结构的多目标跟踪网络,该网络用来学习从源域到目标域的潜在分布,它包括一个特征提取器、一个检测分支、一个身份嵌入分支和一个自监督上下文预测分支,它在生成伪标签的同时学习未标记推理域的上下文特征。

特征提取器负责提取数据帧中的全局特征。基于特征提取器构造了检测分支和身份嵌入分支,以完成一次多目标跟踪。其中,检测分支可以检测感兴趣的目标,身份嵌入分支用来获得可以区别不同身份对象的判别特征。自我监督上下文预测分支是基于空间拓扑的,它可以在没有标记数据的情况下通过预测中心块与相邻块之间的相对位置来关联空间上下文,从而帮助特征提取器学习判别特征。

身份聚合网络,该网络自动学习历史嵌入的权重,并根据学习到的权重聚合具有相同标识的嵌入,对模糊、不正确或者部分遮挡的检测分配低关注权重,从而削弱跟踪过程中低质量对象边界框的影响,抑制网络演化过程中的噪声标签。

本发明使用深度学习框架PyTorch搭建网络框架,分三步实现用于多目标跟踪任务的目标域网络演化:

(1)在有标签的源域中训练基于空间拓扑结构的多目标跟踪网络和身份聚合网络;

(2)利用参数更新后的多目标跟踪网络和身份聚合网络获取无标签目标域中数据的伪标签;

(3)利用得到的伪标签和多目标跟踪网络中的自监督模块更新整个多目标跟踪网络的参数。

上述的步骤(2)和(3)迭代执行多轮后得到的网络参数用于进行目标域的多目标跟踪。

基于图1所示的模型框架,本发明实施例提供的基于空间拓扑和身份聚合的多目标跟踪网络演化方法的处理流程如图2所示,包括如下的处理步骤:

步骤S10.在有标签的源域中训练基于空间拓扑结构的多目标跟踪网络和身份聚合网络。

因为要将在标记域上训练的一阶段多目标跟踪网络应用于未标记域,所以首先要在有标签的源域中对模型进行训练,即在有标签的源域中训练基于空间拓扑结构的多目标跟踪网络和身份聚合网络。

将有标签的源域序列输入到基于空间拓扑结构的多目标跟踪网络中,多目标跟踪网络使用特征提取器提取全局特征,计算检测分支、身份嵌入分支和自监督上下文预测分支的损失函数,并根据损失函数反向传播调整网络参数,得到在源域中训练得到的多目标跟踪网络。利用训练得到的多目标跟踪网络提取目标的编码并输入到身份聚合网络中,根据聚合网络的损失函数反向传播调整整个身份聚合网络的参数。

由于在多目标跟踪任务中,一些物体的姿态会不断变化,甚至被其他物体遮挡,基于此,本发明实现了一种身份聚合网络,该身份聚合网络可以通过使用不同学习权重聚合具有相同身份的历史嵌入,为基于空间拓扑结构的多目标跟踪网络提供更可靠的对象表示。

步骤S20.利用参数更新后的多目标跟踪网络和身份聚合网络获取无标签目标域中数据的伪标签。

由于源域和目标域的分布不同,很可能导致在源域上训练的网络在目标域上进行跟踪时性能大幅度下降。因此如果要对未标记目标域中的对象进行跟踪,需要将无标签目标域中的序列帧依次输入到参数更新后的模型中,不断进行伪标签收集和参数更新来演化网络,使演化后的网络可以捕捉目标域的分布,从而避免由于源域和目标域分布不同而导致的性能大幅度下降。其中,伪标签使用特征提取器、检测分支和身份嵌入分支生成的。

将无标签目标域中的每帧数据依次输入到参数更新后的多目标跟踪网络(仅使用特征提取器、检测分支和身份嵌入分支)和身份聚合网络中。多目标跟踪网络利用特征提取器提取数据帧中的全局特征,利用检测分支检测数据帧中的感兴趣的目标,利用身份嵌入分支获得数据帧中的可以区别不同身份对象的判别特征,上述检测分支得到的目标构成每帧数据的检测值,身份嵌入分支得到的判别特征构成检测值的特征。

身份聚合网络自动学习历史嵌入的权重,并根据学习到的权重聚合具有相同标识的嵌入,对模糊、不正确或者部分遮挡的检测分配低关注权重,得到每帧数据的目标特征表示。

根据每帧数据的检测值的特征和目标特征表示生成二部图,使用匈牙利算法对所述二部图进行匹配,实现检测值和已经跟踪得到的目标之间的数据关联,将关联的检测值加入到对应的目标中,用于更新已经跟踪到的目标,最后所有的目标构成目标域中的伪标签。

步骤S30.利用得到的伪标签和多目标跟踪网络中的自监督模块更新整个多目标跟踪网络的参数。

利用得到的伪标签和自监督上下文预测分支对多目标跟踪网络中的特征提取器、检测分支、身份嵌入分支的参数进行更新,使更新后的特征提取器、检测分支、身份嵌入分支适应于目标域的数据分布,从而提高无标签目标域的跟踪性能。

循环执行步骤S20、S30多次,不断进行参数更新提高多目标跟踪网络在无标签目标域中的跟踪性能。

本发明中增加一种自我监督机制来学习空间上下文特征,并且提出了一种身份聚合网络。因为目标域缺乏标签数据,将在有标签数据的源域中训练得到的模型直接运用到无标签目标域中效果会大幅度下降,为了提高多目标跟踪模型在无标签目标域中的泛化能力,本发明增加了一种自我监督机制来学习空间上下文特征。在这种自监督分支的帮助下,本发明中的多目标跟踪器可以通过预测中心区域与其相邻区域之间的相对位置来关联空间上下文,这有助于学习区别性特征,并捕获对象的空间拓扑信息。

综上所述,本发明实施例设计了一种基于空间拓扑和身份聚合的多目标跟踪网络演化方法,其中基于空间拓扑结构的多目标跟踪网络模型通过网络演化能够适应新的无标签跟踪场景,身份聚合网络可以通过使用不同学习权重聚合具有相同身份的历史嵌入,为基于空间拓扑结构的多目标跟踪网络提供更可靠的对象表示。

在基于深度学习的一阶段多目标跟踪中,需要大量的标签数据才能训练得到一个性能较好的跟踪模型。然而,在实际应用中获取大量费时费力的训练数据是不现实的,而且由于不同跟踪场景的分布不同,通常将在一个跟踪场景中训练好的多目标跟踪网络模型应用到一个全新的跟踪场景中,性能会大幅度下降。因此本发明提出一种基于空间拓扑和身份聚合的多目标跟踪网络演化方法,利用在一个跟踪场景中(源域)训练好的模型和全新跟踪场景(目标域)中的无标签数据进行网络演化,使演化后的网络可以捕捉目标域的分布,从而提高在全新的跟踪场景中的跟踪性能。

本发明设计了一种基于空间拓扑和身份聚合的多目标跟踪网络演化方法,其中基于空间拓扑结构的多目标跟踪网络模型通过网络演化能够适应新的无标签跟踪场景。本发明实现了一种身份聚合网络,该身份聚合网络可以通过使用不同学习权重聚合具有相同身份的历史嵌入,为基于空间拓扑结构的多目标跟踪网络提供更可靠的对象表示。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

技术分类

06120115627582