一种鸟瞰视角下的多目标跟踪方法及装置

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及智能驾驶、计算机视觉技术领域，具体涉及一种鸟瞰视角下的多目标跟踪方法及装置、电子设备、计算机可读存储介质。

背景技术

多目标跟踪(multiple object tracking，MOT)是研究不确定数目的目标，在时间序列上位置信息变化过程的技术，是许多实际应用中的重要一环。其中，视频多目标跟踪在自动驾驶、人机交互、视频监控以及军事航天领域发挥着重要作用。

随着计算机视觉相关软硬件技术的发展，基于视频的感知成为机器感知的首选，于是基于视觉的多目标跟踪也越来越受到研究者们的关注。然而在实际应用中，由于各种因素的影响和限制，仍有许多挑战亟待解决。比如，由视频采集过程产生的图像模糊、背景和光照变化等，这些图像层面的影响对特征提取带来许多困难。另一方面，多目标跟踪中经典的目标交互问题，其中包括目标与背景的交互，以及目标相互间的影响，再加上目标本身的形态、尺度和角度变化等，在视频多目标跟踪，尤其是基于二维视频的跟踪中，也带来许多困难。在这些物理含义下，视频多目标跟踪算法设计时需要综合考虑许多问题，如目标遮挡，目标相互关系的描述与建模，算法计算开销大，精度与准确度难以兼顾等等问题。此外，基于视觉感知的多目标跟踪，如自动驾驶技术，其主要意义是视频采集的低成本，而这一般建立在二维视频的情况下，于是如何用二维视频解决实际的三维问题，成为许多实际应用不可逾越的问题。实际上，目标遮挡问题的也源于此，而遮挡本质上是视角导致的信息不全问题，因此，设计一个能应对上述问题的多目标跟踪算法具有重要的理论意义和实际应用价值。

为了解现有技术的发展状况，相关技术提出了以下技术方案：

相关技术公开了一种多视角下的多目标检测与跟踪方法。该技术一方面通过深度学习网络对目标在单个摄像机下的监控进行逐帧在线跟踪，生成跟踪轨迹片段，另一方面对不同视角下的同一目标进行无监督方式的聚类，根据聚类结果以及每个相机下的跟踪轨迹片段来得到跟踪轨迹，实现多摄像机同步对公共区域内的多目标进行检测与跟踪。但是其模型整体设计较为简单，主要针对公共区域内的监控视频设计，缺乏泛化性，难以迁移到其他多目标跟踪应用场景中。此外，该方案是在处理多视角轨迹合并的过程中，采用先在各个视角分别跟踪，再进行轨迹聚类的策略，其对于复杂场景或无先验场景的视角对齐问题，没有设计专门的措施，在实际问题中跟踪性能会非常不稳定。同时，该方法本质上是一种层次聚类方法，对于目标数量非常敏感，当目标数量较大时，算法的计算开销难以保证在系统的可接受范围内。

相关技术公开了一种基于深度学习的无人机多目标车辆跟踪方法。该技术通过引入可变卷积的深度模型来提高算法对不同尺寸目标的适应能力，同时引入OrientedR-CNN方法来进行车辆方向的检测，从而对无人机拍摄的视频中存在的目标进行跟踪。尽管该方案是一种俯瞰视角进行视频多目标跟踪的方法，然而其设计思路主要是围绕目标特征提取，尤其是小目标，这是由于该方法是针对无人机视频特点设计的，对于特定目标群体的过度关注，使其泛化性较差，难以迁移到其他实际应用中。另一方面，该方案是基于Re-ID思想设计的多目标跟踪模型，过多的关注目标本身的特征提取，忽视了对于目标间相互关系的建模，在多目标跟踪中目标数量较大，相互频繁交互的情况下，难以发挥性能。同时，由于过于精细设计的目标特征，在目标数量较大时，其计算开销是许多实际应用难以接受的。此外，该技术在匹配过程中基于交并比的简单设计，也难以保证模型的鲁棒性。

相关技术公开了一种基于多摄像头融合的多目标跟踪方法。该技术通过多摄像头融合技术，以及辅助视角对匹配进行矫正，改进多目标检测中因遮挡带来的ID交换问题。该方案提供了一种结合深度学习的跟踪框架，针对单一视角的遮挡设计，但是其模型整体设计较为简单和理想化，对实际问题缺乏泛化性，难以迁移到其他多目标跟踪应用场景中。此外，该方案在求解跟踪的过程中，对所使用的目标检测算法、卡尔曼滤波和匈牙利算法缺乏针对性改进，对于复杂场景缺少应对的策略，在实际问题中跟踪性能非常不稳定。同时，该方法所述使用的级联匹配，对于目标数量非常敏感，当目标数量较大时，在实际问题中，其算法的计算开销难以稳定估计。

相关技术提出一个基于注意力机制的跟踪范式。该技术将多目标跟踪建模为一个集预测问题，基于编码解码将多目标跟踪中的检测和跟踪统一起来，使模型可以以联合优化的方式端到端的训练。该工作在行人多目标跟踪中比较突出，但是难以迁移到其他实际场景的多目标跟踪中。同时，该模型解决的是编码解码框架与多目标跟踪流程的物理含义对其问题，对于实际场景中的许多问题，如遮挡和目标数量较大的情况，缺少应对措施和策略。

相关技术提出一个基于时空图的编码解码模型。该技术通过基于时空图的编码解码模型来有效的对多目标跟踪中目标间的时空关系进行建模，并提出一个级联的数据关联框架，来解决低可信度检测和长时遮挡，从而进一步改善其模型的跟踪效果。但该技术在行人多目标跟踪中取得了较好的结果，但是缺乏对实际场景的泛化性。此外，该技术的级联框架，增加了跟踪性能与人工经验的相关性。同时，该技术的时空图需要构建复杂的图结构，进行高维的张量计算，这使得其模型对于目标数量敏感，其计算开销无法满足实际应用。

综上，尽管相关技术都是在计算机视觉算法的基础上，通过对视频帧进行特征提取、目标检测和数据关联，解决视频序列中的多目标跟踪问题，并在不同程度上取得了成效，但是对于视角问题带来的跟踪性能下降，仍未有效应对。

发明内容

有鉴于此，本发明的目的在于提供置、电子设备、计算机可读存储介质，以解决现有技术中视角问题带来的目标遮挡，影响多目标跟踪性能的问题。

根据本发明实施例的第一方面，提供一种鸟瞰视角下的多目标跟踪方法，包括：

获取当前单位时间内当前车辆所在环境的图像信息及当前车辆的运动信息，所述图像信息至少包括一个相机视角下单位时间内采集的多个视频帧；

通过预训练的特征提取模型，提取每个视频帧的多尺度特征图；

根据所述运动信息，将不同相机视角下同一时刻的多尺度特征图投影到鸟瞰视角下的特征空间中，得到该时刻鸟瞰视角下的特征图；

对所述特征图进行目标检测，得到该时刻鸟瞰视角下的目标；

对每个相机视角下单位时间内采集的多个视频帧，执行以下步骤：

根据轻量级图匹配方法，得到单位时间内各目标的轨迹片段；

根据所述轨迹片段及各目标间的相对位置关系，得到用于描述单位时间内各目标本身和各目标相互间的时空特征；

根据相邻单位时间各目标的时空特征，对相邻单位时间进行多目标跟踪，得到当前鸟瞰视角下的多目标跟踪结果。

根据本发明实施例的第二方面，提供一种鸟瞰视角下的多目标跟踪装置，包括：

获取单元，用于获取当前单位时间内当前车辆所在环境的图像信息及当前车辆的运动信息；所述图像信息至少包括一个相机视角下单位时间内采集的多个视频帧；

提取单元，用于通过预训练的特征提取模型，提取每个视频帧的多尺度特征图；

投影单元，用于根据所述运动信息，将不同相机视角下同一时刻的多尺度特征图投影到鸟瞰视角下的特征空间中，得到该时刻鸟瞰视角下的特征图；

检测单元，用于对所述特征图进行目标检测，得到该时刻鸟瞰视角下的目标；

执行单元，用于对每个相机视角下单位时间内采集的多个视频帧，执行以下步骤：

根据轻量级图匹配方法，得到单位时间内各目标的轨迹片段；

根据所述轨迹片段及各目标间的相对位置关系，得到用于描述单位时间内各目标本身和各目标相互间的时空特征；

根据相邻单位时间各目标的时空特征，对相邻单位时间进行多目标跟踪，得到当前相机视角下的多目标跟踪结果。

根据本发明实施例的第三方面，提供一种电子设备，其特征在于，包括：

通信模块、处理器和存储器，其中，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行上述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有可擦写的计算机程序；

当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

针对现有技术中视频多目标跟踪中的遮挡问题和时空特征建模问题，通过采集当前车辆所在环境的图像信息及当前车辆的运动信息，投影到鸟瞰视角下，并以秒为单位时间，对单位时间内的目标，逐帧进行轻量级图匹配，得到轨迹片段和时空特征，对相邻单位时间的目标，利用各自单位时间内的时空特征，基于一个端到端的编码解码模型，逐秒进行在线多目标跟踪，最大限度地缓解了视角产生的目标遮挡和外观特征不可靠问题，从而大幅降低了视角问题对多目标跟踪性能的影响，提高跟踪速度和准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种鸟瞰视角下的多目标跟踪方法的流程图；

图2是根据一示例性实施例示出的单位时间内各目标本身和各目标相互间的时空特征的示意图；

图3是根据一示例性实施例示出的特征编码器的结构示意图；

图4是根据一示例性实施例示出的特征解码器的结构示意图；

图5是根据一示例性实施例示出的一种鸟瞰视角下的多目标跟踪装置的示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如前面背景技术所述，现有技术中至少存在视角问题带来的目标遮挡，影响多目标跟踪性能的问题，为了解决现有技术的缺陷，本发明提供了以下几个示例性的实施例，需要说明的是：

1、本发明各实施例所提及的“当前车辆”是指“车载相机所在的车辆”。

2、本发明各实施例所提及的“目标”是以“当前车辆”为观测主体，观测到的车道上的各种静态目标(例如，绿化树、标识牌、泥坑、石头等)和/或动态目标(例如，行进中的车辆、行人、动物等)。

3、本发明各实施例所提及的“单位时间”根据用户需要进行设置，例如设置为1秒。每个车载相机在单位时间内采集多个视频帧，帧数多少，由车载相机的采集帧率决定，即每个车载相机所采集的图像信息，都是多个视频帧组成的视频序列。

实施例一

图1是根据一示例性实施例示出的一种鸟瞰视角下的多目标跟踪方法的流程图，如图1所示，该方法包括：

步骤S11、获取当前单位时间内当前车辆所在环境的图像信息及当前车辆的运动信息，所述图像信息至少包括一个相机视角下单位时间内采集的多个视频帧；

步骤S12、通过预训练的特征提取模型，提取每个视频帧的多尺度特征图；

步骤S13、根据所述运动信息，将不同相机视角下同一时刻的多尺度特征图投影到鸟瞰视角下的特征空间中，得到该时刻鸟瞰视角下的特征图；

步骤S14、对所述特征图进行目标检测，得到该时刻鸟瞰视角下的目标；

步骤S15、对每个相机视角下单位时间内采集的多个视频帧，执行以下步骤：

步骤S151、根据轻量级图匹配方法，得到单位时间内各目标的轨迹片段；

步骤S152、根据所述轨迹片段及各目标间的相对位置关系，得到用于描述单位时间内各目标本身和各目标相互间的时空特征；

步骤S153、根据相邻单位时间各目标的时空特征，对相邻单位时间进行多目标跟踪，得到当前相机视角下的多目标跟踪结果。

需要说明的是，本实施例提供的技术方案适用的应用场景包括但不限于：车辆的自动驾驶、辅助驾驶等。本实施例提供的技术方案在实际使用时，可以加载在当前车辆的中控系统中使用，也可以加载在可以控制当前车辆的电子设备中使用；所述电子设备包括但不限于：车载电脑和外接计算机设备。

本实施例提供的技术方案，适用于各种带有车载相机的车辆中，所述车载相机可以一个，也可以为多个。当车载相机为一个时，本实施例提供的技术方案，实现的是对单个相机视角下的目标跟踪；当车载相机为多个时，本实施例提供的技术方案，实现的是对多个相机视角下的目标跟踪。

可以理解的是，在智能驾驶领域，对车辆周围环境中的目标进行跟踪，包括时间域的目标跟踪和空间域的目标跟踪。本实施例提供的技术方案，在确定每个相机视角下的目标时，都会考虑空间域内其他相机视角下的图像信息，将不同相机视角下采集的图像信息都投影到鸟瞰视角后再去确定每个视频帧的目标，可以保证确定出的目标在空间域上的一致性。另外，通过多个相机视角的相互配合，投影到鸟瞰视角后有效解决了现有技术中视角问题带来的目标遮挡，影响多目标跟踪性能的问题。

为了便于理解本实施例提供的技术方案，现对本实施例提供的技术方案的每个步骤的实现方式解释说明如下：

步骤S11中“获取当前单位时间内当前车辆所在环境的图像信息及当前车辆的运动信息”，具体为：

通过车载相机，获取当前单位时间内当前车辆所在环境的图像信息，若车载相机为一个，获取的是一个相机视角下的图像信息；若车载相机为多个，获取的是多个相机视角下的图像信息，将单位时间内不同相机视角下的图像信息分组处理，每组图像信息为多个视频帧组成的视频序列。

通过车载惯性测量传感器，获取当前车辆的运动信息。

步骤S12中“通过预训练的特征提取模型，提取每个视频帧的多尺度特征图”，包括：

通过骨干网络和特征金字塔网络(Feature Pyramid Network，FPN)提取多尺度特征图。优选地，本实施例提供的技术方案，采用RegNet模型及BiFPN模型的组合框架来提取每个视频帧的多尺度特征图。

BiFPN模型的多尺度可以是4个尺度，假设当前视频帧的高和宽分别是H和W，则可以获得四个尺度

步骤S13中“根据所述运动信息，将不同相机视角下同一时刻的多尺度特征图投影到鸟瞰视角下的特征空间中，得到该时刻鸟瞰视角下的特征图”，包括：

采用基于transformer的特征变换方法，将上述的多尺度特征图通过多层感知机生成transformer中的键(key)和值(value)；另一方面对多尺度特征图进行全局池化操作得到一个全局向量，并对所要输出的特征空间进行栅格化和位置编码，再将这些位置编码与全局向量进行拼接，继而通过多层感知机得到transformer中的查询(query)。在计算中，查询的维度与鸟瞰视角下的特征空间维度一致，而由于键和值都处于2D图像坐标空间下，最后的结果需要通过查询和键的注意力，来得到每个鸟瞰栅格接收2D图像像素的权重，从而确定鸟瞰视角下的特征图与输入之间的关系，并通过这些权重对图像平面下的值(value)加权求和，最终得到鸟瞰视角下的特征图。

本实施例中，记鸟瞰视角下的特征图为

步骤S14中“对所述特征图进行目标检测，得到该时刻鸟瞰视角下的目标”，包括：

通过预设多目标检测算法(例如，采用DETR目标检测算法)进行目标检测，得到鸟瞰视角下每个视频帧所包含的目标。

步骤S15、对每个相机视角下单位时间内采集的多个视频帧，执行以下步骤：

步骤S151、根据轻量级图匹配方法，得到单位时间内各目标的轨迹片段，包括：

1、从第一帧开始，依次为各帧中的目标分配身份标识，并分配排序序号；

2、根据所述身份标识和排序序号，得到各帧对应的图表示，所述图表示用于描述各目标间的位置关系，并判断两帧之间图结构的相似性；

3、从第二帧开始，根据所述图表示，依次将各帧中的具有相同身份标识的目标关联到一起，得到单位时间内各目标的轨迹片段。

步骤S152、根据所述轨迹片段及各目标间的相对位置关系，得到用于描述单位时间内各目标本身和各目标相互间的时空特征(为了便于理解本实施例提及的时空特征，现将抽象的各目标本身的时空特征用如图2中的椭圆形实线边示意出来，将抽象的各目标相互间的时空特征用如图2中的虚线边示意出来；需要说明的是，在算法实际执行过程中，图2所示的示意图是不会实际生成的，此处只是将抽象的概念具体化，给出的一个示意图)；

步骤S153、根据所述相邻单位时间各目标的时空特征，对相邻单位时间进行多目标跟踪，得到当前相机视角下的多目标跟踪结果。

参见图2，从第一帧开始，依次为各帧中的目标分配身份标识(如图2中的圆圈、三角形、正方形和五边形，图2中的五角星为当前车辆，需要说明的是，图2中的这些身份标识只是为了便于理解，将抽象的概念具体化，给出的一个示意图，算法的实际执行过程中，并不会生成该图)，并分配排序序号(如图2中各目标上的数字1、2、3)，具体为：

对于第一帧，以X轴优先，按坐标顺序，自左上角遍历，依次为每个目标分配身份标识；

对于其他帧，根据与前面所有帧的匹配结果，为目标分配身份标识；

对于每帧，计算各目标距离当前车辆的相对距离，并按所述相对距离升序为各目标分配排序序号。

从第二帧开始，根据所述图表示(如图2中帧号t＝1时对应的图表示，t＝2时对应的图表示......t＝30时对应的图表示)，依次将各帧中的具有相同身份标识的目标关联到一起，包括：

若相邻两帧中目标数量相等且图结构相似度为1，将相邻两帧内具有相同身份标识的目标关联到一起；

若相邻两帧中目标数量不相等或者图结构相似度不为1，采用基于top-1贪婪的快速图匹配方法将两个图表示之间相似度最大的节点进行关联。

具体来说，对于相邻两帧中目标数量一致的情况(如图2前三帧所示)，根据各目标的身份标识和排序序号，设计一个累加算子N，用于统计两帧中，身份标识与排序序号完全一致的节点的数目，并据此计算两帧之间的图结构相似度：

公式(1)中，S表示两帧之间的图结构相似度，i表示目标的身份标识，n表示帧内目标数量，N是累加算子，R是距离排序算子，d是目标距离观测主体的相对距离。排序算子根据目标距离观测主体的相对距离，进行升幂排序，累加算子的结果是两个图表示中，节点身份标识与排序序号均一致的节点的数目，即在两张图表示中，具有相同身份标识，且相对于观测主体距离排名一致的目标的数量。公式(1)所得到的结果，即为两帧之间图结构的相似程度，当相似度为1时，直接根据身份标识，对两帧的目标进行关联(如图2中t＝1和t＝2两帧的情况)。

对于目标数量不相同或相似度不为1的连续两帧，采用基于top-1贪婪的快速图匹配方法进行数据关联，这里的top-1贪婪是将两个图之间相似度最大的节点进行关联。具体来说，对于连续两帧中属于不同帧的目标，依次计算相似度，得到相似度矩阵A，而后根据top-1贪婪策略求解，得到关联矩阵，从而得到两帧间各个目标的匹配关系。其中，矩阵A中的每个元素A

公式中，Sim

若相邻两帧中目标数量不相等或者图结构相似度不为1，通过以下管理策略，管理关联过程中目标的消失和出现，包括：

计算前后相邻两帧的相似度矩阵，且根据top-1贪婪策略求解所述相似度矩阵，在当前帧设计一个哑元目标，将相似度矩阵中相似度小于阈值的元素匹配给哑元，若匹配结果为哑元，判定该元素所对应的目标在前一帧存在，在当前帧消失；

在当前帧手工设计一个元目标，将相似度矩阵中相似度小于阈值并且未匹配给哑元的元素匹配给元目标，若匹配结果为元目标，判定该元素为当前帧新出现的目标，并为其分配新的身份；

对于消失的目标，在单位时间内，保留其身份，不予移除以应对遮挡后再次出现的情况，但对于目标消失过程中的帧，不采用运动模型恢复其轨迹。

为了便于理解本实施例提供的这种管理策略，现以图2为例，对关联过程中目标的消失和出现的管理策略，进行解释说明如下：

1)目标消失的情况，如图2中t＝3帧的圆形目标所示。该目标在t＝15帧消失。对于这种情况，本实施例中设计了一个哑元目标，并且在top-1贪婪的关联过程中，对相似度设计了阈值，相似度矩阵中相似度小于阈值的元素，其所对应的两帧中的目标对，不进行匹配。具体来说，在t＝15帧的图匹配过程中，假设前后两帧序号分别为a和b，其对应的目标数量分别为n和m，则相似度矩阵A的维度为n*(m+1)，其中1对应哑元列，该列可以与n个目标中的多个目标匹配，其匹配结果对应当前帧目标消失的情况。

2)在t>15帧的图匹配过程中，若相邻两帧的目标数目不同或图结构相似度不为1，计算对应的相似度矩阵A时，需将已消失的目标纳入计算。具体来说，假设前后两帧序号分别为a和b，其对应的目标数量分别为n和m，截止b帧匹配前已消失的目标数量为k，则相似度矩阵A的维度为(n+k)*(m+1)。

3)目标出现的情况，如图2中t＝29帧的五边形目标所示，该目标第一次出现。在图匹配过程中，由于出现了前一帧不存在的目标，需计算相似度矩阵A，此时，本实施例设计了一个元目标，与哑元目标类似，在匹配过程中，将新出现的目标与元目标关联。具体来说，假设前后两帧序号分别为a和b，其对应的目标数量分别为n和m，截止b帧匹配前已消失的目标数量为k，则相似度矩阵A的维度为(n+k+1)*(m+1)。

在上述管理策略下，可以逐帧得到单位时间内的轨迹片段。需要说明的是，对于消失的目标，在单位时间内，保留其身份，不予移除，当符合上述管理策略的情况下，尝试为其匹配，以应对遮挡后再次出现的情况，但对于目标消失过程中的帧，不采用运动模型恢复其轨迹。

通过在单位时间内，逐帧进行轻量级图匹配方法，本实施例可以逐帧得到各目标在单位时间内的轨迹片段，这种方式可以视为一种对目标在时间轴上的聚类，如图2椭圆形框出的结果。

时空边际生成。如图2第二行所示，对于单位时间内的轨迹片段，本实施例设计了两种边际关系，一阶边际和二阶边际，分别用于表征目标本身和目标相互间的时空特征。

一阶边际，主要用于表征目标本身的时空特征，如图2第二行的实线边所示，其主要描述目标个体的信息沿时间轴变化的情况。具体来说，假设目标身份为i，单位时间内，包含其信息的帧集合为T，则目标i的一阶边际可用如下形式表示：

公式中，L

二阶边际，主要用于表征目标相互间的时空特征，如图2第二行的虚线边所示，其主要描述目标与其他目标之间的相互关系沿时间轴变化的情况。具体来说，假设目标身份为i，单位时间内所有帧的集合为

公式中，N表示单位时间内出现的所有目标，

步骤S153中“根据相邻单位时间各目标的时空特征，对相邻单位时间进行多目标跟踪，得到当前相机视角下的多目标跟踪结果”，包括：

根据所述时空特征，确定当前单位时间目标的时空自注意力编码及时空交互注意力编码；

将当前单位时间目标的时空自注意力编码、时空交互注意力编码及前一单位时间目标的时空特征，输入到预训练的特征编码器进行特征编码，得到前一单位时间目标的编码特征；

将当前单位时间目标的时空自注意力编码、时空交互注意力编码、当前单位时间目标的时空特征及前一单位时间目标的编码特征，输入到预训练的特征解码器进行特征解码，得到当前单位时间和前一单位时间目标的关联矩阵。

时空自注意力编码，是将目标自身随时间变化的状态信息，通过嵌入式表达，得到与目标特征维度一致的编码，并依时序将其与目标特征融合，作为后续编码器和解码器的输入，其本质上是对目标自身状态变化的在时域上的隐式表征，使其更有判别力。具体来说，假设当前时间为第k秒，当前单位时间内的目标集合为

公式中，t表示第k秒内的某一帧，ω

此外，假设第i个目标在第k秒内的目标特征为

融合特征记作

时空交互注意力编码，作用是将目标间随时间变化的状态信息，通过嵌入式表达得到与目标特征维度一致的编码，并进一步通过空间注意力作为注意力的偏置项输入，其本质上是对目标间的相互影响在时域上的隐式表征。具体来说，假设当前时间为第k秒，当前单位时间内的目标集合为

公式中j是第k秒内除目标i以外的目标，ω

公式中的

如图3和图4所示，本实施例提供的多目标跟踪方法，采用基于注意力的特征编码和解码框架来计算关联矩阵。本例中，基于transformer的框架，采用查询(query)，键(key)和值(value)的方式进行特征编码和特征解码。

参见图3，将当前单位时间(第k秒)目标的时空自注意力编码、时空交互注意力编码及前一单位时间(第k-1秒)目标的时空特征(图3中显示为第k-1秒目标特征)，输入到预训练的特征编码器进行特征编码，得到前一单位时间(第k-1秒)目标的编码特征，具体为：

将前一单位时间目标的时空特征作为所述特征编码器的值输入V，将前一单位时间目标的时空特征与所述时空自注意力编码的融合值作为所述特征编码器的键K和查询Q输入，将所述时空交互注意力编码作为时空交互注意力的偏置α，输入到所述特征编码器进行特征编码，得到前一单位时间目标的编码特征。

基于注意力机制计算第k-1秒的编码特征：

Attention(Q，K，V)＝Softmax(A)V (l0)

公式中的α是时空交互注意力偏置，即本实施例所使用的编码器，其自注意力计算是经过时空交互注意力偏置修正的，其中隐式的表征了当前单位时间内各目标间的相互关系。具体来说，用于融合的目标特征维度为N

参见图4，将当前单位时间(第k秒)目标的时空自注意力编码、时空交互注意力编码、当前单位时间(第k秒)的目标特征(图4中显示为第k秒目标特征)及前一单位时间(第k-1秒)目标的编码特征，输入到预训练的特征解码器进行特征解码，得到当前单位时间(第k秒)和前一单位时间(第k-1秒)目标的关联矩阵，具体为：

将前一单位时间目标的编码特征作为所述特征解码器的键K和值V输入，将当前单位时间目标的时空特征与所述时空自注意力编码的融合值作为所述特征解码器的查询Q输入，将所述时空交互注意力编码作为时空交互注意力的偏置α，输入到预训练的特征解码器进行特征解码，得到当前单位时间和前一单位时间目标的关联矩阵。

基于注意力计算的关联矩阵。具体来说，为了输出维度为维度为N

需要说明的是，本实施例虽然使用经典的解码器模型，但是与编码过程一样，在其注意力模块中加入了时空交互注意力偏置，与编码过程不同的是，解码过程一般包括自注意力和交叉注意力两个模块，其中自注意力模块的偏置与编码过程一致，而交叉注意力，则需依据(4)对跨越两个时间单位的目标集合生成二阶边际，并依据公式(8)生成时空交互注意力偏置。

此外，由于经典的解码模型具有置换不变性，为了避免其对于关联矩阵求解的影响，本实施例额外设计了一种交叉偏置，对查询Q的特征进行优化。具体来说，假设查询q

公式中p

基于图4输出的关联矩阵，可以直接用优化算法求解第k秒和k-1秒的匹配结果，并对目标消失和出现进行管理，最终输出截止第k秒的跟踪结果。具体来说，本实施例是基于注意力的编解码模型，来学习两个多目标集合之间的映射，该映射为目标的时空相关性建模，根据输入的相关矩阵，得到关联矩阵。对于关联矩阵的求解，可以使用上述的top-1贪婪策略，也可以使用匈牙利算法。对于目标的管理，与前述的目标消失和出现的管理策略一致，设计了相应的哑元和元，用于处理目标消失和产生新的轨迹。

需要说明的是，本实施例中，在处理单位时间之间的多目标关联时，两个单位时间是有时间交叉的，交叉范围为3帧，即上一个单位时间第k-1秒的最后3帧，与当前单位时间第k秒的前3帧，是相同的。这种设置的主要考虑了目标运动在时间上的连续性和相关性，同时在输出跟踪结果时是逐帧表示的，交叉帧也起到了承上启下的作用。此外，在提取目标特征时，对于单位时间内，目标在某帧消失导致的特征不连续情况，其特征根据其前后帧的插值填补。

模型训练和测试，包括：数据集的收集与标注，加载与增强，骨干网络的训练，联合框架的训练与测试。

1)数据的收集与标注。主要收集与应用场景相关的传感器数据，并根据场景情况和数据集大小划分训练集，验证集和测试集，其比例可以是10:1:1；

关于数据集的标注，目前已经公开的关注多类别多目标跟踪数据集主要有自动驾驶相关的数据集和无人机相关的数据集，如KITTI，VisDrone等，这些数据集中对于目标种类的定义主要以交通场景中的功能划分，由于本方案以载具传感器为例，因此也采用这种形式。一种类别的具体划分方式可以是：轿车类(car)，卡车类(truck)，巴士类(bus)，行人类(pedestrian)，两轮非机动车类(bicycle)，三轮非机动车类(tricycle)，厢式货车类(van)，两轮机动车类(motor-bicycle)，三轮机动车类(motor-tricycle)。标注时，每种类别对应一个标签，数据集中每个样本的基本属性包括其所属帧号，身份信息，类别信息以及其在对应帧的位置和尺寸。为了更好的区分目标与非目标，本方案中还标记一部分有强物理意义的静态目标，作为背景类(background)，并且加入无关类(ignore)对有意义和无意义的背景进行区分。需要说明的是，如果传感器采用的是相机群的方式，目标样本的属性中还需标注所属相机序号。此外，本实施例还可以针对目标遮挡进行强化训练，这需要在标注过程中对每个样本的遮挡程度进行标注，但是由于这种标注的成本较高，且这种基于标注的训练不是本方案的创新，本实施例不再赘述。

2)数据集加载与增强。由于数据集获取不易，数据量需求大，一般在数据加载前需要对数据进行增强。本实施例标注的数据集是连续的视频序列，由于模型是基于时间交叉采样的，如果依序加载帧并进行训练，不利于增强网络的鲁棒性。因此在实际训练中，随机对单位时间内的视频帧进行降采样，形成人工遮挡，即连续输入的帧不是固定间隔的相邻帧，但是保留时间先后的顺序。同时，在样本层面，随机对一部分目标进行剔除，并加入来自其他帧的负样本，从而增加原始数据的扰动。此外，其他有利于增强数据的方式方法都可以在本方案中添加。

3)骨干网络的训练。在骨干网络的训练中，首先加载使用的原始网络预训练的权重，再将数据增强后的数据集输入网络中，根据原始方案，对骨干网络在所标注的数据集上进行微调，使其适应多目标多种类的识别。

4)联合框架的训练与测试。本实施例采用端到端的训练方式，使用真实样本对应的关联矩阵来监督模型的训练。具体来说，将关联矩阵的预测表述为一个二分类问题，采用交叉熵损失来优化网络：

公式中

模型训练完成之后进行测试，首先加载训练的权重，然后对测试集进行多类别多目标跟踪，每秒的跟踪结果写入一个文本文档，其中每一条数据包含某一目标在某一帧内的位置和身份信息。据此可以通过多目标跟踪中的评价指标对跟踪算法进行客观评价。

可以理解的是，本实施例提供的技术方案，针对现有技术中视频多目标跟踪中的遮挡问题和时空特征建模问题，通过采集当前车辆所在环境的图像信息及当前车辆的运动信息，投影到鸟瞰视角下，并以秒为单位时间，对单位时间内的目标，逐帧进行轻量级图匹配，得到轨迹片段和时空特征，对相邻单位时间的目标，利用各自单位时间内的时空特征，基于一个端到端的编码解码模型，逐秒进行在线多目标跟踪，最大限度地缓解了视角产生的目标遮挡和外观特征不可靠问题，从而大幅降低了视角问题对多目标跟踪性能的影响，提高跟踪速度和准确率。

本实施例提出了基于距离排序的轻量级图匹配方法，使模型可以高效准确的对单位时间内的目标进行逐帧关联，得到相应的轨迹片段，并进一步得到单位时间内一阶和二阶时空边际，分别用于提取目标本身和目标相互间的时空关系。

针对相邻单位时间的逐秒在线多目标跟踪，提出基于编码解码的端到端多目标跟踪框架。针对目标本身的时空特征表征，提出时空自注意力编码，使模型可以嵌入式的表达目标自身随时间变化的状态信息，并在编码解码过程中与目标外观特征融合输入。针对目标相互间的时空特征表征，提出时空交互注意力编码，使模型可以嵌入式的表达目标相互间随时间变化的状态信息，并通过空间注意力进一步将其作为编码解码过程中注意力的偏置项输入。针对解码模型的关联矩阵具有置换不变性，提出一种交叉偏置来优化关联矩阵的对应特征，进一步提高多目标跟踪性能，提高跟踪速度和准确率。

另外，由于本实施例提出的多目标跟踪模型，不局限于某一目标类别和群体，在实际问题中，有更好的泛化性和鲁棒性。

实施例二

图5是根据一示例性实施例示出的一种鸟瞰视角下的多目标跟踪装置100的示意框图，如图5所示，该装置100包括：

获取单元101，用于获取当前单位时间内当前车辆所在环境的图像信息及当前车辆的运动信息；所述图像信息至少包括一个相机视角下单位时间内采集的多个视频帧；

提取单元102，用于通过预训练的特征提取模型，提取每个视频帧的多尺度特征图；

投影单元103，用于根据所述运动信息，将不同相机视角下同一时刻的多尺度特征图投影到鸟瞰视角下的特征空间中，得到该时刻鸟瞰视角下的特征图；

检测单元104，用于对所述特征图进行目标检测，得到该时刻鸟瞰视角下的目标；

执行单元105，用于对每个相机视角下单位时间内采集的多个视频帧，执行以下步骤：

根据轻量级图匹配方法，得到单位时间内各目标的轨迹片段；

根据所述轨迹片段及各目标间的相对位置关系，得到用于描述单位时间内各目标本身和各目标相互间的时空特征；

根据所述相邻单位时间各目标的时空特征，对相邻单位时间进行多目标跟踪，得到当前相机视角下的多目标跟踪结果。

需要说明的是，本实施例提供的技术方案适用的应用场景包括但不限于：车辆的自动驾驶、辅助驾驶等。本实施例提供的技术方案在实际使用时，可以加载在当前车辆的中控系统中使用，也可以加载在电子设备中使用；所述电子设备包括但不限于：车载电脑和外接计算机设备。

需要说明的是，由于本实施例各模块的实现方式可参见实施例一中的相关介绍，本实施例不再赘述。

实施例三

根据一示例性实施例示出的一种电子设备，包括：

通信模块、处理器和存储器，其中，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如实施例一所述的方法；和/或，执行如实施例二所述的方法；和/或，执行实施例三所述的方法。

需要说明的是，所述电子设备包括但不限于：车载电脑和外接的计算机设备。通信模块包括但不限于：有线通信模块和无线通信模块，例如：WCDMA、GSM、CDMA和/或LTE通讯模块、ZigBee模块、蓝牙模块、Wi-Fi模块等。

处理器包括但不限于：CPU、单片机、PLC控制器、FPGA控制器等。

存储器可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器；还可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

实施例四

根据一示例性实施例示出的一种计算机可读存储介质，其上存储有可擦写的计算机程序；

当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行如实施例一所述的方法；和/或，执行如实施例二所述的方法；和/或，执行实施例三所述的方法。

本实施例公开的计算机可读存储介质包括但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本实施例领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王楠;李雪;
专利申请人：北京易航远智科技有限公司;

上一篇：举高喷射消防车的灭火方法
下一篇：一种基于改进YOLOv5n的计算机主板元器件检测方法