掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及目标跟踪技术领域,尤其是一种多目标跟踪方法。

背景技术

多目标跟踪是计算机视觉领域非常重要的分支之一,其目的是获取视频中任意数量目标的轨迹,并预测目标将来的运动趋势。多目标跟踪也是行为识别、公共安全、体育视频分析、老年人照料、人机交互等下游视觉任务的重要基石之一,其性能直接影响整个计算机视觉系统的性能。

多目标跟踪多采用检测然后跟踪的策略来实现,即先检测出每一帧的所有目标,然后采用数据关联算法实现不同帧同一目标的关联。近年来,随着深度学习在计算机视觉领域的广泛应用,目标检测和数据关联算法均取得了巨大的进步,间接推动了多目标跟踪技术的进步。

然而,这类方法没有共享特征机制,需要构建独立的模型分别实现检测和跟踪,所以很难以实时帧率运算。这严重限制了这类多目标跟踪算法在实际业务场景的商业化运行。最近多任务学习技术的进展给多目标跟踪领域引入了新的思路。

JDE作为联合训练检测和嵌入的早期算法,采用了多任务特征共享机制,第一次实现了实时的多目标跟踪。然而这类检测并学习重识别特征的方法,和检测然后跟踪之类的方法比,其跟踪精度普遍偏低,有几方面的原因。

一是这类方法存在锚框和重识别特征不对齐的问题。为了平衡精度和速度,最终的特征图经过了数倍的下采样,锚框中心和该中心提取的重识别特征存在一定程度的不匹配,导致目标身份预测的精度不高。

二是目标检测和目标跟踪的分类存在一定程度的冲突。分类要求类内差距尽可能小,类间差距尽可能大。对于目标检测,类指的是语义类;对于目标跟踪,类指的是实例类(不同帧的同一个目标属于同一类)。跟踪的不同目标可能属于同一语义类,可见检测和跟踪任务中分类器的学习目标存在冲突。

更为关键的问题是,上述两种主流的多目标跟踪策略,目前都侧重于解决单类多目标跟踪问题,对多类多目标跟踪问题的研究非常欠缺,尚无成熟的解决方案。

发明内容

本发明专利提出了一种多目标跟踪方法,通过创新性的身份重识别特征采样技术和类别不可知的实例级特征提取技术,解决现有多目标跟踪方法耗时过大、或者跟踪精度较低,无法进行多类别多目标跟踪等问题。

为了实现上述目的,本发明采用以下技术方案:

一种多目标跟踪方法,包括以下步骤:

搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD;

以MCMOT算法框架创建多类多目标跟踪模型,在MCMOUD上训练和验证多类多目标跟踪模型;

在MCMOUD上评估MCMOT算法的性能。

进一步的,所述搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD,包括:从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20目标跟踪数据集;

将所有图像或视频的标注数据转换为MCMOUD数据集标注数据格式并汇总形成所述数据集MCMOUD。

进一步的,所述MCMOUD数据集标注数据格式,结构如下:

MCMOUD数据集标注数据格式

进一步的,所述MCMOT算法框架包括骨干网、任务头和损失三个部分,骨干网采用以ResNet-50为核心的特征金字塔网络;任务头包括跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责,检测和跟踪任务仅共享骨干网和FPN部分的特征;损失包括基于身份重识别特征采样方法的类别损失、边框损失及嵌入特征损失。

进一步的,所述骨干网采用以ResNet-50的数据结构如下:

ResNet50骨干网配置

进一步的,所述Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变,所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一,第二个卷积作为瓶颈层保持特征图的通道数不变,第三个卷积将特征图的通道数扩张为模块期望输出的通道数。

进一步的,所述特征金字塔网络的构建方法如下:在自底向上的过程中,Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图,各自经一个3×3、步长为1的卷积运算将通道数固定为256通道;

在自顶向下过程中,上一级金字塔特征图经上采样将大小扩增两倍,然后和下一级参考特征图逐点相加融合,作为当前级的金字塔特征图,采用同样的方法获取下面所有等级的金字塔特征图构成特征金字塔网络。

进一步的,所述任务头预测输出的计算方法如公式1、公式2和公式3所示:

公式(1)计算类别概率预测值,θ

进一步的,所述类别损失的计算方法如公式9,其中的α

进一步的,所述在MCMOUD上训练和验证多类多目标跟踪模型,包括:在包括类别和边框的检测分支,对于每个锚框,如果和某个基准框的交并面积比大于0.5,就将该锚框视分配给该基准框,否则将该锚框视为背景;对于每一个基准框,将交并面积比最大的锚框分配给它;在跟踪分支,对于每个锚框,如果和某个基准框的交并面积比大于0.7,就将该锚框视分配给该基准框,否则将该锚框视为背景。

本发明与现有技术相比具有的有益效果是:

(1)以创新性的身份重识别特征采样技术取代传统的量化特征采样技术,彻底解决锚框和重识别特征不对齐的问题;

(2)以实例级特征提取技术取代传统的类别和嵌入特征协同提取技术,彻底解决目标检测和目标跟踪分类学习存在冲突的问题;

(3)创新性的类别不可知重识别特征提取技术,解决了当前多目标跟踪技术无法处理多类别跟踪的问题。

附图说明

图1是实施例中MCMOT特征金字塔构建方法。

图2是实施例中MCMOT任务头结构。

图3是实施例中身份重识别特征采样方法。

具体实施方式

下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。

实施例1:

如图1-3所示,一种多目标跟踪方法,包括以下步骤:

一种多目标跟踪方法,包括以下步骤:

搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD;

以MCMOT算法框架创建多类多目标跟踪模型,在MCMOUD上训练和验证多类多目标跟踪模型;

在MCMOUD上评估MCMOT算法的性能。

具体实施方法如下:

创建多类多目标跟踪数据集MCMOUD。从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20等8个目标跟踪数据集,将所有图像或视频的标注数据转换为如表1所示的格式。汇总所有的图像或视频及转换了格式的标注数据形成所述数据集MCMOUD,该数据集包含行人、车辆等多类运动目标。

表1 MCMOUD数据集标注数据格式

构建多类多目标跟踪算法框架MCMOT。MCMOT算法框架主要包括骨干网、任务头和损失三个部分。骨干网采用以ResNet-50为核心的特征金字塔网络(Feature PyramidNetwork,FPN)。ResNet-50的详细配置参见表2。Conv1是单层卷积,卷积核大小为7,卷积核数量为64,卷积步长为2,将输入图像的分辨率从1024×1024降低到512×512。Conv2x包括一层最大池化和3组残差模块,最大池化的池化核大小为3,池化步长为2,将Conv1的输出大小降低两倍,随后的残差模块不改变特征图的分辨率。Conv2x的输出特征有256个通道。Conv3x、Conv4x、Conv5x各自的第一个残差模块执行2倍下采样,分别将特征图的大小降低到128、64和32,通道数却分别扩增为512、1024和2048。Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变。所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一,第二个卷积作为瓶颈层保持特征图的通道数不变,第三个卷积将特征图的通道数扩张为模块期望输出的通道数。

表2 ResNet50骨干网配置

特征金字塔的构建方法如图1所示。在自底向上的过程中,Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图,各自经一个3×3、步长为1的卷积运算将通道数固定为256通道。在自顶向下过程中,上一级金字塔特征图经上采样将大小扩增两倍,然后和下一级参考特征图逐点相加融合,作为当前级的金字塔特征图,采用同样的方法获取下面所有等级的金字塔特征图。这种不同细粒度特征图融合的策略,结合了低层特征富含细节信息和高层特征富含语义信息的优点,有助于提高多尺度目标的检测和跟踪精度。

任务头的设计是本发明专利重要的创新之处。不同于传统的检测和重识别特征联合学习方法,本发明专利提出的类别不可知的实例级特征提取技术,将不同锚框的检测和跟踪任务学习解耦,同时将检测任务中的分类和跟踪任务中的重识别特征提取彻底解耦,避免检测和跟踪任务中分类器学习目标冲突的问题,同时该方法可支持多类别多目标跟踪,解决当前的多目标跟踪算法无法处理多类跟踪的问题。

如图2所示是本发明专利提出的任务头结构。图中的F

如果需要跟踪的类别数量为#classes,那么类别分支最终输出的通道数就是#classes。边框分支需要预测横坐标、纵坐标、宽度和长度,所以该分支的最终输出通道数是4。记嵌入特征的维度为dim_embed,那么嵌入分支最终输出的通道数为dim_embed。任务头预测输出的计算方法如公式(1)、公式(2)和公式(3)所示。公式(1)计算类别概率预测值,θ

除了任务头结构的创新性设计以外,新型身份重识别特征采样技术同样非常重要。和传统的基于量化坐标的特征最近邻采样法不同,本发明专利提出的身份重识别特征采样技术,采用实数坐标而不是量化坐标来获取特征值。当采用实数坐标提取特征值时,需要同时考虑其周边的四个有效坐标的特征值,如图所3示。

假设某个目标经下采样后中心坐标为(x,y),(x,y)是相对最终的特征图坐标系而言的坐标。由于(x,y)是实数坐标,特征图的网格是量化之后的整数网格,无法直接提取此处的特征。采用逐通道双线性插值的方法计算(x,y)之处的特征。按照公式(4)、公式(5)、公式(6)和公式(7)计算离(x,y)最近的四个整数坐标,并提取各自的特征向量。公式(4)和公式(5)中的s表示下采样率。假设(x

x

y

任务头需要配备类别、边框及嵌入特征三个分支的损失函数。类别损失采用FocalLoss,其计算方法参考公式(9),其中的α

在MCMOUD数据集上训练和验证多类多目标跟踪模型。在包括类别和边框的检测分支,对于每个锚框,如果和某个基准框的交并面积比大于0.5,就将该锚框视分配给该基准框,否则将该锚框视为背景;对于每一个基准框,将交并面积比最大的锚框分配给它。在跟踪分支,对于每个锚框,如果和某个基准框的交并面积比大于0.7,就将该锚框视分配给该基准框,否则将该锚框视为背景。

在PyTorch框架下利用冲量随机梯度下降法训练MCMOT模型(多类多目标跟踪模型),权重衰减率设定为0.00004,冲量设置为0.9。训练的批次大小设定为32,#classes设置为MCMOUD数据集中的类别数量(包括背景),dim_embed设定为256,α

在MCMOUD数据集上评估MCMOT算法的性能。在MCMOT算法的推理阶段,模型的预测输出包括{C

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 多目标跟踪方法、多目标跟踪装置以及非易失性存储介质
  • 一种基于KCF轨迹置信度的多目标跟踪方法
技术分类

06120112174553