掌桥专利:专业的专利平台
掌桥专利
首页

一种基于融合检测技术的多目标跟踪系统及跟踪方法

文献发布时间:2023-06-19 11:22:42


一种基于融合检测技术的多目标跟踪系统及跟踪方法

技术领域

本发明属于智能识别技术领域,特别地涉及到一种基于融合检测技术的多目标跟踪方法。

背景技术

多目标跟踪方法在工程上有着广泛的应用,比如在道路交通的监控、违法违规行为识别等工作中起到十分关键的作用。给定有关视频,传统的跟踪方法需要人为初始化跟踪的目标框,随着深度学习的发展,基于神经网络的检测的跟踪技术也日益增多。

目前检测算法中使用的检测方法大都采用一阶段或者二阶段的目标检测算法,一阶段目标检测算法即是由特征直接映射到目标的坐标信息和类别信息,二阶段的目标检测器则先进行所有前景目标的粗定位,作为区域候选网络,随后输入到分类器中进行再定位和分类。一阶段目标检测算法的优点是检测速度快,但准确率偏低;二阶段目标检测算法的优点是准确率高,但检测速度偏低。

多目标跟踪算法本身基于检测的结果,对视频序列中的多个目标进行定位,并通过帧间的对应关系形成轨迹,其更着重于不同目标个体间的差异性学习。常见的多目标跟踪框架通过度量检测目标间的外形、运动信息的距离,并结合前后帧的关联性,为统一身份的检测结果赋予关联。该类方法在一定程度上证实了有效性,但该种设计流程意味着跟踪的性能单方面依赖于检测的结果,同时求取有区分度的视觉特征引入了复杂的机制与浩繁的计算量,这使得跟踪结果受限制的同时,在效率上也有所欠缺。

发明内容

为解决上述问题,本发明的目的在于提供一种基于融合检测技术的多目标跟踪方法,该多目标跟踪方法具体准确率高、检测速率高的特点。

为实现上述目的,本发明采用如下技术方案:一种基于融合检测技术的多目标跟踪系统,所述系统包括:深度卷积神经网络、目标检测网络、卡尔曼滤波器模型、匹配特征获取网络、跟踪结果修正网络;所述深度卷积神经网络的输出端与目标检测网络的输入端连接,所述目标检测网络的输出端分别与匹配特征获取网络的输入端和卡尔曼滤波器模型的输入端连接,所述卡尔曼滤波器模型的输出端与匹配特征获取网络的输入端连接,所述匹配特征获取网络的输出端与跟踪结果修正网络的输入端连接。

本发明还提供了一种所述基于融合检测技术的多目标跟踪系统的跟踪方法,具体包括如下步骤:

(1)收集视频帧图像;

(2)将视频帧图像的第一帧图像和第二帧图像输出到深度卷积神经网络中,得到第一帧图像和第二帧图像中各目标的特征;

(3)将第一帧图像和第二帧图像中各目标的特征分别输入目标检测器网络中,输出第一帧图像和第二帧图像中各目标的置信度分数、类别种类、类别分数和坐标信息,并计算每个目标的置信度分数和类别分数的乘积,将乘积高于阈值的目标的类别种类和对应的坐标信息进行保留;

(4)将保留的第一帧图像的类别种类、和对应的坐标信息输入卡尔曼滤波器模型中进行目标跟踪预测,预测第二帧图像中所述类别种类对应的坐标信息;

(5)将第二帧图像、预测第二帧图像中所述类别种类对应的坐标信息以及保留的第二帧图像的坐标信息输入匹配特征获取网络中,得到预测外形匹配特征和外形匹配特征;

(6)根据第二帧图像的坐标信息、预测第二帧图像的坐标信息、预测外形匹配特征和外形匹配特征,计算距离度量,使用匈牙利算法,将第二帧图像的坐标信息与预测第二帧图像的坐标信息对应的目标进行匹配;

(7)将步骤(5)得到的第二帧图像的预测外形匹配特征和外形匹配特征,与完成匹配的坐标信息、预测坐标信息输入跟踪结果修正网络,输出修正的多目标跟踪的坐标信息;

(8)将后续帧图像依次重复步骤(2)-(7),直至完成对所有视频帧图像的跟踪。

进一步地,所述匹配特征获取网络由骨干网络与特征映射模块两个部分组成,步骤(5)具体为:将第二帧图像输入骨干网络,获取完整的特征图,再将预测第二帧图像中所述类别种类对应的坐标信息以及保留的第二帧图像的坐标信息在特征图中对应位置的部分进行裁剪,将裁剪得到的两部分特征分别输入特征映射模块,并输出1*128维预测外形匹配特征和外形匹配特征。

进一步地,所述距离度量

其中,

进一步地,步骤(6)中若匹配失败,将运动预测结果持续预测一定帧数,直至在某一帧达成匹配,或者持续预测到一定帧数后仍未能与检测结果达成匹配,暂停该轨迹运行,不再预测;没有运动预测结果相匹配的检测结果,将进行重识别,确定是重启旧目标,还是新初始化一个新目标。

进一步地,所述跟踪方法还包括:完成帧图像的跟踪任务后,使用跟踪对应检测结果的外形匹配特征F

其中,

与现有技术相比,本发明的有益效果是:本发明的多目标跟踪方法的检测方法采用先进的目标检测网络,为目标跟踪提供较为准确的初始化和观测值。在运动预测方面发明采用基于卡尔曼滤波的运动建模方法,仅使用目标的运动信息进行迭代更新,较为准确的预测物体位置的同时仅引入极低的计算代价,在检测结果与跟踪结果进行基于外形匹配特征与位置信息的融合基础上,通过跟踪结果修正网络可以获取更加准确的跟踪结果。

附图说明

图1为本发明基于融合检测技术的多目标跟踪方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

本发明提供了一种基于融合检测技术的多目标跟踪系统,所述系统包括:深度卷积神经网络、目标检测网络、卡尔曼滤波器模型、匹配特征获取网络、跟踪结果修正网络;所述深度卷积神经网络的输出端与目标检测网络的输入端连接,所述目标检测网络的输出端分别与匹配特征获取网络的输入端和卡尔曼滤波器模型的输入端连接,所述卡尔曼滤波器模型的输出端与匹配特征获取网络的输入端连接,所述匹配特征获取网络的输出端与跟踪结果修正网络的输入端连接。

参考图1,为本发明所述基于融合检测技术的多目标跟踪系统的跟踪方法流程图,具体包括如下步骤:

(1)通过道路交通监控摄像头,获得监控视频和视频图像帧

(2)将视频帧图像

(3)将第一帧图像和第二帧图像中各目标的特征

(4)通过基于自定义匀速线性卡尔曼滤波器模型的运动建模位置预测,设置目标 的观测向量

(4.1)将保留的第一帧图像的类别种类

(4.2)通过第一帧图像的运动状态

(5)将第二帧图像、预测第二帧图像中所述类别种类对应的坐标信息

匹配特征获取网络实现的是匹配和重识别的功能,在训练时采取三元组损失,取 视频序列中相同目标图像组成正样本对,不同目标图像组成负样本对,设anchor样本求取 外形匹配特征为

其中i表示第i个训练的样本,+表示当[ ]内大于0时取原值,小于0时取0,α为不同样本间最小间隔,此设计可拉近相同类别样本间距离,扩大不同样本间差异。

(6)根据第二帧图像的坐标信息P、预测第二帧图像的坐标信息

其中,

使用匈牙利算法,将第二帧图像的坐标信息P与预测第二帧图像的坐标信息

对于第二帧图像的坐标信息P与预测第二帧图像的坐标信息

(7)将第二帧图像I的特征与完成匹配的坐标信息P、预测坐标信息P’输入跟踪结 果修正网络,输出修正的多目标跟踪的坐标信息;输出跟踪结果修正框相对于运动预测位 置的偏移量

跟踪修正网络由4层3*3卷积层和全连接层组成,输出为回归的匹配对数量*4的偏 移量预测,训练时采用Smooth-L1Loss。设跟踪结果真值为

Smooth L1 Loss使得真值与预测值差异较大时不会过于大,而距离小时足够小, 使得网络学习到更为稳定的偏移量回归能力。最终跟踪结果为

(8)将后续帧图像依次重复步骤(2)-(7),直至完成对所有视频帧图像的跟踪。

所述跟踪方法还包括:完成帧图像的跟踪任务后,使用跟踪对应检测结果的外形 匹配特征F

其中,

对于跟踪结果的评估,通过以下公式计算:

其中

将本发明基于融合检测技术的多目标跟踪系统用于行人、美团外卖电动车、饿了么外卖电动车、非外卖电动车的多目标跟踪中,第1秒时的图像中,行人、美团外卖电动车、饿了么外卖电动车、非外卖电动车数量分别为2,1,2,6;漏检数量分别为0,0,0,0;误检数量分别为0,0,0,1;错误匹配数量分别为0,0,0,1;计算得到跟踪结果分数为81.82%。在第1.5秒的图像中,,行人、美团外卖电动车、饿了么外卖电动车、非外卖电动车数量分别为3,3,2,6;漏检数量分别为0,0,0,1;误检数量分别为0,0,0,1;错误匹配数量分别为0,0,0,1;计算得到跟踪结果分数为78.50%。其他时间中的图像的跟踪分数不再赘述。从跟踪结果分数来看,本发明中使用的深度卷积神经网络、目标检测网络提供了结果的可靠性,使用的卡尔曼滤波器模型、匹配特征获取网络、跟踪结果修正网络能够确保匹配和跟踪结果更加精确,有着出色的性能。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于融合检测技术的多目标跟踪系统及跟踪方法
  • 一种基于多轨迹融合的多目标跟踪方法及系统
技术分类

06120112899999