掌桥专利:专业的专利平台
掌桥专利
首页

一种多阶段候选框细化的实时多目标跟踪方法

文献发布时间:2024-04-18 19:58:21


一种多阶段候选框细化的实时多目标跟踪方法

技术领域

本发明设计于自动驾驶多目标跟踪技术领域,具体是采用多阶段策略来优化边界框从而实现更精确的道路行人目标的追踪。

背景技术

近几年,自动驾驶技术的研发已成为国际汽车工程领域非常重视的方向。自动驾驶是汽车产业与人工智能、5G通信、高性能计算等一代信息技术在交通出行领域深度融合的体现,其终极目标是解放人类驾驶员,实现完全自动驾驶。在实现完全自动驾驶前,迫切需要开发一种具有进化能力的自动驾驶系统,通过算法的自我升级逐渐提高自动驾驶汽车的性能。环境感知、自主决策和运动控制是智能驾驶三大关键技术。早期的环境感知算法对复杂时空交互模型表达能力不足,目标模型建立的难度与过多的计算冗余又降低了系列精度和实时性,深度学习的感知方法能一定程度地解决此类问题,但遮挡、模糊、形变和背景斑杂等外观挑战,参与者之间复杂的随机交互导致的行为轨迹难以准确预测,仍制约着感知技术的发展。多目标跟踪是给定视频序列和每一帧中所要检测跟踪目标位置,输出视频关注目标轨迹和包围框。多目标跟踪通常采用先检测后跟踪的多目标跟踪框架主要包括目标检测、特征提取、目标关联三个部分。对于多目标跟踪除了需要保证给定感兴趣目标帧位置之外还需要保持前后帧之间的目标身份信息的对应。现有的多目标跟踪方法都是基于同一个摄像头来实现的。智能驾驶工况多变,驾驶环境复杂,小目标在图像中占比较小,容易出现边缘特征不明显,目标无法感知预测甚至目标丢失的严重后果。由于驾驶视角下不同目标之间明显的尺度差距,在无人驾驶的场景下镜头存在抖动,目标在时空中会存在频繁遮挡和相互交互遮挡的问题,解决驾驶视角下小目标行为预测算法,重点研究行人与时间、空间角度的耦合交互行为长时域预测,是无人驾驶领域在无信路口车辆安全性控制的关键。

发明内容

本发明提出了一种多阶段候选框细化的实时多目标跟踪方法。

步骤1:使用YOLOX算法对感兴趣的目标进行检测与定位。通过YOLOX算法,我们可以有效地检测图像中的目标,并准确地确定它们的位置和边界框

步骤2:将每一帧图像检测的目标与上一针跟踪目标通过位置、大小、特征等相似度信息进行最优匹配。这个过程可以帮助我们将目标在连续帧之间进行关联,实现目标的持续跟踪。

步骤3:根据检测分数的阈值可以将目标框分为高置信度检测框和低置信度检测框。

步骤4:对于高置信度目标直接进行目标的轨迹跟踪。

步骤5K:低置信度目标往往是由于出现了遮挡的问题或者出现了误判的情况,为此需要对低置信度目标进行候选框细化操作,首先取低置信度目标框2倍大小的搜索区域作为图片输入,将其输入到ResNet34网络进行特征提取,RPN网络进行候选框的生成,将生成的新候选框作为输入,进行后续的目标跟踪。

步骤6:将由于遮挡导致的低置信度目标的信息加入到相关ID的轨迹中去完成同一目标的跟踪。

步骤7:对于长时间未被检测到的物体,需要从跟踪的列表中删除。

步骤8:将得到的每个ID的候选框绘制在图片上并生成视频,从而可视化的显示目标位置和轨迹。同时将跟踪结果以出现帧、ID号、候选框坐标值、置信度得分的顺序以文本的形式进行存储。

附图说明:

图1为多阶段候选框细化的实时多目标跟踪方法的主要流程示意图;

具体实施方式

下面将会结合附图与实例,对本发明的具体实施方式进一步详细阐述。

本发明提供一种多阶段候选框细化的实时多目标跟踪方法其中方法包括以下步骤:

步骤1:将我们需要训练的视频按照一帧一帧的方式截取成图片,通过这个过程可以将视频转换成图像序列,用于后续的检测与跟踪。

步骤2:使用YOLOX目标检测算法对我们感兴趣的目标进行检测与定位。通过YOLOX算法,我们可以有效地检测图像中的目标,并准确地确定它们的位置和边界框。

步骤3:将每一帧图像检测的目标与上一针跟踪目标通过位置、大小、特征等相似度信息进行最优匹配。这个过程可以帮助我们将目标在连续帧之间进行关联,实现目标的持续跟踪。

步骤4:通过YOLOX目标检测算法对目标的检测框进行分类,可以将其分为两个类别:置信度高于0.5的称为高置信度目标框,对于低于0.5的候选框称为低置信度目标框。

步骤5:第一次追踪,对于已处于激活状态的高分检测框根据损失矩阵,用匈牙利算法和初步追踪轨迹与当前帧的高分边界框来进行匹配。

步骤6:第二次追踪,低分检测框往往是由于出现了遮挡的问题或者是出现了误判的情况。后续将对低分检测框进行二次候选框细化操作。首先将低分检测框周围区域进行二倍放大,成为新的图片输入进行搜索。

步骤7:将新的图片输入进ResNet34骨干网络进行处理,图片经过33个卷积层和一个全连接层进行特征提取,得到图片的相关特征图。

步骤8:将特征图输入到RPN网络中,RPN网络通过在特征图上滑动窗口来对每个窗口进行分类和回归,从而可以获取更加精确的候选框位置。

步骤9:通过第二次检测与跟踪的方法来处理在第一次追踪中低置信度的目标框问题。具体操作为保留低置信度的目标候选框,在后续5帧中继续进行匹配,如果能匹配上则说明之前低置信度目标框的原因是因为进行了遮挡。

步骤10:对于长时间未被检测到的物体,认为其可能已经离开了当前的场景,并将其ID身份与轨迹在跟踪列表中进行删除从而确保跟踪的准确性和效率。

步骤11:将得到的每个ID的候选框绘制在图片上并生成视频,从而可视化的显示目标位置和轨迹。同时将跟踪结果以出现帧、ID号、候选框坐标值、置信度得分的顺序以文本的形式进行存储。

具体地操作原理过程如下:

1.在检测目标物体过程中,采用YOLOX检测算法。YOLOX采用了一种轻量级的网络设计和一阶段检测的流程,使得其在算法上具有较高的实时性和高效性。

相比于传统的二阶段检测器,YOLOX减少了冗余的计算和操作,提升了算法的速度和效率。相比于YOLOV4和YOLOV5来说引入了一系列的优化策略和技术,如特征金字塔、多尺度预测、损失函数等来提高目标检测的精度和召回率。同时,较为灵活的YOLOX结构可以更好的调节来适应多种实时性要求较高的场景和应用。

2.在多目标跟踪过程中,采用基于检测的跟踪算法ByteTrack。它通过结合目标检测和目标跟踪的优势。能够准确的检测目标并对其进行跟踪,具有较高的准确度。ByteTrack跟踪器对于得到的低置信度的目标选择保留其信息并在后续帧进行目标匹配,这样就可以较好的应对目标外观变化、目标形变、遮挡和部分遮挡的问题。其次ByteTrack跟踪器采用了轻量化的网络,在保持较高准确度的同时,也具备了较快的处理速度。

3.候选框主要用于定位和描述图像中的目标物体,精确的检测与跟踪离不开精确的候选框生成。在本发明的跟踪过程中选择保留所有置信度的候选框并对其中低分检测框进行后续5帧匹配操作,所以检测的精度和准确度对低分检测框中的目标尤为重要。因此对于低分检测框采用二次候选框优化的方法来细化检测框从而使对目标的检测与跟踪更加的准确。候选框的细化过程分为三个步骤,首先将低分候选框区域进行一个二倍放大得到新的图像,然后通过主干网络对新图像进行特征提取,得到一系列不同尺寸的特征图,最后针对每个特征图上的位置,生成一组描框,并对描框进行回归处理从而完成对候选框的二次细化。将得到的更加精确的候选框用于后续的跟踪的过程中。

从而更好的解决因遮挡、光照等原因导致目标丢失的问题。

相关技术
  • 一种重识别辅助的多阶段视频行人多目标跟踪方法及模型
  • 一种基于时序注意力与搜索范围细化的多目标跟踪方法
技术分类

06120116483353