掌桥专利:专业的专利平台
掌桥专利
首页

一种密集场景下多目标跟踪方法

文献发布时间:2024-04-18 19:44:28


一种密集场景下多目标跟踪方法

技术领域

本发明涉及图像目标识别和跟踪技术领域,特别涉及一种密集场景下多目标跟踪方法。

背景技术

多目标跟踪模型训练需要大量轨迹标注,这些标注将消耗大量人力成本,可预见的是密集人群场景的标注将更难以获得,这将导致跟踪算法难以落地。为了缓解跟踪目标太多导致的跟踪速度下降,研究者们提出了最近备受关注的JDE(JointDetectionandEmbedding)范式跟踪模型。

密集人群场景多目标跟踪MOT是一个非常具有挑战性的问题,在这种场景下相互接近的人会产生许多相似的外观和运动模式,使得跟踪算法靠检测信息和外观特征很难准确地区分它们。特别是会出大量遮挡、重叠和目标长时间消失等问题,这也会极大影响跟踪效果。同时多目标跟踪场景下很多场景并不是静态摄像头拍摄的,有一些场景的拍摄者本身也保持着一定的运动,这样会造成检测位置并不完全可信。

发明内容

针对现有技术存在的上述问题,本发明要解决的技术问题是:如何在密集场景下确保目标跟踪准确性的问题。

为解决上述技术问题,本发明采用如下技术方案:一种密集场景下多目标跟踪方法,包括如下步骤:

S1:将视频段中第i帧图像输入目标检测网络,获得检测框和嵌入特征。

S2:使用ECC修正S1获得的检测框得到当前帧检测框。

S3:将当前帧检测框中置信度高于阈值的定义为高分框,否则定义为低分框。

S4:如果i=1,则令i=i+1,并返回S1,否则执行下一步。

S5:高分框与现有轨迹进行特征匹配,即将高分框的特征矩阵与现有轨迹通过匈牙利算法进行匹配,现有轨迹是指当前帧之前的轨迹。

S6:将未匹配上的现有轨迹与高分框的IOU距离矩阵通过匈牙利算法进行匹配。

S7:再将S6处理后未匹配上的现有轨迹与低分框的IOU距离矩阵通过匈牙利算法进行匹配。

S8:将S5和S6中与现有轨迹未匹配上的高分框初始化为新轨迹,该新轨迹定义为刚跟踪上的轨迹,将S5,S6和S7中未匹配上的现有轨迹定义为刚消失的轨迹。

S9:刚跟踪上的轨迹与刚消失的轨迹进行特征匹配,即将刚跟踪上的轨迹与刚消失的轨迹这两个轨迹的特征矩阵通过匈牙利算法匹配。

S10:使用线性差值补全刚消失的轨迹中间帧缺失的部分轨迹和刚跟踪上的轨迹中间帧缺失的部分轨迹。

S11:如果i≤N,则令i=i+1,并返回S1,否则是输出跟踪结果,N表示视频段中的总帧数。

作为优选,所述S10中使用线性差值补全轨迹的步骤包括:

1)使用卡尔曼滤波获得所有现存轨迹的预测值;

2)执行正常跟踪操作,并将未匹配且位置处于图像非边角的轨迹单独取出;

3)对未匹配轨迹每个进行消失时长计数;

4)当消失时长>3则开始使用卡尔曼滤波器的预测值进行位置更新。

相对于现有技术,本发明至少具有如下优点:

本发明方法首先依靠帧内物体必不相同的先验推远目标之间的相似度;然后受到自监督学习方法的启发,该方法将短间隔两帧间的相似物体匹配为正样本对来增强特征的跨帧表达能力;最后依据正向、反向匹配必须一致的先验进一步增强特征的跨帧表达能力。

为了减少遮挡和重叠造成的错误跟踪结果,本发明提出了对新生成轨迹与刚消失轨迹的二次验证;同时为了进一步增加跟踪策略的效果,本发明提出的低分框二次匹配;为了在摄像头也是移动的场景保持检测结果的有效性;最后为了缓解场景中心位置的缓慢目标长时序消失的问题,本发明提出使用插值进行轨迹补全来进行缺失轨迹填补。本发明将提出了轨迹的二次验证,并将其与其余当前常用的针对遮挡策略进行组合,最后提供了大量消融实验及相关方法的对比试验证明本发明策略的有效性。

附图说明

图1为本发明方法的流程图。

图2为ECC效果图,其中(a)为原始结果,(b)为经过ECC处理后结果。

图3相同IoU值但重叠情况不同示意图。

图4低分框二次匹配效果图,其中(a)显示了所有检测框及其分数,(b)显示了常用的跟踪方法的结果,(c)显示了使用低分检测框匹配得到轨迹。

具体实施方式

下面对本发明作进一步详细说明。

参见图1-4,一种密集场景下多目标跟踪方法,包括如下步骤:

S1:将视频段中第i帧图像输入目标检测网络【任何现有的目标检测网络】,获得检测框和嵌入特征;

S2:使用ECC修正S1获得的检测框得到当前帧检测框。

S3:将当前帧检测框中置信度高于阈值【通常阈值设为0.6】的定义为高分框,否则定义为低分框。

S4:如果i=1,则令i=i+1,并返回S1,否则执行下一步;

S5:高分框与现有轨迹进行特征匹配,即将高分框的特征矩阵与现有轨迹通过匈牙利算法(现有方法)进行匹配,现有轨迹是指当前帧之前的轨迹:

S6:将未匹配上的现有轨迹与高分框的IOU距离矩阵通过匈牙利算法进行匹配;

S7:再将S6处理后未匹配上的现有轨迹与低分框的IOU距离矩阵通过匈牙利算法进行匹配,即低分框二次匹配。

S8:将S5和S6中与现有轨迹未匹配上的高分框初始化为新轨迹,该新轨迹定义为刚跟踪上的轨迹,将S5,S6和S7中未匹配上的现有轨迹定义为刚消失的轨迹;

S9:刚跟踪上的轨迹与刚消失的轨迹进行特征匹配,即将刚跟踪上的轨迹与刚消失的轨迹这两个轨迹的特征矩阵通过匈牙利算法匹配,即新轨迹与消失轨迹二次验证。

S10:使用线性差值补全刚消失的轨迹中间帧缺失的部分轨迹和刚跟踪上的轨迹中间帧缺失的部分轨迹。

S11:如果i≤N,则令i=i+1,并返回S1,否则是输出跟踪结果,N表示视频段中的总帧数。

跟踪场景可被分为动态摄像机场景与静态摄像机场景,其中动态摄像机场景本发明使用ECC来进行修正,使用实时插值来改善静态摄像机的物体因遮挡消失而造成的轨迹缺失问题。线性插值可以在给定的数据点之间进行插值,从而得到更为平滑的曲线。如果把轨迹的行进路径当成一条线,线性插值便可以用来估计缺失的轨迹点,以实现对轨迹的补全。但是由于正常的线性插值需要消失点与重新出现点才可进行插值,但本发明涉及的研究是针对在线跟踪的,所以本发明的实时插值使用的其实是卡尔曼滤波的预测值来作为插值。

具体的,所述S10中使用线性差值补全轨迹的步骤包括:

1)使用卡尔曼滤波获得所有现存轨迹的预测值;

2)执行正常跟踪操作,并将未匹配且位置处于图像非边角的轨迹单独取出;

3)对未匹配轨迹每个进行消失时长计数;

4)当消失时长>3则开始使用卡尔曼滤波器的预测值进行位置更新。

ECC检测框修正

ECC(EnhancedCorrelationCoefficient)其实是一种用于图像对齐的方法。它是一种基于互相关系数的方法,通过最大化两幅图像之间的互相关系数来实现图像对齐。

ECC方法的基本思路是,首先选定一幅参考图像和一幅待匹配图像,然后通过一系列的变换(平移、旋转、缩放等)将待匹配图像对齐到参考图像上。在每次变换后,通过计算两幅图像之间的互相关系数来评估对齐的效果,直到找到最优的对齐结果。本发明具体的使用步骤如下:

1)为了减少计算量,本节选择将前一帧和当前帧图像resize为原始大小的0.1倍,并将其转换为灰度图像;

2)初始化旋转和平移矩阵(仅在第一次初始化),使用旋转和平移变换将当前帧图像映射到前一帧图像上;

3)利用互相关系数(Cross-CorrelationCoefficient)来衡量两幅图像之间的相似度,互相关系数越大说明匹配效果越好。4)通过优化目标函数,本处使用的最小化误差平方和(LeastSquares),来求解最佳变换参数。

不断重复第2~4步,迭代10次获得最后的旋转和平移矩阵,即位置变换矩阵,ECC的步骤整体仅需要13~18毫秒,并不影响实时性。最后对检测框使用ECC算法返回的旋转平移参数进行位置修正,使用ECC修正的效果图如图2所示。图中修正位置之后便可正确匹配。

匹配矩阵修改

本发明中涉及四次匹配,其中包含了两次特征匹配和两次IoU匹配。本发明选择使用GIoU替换IOU作为检测框相似的衡量标准。IoU作为常用的衡量标准,其简单的计算步骤和比较有效的位置信息都是巨大的优势,但当IoU值相等时仍存在无限种位置关系,IoU不能完整的代表位置关系信息,如图3所示,左右两图的IoU一样,但是左图中的重叠方式明显更加规则,左图的距离应该小于右图的距离而IoU距离不能体现这种关系。GIoU作为IoU的改进版,它克服了IoU的这种的缺陷,也充分保留了IoU的优点。为了更完整的体现两个检测框的位置关系信息,GIoU引入不规则度来改进IoU,GIoU与IoU对应的计算如下式:

公式中的C是包含A和B两个物体最小外接矩形。IoU是指两个物体之间相交部分与它们并集之间的比率。而GIoU是在IoU基础上减去了两个物体相交部分不规则性所占比例得到的。不规则性是指C中既不属于A也不属于B的部分所占比例。当两个物体相交部分形状越不规则时,GIoU值越小。GIoU通过添加这种不规则性的度量使两个检测框之间的重叠关系更加明确的被体现。后续章节将会用实验证明使用GIoU的效果更好。

遮挡是一个渐进的过程,而目标在出现遮挡情况时也会存在其检测框置信度逐渐下降的情况,在遮挡情况严重的密集场景应该单独考虑这些因遮挡而置信度较低的检测框。以往的跟踪模型在获取目标位置时与目标检测完全一致,均使用了一个较高的置信度来过滤检测框,这种操作就会导致那些因遮挡而置信度较低的检测框直接被过滤,所以低分框二次匹配的做法就是将将些低分框与匹配失败的轨迹进行第二次匹配以保证轨迹的完整性,其效果如图4所示。

图4展示了使用/不使用低分检测框对结果的影响。其中(a)显示了所有检测框及其分数。(b)显示了常用的跟踪方法的结果,即将分数低于阈值0.5的检测框忽略,并对剩余框进行匹配。可以很明显的发现0.8对应的小框因为检测达不到阈值而被忽略。(c)显示了使用低分检测框匹配得到轨迹。虚线框表示使用卡尔曼滤波器的轨迹的预测框,通过计算预测框与对应帧低分数检测框的IoU,可很明显的发现对应帧的低分数检测框只要能保留下就能与先前的轨迹正确匹配。低分检测框的二次匹配对轨迹的补全起了极大的作用,但由于其仅使用IoU进行匹配,也会带来一些错误的轨迹ID切换。

本发明发现在遮挡发生时,检测框经常会因为受到遮挡影响而产生较大的大小变化和中心移位。大小和中心位置都是卡尔曼滤波要进行维持和估计的值,当两者同时发生超出正常波动的变化时,会导致卡尔曼滤波计算出来的滤波距离过大而使检测框被忽略。一旦发生了这种忽略,经常会进一步发生轨迹因为丢失了中间的几帧位置信息以及特征变化信息,当目标再次出现时无法正确匹配回原始轨迹ID,并大概率会被分配一个新的轨迹ID。在发生忽略检测框的情况时,其特征距离仍处在可成功匹配的范围内,所以本发明提出使用特征来对每帧刚出现的轨迹(即可能是错误的新轨迹)与最近消失的轨迹进行二次匹配,以保证轨迹的完整性。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种针对性解决复杂电磁环境下的多目标跟踪数据关联问题的方法
  • 密集人群场景下多目标跟踪的外观特征更新方法及系统
  • 一种结合头部跟踪的密集场景下行人多目标跟踪方法
技术分类

06120116298072