掌桥专利:专业的专利平台
掌桥专利
首页

面向延迟流感知的多时间步长目标检测方法

文献发布时间:2024-04-18 20:01:23


面向延迟流感知的多时间步长目标检测方法

技术领域

本发明涉及自动驾驶应用场景技术领域,特别涉及一种面向延迟流感知的多时间步长目标检测方法。

背景技术

为了保证用户的安全与体验,自动驾驶系统不仅需要及时(in-time)感知周围的环境,更要感知实时环境。传统目标检测基准侧重于离线评估,即对视频流上的每一帧都分别与其标注值对比,这要求系统需要在每帧间隔时间(<33ms)内处理完捕获帧。为此,大量相关工作专注于降低延迟,使得模型能够在下一帧输入前完成捕获帧的处理。然而在实际应用场景中,由于有限的硬件性能与极端环境等因素,视频流的处理与推理时延不可避免的发生波动,从而导致模型处理完捕获帧后,周边的真实环境已经发生了不同程度的变化,即模型输出结果总是过时的。

“流准确性(StreamingAverage Precision,sAP)”作为用于评估模型的实时在线感知性能的一个度量标准,会实时评估整个感知栈的输出,使模型输出符合当前时刻基准的结果,因此需要模型在某种程度上预测未来帧。为了解决延迟环境下模型输出与现实环境真值偏移过大的问题,以往技术由提出未来预测与异步跟踪作为解决方案;也有一些技术通过结合前一帧与当前帧来预测未来帧的方式,通过自适应选择与不同的历史帧进行特征融合,从而创建物体运动趋势以预测结果,预测更远时间步长的未来帧,但是这些方法仅在考虑额外一个时间步的设置下达到了目前最高的性能,但随着延迟上升,需要预测的时间步长增大其性能下滑幅度增大。尽管这些方法在一定程度上提高了性能,但在处理时延较大的情况下,预测的时间步长仍然不足以稳定地跟上实时环境的变化,导致性能下降。因此,亟需开发一种自适应、稳定且能有效应对不同延迟情况的实时感知方法,以满足自动驾驶系统在延迟流感知场景下的高精度需求,确保用户的安全与体验。

发明内容

鉴于以上内容,有必要提供一种面向延迟流感知的多时间步长目标检测方法,以解决实际应用中由于硬件性能有限、极端环境等因素,自动驾驶系统出现延迟导致检测性能下降的问题。

为达到上述目的,本发明所采用的技术方案是:

面向延迟流感知的多时间步长目标检测方法,包括如下步骤:

(1)以StreamYOLO为基础构建多时间步长检测模型,其中,StreamYOLO提出流感知简化为预测下一帧的任务,将上一帧与当前帧的特征进行融合后得到的融合特征用于预测下一帧;

(2)构建时延分析模块,监控预处理时延与推理时延,并通过预处理时延与推理时延计算时延趋势以分析目标时间步长,且引入缓冲时延趋势,以选择最佳的检测头;

(3)基于动态路由思想构建时间步长分支模块,时间步长分支模块通过控制训练方式对StreamYOLO得到的融合特征进行多分支解码,使各个分支分别预测不同时间步长的未来帧,并根据步骤(2)得到的时延趋势推理动态路由至对应分支,实现多时间步长预测。

进一步地,在步骤(2)中,缓冲时延趋势I

式中,I

时延趋势D

D

进一步地,在步骤(3)中,时间步长分支模块对步骤(1)中StreamYOLO得到的融合特征进行多分支解码,解码的具体步骤如下:

1)使用StreamYOLO用于预测t+1帧的检测头为模板,拷贝多个检测头分支,在StreamYOLO中,训练数据输入是由上一帧、当前帧与下一帧作为真值构成的三元组(F

2)将该方法的应用拓展到多分支结构模型训练,在训练时,使用不同时间步长的未来帧作为不同的检测头的预测真值,将数据集重构为

3)在训练时,多时间步长检测模型依据训练数据集遍历训练每个新添加的检测头,同时冻结主干网络与其他检测头的权重。

进一步地,在步骤(3)中,时间步长分支模块推理时,接收来自时延分析模块的时延趋势D

即,目标时间步长m是向下取整的D

得到目标时间步长后,模型会从已有的检测头S

TBM([S

进一步地,在步骤(3)中,时间步长分支模块根据目标时间步长选择最优目标时间步长的检测头时,当目标时间步长超过模型支持最大时间步长时,则选择最近时间步长的检测头。

与现有技术相比,本发明具有以下有益效果:

1、本发明以StreamYOLO的模型结构为基础构建多时间步长检测模型,并使用其权重进行多分支迁移学习,基于模型添加时延分析模块用于延迟感知计算时延趋势,并构建时间步长分支模块依据时延趋势计算最佳检测头。

2、本发明考虑到相关工作缺乏对推理时间变化规律的客观分析,设计了一种用于延迟流感知的时延分析模块,通过对模型帧处理时间可视化图的分析,并对其规律进行总结并依此构建时延分析模块,使其能更稳定的预测时延趋势。

3、本发明设计的基于动态路由思想的时间步长分支模块,通过调整训练方式训练多个检测头分支用于预测不同时间步长的未来帧,在推理时根据时延趋势动态路由至对应分支实现多时间步长预测,拓宽模型的未来感受野,且该模块在推理中不会产生额外的计算成本,在各种时延设置下,该模块能有效提高流感知精度。

附图说明

图1是本发明的结构图;

图2是本发明多时间步长检测模型的执行流程图;

图3是本发明多时间步长检测模型的训练流程;

图4是各个设置下本发明所提供的模型和对比参考模型的处理时间分布图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

自动驾驶车辆的目标检测模型要求既要高精度也要低时延。然而,在现实环境中,车辆硬件会受各种因素影响出现问题导致模型推理延迟,从而影响检测效果。为此,亟需一个能够有效应对推理延迟流感知场景,并在延迟增加的情况下保持稳定输出的目标检测模型。基于此,本发明提出了一种面向延迟流感知的多时间步长目标检测方法,以解决现有技术中存在的缺陷问题。

在详细说明本发明之前,对于本发明中涉及的名词和术语进行解释或说明:

面向延迟流感知的多时间步长目标检测方法—Multi-Timestep DetectionMethod for Delay Streaming Perception,MTD;

时延分析模块—DelayAnalysis Module,DAM;

时间步长分支模块—Timestep Branch Module,TBM;

StreamYOLO—流感知实时检测器。

请参阅图1至图3,在本发明的一种较佳实施方式中,面向延迟流感知的多时间步长目标检测方法,包括如下步骤:

(1)以StreamYOLO为基础构建多时间步长检测模型,其中,StreamYOLO提出流感知简化为预测下一帧的任务,将上一帧与当前帧的特征进行融合后得到的融合特征用于预测下一帧。该步为现有技术,具体详见文献《StreamYOLO:Real-time Object Detection forStreaming Perception》,在此不做具体说明。

(2)构建时延分析模块,监控预处理时延与推理时延,并通过预处理时延与推理时延计算时延趋势以分析目标时间步长,且引入缓冲时延趋势,以选择最佳的检测头。

(3)基于动态路由思想构建时间步长分支模块,时间步长分支模块通过控制训练方式对StreamYOLO得到的融合特征进行多分支解码,使各个分支分别预测不同时间步长的未来帧,并根据步骤(2)得到的时延趋势推理动态路由至对应分支,实现多时间步长预测。

本发明通过设计多时间步长检测模型来使模型能够对不同时间步长的未来帧进行预测,并且构建了延迟分析模块用于计算时延趋势,多时间步长检测模块区分了静态推理流与自适应流,其中,静态推理流为固定推理路径,自适应流为可选路径,由时间步长分支模块根据时延趋势进行动态路由选择最优推理路径,从而返回符合真实环境的输出结果,如图3所示。

进一步地,步骤(2)的延迟分析模块使用了结合当前帧预处理时延以及历史帧的推理时延进行分析的方法,而传统时延分析方法将当前帧t的时延趋势D

式中,I

而时延趋势D

D

对于经过主干网络提取的特征信息,可认为其在相似任务上具备泛化性,即提取特征包含的物体运动状态及运动趋势信息不仅能用于预测下一帧,同时也能用于预测更远时间步长的未来帧。为此,步骤(3)设计了TBM对融合特征进行多分支解码,其并没有重新设计更加复杂的检测头,即,在步骤(3)中,时间步长分支模块对步骤(1)中StreamYOLO得到的融合特征进行多分支解码,解码的具体步骤如下:

1)使用StreamYOLO用于预测t+1帧的检测头为模板,拷贝多个检测头分支,在StreamYOLO中,训练数据输入是由上一帧、当前帧与下一帧作为真值构成的三元组(F

2)将该方法的应用拓展到多分支结构模型训练,在训练时,使用不同时间步长的未来帧作为不同的检测头的预测真值,将数据集重构为

3)在训练时,多时间步长检测模型依据训练数据集遍历训练每个新添加的检测头,同时冻结主干网络与其他检测头的权重,以避免模型其他部分受到反向传播影响。

上述过程如图2所示。由上可知,TBM模块的所有检测头均以StreamYOLO的检测头作为模板并初始化相同的权重,训练从对应t+2时间步长的检测头开始,并逐步遍历训练后续所有检测头。

进一步地,在步骤(3)中,时间步长分支模块推理时,接收来自时延分析模块的时延趋势D

即,目标时间步长m是向下取整的D

TBM([S

进一步地,在步骤(3)中,时间步长分支模块根据目标时间步长选择最优目标时间步长的检测头时,当目标时间步长超过模型支持最大时间步长时,则选择最近时间步长的检测头。

为了验证本发明所提供的检测方法的有效性,本发明通过注入预处理延迟的方式模拟各种时延环境,用于测试模型预测不同时间步长未来的性能,其中,延迟区分为无、低、中、高四种,图4给出了各个设置下的处理时间分布,其中,StreamYOLO为文献《StreamYOLO:Real-time Object Detection for Streaming Perception》提出的模型,DADE为文献《DaDe:Delay-adaptive Detector for Streaming Perception》提出的模型,Ours表示本发明所提出的检测模块。在Argoverse-HD数据集30帧率的设置下,模型处理单帧时间需要低于33ms,各模型处理时延如表1所示,在无时延设置下,三个对比模型均能及时预测t+1帧,而随着时延的不断增加,流感知评估会强迫使用与真实环境对应的t+n帧作为真值进行比较,而模型的预测难度将会逐渐加深。

表1各种时延环境下的时延分析(所有延迟均以毫秒为单位)

本发明使用sAP来评估模型的流感知性能。sAP同时考虑了模型推理时延与平均精度,将模型输出放在当前世界状态的真值框架下进行评估。主要评判指标是0.5到0.95交并比(IoU)范围内的平均AP,同时也评估了交并比为0.5和0.75以及大、中、小尺度的AP。

各个延迟设置下的实验结果如表2所示,在无延迟的情况下,三者性能相似,来到低延迟设置后,模型帧推理时间开始超过帧间隔时间(33ms),StreamYOLO开始与延迟流感知检测器出现性能差距,随着处理时延的增加,StreamYOLO无法预测更远时间步长的未来趋势,差距逐渐拉大。DADE作为延迟流感知检测器,通过融合间隔更远的历史帧特征构建长时运动趋势,在低延迟设置下性能下滑趋势更慢,但随着时延逐渐走向中高延迟,其性能也同样出现下滑,甚至低于非延迟流感知检测器,对此,认为可能是由于融合的帧特征时间偏移太大,特征级别的融合无法有效创建运动趋势,从而导致模型推理性能降低。而本申请的方法在各个延迟环境设置下都取得了最佳性能,在不同延迟环境设置下,本发明所提出的方法将sAP性能提高了1.1-2.9,且在所有度量下均取得了最佳的性能,进一步证实了本发明所提方法的有效性。

表2各模型在各时延环境下的流感知性能对比

上述说明是针对本发明较佳可行实施例的详细说明,但实施例并非用以限定本发明的专利申请范围,凡本发明所提示的技术精神下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利范围。

技术分类

06120116546052