掌桥专利:专业的专利平台
掌桥专利
首页

一种基于事件流式稀疏特性的高效目标检测方法

文献发布时间:2024-04-18 19:58:26


一种基于事件流式稀疏特性的高效目标检测方法

技术领域

本发明涉及数据处理技术领域,具体而言,尤其涉及一种基于事件流式稀疏特性的高效目标检测方法。

背景技术

基于帧相机的目标检测存在一些局限性,如在高速运动、过曝和低光照等挑战场景下性能不理想。另外,基于事件相机的目标检测方法虽然已经提出,但仍存在流式稀疏数据带来的鲁棒性和效率问题。

当像素点亮度变化在对数尺度达到阈值C时,就会产生事件。其中,亮度的正变化将会产正事件,反之产生负事件。故而,事件相机具有异步、高时间分辨率、高动态范围等特性。事件数据可以认为是一种残差数据,它可以被类比为时间误差在微秒级的两张场景图像灰度帧的的差值。这就揭示了事件数据与帧数据的根本区别。

目前的方法RED/DMANet/RVT大体上都使用的是之前的基于帧的通用模型,在mAP@0.5性能指标在1Megapixel Automotive Detection Datastet真实事件数据集上分别为39.7%/44.4%/47.4%。现有方法对流式稀疏事件数据的处理方式是将事件数据压缩成伪图像并像帧数据那样使用,忽略了事件数据的流式稀疏特性,导致目标的轮廓缺失和网络计算的浪费。

发明内容

根据上述提出传统基于帧的目标检测方法在处理流式稀疏事件时的不足,存在流式稀疏数据带来的鲁棒性和效率问题,提供一种基于事件流式稀疏特性的高效目标检测方法。本发明主要利用构建的基于事件的敏捷网络解决基于事件相机的目标检测中的浅层信息聚合和表示模糊的问题,并引入Event GT Paste数据增强机制来提升网络对流式稀疏数据的鲁棒性。

本发明采用的技术手段如下:

一种基于事件流式稀疏特性的高效目标检测方法,包括:

构建基于事件的敏捷网络;

基于构建的基于事件的敏捷网络,引入基于事件的时空目标的复制粘贴策略Event GT Copy-Paste;

将自动驾驶仿真数据集放入基于事件的敏捷网络,实现基于事件的目标检测。

进一步地,所述构建的基于事件的敏捷网络的核心模块为膨胀腐蚀长短期记忆模块,通过引入膨胀-腐蚀操作,聚合了短时间内的事件数据构成的伪图像中的信息,包括膨胀器模块和腐蚀器模块,其中:

所述膨胀器模块,使用较大感受野的空洞局部注意力机制来快速聚合时序信息,实现对邻域信息的快速高效的膨胀;

所述腐蚀器模块,结合增强后的语义信息,并通过相对尺度和绝对尺度信息匹配生成自适应的腐蚀权重,消灭特征模糊和鬼影。

进一步地,所述基于事件的时空目标的复制粘贴策略是通过引入高质量目标数据来增加网络的学习样本,提升网络的鲁棒性和预测能力,包括时序目标事件的选取和时序目标事件的粘贴,其中:

所述时序目标事件的选取,用于筛选出高质量的待粘贴目标;

所述时序目标事件的粘贴,用于将待粘贴目标数据增强后粘贴到新的数据上。

进一步地,所时序目标事件的选取,具体包括以下准则:

准则一、只有在训练序列内的连续事件帧上,并且任意连续两帧的目标满足IOU匹配关系的目标才能加入候选区;

准则二、匹配上的目标属于同一类别;

准则三、对首个伪图像中该目标的事件数量α进行筛选,确保引入的数据早期事件不过于稀疏。

进一步地,所述时序目标事件的粘贴包括随机运动方向的粘贴、随机尺寸的粘贴以及随机位置的粘贴,其中:

所述随机运动方向的粘贴,用于根据目标GT bounding box中心的竖轴为对称轴,按照概率p进行待粘贴目标的运动方向和朝向翻转;

所述随机尺寸的粘贴,用于以目标GT bounding box中心为原点,在均匀概率下获取待粘贴目标的resize尺度;

所述随机位置的粘贴,用于允许目标出现在任意合理的空间位置,包括在运动过程中不与任何已存在的目标碰撞,不被伪图像边缘截断。

较现有技术相比,本发明具有以下优点:

1、本发明提供的基于事件流式稀疏特性的高效目标检测方法,其构建的基于事件的敏捷网络通过膨胀腐蚀长短期记忆网络模块中的浅层聚合和增强特征表示,有效地处理了流式稀疏事件数据,并生成完整的目标表示。

2、本发明提供的基于事件流式稀疏特性的高效目标检测方法,提供了一种高效的方法来处理事件相机数据并改进目标检测任务的性能,同时提出了一个新颖的基于事件的数据增强方式。相比于现有的基于事件的目标检测方法,基于事件的敏捷网络(EvKeenDet)在处理流式稀疏事件数据时具有更好的效率和鲁棒性。

基于上述理由本发明可在数据处理等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明整体框架图。

图2为本发明实施例提供的乱序卷积模块结构图。

图3为本发明实施例提供的膨胀腐蚀长短期记忆网络架构图。

图4为本发明实施例提供的膨胀器与腐蚀器的结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。

此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。

本发明提供了一种基于事件流式稀疏特性的高效目标检测方法,包括:

S1、构建基于事件的敏捷网络;在本实施例中,为了解决浅层ConvLSTM问题,本实施例设计了膨胀腐蚀长短期记忆网络。它从事件数据中逐步计算时空轮廓,在短间隔内聚合信息,并在长间隔内基于聚合数据进一步聚合。膨胀腐蚀长短期记忆网络由两个重要的子模块组成,即Expander(膨胀器)和腐蚀器(Etcher)。其中的第一个子模块Expander(膨胀器)是基于扩展的局部注意机制设计的,该机制可以扩展接受域,快速聚合短期时间信息和邻域信息。腐蚀器是对长时空冗余信息进行消除,来去除我们所提出的轮廓完整表征中的模糊和噪声,可以自适应的匹配当前时刻的与历史时刻的信息,进行信息上的先对齐再融合。

具体实施时,作为本发明优选的实施方式,所述步骤S1中构建的基于事件的敏捷网络的核心模块为膨胀腐蚀长短期记忆模块,通过引入膨胀-腐蚀操作,聚合了短时间内的事件数据构成的伪图像中的信息,包括膨胀器(Expander)模块和腐蚀器(Etcher)模块,其中:所述膨胀器(Expander)模块使用较大感受野的空洞局部注意力机制来快速聚合时序信息,实现对邻域信息的快速高效的膨胀;所述腐蚀器(Etcher)模块结合增强后的语义信息,并通过相对尺度和绝对尺度信息匹配生成自适应的腐蚀权重,消灭特征模糊和鬼影。

S2、基于构建的基于事件的敏捷网络,引入基于事件的时空目标的复制粘贴策略(Event GT Copy-Paste);

具体实施时,作为本发明优选的实施方式,所述步骤S2中的基于事件的时空目标的复制粘贴策略(Event GT Copy-Paste)是通过引入高质量目标数据来增加网络的学习样本,提升网络的鲁棒性和预测能力,包括时序目标事件的选取(Event GT Copy)和时序目标事件的粘贴(Event GT Paste),其中:

所述时序目标事件的选取(Event GT Copy)用于筛选出高质量的待粘贴目标;所述Event GT Copy具体包括以下准则:

准则一、只有在训练序列内的连续事件帧上,并且任意连续两帧的目标满足IOU匹配关系(例如,IOU>0.6)的目标才能加入候选区;

准则二、匹配上的目标属于同一类别;

准则三、对首个伪图像中该目标的事件数量α进行筛选,确保引入的数据不过于稀疏(例如,要求α>500)。

在本实施例中,为了用高质量的事件数据来增强训练集,设计了一套过滤策略来选择要粘贴到现有数据上的顺序对象事件。首先,只关注第一个时间窗口中的GT区域包含丰富事件的对象序列。这有助于避免选择具有过度稀疏事件的序列,并确保复制-粘贴数据的质量。其次,只保留在连续时间窗口大于阈值之间具有IOU(交并比)的序列。此操作可以帮助挑选出与同一对象对应的一系列高质量事件。一旦过滤过程完成,就可以为每个类别获得一组高质量的对象事件序列,这些序列保存在相应的类内存库中,用于复制-粘贴数据增强。

所述时序目标事件的粘贴(Event GT Paste),用于数据增强,包括随机运动方向(RandomDirection)的粘贴、随机尺寸(RandomResize)的粘贴以及随机位置(RandomMove)的粘贴,其中:随机运动方向(RandomDirection)的粘贴用于根据目标GT bounding box中心的竖轴为对称轴,按照概率p(p=0.5)进行待粘贴目标的运动方向和朝向翻转;随机尺寸(RandomResize)的粘贴用于以目标GT bounding box中心为原点,在均匀概率下获取待粘贴目标的resize尺度;随机位置(RandomMove)的粘贴用于允许目标出现在任意合理的空间位置,包括在运动过程中不与任何已存在的目标碰撞,不被伪图像边缘截断。

S3、将自动驾驶仿真数据集放入基于事件的敏捷网络,实现基于事件的目标检测。在本实施例中,为遵循之前的研究RED/DMANet所建立的比较设置,在EventCARLA数据集上使用mAP@0.5指标评估了本发明的EvKeenDet模型和其他基于事件的模型。所有模型都使用统一的输入表示Voxel Grid体素网格事件表示。其中,因为基于帧的方法不能充分处理事件数据的时序特性,所以RetinaNet(参数量20.10M)/YOLOX-S(参数量8.94M)/YOLOX-M(参数量8.94M)等方法性能较差,分别为25.3%/43.2%/46.1%。通过观察YOLO-S和YOLO-M发现,即使参数显著增加,性能改进也很小,这表明这些非时序的模型架构无法适应事件数据,严重限制了性能。基于事件的目标检测方法RED(27.58M)在SSD方法的基础上引入了多尺度时序聚合检测,获得了46.6%的性能。DMANet(28.17M)受到RED记忆能力较差的启发,在RetineNet的基础上引入了长短双时空聚合特性,获得了59.5%的性能。而近期的高性能模型RVT-B在EventCARLA上获得了72.9%的性能结果。而这些模型都忽略了事件的流式稀疏特性,反之,考虑了事件的流式稀疏特性的本发明提供的EvKeenDet模型,在EventCARLA上获得了77.1%mAP的性能。而在使用了本发明提出的符合事件数据特性的数据增强EventGT Copy-Paste之后,性能达到了79.6%

如图1所示,本发明中目标检测网络的编码器和解码器的基础乱序卷积模块由卷积层、批量归一化层(BN层)、ReLU激活函数组成;其中,乱序卷积模块作为网络的骨干,进行特征提取任务,通过设置内部卷积模块的步长进行不同倍数的下采样。在进入目标检测网络前,首先要将流式事件体素化,转化为密集张量Voxel Grid。随后将会进入膨胀腐蚀长短期记忆网络进行信息的时空聚合。网络特征在进行时空感知之后进入具有多个乱序卷积模块的骨干网络,不断进行空间上的下采样。在获得了最后三层较小的空间分辨率特征后会执行一个自下而上的聚合过程,使语义信息传播到高分辨率特征,具体操作便是通过不断对语义信息较高的低分辨率特征进行二倍双线性插值上采样,并与高一级的高分辨率特征进行聚合。在自下而上的聚合过程结束之后,会再执行一个自上而下的聚合过程,目的是将高分辨率下的位置信息传递到低分辨率图像上,具体操作是通过不断对位置信息较高的高分辨率特征进行二倍双线性插值下采样,并与低一级的低分辨率特征进行聚合。将最终处理好的多尺度特征交付给多尺度检测头进行检测,得到最终的检测结果。

具体实施时,作为本发明优选的实施方式,如图2所示,为乱序卷积模块的结构示意图。该模块作为骨干网络中的特征提取模块使用。该模块使用1x1分组卷积在原始通道顺序上进行较少计算量的信息聚合计算。在经过特征通道洗牌后再进行3x3深度可分离卷积处理每一个通道单元。随后对特征的新的通道顺序进行重新分组,并进行1x1分组卷积。随后与原先的输入相加,形成残差结构。考虑到卷积类的模块应当具有二倍下采样进行尺度变换的功能。在有二倍特征下采样的要求时,其中的3x3深度可分离卷积步长修改为2,而对输入的跳过连接中也加入一个3x3平均池化二倍下采样,以保证尺寸的统一。总的来说,乱序卷积模块在使用较少计算量的情况下,获得了较大范围的感知。由此大幅度了提高了计算的效率,进一步提升了目标检测器的高效性能。

具体实施时,作为本发明优选的实施方式,如图3所示,为膨胀腐蚀长短期记忆网络的结构示意图。该网络作为事件时空特征的聚合层使用。该模块使用具有空洞局部注意力的膨胀器进行信息的空间线性高效计算,再将有一定语义信息的特征图结合具有去模糊先验的腐蚀模块进行处理获得自适应权重。自适应权重会对历史记忆进行腐蚀,形成更有弹性的自适应的记忆。当前输入的特征会与被腐蚀的历史隐藏状态进行连接作为当前的输入总特征。输入的总特征会经过多个S型生长挤压函数,将数值压缩到[0,1]之间,来作为软阀门,进而控制记忆门/更新门/输出门的比例。其中记忆门控制之前的细胞状态应该保留多少,更新门控制当前记忆应该流入细胞状态多少,输出门控制当前记忆状态应该如何控制输出的比例。

具体实施时,作为本发明优选的实施方式,如图4所示,为膨胀器与腐蚀器的结构示意图。其中,膨胀器作为膨胀腐蚀长短期记忆网络的输入端使用,用来快速提升特征的语义信息。膨胀器使用空洞的邻接注意力机制来计算输入特征与之前的膨胀特征连接而成的局部时空信息,从而快速精准高效的提升局部的信息质量,为网络提供有充足语义信息的输入。腐蚀器设计的初衷是用来去除模糊的区域,它将当前时刻的膨胀特征与上一时刻的膨胀特征分别进行可学习线性计算后的特征进行欧式距离绝对尺度与余弦距离相对尺度的相似度的计算,并将这两类相似度归一化到[0,1]区间,最后使用两个可学习参数来加权绝对尺度相似度和相对尺度相似度,形成最终的记忆权重来腐蚀记忆。

实施例

在本实施例中,本发明使用的EvKeenDet模型是基于NanoDet-Plus进行修改的,使用了用于标签分配的少量额外训练参数。使用AdamW优化器,初始学习率为0.001,并使用余弦退火调整训练过程中的学习率。为了恢复基于事件的目标检测范式,本发明在网络的更深层引入了ConvLSTM的一种变体,该变体经过Ghost模块的轻量化处理,并根据这个修改设计了本发明的框架。

遵循RED/DMANet中的配置,单帧伪图像的合成时间设置为50毫秒。按照DMANet的设置,将伪图像空间的分辨率设置为512x 512。在训练过程中,时间步长固定为10,对于太小的Ground Truth(GT)数据,即对角线长度小于60像素或边长小于20像素的数据,将其忽略。

为了确保网络的稳健性,选择从训练数据集中删除那些在初始事件时间步内不产生任何事件且与其他物体没有交集的Ground Truth对象(及其范围内的所有事件)。在本发明的事件GT复制粘贴方法中,将连续帧之间的IoU匹配阈值设置为α=0.6。此外,本发明对目标对象应用了一个筛选条件,在初始帧中要求它们至少具有β>500个事件。此外,本发明对每个类别的最大Class Memory Bank存储量实施了一个上限λ=2000。对于本发明的类别采样策略,建立了每个类别的采样概率与其在训练集中的有效数量之间的正线性相关关系。具体而言,将斜率设置为3.0,截距设置为500,000。本发明的RandomResize操作配置为缩放范围[0.9,1.3]。此外,本发明在第4个epoch后停用了增强策略,使网络能够从原始数据分布中进行学习。并且所有实验都在一台NVIDIA A100 Tensor Core GPU上进行。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 面向稀疏事件点的时空聚类小目标检测方法
  • 一种基于统计特性和结构特性融合的SAR图像目标检测方法
技术分类

06120116491883