一种基于级联框架的三维多模态目标检测方法
文献发布时间:2024-04-18 20:02:18
技术领域
本发明属于3D目标检测技术领域,具体涉及一种基于级联框架的三维多模态目标检测方法。
背景技术
目标检测是计算机视觉领域的传统任务,与图像识别不同,目标检测不仅需要识别出图像上存在的物体,给出对应的类别,还需要将该物体的位置通过最小包围框的方式给出。3D目标检测是从3D传感器数据中检测物理对象,估计出3D边界框并指定特定类别,是三维场景感知和理解的核心。随着各种类型的3D传感器的发明与使用,成千上万的下游应用程序如自动驾驶、家务机器人和增强虚拟现实等如雨后春笋般涌现。
根据模型和传感器的输入方式可以将3D目标检测分为基于LiDAR的3D目标检测、基于图像的3D目标检测以及基于多模态的3D目标检测。点云数据和深度图像数据与一般的图像不同。点云是稀疏、不规则的,需要设计特殊模型提取特征。而深度图是密集紧凑,深度像素存的是3D信息,而不是RGB值。基于LiDAR和图像的3D目标检测算法分别在点云和图像上设计不同的特征提取器来进行检测任务,而多模态的3D目标检测算法将两个不同维度的特征进行融合,充分利用两种数据的优点,成为现阶段3D目标检测的热门方向。
基于图像的3D目标检测方法与2D目标检测方法最为相似,这些方法仅将图像作为输入,提供颜色属性和纹理信息。因此缺乏深度信息,无法充分利用深度信息成为其影响性能的决定性因素。点云有丰富的空间信息,基于点云的目标检测算法将点云作为输入,充分利用其空间特性。由于点云是不规则的和无序的,直接卷积不能起到很好的效果。卷积的本质是稀疏交互和权值共享,其内核已经被证明能够通过中心像素及其相邻像素的加权和进而有效利用规则域中的空间局部相关性。然而,卷积不适用于数据以不规则的形式表示的情况,因此基于点云的方法通常分为基于多视图、体素以及点云的方法。
(1)基于多视图的方法
基于多视图的方法首先将稀疏点云转换为前视图或鸟瞰视图表示,这两种表示方法是稠密有规则的,主要是为了利用CNN和标准2D检测方法,但是投影过程中会损失大量的有用信息。
(2)基于体素的方法
这种方法通常将不规则点云转换为紧凑形状的体积表示,以便通过三维卷积神经网络有效地提取用于3D检测的点特征。人们相信基于体素的方法在计算上是有效的,但由于离散化过程中的信息丢失,导致细粒度定位精度降低。
(3)基于点云的方法。
这些方法通常利用原始点云,主要有两种方法:PointNet(++)及其变体或图形神经网络。通常,它们尽可能保留原始点云的几何图形。然而,与体素相比,三维空间中的点检索不利于硬件的高效实现。
多模态目标检测算法将点云和图像作为输入,旨在通过融合多模态的数据而提取各种模态的有用信息。从理论上讲,图像信息是稠密的和规则的,包含了丰富的色彩信息和纹理信息。但是缺点为图像是二维信息,存在由于远近而导致的视差问题。相对图像而言,点云的表达为稀疏的,不规则的,这也就使得采用传统的卷积感知在点云上直接处理是不可行的。但是点云包含了三维的几何结构和深度信息,这是对3D目标检测更有利的,因此二者信息是存在理论上的互补的。如何利用好两种数据的优点是多模态目标检测算法中的一个难题。因此,当前急需探索一种全新的多模态目标检测算法,来应对3D目标检测中的种种挑战。
发明内容
本发明提供了一种基于级联框架的三维多模态目标检测方法,解决了现有的多模态3D检测方法在不同维度特征下融合效果差的问题。
为了解决上述技术问题,本发明的技术方案为:一种基于级联框架的三维多模态目标检测方法,包括以下步骤:
S1、将点云输入至3D骨干检测网络中,提取原始点云特征,并得到预选框;
S2、通过深度补全生成伪点云,使用预选框裁剪伪点云,通过伪点云特征提取网络对裁剪的伪点云进行卷积,得到伪点云特征;
S3、通过多级注意力特征融合模块将伪点云特征与原始点云特征进行多级融合,得到融合特征;
S4、将融合特征输入至级联注意力网络,得到每一级边界框;
S5、通过投票机制对每一级边界框进行投票,得到最终目标检测结果。
本发明的有益效果是:本发明通过深度补全生成伪点云,伪点云具备颜色信息,同时点数更加稠密,更加利于检测。同时提出一种全新的特征提取模块,能够有效的提取伪点云丰富的信息,并提出一种全新的特征融合模块,将伪点云特征与点云特征进行多级融合,可以有效的避免特征维度不同的问题,有效的提升检测精度,最后通过每一个级联结构所生成的边界框会传递到下一个级联的结构参与预测,能够提高模型对大小物体的检测精度。因此本发明解决了现有的多模态3D检测方法在不同维度特征下融合效果差的问题。
进一步地,所述步骤S2的具体步骤为:
S21、将点云转化为深度图,利用深度图与所对应的图像生成深度补全后的深度图;
S22、将深度补全后的深度图转化为伪点云;
S23、使用预选框对伪点云进行裁剪,得到裁剪的伪点云;
S24、通过伪点云特征提取网络对裁剪的伪点云进行领域搜索,得到裁剪伪点云的位置坐标、位置特征以及颜色特征,并通过位置坐标得到位置残差;
S25、对裁剪伪点云分别在颜色特征和位置特征上进行卷积,并通过位置残差对卷积后的颜色特征与位置特征进行加权,得到伪点云特征。
上述进一步方案的有益效果为:通过深度补全生成稠密的深度图,生成伪点云,伪点云相比较点云具备颜色信息,同时点数更加稠密,利于检测,同时,通过伪点云特征提取网络提取伪点云特征可以充分减少不必要的计算量,降低耗时。
进一步地,所述步骤S22中伪点云表示为(x
进一步地,所述步骤S3的具体步骤为:
S31、通过多级注意力特征融合模块将伪点云特征与原始点云特征分别在局部特征维度上和全局特征维度上进行融合,得到局部特征与全局特征;
S32、通过软选择将局部特征与全局特征进行融合,得到融合特征。
上述进一步方案的有益效果为:局部特征更注重细节,全局特征注重整体性,将两者进行融合作为最终特征可以有效提高识别精度。
进一步地,所述步骤S3中局部特征的计算公式为:
L(F)=BN(Conv
其中,L(F)表示输入特征为F的局部特征,F表示输入的伪点云特征或原始点云特征,BN(·)表示批标准化,δ(·)表示ReLU激活函数,Conv
所述步骤S3中全局特征的计算公式为:
G(F)=L(GAP(F))
其中,G(F)表示输入特征为F的全局特征,GAP(F)表示对输入特征F进行全局池化,L(·)表示局部特征;
所述步骤S3中软选择的计算公式为:
Z=δ'(L(F)+G(F))×L(F)+(1-δ'(L(F)+G(F)))×G(F)
其中,Z表示融合特征,δ'(·)表示Sigmoid函数。
进一步地,所述步骤S4的具体步骤为:
S41、通过级联注意力网络中的第j个级联模块,将每个融合特征
S42、将第j级拼接特征与前j-1级的最终特征进行拼接,得到第j级特征
S43、随机生成权重矩阵W
S44、将权重系数Q
上述进一步方案的有益效果为:使用级联框架,将上一级的检测结果与位置信息编码后传递给下一级,逐级提高IOU的阈值,使得检测精度得到有效的提升,同时通过多头注意力机制来使得模型能够捕捉融合后特征更丰富的表示。
进一步地,所述步骤S44中第j级最终特征的表达式为:
其中,
进一步地,所述步骤S41级联注意力网络包括三个级联模块,所述三个级联模块的IOU阈值分别设置为0.5、0.55以及0.6。
附图说明
图1为本发明基于级联框架的三维多模态目标检测方法的流程图。
图2为本发明伪点云与点云对比的示意图。
图3为本发明伪点云卷积模块示意图。
图4为本发明在KITTI测试数据集上的检测结果。
具体实施方式
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
实施例
如图1所示,本发明提供了一种基于级联框架的三维多模态目标检测方法,包括以下步骤:
S1、将点云输入至3D骨干检测网络中,提取原始点云特征,并得到预选框;
S2、通过深度补全生成伪点云,使用预选框裁剪伪点云,通过伪点云特征提取网络对裁剪的伪点云进行卷积,得到伪点云特征;
S3、通过多级注意力特征融合模块将伪点云特征与原始点云特征进行多级融合,得到融合特征;
S4、将融合特征输入至级联注意力网络,得到每一级边界框;
S5、通过投票机制对每一级边界框进行投票,得到最终目标检测结果。
所述步骤S2的具体步骤为:
S21、将点云转化为深度图,利用深度图与所对应的图像生成深度补全后的深度图;
S22、将深度补全后的深度图转化为伪点云;
S23、使用预选框对伪点云进行裁剪,得到裁剪的伪点云;
S24、通过伪点云特征提取网络对裁剪的伪点云进行领域搜索,得到裁剪伪点云的位置坐标、位置特征以及颜色特征,并通过位置坐标得到位置残差;
S25、对裁剪伪点云分别在颜色特征和位置特征上进行卷积,并通过位置残差对卷积后的颜色特征与位置特征进行加权,得到伪点云特征。
本实施例中,点云具有不规则性和稀疏性,因此将点云和图像进行融合存在困难。图像的像素是稠密的,有规律的,如果简单对两者进行加权融合,那么会造成大量有用图像像素点的浪费。
深度补全利用深度图和图像,通过已知的像素点的深度去预测未知像素点的深度,最终生成稠密的深度图。由于深度图和点云之间具有转换关系,将深度补全后的深度图转化为点云之后,就得到伪点云,伪点云相比较点云具备颜色信息,同时点数更加稠密,利于检测,如图2所示,其中,图2(a)、图2(c)和图2(e)为点云转化的深度图,图2(b)、图2(d)和图2(f)为深度补全后的深度图。
同时,通过伪点云特征提取网络中的伪点云卷积模块,如图3所示,在伪点云的颜色特征和位置特征上分别进行卷积,然后通过位置残差对卷积后的颜色特征和位置特征进行加权。
伪点云卷积模块相比于当前流行的PointNet(++)网络结构,将时间复杂度从O(6×K×N×C'×3×K×N×C')降到了O((N×3×C'+N×K×3×C')×3×K×N×C'),其中,C'和K均表示经过全卷积层后的输出维度,N表示伪点云的点数。通过伪点云卷积模块提取特征可以充分减少不必要的计算量,降低耗时。
所述步骤S22中伪点云表示为(x
所述步骤S3的具体步骤为:
S31、通过多级注意力特征融合模块将伪点云特征与原始点云特征分别在局部特征维度上和全局特征维度上进行融合,得到局部特征与全局特征;
S32、通过软选择将局部特征与全局特征进行融合,得到融合特征。
本实施例中,通过多级注意力特征融合模块将伪点云特征与点云特征融合可以有效的避免特征维度不同的问题。
所述步骤S3中局部特征的计算公式为:
L(F)=BN(Conv
其中,L(F)表示输入特征为F的局部特征,F表示输入的伪点云特征或原始点云特征,BN(·)表示批标准化,δ(·)表示ReLU激活函数,Conv
所述步骤S3中全局特征的计算公式为:
G(F)=L(GAP(F))
其中,G(F)表示输入特征为F的全局特征,GAP(F)表示对输入特征F进行全局池化,L(·)表示局部特征;
所述步骤S3中软选择的计算公式为:
Z=δ'(L(F)+G(F))×L(F)+(1-δ'(L(F)+G(F)))×G(F)
其中,Z表示融合特征,δ'(·)表示Sigmoid函数。
所述步骤S4的具体步骤为:
S41、通过级联注意力网络中的第j个级联模块,将每个融合特征
S42、将第j级拼接特征与前j-1级的最终特征进行拼接,得到第j级特征
S43、随机生成权重矩阵W
S44、将权重系数Q
所述步骤S44中第j级最终特征的表达式为:
其中,
所述步骤S41级联注意力网络包括三个级联模块,所述三个级联模块的IOU阈值分别设置为0.5、0.55以及0.6。
本实施例中,对于每个融合特征
随机生成权重矩阵W
因此,对于每个级联模块中得到的最终特征会传递给下一级的级联模块,通过级联的方式,可以同时提高模型对大目标和小目标的检测精度。
本实施例使用三个级联模块的结构,其中IOU的阈值分别设置为0.5、0.55以及0.6。通过级联模块,不断调整IOU的阈值,使得模型能够同时提升对大物体和小物体的识别精度。
如图4所示,为在KITTI测试数据集上的检测结果,由此可见本发明能够充分提取伪点云中的深度信息及颜色信息,位置残差加权后得到最终的伪点云特征,同时使用伪点云特征与点云特征融合有效避免特征维度不同的问题,并且使用级联框架,提高对大小物体的检测精度,使得总体检测精度得到有效的提升。