掌桥专利:专业的专利平台
掌桥专利
首页

3D目标检测方法、电子设备及存储介质

文献发布时间:2023-06-29 06:30:04


3D目标检测方法、电子设备及存储介质

技术领域

本发明属于计算机视觉技术领域,具体地说,是涉及目标检测技术,更具体地说,是涉及3D目标检测方法、电子设备及存储介质。

背景技术

随着人工智能与深度学习技术的出现与快速发展,计算机视觉进入了“学习”阶段,数据的积累以及计算能力的提高给这种“学习”提供了实践的基本素材和可以高强度劳作的“体魄”。作为计算机视觉领域中重要的研究方向之一的目标检测已广泛应用于虚拟世界与现实世界的交互、无人驾驶、智能感知、机器人定位等产业领域,而2D目标检测因其平面维度的局限制约其发展,已经不能够满足人们的需要,取而代之的3D目标检测成为了众多行业的争相关注的焦点和研究的主流。

传统的3D目标检测算法中常用的两模态数据关联策略是Hard-Association(硬关联),即使用两传感器(相机、激光雷达)之间的校准矩阵对像素点与激光雷达点进行逐点级关联,由于两传感器之间固有的时空差距,导致两传感器之间的校准矩阵不能实现精准的校准,造成两个模态数据之间的关联误差,影响最终的检测结果。

为避免硬关联带来的弊端,现有技术提出了基于Soft-Association(软关联)的关联策略,即不使用两传感器之间的校准矩阵,在相机流中通过深度神经网络对图像中检测目标的深度信息进行预测,进而使用相机的内外参矩阵将2D像素点信息提升到3D空间中,生成3D图像体素信息。从而,使得相机采集的图像数据能够与激光雷达采集的点云数据处于统一的3D空间,突破两个模态数据维度上的界限。例如,公开号为CN114445310A的中国专利申请公开了一种3D目标检测方法、装置、电子设备和介质,3D目标检测方法包括:获取场景中的图像数据以及激光点云数据;根据图像数据进行特征处理,生成鸟瞰图特征;根据激光点云数据,进行特征处理,生成激光点云特征;将鸟瞰图特征与激光点云特征进行特征融合,得到融合后的特征;根据融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;对3D目标框进行损失计算。其中,图像数据包括多相机图像信息,根据多相机图像信息进行特征编码,得到多相机编码特征;将多相机编码特征输入Transformer模型,进行特征解码生成鸟瞰图特征。该专利申请公开的技术方案中,将图像数据生成鸟瞰图特征的过程中,需要将图像信息进行3D投影得到伪3D信息,然后对伪3D信息在高度方向上压缩,转换为鸟瞰图特征。该技术方案其虽然将图像特征的维度扩充到与点云的关键点特征相同的维度,能够实现两种数据的软关联。但是,其融合阶段是在鸟瞰图中完成,导致融合得到的高度特征信息丢失,影响目标检测精度。而且,融合过程是先将图像信息与点云信息进行简单的拼接,然后使用时序神经网络进行卷积处理,该过程并未充分利用两个模态信息的各自优势,造成不同模态信息中有用信息的丢失,影响目标检测精度。另外,在该技术方案中,将多相机图像信息进行特征编码后使用Transformer模型将特征编码为鸟瞰图特征,由于Transformer模型算法参数量太大,况且多视图数据本身体量就很大,这一做法势必会造成整体目标检测方法的低效。

公开号为CN115375731A的中国专利申请公开了一种关联点和体素的3D点云单目标跟踪方法及相关装置,公开了利用Mini-PointNet(迷你点云网络)进行特征聚合,具体方案为:将搜索区域内的种子点云数据根据相似度度量寻找k近邻,每个搜索区域种子点与k个模板区域种子点配对,将搜索区域种子点特征分别和k个对应匹配模板种子点坐标和特征以及九个距离进行连接,随后使用Mini-PointNet进行特征聚合得到张量,实现点级特征融合。该专利申请公开的技术方案中,Mini-PointNet模块针对原始未经过体素化的点云数据,其点云数据是离散且稀疏的,需要Mini-PointNet模块进行点级局部特征提取,通过计算局部区域内的点的坐标转换为相对该区域中心点的坐标后,进而完成局部特征编码,每一个局部区域相当于一个感受野,通过不断叠加Mini-PointNet模块以达到卷积的效果,实现3D特征的提取。整个特征聚合过程复杂,效率低,难以满足目标检测的实时性要求。

发明内容

本发明的目的之一在于提供一种3D目标检测方法,解决现有技术存在的检测准确性及实时性低的问题。

为实现上述发明目的,本发明采用下述技术方案予以实现:

一种3D目标检测方法,所述方法包括:

获取原始数据:获取待检测目标的点云数据和图像数据;

获取3D点云体素特征:将所述点云数据体素化,获得网格数据;对所述网格数据进行特征提取,获得3D点云体素特征;

获取3D图像体素特征:将所述图像数据进行特征编码,获得图像深度特征;利用相机的参数矩阵和所述图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征;

特征融合:

将所述3D点云体素特征和所述3D图像体素特征在空间维度进行拼接,获得第一拼接特征;

将所述第一拼接特征中的每个体素块输入3D融合体素特征编码器模块进行局部特征信息融合,获得局部融合后体素特征;

将所述局部融合后体素特征输入所述3D融合体素特征编码器模块进行全局特征信息融合,获得全局融合后体素特征;

将所述局部融合后体素特征和所述全局融合后体素特征进行拼接,获得第二拼接特征,将所述第二拼接特征卷积处理后,利用Softmax函数生成注意力掩码;

将所述注意力掩码与所述3D点云体素特征进行逐元素点积,获得增强后点云体素特征;将所述注意力掩码与所述3D图像体素特征进行逐元素点积,获得增强后图像体素特征;

将所述增强后点云体素特征和所述增强后图像体素特征相加,生成融合后特征;

将所述融合后特征输入Anchor-Free检测器中进行检测,输出3D目标检测结果。

本申请的一些实施例中,将所述图像数据进行特征编码,获得图像深度特征;利用相机的参数矩阵和所述图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征,具体包括:

利用共享权重的骨干网络对所述图像数据进行特征提取,获得多视图高级语义特征;

对所述多视图高级语义特征进行3次2倍下采样,获得3个不同尺度的特征图;

在所述3个不同尺度的特征图上分别进行深度预测,获得3个不同尺度下的多视图深度特征;

对所述3个不同尺度下的多视图深度特征分别进行卷积和Softmax处理,获得3个不同尺度下的深度分布;

将所述3个不同尺度下的深度分布分别与所述多视图高级语义特征相乘,获得每个像素点的深度预测特征值;

利用由相机参数矩阵确定的从参考坐标到局部像素坐标的映射,将2D像素点提升至3D空间,获得3个不同分辨率的初始3D图像体素特征;

将所述3个不同分辨率的初始3D图像体素特征进行堆叠,获得多尺度3D图像体素融合特征;

对所述多尺度3D图像体素融合特征进行网格化处理,获得所述3D图像体素特征。

本申请的一些实施例中,对所述第一拼接特征中的每个体素块输入3D融合体素特征编码器模块进行局部特征信息融合,获得局部融合后体素特征,具体包括:

获取所述第一拼接特征中的每个体素块的位置信息索引;

利用3D卷积操作构成的模块Conv3D-Block对所述第一拼接特征中的每个体素块进行局部特征提取,获得局部特征f

利用3D卷积操作构成的模块MaxPool-3D对所述局部特征f

将所述聚合特征中的每个体素块根据所述位置信息索引放回到3D空间,获得所述局部融合后体素特征;

其中,x

本申请的一些实施例中,将所述局部融合后体素特征输入所述3D融合体素特征编码器模块进行全局特征信息融合,获得全局融合后体素特征,具体包括:

利用所述Conv3D-Block对所述局部融合后体素特征进行特征提取,获得全局特征f

利用所述MaxPool-3D对所述全局特征f

其中,y为所述局部融合后体素特征中的3D空间特征。

本申请的一些实施例中,将所述融合后特征输入Anchor-Free检测器中进行检测,输出3D目标检测结果,具体包括:

将所述融合后特征转成鸟瞰图;

将所述鸟瞰图输入Anchor-Free检测器的每个检测头中进行检测,利用检测器的总体损失函数计算损失,输出3D目标检测结果。

本发明还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上的计算机程序,所述处理器配置为执行所述计算机程序,实现上述的3D目标检测方法。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的3D目标检测方法。

与现有技术相比,本发明的优点和积极效果是:

本发明提供的3D目标检测方法,将点云数据经过特征编码生成3D点云体素特征,将图像数据经过特征编码生成3D图像体素特征,使得点云数据和图像数据这两个模态数据处于同一3D空间下,打破了两个模态数据固有的维度界限,为后续两模态数据进行深度交互奠定有利基础;将两个模态数据进行特征融合时,采用了由局部到全局的自适应注意力融合策略,利用3D融合体素特征编码器(3D-Voxel Fusion Encoder,简称为3D-VFE)分别进行局部特征信息融合和全局特征信息融合,再基于局部融合后特征和全局融合后特征生成注意力掩码,最后将注意力掩码与两个模态提取特征逐元素点积,获得最终融合后特征,达到两种不同模态数据之间的深度交互与融合,在充分提取局部特征的同时增大感受野,捕获全局信息,最大程度地增强有用特征信息、抑制无用干扰特征信息,充分发挥不同模态信息优势,进而提高了目标检测的准确性;输入至3D-VFE进行特征融合的点云数据为3D点云体素特征数据,经过体素化后的点云数据处于规则的体素网格空间中,每个网格已经包含了局部特征信息,在3D-VFE中无需再进行点级局部特征提取,利于在特征融合时高效完成对两模态数据体素特征信息的处理,进而提高了目标检测的高效性和实时性。

结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为基于本发明3D目标检测方法一个实施例的流程图;

图2为本发明3D目标检测方法另一个实施例中获取3D图像体素特征的结构示意图;

图3为图1中实现特征融合的结构示意图;

图4为图1中采用的3D-VFE模块的结构示意图;

图5为基于本发明的电子设备一个实施例的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。

需要说明的是,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

首先,简要阐述本发明的技术思路:

为解决现有3D目标检测技术存在的检测准确性低、实时性低等的技术问题,本发明创造性提出一种3D目标检测方法,该方法的输入源数据为点云数据和图像数据这两种不同模态数据,对点云数据进行体素化处理获得3D点云体素特征,对图像数据进行升维后提升到3D空间,获得3D图像体素特征;然后基于统一空间下的特征融合模块将同时处于3D空间的点云特征和图像特征进行由局部到全局的自适应注意力融合,获得融合特征;最后使用检测器对融合特征进行检测,获得3D目标检测结果。

图1所示为基于本发明3D目标检测方法一个实施例的流程图,图2所示为该实施例中实现特征融合的结构示意图。

如图1所示,该实施例采用下述过程实现3D目标检测。

S11:获取待检测目标的点云数据和图像数据。

该实施例进行3D目标检测时,由相机采集图像数据,由激光雷达采集点云数据。具体数据采集方法及过程均为现有技术,在此不作具体描述。

S12:获取3D点云体素特征和3D图像体素特征。

将步骤11获取的点云数据进行特征编码,获得3D点云体素特征。实现过程主要包括两个阶段:将点云数据体素化,获得网格数据;对网格数据进行特征提取,获得3D点云体素特征。该过程的具体实现方法可采用现有技术来实现。

在一些实施例中,对于自动驾驶车辆的3D目标检测,可采用下述过程获取由车载激光雷达采集的点云数据对应的3D点云体素特征:

点云数据体素化:

针对输入点云集P∈R

特征提取:

由于点云数据的天然稀疏性,会产生许多的空网格,即网格点属性值为∞,非空网格数量只占到总数的10%。对于此情况使用传统的逐网格进行卷积操作并不适用,会造成大量的计算资源浪费,且耗费时间。因此,采用稀疏3D卷积,利用4个稀疏卷积模块对所有网格进行特征提取,获得最终的3D点云体素特征。

将步骤11获取的图像数据进行特征编码,获得图像深度特征。然后,利用相机的参数矩阵和图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征。从而,使得图像数据与点云数据处于统一的3D空间下,打破了两个模态数据固有的维度界限,为后续两模态数据进行深度交互奠定有利基础。将图像数据由2D空间升维至3D空间而获得3D图像体素特征的具体实现方法,可采用现有技术来实现。

在其他一些实施例中,对于自动驾驶车辆的3D目标检测,对车载相机采集的图像数据采用多尺度3D图像体素特征融合网络获取3D图像体素特征,以更精细化地预测深度信息。

结合图2示出的3D目标检测方法另一个实施例中获取3D图像体素特征的结构示意图,可采用下述过程获取由车载相机采集的图像数据对应的多尺度3D图像体素特征:

利用共享权重的骨干网络21对图像数据进行特征提取,获得多视图高级语义特征。骨干网络可为ResNet50、ResNet100等残差网络。为平衡性能,优选ResNet50作为骨干网络。

对多视图高级语义特征进行3次2倍下采样,获得3个不同尺度的特征图,分别为图2中的第一尺度特征图22、第二尺度特征图23和第三尺度特征图24,。

在3个不同尺度的特征图上分别进行深度预测,获得3个不同尺度下的多视图深度特征。

对3个不同尺度下的多视图深度特征分别进行卷积和Softmax(归一化函数)处理,获得3个不同尺度下的深度分布。

将3个不同尺度下的深度分布分别与多视图高级语义特征相乘,获得每个像素点的深度预测特征值。

利用由相机参数矩阵确定的从参考坐标(X,Y,Z)到局部像素坐标(H,W,λ)的映射,将2D像素点提升至3D空间,获得3个不同分辨率的初始3D图像体素特征,分别为与第一尺度特征图22对应的第一初始3D图像体素特征25、与第二尺度特征图23对应的第二初始3D图像体素特征26、与第三尺度特征图24对应的第三初始3D图像体素特征27。其中,H、W、λ分别为高度值、宽度值、深度预测特征值。

经过上述操作,在3个不同尺度的特征图上完成了2D转3D操作。

为进一步对图像信息精细化,再将3个不同分辨率的初始3D图像体素特征25、26、27进行堆叠,获得多尺度3D图像体素融合特征;再对多尺度3D图像体素融合特征进行网格化处理,获得3D图像体素特征28。

S13:对3D点云体素特征和3D图像体素特征进行特征融合,获得融合后特征。

步骤12获得的3D点云体素特征带有精确位置信息和几何信息,而获得的3D图像体素特征含有丰富的语义信息和纹理信息,更具有辨识度,且两种模态信息都处于统一的3D体素空间下,两种模态信息可以互补,为后续的目标检测提供更为精确的特征。

为实现两种模态信息的充分交互,该步骤使用由局部到全局的自适应注意力融合策略对3D点云体素特征和3D图像体素特征进行特征融合。

结合图3示出的特征融合的结构示意图,该实施例采用下述方法进行特征融合。

首先,将3D点云体素特征V

然后,将第一拼接特征中的每个体素块

然后,将局部融合后体素特征V

然后,将局部融合后体素特征V

再然后,将注意力掩码V

最后,将增强后点云体素特征V'

其中,3D-VFE模块的结构如图4所示,其卷积模块为采用3D卷积操作构成的模块Conv3D-Block,其MaxPool(最大值池化)模块为采用3D最大值池化操作构成的模块MaxPool-3D。采用该结构的3D-VFE模块进行特征融合,能够在保留精确3D空间特征信息的的同时对点云信息进行特征提取,实现对3D空间下3D特征的高效特征提取的目的。

S14:将融合后特征输入检测器中进行检测,输出3D目标检测结果。

检测器为包含多个检测头的Anchor-Free(无锚框)检测器,在Anchor-Free检测器中对融合特征进行检测输出检测结果的具体实现方法,可采用现有技术。

在其他一些实施例中,为减少检测计算的参数量,首先将融合后特征转成鸟瞰图V

在其他一些实施例中,Anchor-Free检测器包含5个检测头,分别为目标热力图检测头、3D框尺寸检测头、目标位置偏差检测头、目标方向角检测头以及目标z轴位置检测头。

在其他一些实施例中,对第一拼接特征中的每个体素块V

获取第一拼接特征V

利用3D卷积操作构成的模块Conv3D-Block对第一拼接特征中的每个体素块

利用3D卷积操作构成的模块MaxPool-3D对局部特征f

将聚合特征中的每个体素块根据位置信息索引放回到3D空间,获得局部融合后体素特征V

其中,x

而将局部融合后体素特征输入3D-VFE模块进行全局特征信息融合,获得全局融合后体素特征,具体包括:

利用Conv3D-Block对局部融合后体素特征V

利用MaxPool-3D对全局特征f

其中,y为局部融合后体素特征中的3D空间特征。

上述个实施例提供的3D目标检测方法,将点云数据经过特征编码生成3D点云体素特征,将图像数据经过特征编码生成3D图像体素特征,使得点云数据和图像数据这两个模态数据处于同一3D空间下,打破了两个模态数据固有的维度界限,为后续两模态数据进行深度交互奠定有利基础。将两个模态数据进行特征融合时,采用了由局部到全局的自适应注意力融合策略,利用3D-VFE分别进行局部特征信息融合和全局特征信息融合,再基于局部融合后特征和全局融合后特征生成注意力掩码,最后将注意力掩码与两个模态提取特征逐元素点积,获得最终融合后特征,达到两种不同模态数据之间的深度交互与融合,在充分提取局部特征的同时增大感受野,捕获全局信息,最大程度地增强有用特征信息、抑制无用干扰特征信息,充分发挥不同模态信息优势,进而提高了目标检测的准确性。输入至3D-VFE进行特征融合的点云数据为3D点云体素特征数据,经过体素化后的点云数据处于规则的体素网格空间中,每个网格已经包含了局部特征信息,在3D-VFE中无需再进行点级局部特征提取,利于在特征融合时高效完成对两模态数据体素特征信息的处理,进而提高了目标检测的高效性和实时性。

图5示出了本发明的电子设备一个实施例的结构框图。该电子设备包括处理器51、存储器52及存储在存储器52上的计算机程序521,处理器51配置为执行计算机程序521,实现图1实施例及其他实施例的3D目标检测方法,并实现相应实施例的技术效果。

本发明的其他实施例还提供一种计算机存储介质,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时,实现图1实施例及其他实施例的3D目标检测方法,并实现相应实施例的技术效果。

上述的计算机存储介质,可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。计算机存储介质可以是通用或专用计算机能够存取的任何可用存储介质。

在一些实施例中,计算机存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于设备中。

以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

相关技术
  • 目标检测方法和装置、电子设备、存储介质、程序产品
  • 提高动目标检测精度的方法、装置、电子设备及存储介质
  • 一种动目标检测方法、装置、电子设备及存储介质
  • 存储方法、存储系统、电子设备及存储介质
  • 引导电子设备系统开机的方法,电子设备,可读存储介质
  • 单目3D目标检测方法、装置、电子设备和存储介质
  • 一种3D目标检测方法、装置、电子设备及存储介质
技术分类

06120116017321