基于语义分割引导的单阶段三维点云目标检测方法
文献发布时间:2024-05-31 01:29:11
技术领域
本发明涉及信号处理技术领域,尤其涉及一种基于语义分割引导的单阶段三维点云目标检测方法。
背景技术
目标检测是自动驾驶环境感知系统的重要任务。由于激光雷达能够获取到空间信息并且不受外界光照的影响,点云逐渐成为探测车辆、行人与其他目标不可或缺的数据类型。然而由于点云的不规则性与不均匀性,三维目标检测仍然面临许多挑战。
当前三维点云目标检测方法大致可分为三类:基于点的方法、基于体素的方法与基于点-体素的混合方法。点方法直接对原始点云进行操作,在下采样期间丢失了许多点,这有利于减少计算量,但是会影响检测性能。
语义分割在目标检测中起到重要作用并会直接影响到最终性能。现在已有方法对前景点估计得分,并根据得分引导点云采样算法帮助在下采样阶段保留更重要的前景点,但是简单的两层网络只能过滤掉一些高分背景点,这优于最远点采样方法,但是仍然没有办法准确区分前景点与背景点。点云数据量大,计算速度很慢,提升准确率需要更复杂的模型与更大的计算量,直接将语义分割用于模型中会减慢推理速度,推理速度慢使得语义分割模块在实时自动驾驶系统中无法发挥最大作用。
发明内容
为解决上述技术问题,本发明提出了一种基于语义分割引导的单阶段三维点云目标检测方法,将每个下采样模块之后的点特征聚合到最终的候选点上,并且将语义分割和中心估计视为预测任务,这种辅助网络只在训练时起作用,在推理阶段是分离的。同时本发明以极低的计算成本设计外部注意力模块,以捕捉点云之间的长距离联系,这大大提升了点云理解的技术水平。因此,本发明将语义分割放在辅助网络中,只在训练阶段使用,以使三维点云目标检测的过程简易、可靠。
为实现上述目的,本发明采用如下技术方案:
一种基于语义分割引导的单阶段三维点云目标检测方法,包括如下步骤:
步骤1,将原始点云输入至骨干网络中,经过三层SA模块提取全局特征,其中外部注意力机制模块被添加在第二层SA模块之后;
步骤2,为下采样之后的点产生一个偏移量,将偏移量加在原始点上生成候选点,用于产生最后的结果并输出;
步骤3,辅助网络模块将三层SA模块得到的下采样点特征聚合到候选点上,定义候选点分割与中心预测两个辅助任务让候选点感知物体结构。
进一步地,所述步骤1包括:
步骤1.1将原始点云下采样,将下采样后的点聚合周围固定半径邻居的特征,重复以上步骤3次,称为SA1,SA2,SA3。
进一步地,所述步骤1还包括:
步骤1.2在SA2模块后加入外部注意力模块,所述外部注意力模块得到计算公式如下:
F
其中,M是外部记忆单元,独立于整体数据样本的可学习参数,用于计算每个点之间的相似性并建立微观关系,使用两个不同的存储单元M
步骤1.3分别对A的行和列进行归一化,公式如下:
其中,
使用A中的相似度更新来自M中的输入特征;
步骤1.4计算多头注意力,特征图经过线性层之后被划分成多个头部{h
h
F
=Concat(h
其中,
步骤1.5计算输出:使用残差模块进一步提升特征表征能力,最终的输出如下:
F
其中,F
进一步地,所述步骤2包括:
步骤2.1将所述候选点视为中心点,找到每个候选点的周围点,并将它们的归一化位置和语义特征作为输入进行连接,最后应用MLP层提取特征;
步骤2.2使用所述特征进行回归和分类。
进一步地,所述步骤3包括:
步骤3.1,定义辅助网络:{(p
其中:
其中,i与j为任意两个点的序号,||·||
是一个球形区域,在每个SA模块中每个阶段中分别对应半径为0.05m,0.1m和0.2m;
将不同阶段的特征拼合在一起得到候选点的多尺度特征f
其中,
步骤3.2,逐点分割任务以指导主干区分物体边界,使用sigmoid函数预测每个点属于前景点与背景点的概率
其中:
其中,α和γ是超参数,根据经验,这里设置为0.25和2;L为分割任务损失函数,N
步骤3.3,为了进一步提高定位精度,使用另一个辅助任务学习每个目标点到目标中心的距离,定义
其中,N
结合候选点分割和中心估计任务,骨干网络学习结构感知特征,并显著提高定位精度。
有益效果:
本发明引入外部注意力机制模块与辅助网络模块,其中外部注意力机制模块可以捕捉点云样本之间的长距离联系,提升了下采样过程获取的点云质量;辅助网络模块使用语义分割和中心预测作为预测结果,提高了目标的中心位置和边界的识别能力。算法能够实现实时推理,运算速度非常快。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于语义分割引导的单阶段三维点云目标检测方法流程示意图;
图2为本发明实施例提供的外部注意力机制示意图;
图3为本发明实施例提供的辅助网络示意图;
图4a,图4b,图4c,图4d,图4e,图4f,图4g,图4h,图4i,图4j,图4k,图4l为本发明在KITTI数据集测试集结果示意图,其中图4b、图4d、图4f、图4h、图4j、图4l为该方法在六种不同场景下的检测结果,图4a、图4c、图4e、图4g、图4i、图4k为该方法在点云上检测框投影到对应的图片上的结果。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的基于语义分割引导的单阶段三维点云目标检测方法主要包括以下步骤:
步骤1,将原始点云输入至骨干网络中,经过三层SA模块提取全局特征,其中外部注意力机制模块PCEA被添加在SA2之后,如图2所示,包括:
步骤1.1,将原始点云下采样,将下采样后的点聚合周围固定半径邻居的特征,重复以上步骤3次,称为SA1,SA2,SA3。
步骤1.2,在SA2模块后加入外部注意力模块,外部注意力模块的计算公式如下:
F
其中,M是外部记忆单元,独立于整体数据样本的可学习参数,可用于计算每个点之间的相似性并建立微观关系,使用两个不同的存储单元M
步骤1.3,分别对A的行和列进行归一化,即“双重归一化”,公式如下:
其中,
最后,使用A中的相似度更新来自M中的输入特征。
步骤1.4,计算多头注意力。多头注意力机制可以捕捉样本之间的不同关系,从而提升了单头注意力的性能。对多头注意力也使用了类似的方法,特征图经过线性层之后被划分成多个头部{h
h
F
=Concat(h
其中,
步骤1.5,计算输出。使用残差模块进一步提升特征表征能力,最终的输出如下:
F
其中,F
步骤2,为下采样之后的点产生一个偏移量,将偏移量加在原始点上生成候选点,用于产生最后的结果并输出,包括:
步骤2.1,将这些候选点视为中心点,找到每个候选点的周围点,并将它们的归一化位置和语义特征作为输入进行连接。最后应用全连接层提取特征。
步骤2.2,使用这些特征进行回归和分类。
步骤3,利用辅助网络模块将各个阶段下采样点特征聚合到候选点上,定义候选点分割与中心预测两个辅助任务让候选点感知物体结构,如图3所示,包括:
步骤3.1,定义辅助网络:{(p
其中:
其中,i与j为任意两个点的序号,||·||
是一个球形区域,在SA1,SA2,SA3中每个阶段中分别对应半径为0.05m,0.1m和0.2m。上述方法在SA模块的不用阶段执行,并且不同阶段的特征拼合在一起即可得到候选点的多尺度特征f
步骤3.2,逐点分割任务以指导主干区分物体边界。使用sigmoid函数预测每个点属于前景点与背景点的概率
其中:
其中,α和γ是超参数,根据经验,这里设置为0.25和2。L
步骤3.3,为了进一步提高定位精度,使用另一个辅助任务学习每个目标点到目标中心的距离。这种内在关系可以帮助确定目标的比例与形状,从而实现更准确的定位。定义
其中,N
结合候选点分割和中心估计任务,骨干网络能够学习结构感知特征,并显著提高定位精度。
为了验证本发明的有效性,使用KITTI数据集进行如下仿真实验。数据集包括7481个训练样本与7518个测试样本,其中训练集3712个样本,测试集3769个样本。基于目标得大小与遮挡情况,数据集包括三个难度级别:简单(Easy)、中等(Mod.)与困难(Hard)。平均精度(Average precision,AP)是主要评价指标,Point-based为点方法,Voxel-based为体素方法,PV-based为点体素混合方法,Car 3D Detection、Ped.3D Detection、Cyc.3DDetection分别为该方法在汽车、行车、骑行者三个类别的结果,结果展示如下:
图4a-图4l为可视化检测结果,为了更好的观察,将三维预测框投影至图片。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
- 基于相邻框投票的单阶段三维点云目标检测方法
- 一种解耦分类与回归任务的三维点云单阶段目标检测方法