掌桥专利:专业的专利平台
掌桥专利
首页

一种跨模态多任务环境感知方法及系统

文献发布时间:2024-04-18 19:58:30


一种跨模态多任务环境感知方法及系统

技术领域

本发明涉及车辆自动驾驶领域,特别是涉及一种跨模态多任务环境感知方法及系统。

背景技术

自动驾驶车辆包括感知、决策及规划控制模块,在统一框架下构建鲁棒的包含车辆周围动、静态信息的环境感知系统,有助于提升后续决策、规划任务的性能。

现有的环境感知系统以多模态传感器的观测信息为输入,首先通过数据级融合或特征级融合实现多模态信息融合,然后在不同框架下分别执行在线3D检测和离线高精度地图生成,最后将不同框架下的感知结果转换到统一空间以构建包含车辆周围动、静态信息的环境感知系统。现有方法主要存在以下缺点:

1)现有方法需要在不同的框架下分别执行在线3D检测和离线高精度地图生成,通过将不同框架下的感知结果转换到统一空间以构建环境感知系统,降低了环境感知的效率。

2)现有方法需要基于离线高精度地图来构建环境感知系统,而离线高精度地图的生成是复杂且昂贵的,难以覆盖所有道路场景,限制了自动驾驶车辆的应用范围。

3)现有基于数据级融合或特征级融合的环境感知方法不能够充分利用多模态传感器的观测信息,限制了感知系统在恶劣环境下的鲁棒性,例如传感器不对齐和恶劣天气等。

因此,充分融合车载多模态传感器的观测信息,并在统一框架下联合执行3D检测和局部高精度地图生成,对于构建高效、鲁棒的环境感知系统至关重要。

发明内容

本发明的目的是提供一种跨模态多任务环境感知方法及系统,能够在统一框架下构建高效、鲁棒的环境感知系统,实现对车辆周围动、静态信息的感知。

为实现上述目的,本发明提供了如下方案:

一种跨模态多任务环境感知方法,包括:

获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息;

利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络;

将雷达点云信息投影到图像平面得到稀疏深度图,并使用OpenCV形态学操作对稀疏深度图进行深度补全得到密集深度图;

利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到3D空间,生成图像特征点云;

利用鸟瞰图池化操作将图像特征点云转换到BEV空间,生成相机BEV特征;

将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建关联区域,并利用最大池化操作提取关联区域的关联向量;

将雷达点与对应的关联向量进行串联,实现多模态信息数据级融合,并利用第二特征提取网络提取融合后的雷达点云的特征信息,生成雷达BEV特征;

利用注意力机制在共享BEV空间中将相机BEV特征和雷达BEV特征融合,实现多模态信息BEV级融合,生成强BEV特征;

在强BEV特征上联合执行3D检测和局部高精度地图生成,构建环境感知系统。

可选地,所述第一特征提取网络为Swin-T网络。

可选地,所述利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到3D空间,生成图像特征点云,具体包括以下:

p

其中,p

可选地,所述利用鸟瞰图池化操作将图像特征点云转换到BEV空间,生成相机BEV特征,之前还包括:

利用Precalculation方法和Interval Reduction方法对鸟瞰图池化进行优化。

可选地,所述第二特征提取网络为VoxelNet网络。

可选地,所述利用注意力机制在共享BEV空间中将相机BEV特征和雷达BEV特征融合,实现多模态信息BEV级融合,生成强BEV特征,具体包括以下公式:

其中,F

一种跨模态多任务环境感知系统,包括:

观测信息获取模块,用于获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息;

图像特征提取模块,用于利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络;

图像深度图生成模块,用于将雷达点云信息投影到图像平面得到稀疏深度图,并使用OpenCV形态学操作对稀疏深度图进行深度补全得到密集深度图;

图像特征点云生成模块,用于利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到3D空间,生成图像特征点云;

相机BEV特征提取模块,用于利用鸟瞰图池化操作将图像特征点云转换到BEV空间,生成相机BEV特征;

关联向量提取模块,用于将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建关联区域,并利用最大池化操作提取关联区域的关联向量;

雷达BEV特征提取模块,用于将雷达点与对应的关联向量进行串联,实现多模态信息数据级融合,并利用第二特征提取网络提取融合后的雷达点云的特征信息,生成雷达BEV特征;

多模态特征自适应融合模块,用于利用注意力机制在共享BEV空间中将相机BEV特征和雷达BEV特征融合,实现多模态信息BEV级融合,生成强BEV特征;

多任务头模块,用于在强BEV特征上联合执行3D检测和局部高精度地图生成,构建高效、鲁棒的环境感知系统。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明所提供的一种跨模态多任务环境感知方法及系统,根据稀疏雷达点云信息生成密集深度图;利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到3D空间,生成图像特征点云;利用鸟瞰图池化操作将图像特征点云转换到BEV空间,生成相机BEV特征;将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建关联区域,并利用最大池化操作提取关联区域的关联向量;将雷达点与对应的关联向量进行串联,并利用雷达特征提取网络提取融合后的雷达点云的特征信息,生成雷达BEV特征;利用注意力机制将相机BEV特征和雷达BEV特征融合,生成强BEV特征;在强BEV特征上联合执行3D检测和局部高精度地图生成,构建高效、鲁棒的环境感知系统;即通过基于深度指导的相机视角转换、基于区域关联的数据级融合和基于注意力机制的BEV级融合来充分利用多模态传感器的观测信息,生成强BEV特征,提升环境感知系统在恶劣环境下的鲁棒性;在统一框架下联合执行3D检测和局部高精度地图生成,实现对车辆周围动、静态信息的感知,提升环境感知系统的效率。本发明提供一种跨模态多任务环境感知方法及系统,用以解决当前环境感知系统效率低、对恶劣环境鲁棒性差的问题,实现对车辆周围动、静态信息高效且鲁棒的感知。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种跨模态多任务环境感知方法流程示意图;

图2为本发明所提供的一种跨模态多任务环境感知系统原理示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种跨模态多任务环境感知方法及系统,能够在统一框架下构建高效、鲁棒的环境感知系统,实现对车辆周围动、静态信息的感知。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,本发明所提供的一种跨模态多任务环境感知方法,包括:

S101,获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达(Lidar)获取的雷达点云信息。

S102,利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络。

作为一个具体的实施例,所述第一特征提取网络为Swin-T网络。使用Swin-T网络提取1/4、1/8和1/16输入尺寸的图像特征并构建特征金字塔网络(分别称为L1、L2和L3)。

S103,将雷达点云信息投影到图像平面得到稀疏深度图,并使用OpenCV形态学操作对稀疏深度图进行深度补全得到密集深度图。

S104,利用全卷积网络将密集深度图与特征金字塔网络中L3层(最深层)的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到3D空间,生成图像特征点云。

首先基于融合特征预测像素p处的上下文向量c和|D|个均匀分布的离散深度概率α

p

其中,p

S105,利用鸟瞰图(BEV)池化操作将图像特征点云转换到BEV空间,生成相机BEV特征。

S105之前还包括:

利用Precalculation方法和Interval Reduction方法对鸟瞰图池化进行优化。

S106,将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建3×3关联区域,并利用最大池化操作提取关联区域的关联向量。

S107,将雷达点与对应的关联向量进行串联,实现多模态信息数据级融合,利用第二特征提取网络提取融合后的雷达点云的特征信息,生成雷达BEV特征;所述第二特征提取网络为VoxelNet网络。

S108,利用注意力机制在共享BEV空间中将相机BEV特征和雷达BEV特征融合,实现多模态信息BEV级融合,生成强BEV特征;强BEV特征同时保留了雷达点云的几何信息、图像的语义信息和多模态传感器的关联性信息。

S108具体包括以下公式:

其中,F

S109,在强BEV特征上联合执行3D检测和局部高精度地图生成,构建高效、鲁棒的环境感知系统,实现对车辆周围动、静态信息的感知。

如图2所示,本发明所提供的一种跨模态多任务环境感知系统,包括:

观测信息获取模块,用于获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息;

图像特征提取模块,用于利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络。

图像深度图生成模块,用于将雷达点云信息投影到图像平面得到稀疏深度图,并使用OpenCV形态学操作对稀疏深度图进行深度补全得到密集深度图。

图像特征点云生成模块,用于利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到3D空间,生成图像特征点云。

相机BEV特征提取模块,用于利用鸟瞰图池化操作将图像特征点云转换到BEV空间,生成相机BEV特征;

关联向量提取模块,用于将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建关联区域,并利用最大池化操作提取关联区域的关联向量。

雷达BEV特征提取模块,用于将雷达点与对应的关联向量进行串联,实现多模态信息数据级融合,利用第二特征提取网络提取融合后的雷达点云的特征信息,生成雷达BEV特征。

多模态特征自适应融合模块,用于在共享BEV空间中利用注意力机制将相机BEV特征和雷达BEV特征融合,生成强BEV特征。

多任务头模块,用于在强BEV特征上联合执行3D检测和局部高精度地图生成,构建高效、鲁棒的环境感知系统。

其中,图像特征提取模块、图像深度图生成模块、图像特征点云生成模块及相机BEV特征提取模块构成相机编码器分支;关联向量提取模块、雷达BEV特征提取模块构成雷达编码器分支。

本发明公开了以下技术效果:

1)本发明以车载多模态传感器的观测信息为输入,通过在统一框架下联合执行3D检测和局部高精度地图生成,实现对车辆周围动、静态信息的感知,提升了环境感知系统的效率。

2)本发明通过基于深度指导的相机视角转换、基于区域关联的数据级融合和基于注意力机制的BEV级融合来充分利用多模态传感器的观测信息,生成强BEV特征,提升了环境感知系统在恶劣环境下的鲁棒性。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种多模态传感器协同感知方法及系统
  • 一种基于字典学习的对抗跨模态检索方法和系统
  • 一种融合监督信息的跨模态哈希检索方法和系统
  • 一种基于注意力感知机制的跨模态哈希检索方法及系统
  • 一种基于注意力感知机制的跨模态哈希检索方法及系统
技术分类

06120116504850