掌桥专利:专业的专利平台
掌桥专利
首页

语义表示的处理方法、装置、电子设备及计算机存储介质

文献发布时间:2024-04-18 20:01:23


语义表示的处理方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及自动驾驶技术领域,特别是涉及一种语义表示的处理方法、一种语义表示的处理装置、一种电子设备及一种计算机可读存储介质。

背景技术

自动驾驶任务的最新趋势可分为流水线和端到端两种范式。流水线范式将驾驶分解成顺序模块任务,主要包括定位,场景重建,路径规划,驾驶控制等。端到端驾驶范式多应用应用状态-动作的模仿学习或强化学习调解特征表示状态,以教导智能体在给定的驾驶环境下正确行事。

然而,流水线范式往往是为了特定的感知任务设计的,而不是一个综合的,全面的状态表示。所以当前的这些3D驾驶特征融合方法并不完全适合全面的端对端驾驶任务。

另外,端到端驾驶范式需要在不同的模态中进行单独的分支处理,然后通过注意力完成最终的融合,但是,这种融合是纯几何融合,会阻碍综合复杂的城市端到端驾驶的性能,因为几何变换和网络下采样可能会丢失自动驾驶的特殊系信息,例如远处的红绿灯。

发明内容

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语义表示的处理方法、一种语义表示的处理装置、一种电子设备和一种计算机可读存储介质。

为了解决上述问题,本发明实施例公开了一种语义表示的处理方法,所述方法包括:

从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征;

对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征;

将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记;

基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示;

基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。

在一个或多个实施例中,所述对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征,包括:

采用单调到鸟瞰图转换注意力对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征。

在一个或多个实施例中,所述采用单调到鸟瞰图转换注意力对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征,包括:

将所述平视图特征进行切割,得到多个平视图特征向量,以及,将所述雷达特征进行切割,得到多个雷达特征向量;

将所述多个平视图特征向量与所述多个雷达特征向量进行几何融合,得到融合后的特征向量;

将所述融合后的特征向量通过注意力机制分别映射为平视图特征和雷达鸟瞰图特征。

在一个或多个实施例中,基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示,包括:

采用具有位置嵌入的编码器,将所述平视图特征块和所述雷达鸟瞰图特征块的语义标记在预设语义空间中进行空间特征对齐,得到对齐后的语义表示。

在一个或多个实施例中,所述基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示,包括:

采用掩膜按照预设比例对所述语义表示进行遮盖,得到包含遮盖部分的语义表示;

对所述遮盖部分进行重建,得到重建后的语义表示。

相应的,本发明实施例还公开了一种语义表示的处理装置,所述装置包括:

提取模块,用于从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征;

转换模块,用于对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征;

标记模块,用于将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记;

对齐模块,用于基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示;

重建模块,用于基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。

在一个或多个实施例中,所述转换模块,具体用于:

采用单调到鸟瞰图转换注意力对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征。

在一个或多个实施例中,所述转换模块,具体用于:

将所述平视图特征进行切割,得到多个平视图特征向量,以及,将所述雷达特征进行切割,得到多个雷达特征向量;

将所述多个平视图特征向量与所述多个雷达特征向量进行几何融合,得到融合后的特征向量;

将所述融合后的特征向量通过注意力机制分别映射为平视图特征和雷达鸟瞰图特征。

在一个或多个实施例中,所述对齐模块,具体用于:

采用具有位置嵌入的编码器,将所述平视图特征块和所述雷达鸟瞰图特征块的语义标记在预设语义空间中进行空间特征对齐,得到对齐后的语义表示。

在一个或多个实施例中,所述重建模块,具体用于:

采用掩膜按照预设比例对所述语义表示进行遮盖,得到包含遮盖部分的语义表示;

对所述遮盖部分进行重建,得到重建后的语义表示。

相应的,本发明实施例公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语义表示的处理方法实施例的各个步骤。

相应的,本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述语义表示的处理方法实施例的各个步骤。

本发明实施例包括以下优点:

从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征;对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征;将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记;基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示;基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。而且,嵌入不同模态的的统一语义表示后,引入了语言模型类似的掩码处理,即,遮盖住语义表示的一部分,然后通过让模型补全遮盖部分的方式对语义表示做了增强,这样迫使统一的语义表示保持更多细节信息。同时,这种遮盖处理不止可以提升模型在正常驾驶情况下的性能,同时可以提升模型在传感器数据不全/传感器污损情况下的自动驾驶鲁棒性。

附图说明

图1是本发明的一种语义表示的处理方法实施例的步骤流程图;

图2是本发明实施例的MBT的结构示意图;

图3是本发明实施例的遮盖后的语义表示示意图;

图4是本发明实施例的特征融合网络结构;

图5是本发明的一种语义表示的处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于,从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征;对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征;将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记;基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示;基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。本发明实施例提出一个崭新的端到端多模态自动驾驶感知网络框架,这种框架可以结合几何融合和语义融合的优点,将各模态单独表征和联合表征嵌入到一个统一的语义空间当中。而且,嵌入不同模态的的统一语义表示后,引入了语言模型类似的掩码处理,即,遮盖住语义表示的一部分,然后通过让模型补全遮盖部分的方式对语义表示做了增强,这样迫使统一的语义表示保持更多细节信息。同时,这种遮盖处理不止可以提升模型在正常驾驶情况下的性能,同时可以提升模型在传感器数据不全/传感器污损情况下的自动驾驶鲁棒性。

参照图1,示出了本发明的一种语义表示的处理方法实施例的步骤流程图,具体可以包括如下步骤:

步骤101,从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征。

其中,图像可以是车辆中的摄像头采集到的平面图像。采集到图像后,可以通过神经网络从图像中提取平视图特征,比如CNN(Convolutional Neural Networks,卷积神经网络),当然,除了CNN之外,采用其它的神经网络或模型提取平视图特征也是可以的,在实际应用中,可以根据实际需求进行设置,本发明实施例对此不作限制。

进一步,在采集图像时,可以通过一个摄像头采集图像,也可以通过多个摄像头采集多个图像,然后将多个图像拼接为一个单调视图,比如,通过三个摄像头采集三张图像,每个摄像头具有60FOV(Field of View,视场角),然后将三张图像拼接成一个单调视图,并重塑为3x160x704的形状。当然,其它的采集方式也适用于本发明实施例,在实际应用中,可以根据实际需求进行设置,本发明实施例对此不作限制。

同时,车辆中的激光雷达也可以采集到激光雷达数据,然后从激光雷达数据中提取出雷达特征。比如,可以采用PointPillar进行特征提取,或者通过其它的方式进行提取,在实际应用中可以根据实际需求进行设置,本发明实施例对此不作限制。

步骤102,对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征。

在得到平视图特征和雷达特征之后,可以对二者进行几何层面的注意力融合,从而得到平视图特征和雷达BEV(Bird Eye's View,鸟瞰图视角)特征。而且,由于较低级别的特征仍然保持着很强的几何关系,所以可以提取到紧密的BEV特征表示,且干扰较少,从而充分利用几何融合的优势。

在本发明实施例中,所述对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征,包括:

采用单调到鸟瞰图转换注意力对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征。

具体而言,在对平视图特征和雷达特征进行融合时,可以采用单调到BEV转换注意力机制(MBT,Monotonic to BEV Translation Attention),MBT可以通过跨模态来辅助丰富每个模态。

其中,所述采用单调到鸟瞰图转换注意力对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征,包括:

将所述平视图特征进行切割,得到多个平视图特征向量,以及,将所述雷达特征进行切割,得到多个雷达特征向量;

将所述多个平视图特征向量与所述多个雷达特征向量进行几何融合,得到融合后的特征向量;

将所述融合后的特征向量通过注意力机制分别映射为平视图特征和雷达鸟瞰图特征。

图2示出了MBT的结构示意图,具体的,可以将平视图特征在纵向上进行切割,得到多个平视图特征向量,同时,将雷达特征进行切割,得到多个雷达特征向量,然后将多个平视图特征向量与多个雷达特征向量进行几何融合,得到融合后的特征向量,再通过多头注意力机制(Multi-Head Attention)将融合后的特征向量分别映射为平视图特征和雷达BEV特征。其中,映射可以是从单目120FOV映射到BEV特征,由于单目视角是有限的,所以BEV特征可以是一个梯形,于是可以采用一个相机参数矩阵采集的方式来采样120FOV之内的特征。

步骤103,将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记。

在得到平视图特征和雷达BEV特征之后,可以将平视图特征进行切块,得到多个平视图特征块,然后将每个平视图特征块标记为语义标记,得到具有语义标记的多个平视图特征块。同理,将雷达BEV特征进行切块,得到多个雷达BEV特征块,然后将每个雷达BEV特征块标记为语义标记,得到具有语义标记的多个雷达BEV特征块。

步骤104,基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示。

在得到多个平视图特征块和多个雷达BEV特征块后,可以基于语义标记将二者在预设的、统一的语义空间中进行空间特征对齐,得到语义表示,从而实现在统一的语义空间的标记(token)表示上进行多模态的语义表示融合。

在本发明实施例中,所述基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示,包括:

采用具有位置嵌入的编码器,将所述平视图特征块和所述雷达鸟瞰图特征块的语义标记在预设语义空间中进行空间特征对齐,得到对齐后的语义表示。

具体而言,可以采用具有位置嵌入的编码器将平视图特征块、雷达BEV特征块的语义标记在预设的语义空间中进行空间特征对齐,同时,还可以将掩盖标记(Masked Tokens)与二者一起进行空间特征对齐,并采用编码器进行编码,从而得到对齐后的语义表示,也就是语义融合后的语义表示。

步骤105,基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。

为了增加语义表示中各个模态的联合融合,可以在得到语义表示之后,对语义表示中的部分语义表示通过掩膜(mask)进行语义重建,从而得到重建后的语义表示。

在本发明实施例中,所述基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示,包括:

采用掩膜按照预设比例对所述语义表示进行遮盖,得到包含遮盖部分的语义表示;

对所述遮盖部分进行重建,得到重建后的语义表示。

具体而言,可以按照预设比例,比如25%、50%,采用掩膜遮盖掉语义表示的一部分,得到包含遮盖部分的语义表示,然后对遮盖部分进行重建,从而得到重建后的语义表示。比如,如图3所示,在遮盖掉50%后的语义表示,然后通过让模型补全遮盖部分的方式对语义表示做了增强,这样可以迫使统一的语义表示保持更多细节信息。

在得到语义重建的语义表示之后,解码器可以根据分割头(Seg Head)、解码器头(Decoder Head)、鸟瞰图视角头(BEV Head)来预测车辆的行驶轨迹。

为方便理解,图4示出了本发明实施例的特征融合网络结构。其中,可以采用两个独立的残差网络ResNet 32来提取平视图特征和激光雷达特征,然后基于MBT对平视图特征和激光雷达特征进行几何注意力融合,得到平视图特征和雷达BEV特征,对平视图特征和雷达BEV特征分别进行切块、标记,得到多个平视图特征块和多个雷达BEV特征块,在统一的语义空间中对各个平视图特征块和雷达BEV特征块进行语义融合对齐并编码,得到语义表示,然后基于掩膜对语义表示进行遮盖-重建,得到最终的语义表示。

在本发明实施例中,从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征;对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征;将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记;基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示;基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。本发明实施例提出一个崭新的端到端多模态自动驾驶感知网络框架,这种框架可以结合几何融合和语义融合的优点,将各模态单独表征和联合表征嵌入到一个统一的语义空间当中。而且,嵌入不同模态的的统一语义表示后,引入了语言模型类似的掩码处理,即,遮盖住语义表示的一部分,然后通过让模型补全遮盖部分的方式对语义表示做了增强,这样迫使统一的语义表示保持更多细节信息。同时,这种遮盖处理不止可以提升模型在正常驾驶情况下的性能,同时可以提升模型在传感器数据不全/传感器污损情况下的自动驾驶鲁棒性。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图5,示出了本发明的一种语义表示的处理装置实施例的结构框图,具体可以包括如下模块:

提取模块501,用于从图像中提取特征,得到平视图特征,以及,从激光雷达数据中提取特征,得到雷达特征;

转换模块502,用于对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征;

标记模块503,用于将所述平视图特征切块,得到多个平视图特征块,并将所述多个平视图特征块标记为语义标记,以及,将所述雷达鸟瞰图特征切块,得到多个雷达鸟瞰图特征块,并将所述多个雷达鸟瞰图特征块标记为语义标记;

对齐模块504,用于基于所述语义标记将所述平视图特征块和所述雷达鸟瞰图特征块进行语义融合,得到语义表示;

重建模块505,用于基于掩膜对所述语义表示进行语义重建,得到重建后的语义表示。

在本发明实施例中,所述转换模块,具体用于:

采用单调到鸟瞰图转换注意力对所述平视图特征和所述雷达特征进行几何注意力融合,得到平视图特征和雷达鸟瞰图特征。

在本发明实施例中,所述转换模块,具体用于:

将所述平视图特征进行切割,得到多个平视图特征向量,以及,将所述雷达特征进行切割,得到多个雷达特征向量;

将所述多个平视图特征向量与所述多个雷达特征向量进行几何融合,得到融合后的特征向量;

将所述融合后的特征向量通过注意力机制分别映射为平视图特征和雷达鸟瞰图特征。

在本发明实施例中,所述对齐模块,具体用于:

采用具有位置嵌入的编码器,将所述平视图特征块和所述雷达鸟瞰图特征块的语义标记在预设语义空间中进行空间特征对齐,得到对齐后的语义表示。

在本发明实施例中,所述重建模块,具体用于:

采用掩膜按照预设比例对所述语义表示进行遮盖,得到包含遮盖部分的语义表示;

对所述遮盖部分进行重建,得到重建后的语义表示。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备,包括:

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语义表示的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述语义表示的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语义表示的处理方法和一种语义表示的处理装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120116546207