掌桥专利:专业的专利平台
掌桥专利
首页

一种点云和图像数据的特征融合处理方法和装置

文献发布时间:2023-06-19 16:06:26



技术领域

本发明涉及数据处理技术领域,特别涉及一种点云和图像数据的特征融合处理方法和装置。

背景技术

无人驾驶系统的感知模块以鸟瞰(Bird’s Eye View,BEV)图特征为参考进行多目标跟踪,可以进一步提高跟踪效率。常规情况下感知模块要么通过相机拍摄的图像数据获取鸟瞰图特征,要么通过激光雷达扫描的点云数据获取鸟瞰图特征,很少能在融合二者共性的前提下获取鸟瞰图特征,原因是基于图像或基于点云的鸟瞰图特征提取模型各自的计算量、维护量都较大,若另行再建设一个将二者融合在一起势必会造成更大的资源损耗。

发明内容

本发明的目的,就是针对现有技术的缺陷,提供一种点云和图像数据的特征融合处理方法、装置、电子设备及计算机可读存储介质,首先使用成熟的图像和点云鸟瞰图特征模型分别对相机图像和激光雷达点云进行特征提取得到各自对应的特征张量,再对两种特征张量进行级联,再使用Transformer模型对级联特征张量进行融合。通过本发明给出的这种鸟瞰图特征融合处理机制,既可以达到多传感器鸟瞰图特征融合的目的,也可以不用另外维护一个融合模型从而达到减少开发维护成本的目的。

为实现上述目的,本发明实施例第一方面提供了一种点云和图像数据的特征融合处理方法,所述方法包括:

获取第一点云数据和第一图像数据;

对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征图张量;

对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征图张量;

对所述第一、第二特征图张量进行级联处理生成对应的第三特征图张量;

按Transformer模型的位置编码规则计算所述第三特征图张量对应的位置编码张量得到对应的第一位置编码张量;并将所述第三特征图张量和对应的所述第一位置编码张量输入Transformer模型进行自注意力运算;并将模型运算输出结果作为对应的融合特征张量。

优选的,所述对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征图张量,具体包括:

基于PointPillars模型对所述第一点云数据进行鸟瞰平面伪图转换处理并对转换得到的鸟瞰平面伪图进行二维图像特征提取处理生成所述第一特征图张量。

优选的,所述对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征图张量,具体包括:

将所述第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取生成所述第二特征图张量。

优选的,所述第一特征图张量的形状为H

所述第二特征图张量的形状为H

所述第三特征图张量的形状为H

所述融合特征张量的形状为H

本发明实施例第二方面提供了一种用于实现上述第一方面所述的点云和图像数据的特征融合处理方法的装置,所述装置包括:获取模块、点云鸟瞰特征处理模块、图像鸟瞰特征处理模块和特征融合处理模块;

所述获取模块用于获取第一点云数据和第一图像数据;

所述点云鸟瞰特征处理模块用于对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征图张量;

所述图像鸟瞰特征处理模块用于对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征图张量;

所述特征融合处理模块用于对所述第一、第二特征图张量进行级联处理生成对应的第三特征图张量;并按Transformer模型的位置编码规则计算所述第三特征图张量对应的位置编码张量得到对应的第一位置编码张量;并将所述第三特征图张量和对应的所述第一位置编码张量输入Transformer模型进行自注意力运算;并将模型运算输出结果作为对应的融合特征张量。

本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;

所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;

所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。

本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。

本发明实施例提供了一种点云和图像数据的特征融合处理方法、装置、电子设备及计算机可读存储介质,首先使用成熟的图像和点云鸟瞰图特征模型分别对相机图像和激光雷达点云进行特征提取得到各自对应的特征张量,再对两种特征张量进行级联,再使用Transformer模型对级联特征张量进行融合。通过本发明给出的这种鸟瞰图特征融合处理机制,既实现了多传感器的鸟瞰图特征融合,也没有另外新增融合模型、减少了开发维护成本。

附图说明

图1为本发明实施例一提供的一种点云和图像数据的特征融合处理方法示意图;

图2为本发明实施例二提供的一种点云和图像数据的特征融合处理装置的模块结构图;

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例一提供一种点云和图像数据的特征融合处理方法,如图1为本发明实施例一提供的一种点云和图像数据的特征融合处理方法示意图所示,本方法主要包括如下步骤:

步骤1,获取第一点云数据和第一图像数据。

这里,第一点云数据即车载激光雷达产生的点云数据,车辆无人驾驶系统的感知模块从车载激光雷达处获得第一点云数据;第一图像数据即车载相机产生的图像数据,感知模块从车载相机处获得第一图像数据;本发明实施例中默认第一点云数据和第一图像数据的产生时间相互匹配,对应的空间范围也相互匹配。

步骤2,对第一点云数据进行鸟瞰特征提取处理生成对应的第一特征图张量;

具体包括:基于PointPillars模型对第一点云数据进行鸟瞰平面伪图转换处理并对转换得到的鸟瞰平面伪图进行二维图像特征提取处理生成第一特征图张量;

其中,第一特征图张量的形状为H

这里,本发明实施例可基于多种成熟的可识别点云数据鸟瞰特征的模型对第一点云数据进行鸟瞰特征提取从而得到对应的鸟瞰特征张量也就是第一特征图张量,默认使用PointPillars模型。PointPillars模型的模型实现可参考论文《PointPillars:FastEncoders for Object Detection from Point Clouds》,在此不做进一步赘述;由论文可知,PointPillars模型由点云柱特征提取网络(Pillar Feature Net)、二维特征提取主干网络(Backbone(2D CNN))和目标检测头(Detection Head(SSD))三部分构成,其中点云柱特征提取网络用于对输入点云进行点云柱(Pillar)聚类并对点云柱进行鸟瞰平面投影并将最终的投影结果作为鸟瞰平面伪图(Pseudo Image)输出,二维特征提取主干网络则基于传统的多级降采样卷积网络对鸟瞰平面伪图进行二维图像特征提取,目标检测头则对提取出的鸟瞰特征进行分类并将分类结果复原到原始点云数据中为原始点云数据中的各点增加语义特征。本发明实施在基于PointPillars模型对第一点云数据进行鸟瞰平面伪图转换处理时,使用PointPillars模型的点云柱特征提取网络对第一点云数据进行鸟瞰平面伪图转换处理得到对应的鸟瞰平面伪图张量,并使用PointPillars模型的二维特征提取主干网络对鸟瞰平面伪图张量进行二维图像特征提取处理生成对应的第一特征图张量。由二维特征提取主干网络的输出张量结构可知第一特征图张量为一个三维的图张量,设其形状为H

步骤3,对第一图像数据进行鸟瞰特征提取处理生成对应的第二特征图张量;

具体包括:将第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取生成第二特征图张量;

其中,第二特征图张量的形状为H

这里,本发明实施例可基于多种成熟的可识别图像数据鸟瞰特征的模型对第一图像数据进行鸟瞰特征提取从而得到对应的鸟瞰特征张量也就是第二特征图张量,默认使用BevFormer模型。BevFormer模型的模型实现可参考论文《BEVFormer:Learning Bird’s-Eye-View Representation from Multi-Camera Images via SpatiotemporalTransformers》,在此不做进一步赘述。本发明实施例在将第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取之后,由BevFormer模型通过查询得到第一图像数据的历史鸟瞰时间特征、通过特征提取网络得到第一图像数据的实时图像特征,再将对得到的历史鸟瞰时间特征与实时图像特征进行时空特征聚合从而得到对应的第二特征图张量。此处,第二特征图张量实际也为一个三维的图张量,其形状为H

步骤4,对第一、第二特征图张量进行级联处理生成对应的第三特征图张量;

其中,第三特征图张量的形状为H

步骤5,按Transformer模型的位置编码规则计算第三特征图张量对应的位置编码张量得到对应的第一位置编码张量;并将第三特征图张量和对应的第一位置编码张量输入Transformer模型进行自注意力运算;并将模型运算输出结果作为对应的融合特征张量;

其中,融合特征张量的形状为H

这里,Transformer模型的模型实现可参考论文《Attention Is All You Need》,在此不做进一步赘述。由论文可知,Transformer模型的输入包括两部分:特征张量及其对应的位置编码张量,位置编码张量的计算方式由Transformer模型的位置编码规则决定,Transformer模型的位置编码规则包括正弦、余弦编码规则两种,本发明实施例默认采用正弦编码规则。由论文可知,Transformer模型包括编码器和解码器两部分,将第三特征图张量和对应的第一位置编码张量输入编码器进行逐级编码,并通过解码器进行逐级解码从而得到最终的模型运算输出结果即融合特征张量。由Transformer模型的输入输出结构可知,输出的融合特征张量其形状应与输入的第三特征图张量保持一致,所以融合特征张量的形状H

通过上述步骤1-5得到的融合特征张量不但包含了点云的鸟瞰特征还包括了图像的鸟瞰特征,感知模块后续可基于该融合特征张量为参考进行多目标跟踪。

图2为本发明实施例二提供的一种点云和图像数据的特征融合处理装置的模块结构图,该装置为实现前述方法实施例的终端设备或者服务器,也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置,例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:获取模块201、点云鸟瞰特征处理模块202、图像鸟瞰特征处理模块203和特征融合处理模块204。

获取模块201用于获取第一点云数据和第一图像数据。

点云鸟瞰特征处理模块202用于对第一点云数据进行鸟瞰特征提取处理生成对应的第一特征图张量。

图像鸟瞰特征处理模块203用于对第一图像数据进行鸟瞰特征提取处理生成对应的第二特征图张量。

特征融合处理模块204用于对第一、第二特征图张量进行级联处理生成对应的第三特征图张量;并按Transformer模型的位置编码规则计算第三特征图张量对应的位置编码张量得到对应的第一位置编码张量;并将第三特征图张量和对应的第一位置编码张量输入Transformer模型进行自注意力运算;并将模型运算输出结果作为对应的融合特征张量。

本发明实施例提供的一种点云和图像数据的特征融合处理装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。

需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示,该电子设备可以包括:处理器301(例如CPU)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图3中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)、图形处理器(Graphics Processing Unit,GPU)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。

本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。

本发明实施例提供了一种点云和图像数据的特征融合处理方法、装置、电子设备及计算机可读存储介质,首先使用成熟的图像和点云鸟瞰图特征模型分别对相机图像和激光雷达点云进行特征提取得到各自对应的特征张量,再对两种特征张量进行级联,再使用Transformer模型对级联特征张量进行融合。通过本发明给出的这种鸟瞰图特征融合处理机制,既实现了多传感器的鸟瞰图特征融合,也没有另外新增融合模型、减少了开发维护成本。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120114705676