掌桥专利:专业的专利平台
掌桥专利
首页

基于隐式的集合预测实现鸟瞰图语义分割的方法及系统

文献发布时间:2023-06-19 19:28:50


基于隐式的集合预测实现鸟瞰图语义分割的方法及系统

技术领域

本发明涉及一种自动驾驶领域,特别是关于一种利用计算机视觉、自动驾驶环视相机的基于隐式的集合预测实现鸟瞰图语义分割的方法及系统。

背景技术

自动驾驶车辆需要对交通场景空间中的物体和静态要素进行准确的理解,环境感知一般是由多种传感器实现的,包括激光雷达,相机和毫米波雷达。环视多相机的环境感知技术包括位姿估计,目标检测与鸟瞰图语义分割等任务。由于相机缺少深度信息,三维环境的目标检测存在困难,而且精度较低不符合高级别自动驾驶的感知需求;而车辆一般在地面运行,对于鸟瞰图的景物表示能直接作用于车辆的认知与决策系统,且图像从相机平面到大地基准面的转换关系比较清晰,所以鸟瞰图语义分割是环视相机系统的一项重要任务,也是最新的局部地图构建的重要前置研究基础,如特斯拉的FSD系统可以在没有地图的道路上,通过处理环视相机的数据,构建对于道路场景中的车道线和车道等语义属性的理解。

鸟瞰图语义分割的关键阶段是图像特征的提取,图像视角到鸟瞰图视角的视角转换,多相机图像的拼接融合,鸟瞰图的特征提取与预测头的技术。当前技术中图像特征的提取可以用先进的分割或检测骨干网络,视角转换和深度估计紧密相关,视角转换有多种实现方式,基础方法是通过相机的逆透视变换,该方法只需要用到相机的内参模型,但是较强的平面假设限制了普适性;一个流行的方法是使用伪激光雷达方法,即把图像的每个像素估计深度后投影到点云,由三维点云直接投影到鸟瞰图,该方法的难点在于像素的深度不容易获取和训练,相应的改进是用深度的分布替代确定的深度预测,另一方面该方法的性能很容易受到错误的深度估计的影响;第三种方法是由一个卷积网络预测每个像素和鸟瞰图的相应栅格的对应关系,该方法仍然受制于感知的最小单元对应关系的模糊性和场景特异性,场景的通用性没有被系统研究。

多相机的目标检测任务中同样使用上文中相似的不同技术的视角转换单元,包括图像直接预测出三维包围框,图像转换为伪点云后通过点云预测头输出包围框,图像的深度估计与框预测多任务学习等方法。针对环视相机有一种基于变换器的隐式预测方法,该方法不需要逐个像素的确切匹配与非常精准的内外参对应关系,通过变换器结构端到端地生成包围框的查询,把检测中的定位问题变成了集合预测问题,在设计上简洁有效,但是依赖于输出的一致性和集合的设计。

发明内容

针对上述问题,本发明的目的是提供一种基于隐式的集合预测实现鸟瞰图语义分割的方法及系统,其能使网络同时感知动态物体和静态道路,降低感知网络计算量。

为实现上述目的,第一方面,本发明采取的技术方案为:一种基于隐式的集合预测实现鸟瞰图语义分割的方法,其包括:对高精度地图中标注数据进行预处理,将高精度地图的语义图层转化为标注的多边形图层;提取标注的多边形图层中的语义特征,对语义特征进行预测头分析,实现多视角相机的拼接和融合,以由隐式集合预测最终的多边形分割框;将图像平面与俯视图的视角进行转换,完成基于变换器的隐式预测。

进一步,对高精度地图中标注数据进行预处理,包括动态目标预处理和静态道路要素预处理;

动态目标预处理包括:把目标从高度层挤压,形成地面的占据掩码,在地面平面形成多边形,对于掩码赋予相应的语义标签;

静态道路要素预处理包括:在车辆运行时不需要完全被高精度地图覆盖,仅在训练时需要部分区域的地图数据作为训练的标签,依赖语义地图的训练,以使在任何结构化道路都能泛化出有效的语义分割效果。

进一步,静态道路要素预处理还包括:容许线状地图信息存在预先设定的误差,对于折线也赋予一个预先设定的宽度,以使折线扩充成长而窄的多边形加入训练。

进一步,对语义特征进行预测头分析,包括:

通过预测头把前序网络得到的关于图像的特征回归为最终需要的物理量,并与真值标注进行比较后得到损失函数,并回传损失函数;

传损失函数包括三个部分:双边损失、分类损失和交并比损失。

进一步,预测头为:FCOS3D的单阶段,无锚框,针对每一个像素进行分类并通过中心化操作得到二维多边形,通过二维多边形直接引导三维多边形的区域生成。

进一步,将图像平面与俯视图的视角进行转换,包括:

采用变换器进行视角转换中的隐式映射,变换器的输入是降维的特征图,输出是鸟瞰图中多边形的中心点信息;

以图像的特征图由(批大小,高度,宽度,通道数)压缩为(批大小,高度乘宽度,通道数),输入变换器的编码器单元,加入基于三角函数的位置编码规则,解码器的输出为一个集合的多边形的中心点作为多边形的查询;

把俯视图的多边形相关的二维参考点根据相机的内参和外参逆投影到图像平面的相应位置上,找到其在原始图像中对应的位置与相邻的特征图;

采用双线性插值采样特征图的特征,把特征引入多边形的查询,采用多头注意力机制描述多边形的中心点与特征图相应位置的交互情况,进而使用这些特征映射部分对查询做逐变换器层的精修;

对于变换器的输出后修正的查询,引入两个多层感知机分支,分别输出类别信息和多边形的顶点信息,并采用拟合的固定多顶点多边形来拟合复杂的语义区域要素;预测集的多边形与真值集的多边形比较形成损失函数并回传梯度。

进一步,多视角相机的拼接,包括:对于多个相机的查询,只需要把鸟瞰图的参考点逆映射到每个相机的特征图上,把几个相机的特征映射同时用于查询的精修过程,再输入到变换器的编码侧;如果鸟瞰图的参考点在进行内外参的逆相投影后不在某些相机的图像平面内,则忽略此相机对应特征图对于查询的调整。

第二方面,本发明采取的技术方案为:一种基于隐式的集合预测实现鸟瞰图语义分割的系统,其包括:预处理模块,对高精度地图中标注数据进行预处理,将高精度地图的语义图层转化为标注的多边形图层;预测头模块,提取标注的多边形图层中的语义特征,对语义特征进行预测头分析,实现多视角相机的拼接和融合,以由隐式集合预测最终的多边形分割框;转换模块,将图像平面与俯视图的视角进行转换,完成基于变换器的隐式预测。

第三方面,本发明采取的技术方案为:一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。

第四方面,本发明采取的技术方案为:一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案,其具有以下优点:

1、本发明通过隐式多头注意力机制建模图像平面到鸟瞰图的转换关系与感兴趣区域,不需要逐像素的深度估计或转换对应关系。

2、本发明直接采用原始语义地图多边形标注进行训练,网络中仅需要一处回归,大幅减少数据预处理与后处理的计算负荷。

3、本发明可以与目标检测网络共享主干与脖颈网络,而预测头不同,使得网络同时感知动态物体和静态道路,降低感知网络计算量。

附图说明

图1是本发明实施例中的隐式集合预测的流程示意图;

图2是本发明实施例中网络设计与迭代方法的流程示意图;

图3是本发明实施例中视角转换与地图要素生成的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了解决现有技术中鸟瞰图语义分割的问题,本发明提高的基于多相机隐式集合预测实现鸟瞰图语义分割的方法及系统,以车载多相机图像作为信息源,设置新型视角转换模块,从图像深度特征直接转到鸟瞰图下的多边形语义区域,与原始语义地图的多边形标签回归,构成一个多边形的集合预测问题,设计匹配和交并比的两级损失函数,与目标检测的骨干网络兼容并设计不同的共享预测头同时感知动态物体和静态道路,形成多相机单网络的动静态感知。

在本发明的一个实施例中,提供一种基于隐式的集合预测实现鸟瞰图语义分割的方法。本实施例中,如图1所示,该方法包括以下步骤:

1)对高精度地图中标注数据进行预处理,将高精度地图的语义图层转化为标注的多边形图层;

2)提取标注的多边形图层中的语义特征,对语义特征进行预测头分析,实现多视角相机的拼接和融合,以由隐式集合预测最终的多边形分割框;

3)将图像平面与俯视图的视角进行转换,完成基于变换器的隐式预测。

上述步骤1)中,对高精度地图中标注数据进行预处理,包括动态目标预处理和静态道路要素预处理;其中:

动态目标预处理包括:把目标从高度层挤压,形成地面的占据掩码,在地面平面形成多边形,对于掩码赋予相应的语义标签;

具体的,动态目标一般是目标检测任务为主的数据集的标注对象,一般包括人车等细分的十余类目标,数据集原始的标注一般是三维包围框,包围框的属性包括长宽高,三维位置xyz,偏航角,语义属性。本实施例中鸟瞰图的数据处理主要是把目标从高度层挤压,形成地面的占据掩码,在地面平面形成多边形(一般是四边形),对于掩码赋予相应的语义标签。

静态道路要素预处理包括:在车辆运行时不需要完全被高精度地图覆盖,仅在训练时需要部分区域的地图数据作为训练的标签,依赖语义地图的训练,以使在任何结构化道路都能泛化出有效的语义分割效果。

上述实施例中,静态道路要素预处理还包括:容许线状地图信息存在预先设定的误差,对于折线也赋予一个预先设定的宽度,以使折线扩充成长而窄的多边形加入训练。优选的,预先设定的宽度可以为0.3米。

具体的,静态道路要素预处理一般由所在区域的高精度地图提供,注意本发明在车辆运行时不需要完全被高精度地图覆盖,仅在训练时需要部分区域的地图数据作为训练的标签,依赖语义地图的训练,在测试时在任何结构化道路都能泛化出有效的语义分割效果。道路要素的组成包括面状信息,以多边形代表,包括可行驶区域,人行道,人行横道,车道,停车区域,道路分块等;包括线状信息,以多段折线表达,包括道路分割线,车道分割线,停止线等信息。在本发明中针对线状地图信息在真实世界中存在一定的宽度,也容许较小的误差,对于折线也赋予一个较小的宽度(0.3米),使得折线扩充成长而窄的多边形加入训练,综上所述,该预处理方式使得常用的高精度地图语义图层均能使用其标注的多边形图层,而不需要转化为密集的语义覆盖信息。

上述步骤2)中,语义特征提取具体为:图像语义特征的表示学习是一个持续研究的问题,一般分为骨干网络和脖颈网络,骨干网络的设计上可以使用基于卷积神经网络的VGG,ResNet,Vovnet等网络,也可以使用基于变换器的swin transformer网络等方法提取,最终的特征图的维度是(宽度,高度,嵌入维数),嵌入维数一般设置为256以最大程度利用显卡的性能。脖颈网络的设计上一般使用多层特征金字塔(FPN)或其改进型,特征的信道数一般是(256,512,1024,2048)的四层分布,特征金字塔的引入可以让网络同时关注到大目标和小目标,在不同尺度的关注上得到均衡。

上述步骤2)中,对语义特征进行预测头分析,具体为:通过预测头把前序网络得到的关于图像的特征回归为最终需要的物理量,并与真值标注进行比较后得到损失函数,并回传损失函数。

本实施例中,预测头采用FCOS3D的单阶段,无锚框,针对每一个像素进行分类并通过中心化操作得到二维多边形,通过二维多边形直接引导三维多边形的区域生成。

其中,传损失函数包括三个部分:双边损失、分类损失和交并比损失。

具体的,损失函数的设计是使得神经网络回归收敛的重要因素。本发明中损失函数分为三个部分:

第一部分是双边损失,由于预测结果和真值标签都是俯视图下的含语义的多边形,针对以变换器的集合预测理论,先使用匈牙利算法算出预测与真值的二分匹配,二分匹配的过程是得到以下项的最小值:

式中,σ表示真值与预测值匹配的排列,P表示所有可能的排列集,M表示表述预测集元素的数量,c

强制每个真值对预测值进行匹配,根据匈牙利匹配的权重计算双边损失,集合到集合的损失函数计算公式为:

式中,Loss表示几何预测的损失函数,N表示匹配的真值与预测值的数量。

第二部分是分类损失,一般根据局部地图构建的需要把要分割的内容分为几个语义类别,如车道,人行道,人行横道等语义标签,然后使用带偏向的焦点交叉熵损失函数(Focal Loss)计算。

第三部分是交并比损失,表征单个匹配的预测多边形和真值多边形的相似程度,二维交并比的计算公式为:

IoU=(A∩B)/(A∪B)。

式中,IoU表示交并比,A表示图形A覆盖的面积,B表示图形B覆盖的面积,A∩B表示同时在A与B图像内的面积,A∪B表示A或B覆盖的总面积。

交并比的范围是[0,1]。重叠度越高的预测框是越合理的。IoU损失将候选框的四个边界信息作为一个整体进行回归,从而实现准确、高效的定位,具有很好的尺度不变性。为了解决IoU度量不可导的现象,引入了负Ln范数来间接计算IoU损失。

上述步骤3)中,将图像平面与俯视图的视角进行转换,如图2、图3所示,包括以下步骤:

本实施例中采用变换器进行视角转换中的隐式映射,变换器的输入是降维的特征图,输出是鸟瞰图中多边形的中心点信息;

由于相机缺乏明确的深度信息,所以二维到三维的视角转换存在明显的困难,特别是高度方向的估计非常依赖神经网络的隐式回归,没有直接的感知证据,所以只考虑俯视图消解了高度方向的不确定性,图像平面与俯视图的转换可以由逆投影变换实现,但是该方法的准确性非常依赖内参,而真实相机的畸变很难由简单的内参模型完全表达,所以需要实现一种隐式的估计方法,只需要不甚精准的内参进行大致的转换,本发明中采用变换器实现视角转换中的隐式映射过程。

从单个相机的二维特征图到鸟瞰图多边形预测的随着损失函数回传的迭代过程由以下3.1)至3.4)四个步骤循环运行

3.1)以图像的特征图由(批大小,高度,宽度,通道数)压缩为(批大小,高度乘宽度,通道数),输入变换器的编码器单元,加入基于三角函数的变换器通用位置编码规则,解码器的输出为一个集合的多边形的中心点作为多边形的查询;

其中,查询通过一个简单卷积网络生成俯视图下的二维参考点,注意这里的参考点的数量同时满足与变换器层数和查询数成正比。

3.2)把俯视图的多边形相关的二维参考点根据相机的内参和外参逆投影到图像平面的相应位置上,找到其在原始图像中对应的位置与相邻的特征图;

3.3)采用双线性插值采样特征图的特征,把特征引入多边形的查询,采用多头注意力机制描述多边形的中心点与特征图相应位置的交互情况,进而使用这些特征映射部分对查询做逐变换器层的精修;

其中,多头注意力模块采用标准多头注意力模块的实现。

3.4)对于变换器的输出后修正的查询,引入两个多层感知机分支,分别输出类别信息和多边形的顶点信息,并采用拟合的固定多顶点多边形来拟合复杂的语义区域要素;预测集的多边形与真值集的多边形比较形成损失函数并回传梯度。

上述实施例中,多视角相机的拼接具体为:基于隐式变换器注意力机制视角转换的方法不需要三维场景的显式重建,所以对于多个相机的查询,只需要把鸟瞰图的参考点逆映射到每个相机的特征图上,把几个相机的特征映射同时用于查询的精修过程,再输入到变换器的编码侧;如果鸟瞰图的参考点在进行内外参的逆相投影后不在某些相机的图像平面内,则忽略此相机对应特征图对于查询的调整。

在实车上如nuScenes数据集使用的车辆或百度Apollo车辆中,环视视觉由六个相机同时工作,逆投影后会得到M×L×NUM_CAM个中心点数量。一个考虑网络性能与效率的折中方案是隐层的维度M=900,变换器隐层层数L=6,相机数目NUM_CAM=6。

在本发明的一个实施例中,提供一种基于隐式的集合预测实现鸟瞰图语义分割的系统,其包括:

预处理模块,对高精度地图中标注数据进行预处理,将高精度地图的语义图层转化为标注的多边形图层;

预测头模块,提取标注的多边形图层中的语义特征,对语义特征进行预测头分析,实现多视角相机的拼接和融合,以由隐式集合预测最终的多边形分割框;

转换模块,将图像平面与俯视图的视角进行转换,完成基于变换器的隐式预测。

上述预处理模块中,对高精度地图中标注数据进行预处理,包括动态目标预处理和静态道路要素预处理;

动态目标预处理包括:把目标从高度层挤压,形成地面的占据掩码,在地面平面形成多边形,对于掩码赋予相应的语义标签;

静态道路要素预处理包括:在车辆运行时不需要完全被高精度地图覆盖,仅在训练时需要部分区域的地图数据作为训练的标签,依赖语义地图的训练,以使在任何结构化道路都能泛化出有效的语义分割效果。

在本实施例中,静态道路要素预处理还包括:容许线状地图信息存在预先设定的误差,对于折线也赋予一个预先设定的宽度,以使折线扩充成长而窄的多边形加入训练。

上述预测头模块中,对语义特征进行预测头分析,包括:

通过预测头把前序网络得到的关于图像的特征回归为最终需要的物理量,并与真值标注进行比较后得到损失函数,并回传损失函数;

传损失函数包括三个部分:双边损失、分类损失和交并比损失。

上述预测头模块中,预测头采用FCOS3D的单阶段,无锚框,针对每一个像素进行分类并通过中心化操作得到二维多边形,通过二维多边形直接引导三维多边形的区域生成。

上述转换模块中,将图像平面与俯视图的视角进行转换,包括:

采用变换器进行视角转换中的隐式映射,变换器的输入是降维的特征图,输出是鸟瞰图中多边形的中心点信息;

以图像的特征图由(批大小,高度,宽度,通道数)压缩为(批大小,高度乘宽度,通道数),输入变换器的编码器单元,加入基于三角函数的位置编码规则,解码器的输出为一个集合的多边形的中心点作为多边形的查询;

把俯视图的多边形相关的二维参考点根据相机的内参和外参逆投影到图像平面的相应位置上,找到其在原始图像中对应的位置与相邻的特征图;

采用双线性插值采样特征图的特征,把特征引入多边形的查询,采用多头注意力机制描述多边形的中心点与特征图相应位置的交互情况,进而使用这些特征映射部分对查询做逐变换器层的精修;

对于变换器的输出后修正的查询,引入两个多层感知机分支,分别输出类别信息和多边形的顶点信息,并采用拟合的固定多顶点多边形来拟合复杂的语义区域要素;预测集的多边形与真值集的多边形比较形成损失函数并回传梯度。

上述实施例中,多视角相机的拼接具体为:对于多个相机的查询,只需要把鸟瞰图的参考点逆映射到每个相机的特征图上,把几个相机的特征映射同时用于查询的精修过程,再输入到变换器的编码侧;如果鸟瞰图的参考点在进行内外参的逆相投影后不在某些相机的图像平面内,则忽略此相机对应特征图对于查询的调整。

本实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。

在本发明一实施例中提供的计算设备结构,该计算设备可以是终端,其可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序,该计算机程序被处理器执行时以实现一种基于隐式的集合预测实现鸟瞰图语义分割的方法;该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏,该输入装置可以是显示屏上覆盖的触摸层,也可以是计算设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的一个实施例中,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。

在本发明的一个实施例中,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法。

上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种基于SOC芯片的便携式电话隐式转接平台及实现方法
  • 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法
  • 基于几何先验的鸟瞰图语义分割方法、装置、设备及介质
技术分类

06120115922268