导航：首页> 特别适用于特定应用领域的信息通信技术〔ICT〕〔2018.01〕>基于几何先验的鸟瞰图语义分割方法、装置、设备及介质

基于几何先验的鸟瞰图语义分割方法、装置、设备及介质

文献发布时间：2023-06-19 19:28:50

技术领域

本发明涉及自动驾驶感知技术领域，尤其涉及一种基于几何先验的鸟瞰图语义分割方法、装置、设备及介质。

背景技术

对于周围环境的感知能力是自动驾驶的一项重要能力。具体来说，自动驾驶车辆需要具有3D目标检测、地图分割等能力。近年来，鸟瞰图(BEV，Birds Eye View)作为一种同时方便车辆感知周围环境和规划下游任务的地图类型，引起了众多研究人员的注意，并且有许多工作，致力于在鸟瞰图中感知物体。

现有技术中，基于鸟瞰图的语义分割方法主要有基于几何投影的鸟瞰图语义分割方法和基于Transformer的鸟瞰图语义分割方法，基于几何投影的鸟瞰图语义分割方法首先根据多视图图像生成一系列伪点云，然后根据伪点云和相机的参数矩阵将图像的特征投影到鸟瞰图平面上。

而基于Transformer的鸟瞰图语义分割方法中，所用注意力机制是全局的，计算复杂度与输入视角的个数和特征图的分辨率以及鸟瞰图查询特征的分辨率成正比。对于需要高分辨率鸟瞰图的场景，其计算开销会大幅度增加，超出了很多设备的计算负载上限。

发明内容

本发明提供一种基于几何先验的鸟瞰图语义分割方法、装置、设备及介质，用以解决现有技术中对于需要高分辨率鸟瞰图的场景，语义分割的计算开销会大幅度增加，超出了很多设备的计算负载上限的缺陷。

本发明提供一种基于几何先验的鸟瞰图语义分割方法，包括：

获取待处理图像和鸟瞰图查询特征；

将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征；

将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；

基于所述鸟瞰图特征，对所述待处理图像进行语义分割；

所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

根据本发明提供的一种基于几何先验的鸟瞰图语义分割方法，所述特征提取模型包括级联的多个特征提取模块；

所述将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征，包括：

将所述待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前鸟瞰图查询特征，所述上一鸟瞰图查询特征是所述当前的特征提取模块之前的特征提取模块输出的；

将最尾的特征提取模块输出的鸟瞰图查询特征作为所述鸟瞰图特征。

根据本发明提供的一种基于几何先验的鸟瞰图语义分割方法，所述将所述待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前鸟瞰图查询特征，包括：

将所述待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块的自注意力模块，由所述自注意力模块对所述鸟瞰图查询特征进行采样，得到采样鸟瞰图查询特征，再对所述采样鸟瞰图查询特征进行逆采样，得到所述自注意力模块输出的逆采样鸟瞰图查询特征；

将所述逆采样鸟瞰图查询特征输入到当前的特征提取模块的前馈传播网络，得到所述前馈传播网络输出的当前鸟瞰图查询特征。

根据本发明提供的一种基于几何先验的鸟瞰图语义分割方法，所述自注意力模块包括级联的图像块自注意力模块、图像自注意力模块和场景自注意力模块，所述图像块自注意力模块用于对所述鸟瞰图查询特征的图像块进行跨视图自注意力转换得到第一鸟瞰图查询特征，所述图像自注意力模块用于对所述第一鸟瞰图查询特征进行跨视图自注意力转换得到第二鸟瞰图查询特征，所述场景自注意力模块用于对所述第二鸟瞰图查询特征进行跨视图自注意力转换。

根据本发明提供的一种基于几何先验的鸟瞰图语义分割方法，所述特征提取器包括顺次连接的第一卷积层、第一激活层和第一归一化层，所述特征提取器用于输出多尺度的图像特征。

根据本发明提供的一种基于几何先验的鸟瞰图语义分割方法，所述基于所述鸟瞰图特征，对所述待处理图像进行语义分割，包括：

将所述鸟瞰图特征输入至解码器中，由所述解码器输出所述待处理图像的语义分割结果，所述解码器包括顺次连接的第二卷积层、第二归一化层和第二激活层。

根据本发明提供的一种基于几何先验的鸟瞰图语义分割方法，所述将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征，包括：

获取摄像机的内参矩阵和外参矩阵，所述摄像机的内参矩阵和外参矩阵用于几何先验；

基于所述摄像机的内参矩阵和外参矩阵，以及所述图像特征和所述鸟瞰图查询特征，得到所述特征提取模型输出的鸟瞰图特征。

本发明还提供一种基于几何先验的鸟瞰图语义分割装置，包括：

获取单元，用于获取待处理图像和鸟瞰图查询特征；

提取图像特征单元，用于将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征；

提取鸟瞰图特征单元，用于将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；

语义分割单元，用于基于所述鸟瞰图特征，对所述待处理图像进行语义分割；

所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于几何先验的鸟瞰图语义分割方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于几何先验的鸟瞰图语义分割方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于几何先验的鸟瞰图语义分割方法。

本发明提供的基于几何先验的鸟瞰图语义分割方法、装置、设备及介质，特征提取模型中的自注意力模块，将待处理图像的令牌和鸟瞰图查询特征进行跨视图自注意力转换，可以降低自注意力机制的计算复杂度，进一步降低图像特征提取的复杂度，并且，提高了得到的鸟瞰图特征的准确性和可靠性，进一步提高了后续语义分割的准确性和可靠性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于几何先验的鸟瞰图语义分割方法的流程示意图之一；

图2是本发明提供的对鸟瞰图查询特征进行采样的流程示意图；

图3是本发明提供的对采样鸟瞰图查询特征进行逆采样的流程示意图；

图4是本发明提供的自注意力模块的结构示意图；

图5是本发明提供的基于几何先验的鸟瞰图语义分割方法的流程示意图之二；

图6是本发明提供的基于几何先验的鸟瞰图语义分割装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类。

相关技术中，近年来，鸟瞰图(BEV，Birds Eye View)作为一种同时方便车辆感知周围环境和规划下游任务的地图类型，引起了众多研究人员的注意，并且有许多工作，致力于在鸟瞰图中感知物体。

鉴于雷达设备的高昂成本以及点云数据本身低分辨率的特性，许多最近的工作利用价格低廉且分辨率高的车载多视图摄像头来获得鸟瞰图。最直接的方法是将多视图摄像头得到的图像直接投影到鸟瞰图平面上，尽管这种方法简单并且有效，由于方法的平面假设，在鸟瞰图平面之上的物体会有严重的失真。因此，最近的许多工作开始转向先获得鸟瞰图的特征图，然后利用特征图获得鸟瞰图。

基于鸟瞰图的语义分割方法主要有基于几何投影的鸟瞰图语义分割方法和基于Transformer的鸟瞰图语义分割方法，基于Transformer的鸟瞰图语义分割方法能够建模长距离依赖，但是全局的注意力机制带来了巨大的计算量，并且这些方法没有有效的利用摄像机的参数矩阵带来的几何先验。

基于上述问题，本发明提供一种基于几何先验的鸟瞰图语义分割方法，图1是本发明提供的基于几何先验的鸟瞰图语义分割方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取待处理图像和鸟瞰图查询特征。

具体地，可以获取待处理图像和鸟瞰图查询特征，此处的待处理图像即后续需要进行语义分割的图像，此处的待处理图像可以是通过车载摄像头、手机、相机、平板等图像采集设备采集得到图像，例如，待处理图像可以是同一车辆位置拍摄的多个视角的多张图像，此处的多个视角可以是前、后、左前、左后、右前和右后视角，相应地，待处理图像可以包括前视角图像、后视角图像、左前视角图像、左后视角图像、右前视角图像和右后视角图像，本发明实施例对此不作具体限定。

此处的待处理图像的大小可以是224×480等，此处的鸟瞰图查询特征可以是预先设定的特征，鸟瞰图查询特征可以表示为Q∈R

步骤120，将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征。

具体地，在获取到待处理图像之后，可以将待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征。此处的特征提取器可以包括顺次连接的第一卷积层、第一激活层和第一归一化层，此处的第一卷积层可以使用级联结构的多层卷积神经网络(Convolutional Neural Network，CNN)，也可以使用深度神经网络(Deep NeuralNetworks，DNN)，还可以使用CNN和DNN的组合结构等，本发明实施例对此不作具体限定。

此处的第一激活层可以使用GELU(Gaussian Error Linear Unit)激活函数，也可以使用Sigmoid激活函数，还可以使用ReLU(Rectified Linear Units)激活函数，此处的第一归一化层可以是LN(Layer Normalization，层归一化)，也可以是BN(BatchNormalization，批量归一化层)，还可以是IN(Instance Normalization)等，本发明实施例对此不作具体限定。

此处的特征提取器也可以是EfficientNet-B4模型等，本发明实施例对此不作具体限定。

此处，特征提取器输出的图像特征可以是多尺度的，例如，可以是1/4，也可以是1/8，还可以是1/16、1/32等，本发明实施例对此不作具体限定。

步骤130，将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

具体地，在得到图像特征之后，可以将图像特征和鸟瞰图查询特征输入至特征提取模型，得到特征提取模型输出的鸟瞰图特征。

此处的特征提取模型可以包括级联的多个特征提取模块，此处的多个特征提取模块可以包括自注意力模块，此处的特征提取模块可以是Transformer模型，也可以是LSTM(Long Short Term Memory networks，长短期记忆网络)，还可以是RNN(Recurrent NeuralNetworks，循环神经网络)等，本发明实施例对此不作具体限定。

此处的自注意力模块用于将待处理图像的令牌和鸟瞰图查询特征进行跨视图自注意力转换，此处的自注意力模块可以是交叉注意力(Cross-Attention)模块，此处的待处理图像的令牌是指将待处理图像以滑动窗口的方式，划分为不同的图像块，并对每个图像块进行编码得到的。

此处的跨视图自注意力转换是指计算待处理图像的令牌和鸟瞰图查询特征之间的相似度，构建注意力矩阵，并对鸟瞰图查询特征进行变化，得到经自注意力机制优化后的特征。

此处的鸟瞰图特征反映了鸟瞰图层面的特征信息。

此处，在输出鸟瞰图特征时，还会参考到摄像机的内参矩阵和外参矩阵，此处的摄像机的内参矩阵和外参矩阵可以用于几何先验。

可以理解的是，基于Transformer的鸟瞰图语义分割方法中，所用注意力机制是全局的，计算复杂度与输入视角的个数和特征图的分辨率以及鸟瞰图查询特征的分辨率成正比。而将待处理图像的令牌和鸟瞰图查询特征进行跨视图自注意力转换，可以降低自注意力机制的计算复杂度，进一步降低图像特征提取的复杂度，并且，提高了得到的鸟瞰图特征的准确性和可靠性，进一步提高了后续语义分割的准确性和可靠性。

步骤140，基于所述鸟瞰图特征，对所述待处理图像进行语义分割。

具体地，在得到鸟瞰图特征之后，可以基于鸟瞰图特征，对待处理图像进行语义分割。

可以理解的是，特征提取模型输出的鸟瞰图特征是进行跨视图自注意力转换后的特征，基于由此得到的鸟瞰图特征进行语义分割，进一步提高了语义分割的准确性和可靠性。

本发明实施例提供的方法，特征提取模型中的自注意力模块，将待处理图像的令牌和鸟瞰图查询特征进行跨视图自注意力转换，可以降低自注意力机制的计算复杂度，进一步降低图像特征提取的复杂度，并且，提高了得到的鸟瞰图特征的准确性和可靠性，进一步提高了后续语义分割的准确性和可靠性。

基于上述实施例，所述特征提取模型包括级联的多个特征提取模块；

步骤130，包括：

步骤131，将所述待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前鸟瞰图查询特征，所述上一鸟瞰图查询特征是所述当前的特征提取模块之前的特征提取模块输出的；

步骤132，将最尾的特征提取模块输出的鸟瞰图查询特征作为所述鸟瞰图特征。

具体地，特征提取模型包括级联的多个特征提取模块，此处的特征提取模块可以是Transformer模型，也可以是LSTM模型，还可以是RNN模型等，本发明实施例对此不作具体限定。

此处，级联的特征提取模块的空间分辨率可以从高到低排列。

在提取鸟瞰图特征的过程中，首先，可以将特征提取模型中排在第一位的特征提取模块作为当前的特征提取模块，并执行提取鸟瞰图特征的流程：

可以将待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块，得到当前的特征提取模块输出的当前鸟瞰图查询特征，此处的上一鸟瞰图查询特征是当前的特征提取模块之前的特征提取模块输出的，此处的上一令牌可以是卷积编码器输出的图像特征，例如，可以是卷积编码器输出的1/4尺度的图像特征。

在得到当前的特征提取模块输出的当前鸟瞰图查询特征后，即可以将当前的特征提取模块的下一特征提取模块，即排在第二位的特征提取模块，作为当前的特征提取模块，并返回执行提取鸟瞰图特征的流程：

即，在得到排在第一位的特征提取模块输出的当前鸟瞰图查询特征后，可以将当前鸟瞰图查询特征和待处理图像的当前令牌输入当前的特征提取模块，得到当前的特征提取模块输出的当前鸟瞰图查询特征，此处的当前令牌可以是卷积编码器输出的图像特征，例如，可以是卷积编码器输出的1/8尺度的图像特征。

以排在第三位的特征提取模块作为当前的特征提取模块，来提取鸟瞰图特征的流程与上述以排在第二位的特征提取模块作为当前的特征提取模块来提取鸟瞰图特征的流程类似，此处不再赘述。

依次类推，知道当前的特征提取模块为特征提取模型中的最尾的特征提取模块，此处的最尾的特征提取模块是特征提取模型中的最后一个特征提取模块。

在最尾的特征提取模块提取得到当前鸟瞰图查询特征后，可以将最尾的特征提取模块提取得到的当前鸟瞰图查询特征作为鸟瞰图特征。

本发明实施例提供的方法，特征提取模型包括级联的多个特征提取模块，得到的鸟瞰图特征是经过了多个特征提取模块逐次执行的特征提取操作，由此提高了鸟瞰图特征的准确性和可靠性，进一步提高了后续基于鸟瞰图特征，对待处理图像进行语义分割的准确性和可靠性。

基于上述实施例，步骤131包括：

步骤1311，将所述待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块的自注意力模块，由所述自注意力模块对所述鸟瞰图查询特征进行采样，得到采样鸟瞰图查询特征，再对所述采样鸟瞰图查询特征进行逆采样，得到所述自注意力模块输出的逆采样鸟瞰图查询特征；

步骤1312，将所述逆采样鸟瞰图查询特征输入到当前的特征提取模块的前馈传播网络，得到所述前馈传播网络输出的当前鸟瞰图查询特征。

具体地，图2是本发明提供的对鸟瞰图查询特征进行采样的流程示意图，如图2所示，可以将待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块的自注意力模块，由自注意力模块对鸟瞰图查询特征进行采样，得到采样鸟瞰图查询特征，Q11表示第1个视图对应的鸟瞰图查询特征Q1的第一个令牌，依次类推，Q14表示第1个视图对应的鸟瞰图查询特征Q1的第四个令牌，Qi1表示第i个视图对应的鸟瞰图查询特征Qi的第一个令牌，依次类推，Qi1表示第i个视图对应的鸟瞰图查询特征Qi的第四个令牌。

此处的自注意力模块可以是图像块自注意力模块(Patch Attention,PA)，也可以是图像自注意力模块(Image Attention，IA)，还可以是场景自注意力模块(SceneAttention，SA)，本发明实施例对此不作具体限定。

例如，可以根据内参矩阵、外参矩阵以及鸟瞰图查询特征锚点坐标，将鸟瞰图查询特征投影到摄像平面上，公式如下：

其中，I代表图像坐标系，W代表世界坐标系，x代表坐标本身，K

其中，Q

此外，还可以对采样鸟瞰图查询特征进行一次采样，公式如下:

其中，Q

图3是本发明提供的对采样鸟瞰图查询特征进行逆采样的流程示意图，如图3所示，在得到采样鸟瞰图查询特征之后，可以再对采样鸟瞰图查询特征进行逆采样，得到自注意力模块输出的逆采样鸟瞰图查询特征，此处的逆采样鸟瞰图查询特征反映了鸟瞰图层面的特征信息。

此处的自注意力模块可以是图像自注意力模块，也可以是场景自注意力模块，还可以是图像自注意力模块和场景自注意力模块，本发明实施例对此不作具体限定。

即，可以利用自注意力模块中的图像自注意力模块和场景自注意力模块将更新后的采样鸟瞰图查询特征传播到整个鸟瞰图查询特征中，得到自注意力模块输出的逆采样鸟瞰图查询特征。

在得到逆采样鸟瞰图查询特征之后，可以将逆采样鸟瞰图查询特征输入到当前的特征提取模块的前馈传播网络(Feed Forward Network,FFN)，得到前馈传播网络输出的当前鸟瞰图查询特征。

基于上述实施例，图4是本发明提供的自注意力模块的结构示意图，如图4所示，所述自注意力模块包括级联的图像块自注意力模块、图像自注意力模块和场景自注意力模块，所述图像块自注意力模块用于对所述鸟瞰图查询特征的图像块进行跨视图自注意力转换得到第一鸟瞰图查询特征，所述图像自注意力模块用于对所述第一鸟瞰图查询特征进行跨视图自注意力转换得到第二鸟瞰图查询特征，所述场景自注意力模块用于对所述第二鸟瞰图查询特征进行跨视图自注意力转换。

具体地，自注意力模块可以包括级联的图像块自注意力模块、图像自注意力模块和场景自注意力模块，此处的图像块自注意力模块用于对鸟瞰图查询特征的图像块进行跨视图自注意力转换得到第一鸟瞰图查询特征，此处的图像自注意力模块用于对第一鸟瞰图查询特征进行跨视图自注意力转换得到第二鸟瞰图查询特征，此处的场景自注意力模块用于对第二鸟瞰图查询特征进行跨视图自注意力转换，得到鸟瞰图特征。

此处，在图像块自注意力模块之后，还会连接前馈传播网络，由前馈传播网络输出第一鸟瞰图查询特征，并且，在图像自注意力模块之后，还会连接前馈传播网络，由前馈传播网络输出第二鸟瞰图查询特征。在场景自注意力模块之后，还会连接前馈传播网络，由前馈传播网络输出鸟瞰图特征。

此处的图像块自注意力模块、图像自注意力模块和场景自注意力模块都可以是交叉注意力模块等，本发明实施例对此不作具体限定。

基于上述实施例，所述特征提取器包括顺次连接的第一卷积层、第一激活层和第一归一化层，所述特征提取器用于输出多尺度的图像特征。

具体地，此处的特征提取器包括顺次连接的第一卷积层、第一激活层和第一归一化层，此处的第一卷积层可以使用深层全卷积网络(Deep-ConvNet)，也可以使用全卷积网络(Fully Convolutional Networks，FCN)等，本发明实施例对此不作具体限定。

此处的第一激活层可以使用GELU激活函数，也可以使用Sigmoid激活函数，还可以使用ReLU激活函数，此处的第一归一化层可以是LN，也可以是BN，还可以是IN等，本发明实施例对此不作具体限定。

此处的特征提取器用于输出多尺度的图像特征，例如，可以是1/4，也可以是1/8，还可以是1/16、1/32等，本发明实施例对此不作具体限定。

例如，将待处理图像x∈R

基于上述实施例，步骤140包括：

具体地，可以将鸟瞰图特征输入至解码器中，由解码器输出待处理图像的语义分割结果，此处的解码器可以是卷积解码器，此处的解码器可以包括顺次连接的第二卷积层、第二归一化层和第二激活层，此处的第二卷积层可以使用深层全卷积网络，也可以使用全卷积网络等，本发明实施例对此不作具体限定。

此处的第二激活层可以使用GELU激活函数，也可以使用Sigmoid激活函数，还可以使用ReLU激活函数，此处的第二归一化层可以是LN，也可以是BN，还可以是IN等，本发明实施例对此不作具体限定。

此处，第二卷积层可以与第一卷积层相同，也可以与第一卷积层不同，第二激活层可以与第一激活层相同，也可以与第一激活层不同，第二归一化层可以与第一归一化层相同，也可以与第一归一化层不同，本发明实施例对此不作具体限定。

基于上述实施例，步骤130包括：

步骤310，获取摄像机的内参矩阵和外参矩阵，所述摄像机的内参矩阵和外参矩阵用于几何先验；

步骤320，基于所述摄像机的内参矩阵和外参矩阵，以及所述图像特征和所述鸟瞰图查询特征，得到所述特征提取模型输出的鸟瞰图特征。

具体地，可以获取摄像机的内参矩阵和外参矩阵，此处的摄像机的内参矩阵和外参矩阵用于几何先验。

此处的摄像机在自动驾驶感知应用中，可以是车载摄像头等，本发明实施例对此不作具体限定。

此处的摄像机的内参矩阵反映了相机自身的属性，各个相机的内参矩阵是不同的，需要标定才能知道这些参数，摄像机的内参矩阵描述的是物体的点与图像点之间的关系。

此处的摄像机的外参矩阵是世界坐标系到相机坐标系的变换。

在得到摄像机的内参矩阵和外参矩阵之后，可以基于摄像机的内参矩阵和外参矩阵，以及图像特征和鸟瞰图查询特征，得到特征提取模型输出的鸟瞰图特征。

例如，可以根据内参矩阵、外参矩阵以及鸟瞰图查询特征锚点坐标，将鸟瞰图查询特征投影到摄像平面上，公式如下：

其中，I代表图像坐标系，W代表世界坐标系，x代表坐标本身，K

基于上述任一实施例，图5是本发明提供的基于几何先验的鸟瞰图语义分割方法的流程示意图之二，如图5所示，该方法包括：

第一步，获取待处理图像和鸟瞰图查询特征。

第二步，将待处理图像输入至特征提取器，得到特征提取器输出的图像特征，此处的特征提取器可以包括顺次连接的第一卷积层、第一激活层和第一归一化层，此处的特征提取器用于输出多尺度的图像特征。

第三步，将待处理图像的上一令牌和上一鸟瞰图查询特征输入到特征提取模型中的当前的特征提取模块的自注意力模块，由自注意力模块对鸟瞰图查询特征进行采样，得到采样鸟瞰图查询特征，再对采样鸟瞰图查询特征进行逆采样，得到自注意力模块输出的逆采样鸟瞰图查询特征。

将逆采样鸟瞰图查询特征输入到当前的特征提取模块的前馈传播网络，得到前馈传播网络输出的当前鸟瞰图查询特征。此处的上一鸟瞰图查询特征是当前的特征提取模块之前的特征提取模块输出的。

将最尾的特征提取模块输出的鸟瞰图查询特征作为鸟瞰图特征。

第四步，基于鸟瞰图特征，对待处理图像进行语义分割。

此处的特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

此处的自注意力模块可以包括级联的图像块自注意力模块、图像自注意力模块和场景自注意力模块，此处的图像块自注意力模块用于对鸟瞰图查询特征的图像块进行跨视图自注意力转换得到第一鸟瞰图查询特征，此处的图像自注意力模块用于对第一鸟瞰图查询特征进行跨视图自注意力转换得到第二鸟瞰图查询特征，此处的场景自注意力模块用于对第二鸟瞰图查询特征进行跨视图自注意力转换。

下面对本发明提供的基于几何先验的鸟瞰图语义分割装置进行描述，下文描述的基于几何先验的鸟瞰图语义分割装置与上文描述的基于几何先验的鸟瞰图语义分割方法可相互对应参照。

基于上述任一实施例，本发明提供一种基于几何先验的鸟瞰图语义分割装置，图6是本发明提供的基于几何先验的鸟瞰图语义分割装置的结构示意图，如图6所示，该装置包括：

获取单元610，用于获取待处理图像和鸟瞰图查询特征；

提取图像特征单元620，用于将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征；

提取鸟瞰图特征单元630，用于将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；

语义分割单元640，用于基于所述鸟瞰图特征，对所述待处理图像进行语义分割；

所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

本发明实施例提供的装置，特征提取模型中的自注意力模块，将待处理图像的令牌和鸟瞰图查询特征进行跨视图自注意力转换，可以降低自注意力机制的计算复杂度，进一步降低图像特征提取的复杂度，并且，提高了得到的鸟瞰图特征的准确性和可靠性，进一步提高了后续语义分割的准确性和可靠性。

基于上述任一实施例，所述特征提取模型包括级联的多个特征提取模块；

提取鸟瞰图特征单元具体用于：

当前特征提取单元，用于将所述待处理图像的上一令牌和上一鸟瞰图查询特征输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前鸟瞰图查询特征，所述上一鸟瞰图查询特征是所述当前的特征提取模块之前的特征提取模块输出的；

提取鸟瞰图特征子单元，用于将最尾的特征提取模块输出的鸟瞰图查询特征作为所述鸟瞰图特征。

基于上述任一实施例，当前特征提取单元具体用于：

将所述逆采样鸟瞰图查询特征输入到当前的特征提取模块的前馈传播网络，得到所述前馈传播网络输出的当前鸟瞰图查询特征。

基于上述任一实施例，所述自注意力模块包括级联的图像块自注意力模块、图像自注意力模块和场景自注意力模块，所述图像块自注意力模块用于对所述鸟瞰图查询特征的图像块进行跨视图自注意力转换得到第一鸟瞰图查询特征，所述图像自注意力模块用于对所述第一鸟瞰图查询特征进行跨视图自注意力转换得到第二鸟瞰图查询特征，所述场景自注意力模块用于对所述第二鸟瞰图查询特征进行跨视图自注意力转换。

基于上述任一实施例，所述特征提取器包括顺次连接的第一卷积层、第一激活层和第一归一化层，所述特征提取器用于输出多尺度的图像特征。

基于上述任一实施例，所述基于所述鸟瞰图特征，对所述待处理图像进行语义分割，包括：

基于上述任一实施例，所述将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征，包括：

获取摄像机的内参矩阵和外参矩阵，所述摄像机的内参矩阵和外参矩阵用于几何先验；

基于所述摄像机的内参矩阵和外参矩阵，以及所述图像特征和所述鸟瞰图查询特征，得到所述特征提取模型输出的鸟瞰图特征。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于几何先验的鸟瞰图语义分割方法，该方法包括：获取待处理图像和鸟瞰图查询特征；将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征；将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；基于所述鸟瞰图特征，对所述待处理图像进行语义分割；所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于几何先验的鸟瞰图语义分割方法，该方法包括：获取待处理图像和鸟瞰图查询特征；将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征；将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；基于所述鸟瞰图特征，对所述待处理图像进行语义分割；所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于几何先验的鸟瞰图语义分割方法，该方法包括：获取待处理图像和鸟瞰图查询特征；将所述待处理图像输入至特征提取器，得到所述特征提取器输出的图像特征；将所述图像特征和所述鸟瞰图查询特征输入至特征提取模型，得到所述特征提取模型输出的鸟瞰图特征；基于所述鸟瞰图特征，对所述待处理图像进行语义分割；所述特征提取模型包括自注意力模块，所述自注意力模块用于将所述待处理图像的令牌和所述鸟瞰图查询特征进行跨视图自注意力转换。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赫然;黄怀波;樊齐航;周晓强;
专利申请人：中国科学院自动化研究所;

上一篇：一种针对头颈动脉狭窄患者的脑血流自调节模拟方法
下一篇：潜山储层的多尺度裂缝带预测方法、装置、介质及设备