掌桥专利:专业的专利平台
掌桥专利
首页

场景语义分割模型训练方法、装置和电子设备

文献发布时间:2023-06-19 19:27:02


场景语义分割模型训练方法、装置和电子设备

技术领域

本发明涉及模型训练的技术领域,尤其是涉及一种场景语义分割模型训练方法、装置和电子设备。

背景技术

场景语义分割在自动驾驶系统中具有非常重要的作用,行车环境一般都是开放式环境,即其场景比较复杂,有许多类型的物体在模型训练的时候都不曾出现过,因此自动驾驶系统中的场景语义分割是一个Open-set的问题。

已有的场景语义分割算法在训练模型的时候,对于一些训练过程中没有见过的类别,可能会进行错误的分类,进而导致自动驾驶车辆对场景产生错误的理解,从而不能更好的做出正确的规划决策。

发明内容

有鉴于此,本发明的目的在于提供一种场景语义分割模型训练方法、装置和电子设备,以缓解无法基于正确场景类别分类进行规划决策的技术问题。

第一方面,实施例提供一种场景语义分割模型训练方法,包括:

确定训练样本以及初始的场景语义分割模型,所述训练样本包括样本图像以及与所述样本图像中的像素对应有类别的标签,所述类别包括多个已知类别和其他类别,所述场景语义分割模型包括与每个已知类别对应的对立点特征,所述对立点特征对应于其他类别;

场景语义分割模型对目标样本图像进行特征提取,得到目标语义特征,并确定所述目标语义特征的目标类别;

基于所述目标类别、目标样本图像的类别的标签以及所述对立点特征对所述初始的场景语义分割模型按照预设期望进行参数优化,确定训练好的场景语义分割模型;

其中,所述预设期望包括所述目标语义特征与所述目标类别对应的对立点特征的第一距离大于所述目标语义特征与所述目标类别中的其他语义特征的第二距离;所述目标类别与所述目标样本图像的标签类别相同。

在可选的实施方式中,还包括:

基于目标类别的所有语义特征对所述目标类别的对立点特征进行优化。

在可选的实施方式中,所述基于目标类别的所有语义特征对所述目标类别的对立点特征进行优化,包括:

确定目标类别的所有语义特征分别与所述目标类别的对立点特征的第三距离;

确定其他类别的所有语义特征分别与所述目标类别的对立点特征的第四距离;

基于预先设定的优化算法对所述目标类别的对立点特征进行优化,以便使得所有所述第三距离的和趋近于无限大,且所有所述第四距离的和趋近于无限小。

在可选的实施方式中,所述场景语义分割模型对目标样本图像进行特征提取,得到目标语义特征,包括:

所述场景语义分割模型对目标样本图像进行特征提取得到多阶语义特征;

将所述多阶语义特征中在分类的前一层的特征图像提取出来的语义特征确定为目标语义特征。

在可选的实施方式中,每个像素对应有一个类别标签、一个对立点特征、一个目标语义特征以及一个目标类别。

在可选的实施方式中,所述场景语义分割模型包括特征提取层以及分类层,所述特征提取层包括所述对立点特征。

在可选的实施方式中,所述预设期望还包括基于交叉熵损失函数以及分类间隔达到期望值,所述分类间隔为类别对应的边界之间的间隔。

第二方面,实施例提供一种场景语义分割模型训练装置,所述装置包括:

第一确定模块,确定训练样本以及初始的场景语义分割模型,所述训练样本包括样本图像以及与所述样本图像中的像素对应有类别的标签,所述类别包括多个已知类别和其他类别,所述场景语义分割模型包括与每个已知类别对应的对立点特征,所述对立点特征对应于其他类别;

第二确定模块,场景语义分割模型对目标样本图像进行特征提取,得到目标语义特征,并确定所述目标语义特征的目标类别;

训练模块,基于所述目标类别、目标样本图像的类别的标签以及所述对立点特征对所述初始的场景语义分割模型按照预设期望进行参数优化,确定训练好的场景语义分割模型;

其中,所述预设期望包括所述目标语义特征与所述目标类别对应的对立点特征的第一距离大于所述目标语义特征与所述目标类别中的其他语义特征的第二距离;所述目标类别与所述目标样本图像的标签类别相同。

第三方面,实施例提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。

第四方面,实施例提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。

本发明实施例提供的一种场景语义分割模型训练方法、装置和电子设备,通过训练对抗机制的模型,并且在原有的softmax交叉熵损失函数的基础上加上分类间隔,能够最大程度上拉开各个类别在高维空间中的距离,增大类间的距离,降低类别之间错误分割的概率,同时使得未知物体尽可能的被分为else类别,而不去干扰已知的有意义的类别物体的分割。

本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种场景语义分割模型训练方法流程图;

图2为本发明实施例提供的一种场景语义分割模型结构示意图;

图3为本发明实施例提供的一种场景语义分割模型训练装置的功能模块图;

图4为本发明实施例提供的一种电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

通常将场景图像中一些对行车有较大影响意义的物体比如车、人、路缘石、道路、树木、建筑等赋予其对应的特定标签,一些其他的不属于上述类型的物体则标注为else类,在做训练时将其作为一类进行分类。

然而在测试的时候还是有一些训练时没有见过的物体类别,模型并不能准确的将它们分类到else类,而是有可能将其分到其他重要意义的特定类别中,这就导致自动驾驶车辆对场景产生错误的理解,从而不能更好的做出正确的规划决策。

基于此,本发明实施例提供的一种场景语义分割模型训练方法、装置和电子设备,已有的基于深度学习的场景理解算法大多数致力于提升已知类别的分类精度以及物体边缘的贴合程度,而对行车场景中未知的类别却没有做考虑。本发明实施例提出对抗机制训练,在考虑已知类别的分类精度的同时还考虑未知类别与已知类别空间之间的分离性。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种场景语义分割模型训练方法进行详细介绍。

图1为本发明实施例提供的一种场景语义分割模型训练方法流程图。

如图1所示,该方法包括以下步骤:

S102,确定训练样本以及初始的场景语义分割模型,训练样本包括样本图像以及与样本图像中的像素对应有类别的标签,类别包括多个已知类别和其他类别,场景语义分割模型包括与每个已知类别对应的对立点特征,对立点特征更加的接近其他类别。

其中,训练样本可以通过人工标识或者人工智能辅助标识进行获取。

这里的样本图像可以根据实际需要确定,例如,本申请主要针对的是自动驾驶场景的语义识别,该样本图像可以主要是一些道路以及道路周边的一些图像,该图像中可以包括车辆、道路、绿化带、行人、树木、建筑物、路缘石、交通设备、斑马线以及车道线等等对象。

另外,还可以对获取的图像进行扩充以便丰富样本。例如,可以通过翻转、平移、裁剪、旋转以及纹理增强等进行样本丰富。

其中,这里的类别可以为上述对象对应的类别,该类别的标签可以为类别的编码,例如,行人的编码为1,车辆的编码为2等等。具体的编码方式、以及编码格式可以根据实际需要确定。

这里的已知类别可以是车辆、道路、绿化带、行人、树木、建筑物、路缘石、交通设备、斑马线以及车道线等等已经明确或者需要关注的类别,其他类别可以是不需要关注的或者不明确的类别。例如,一共有10个类别,那么1-9可以为已知类别,10可以为其他类别。

对于样本图像中的每个像素,均对应有类别标签。对于图像中的每个类别,可以对应有一个或多个区域,该区域内的所有像素均可以对应该类别,该每个区域可以对应有类别边缘。该类别边缘可以通过边缘线划定。

该对立点特征可以对应有初始值,该初始值可以根据经验确定。该对立点特征的维度可以与目标语义特征的维度相同。

如图2所示,该场景语义分割模型包括特征提取层以及分类层,特征提取层包括对立点特征。

该特征提取层可以包括编码层以及解码层,例如,该特征提取层可以为特征金字塔模型,该分类层可以为softmax层。

例如,该场景语义分割模型可以为Segnet模型,在该Segnet模型中增加对立点特征,以便对该模型进行更好的训练。其中,编码层中,卷积层负责提取图像特征,经过池化层下采样,图像宽高减半但是通道数不变,将尺度不变的特征传送到下一层,bn层对训练图像进行批标准化(BatchNormalization),加速模型的学习。解码层中,对缩小后的特征图进行上采样,然后对上采样后的图像进行卷积处理,来完善图像中物体的几何形状,将编码层中获得的特征还原到原来图像的具体的像素点上。最终通过softmax层输出每个像素点的类别分布。

S104,场景语义分割模型对目标样本图像进行特征提取,得到目标语义特征,并确定目标语义特征的目标类别。

在确定训练样本以及初始的场景语义分割模型后,可以使用训练样本对初始的场景语义分割模型进行训练。

可以将训练样本中的样品图像输入到初始的场景语义分割模型中,通过特征提取层进行特征提取得到每个像素对应的语义编码特征,通过分类层进行分类确定每个像素对应的类别。

其中,可以通过场景语义分割模型对目标样本图像进行特征提取得到多阶语义特征;然后将多阶语义特征中在分类的前一层的特征图像提取出来的语义特征确定为目标语义特征。该多阶语义特征对应的维度不同,例如,通过特征金字塔模型的不同尺度的卷积核,可以得到不同维度特征。

每个像素可以对应有一个类别标签、一个对立点特征、一个目标语义特征以及一个目标类别。

S106,基于目标类别、目标样本图像的类别的标签以及对立点特征对初始的场景语义分割模型按照预设期望进行参数优化,确定训练好的场景语义分割模型。

这里的预设期望可以是期望场景语义分割模型获得的能力。

该期望主要包括:期望确定的每个像素的类别与其对应的类别标签相同,且具备一定的未知物体的识别能力,也就是在考虑已知类别的分类精度的同时还考虑未知类别与已知类别空间之间的分离性。

例如,这里的预设期望可以包括:目标语义特征与目标类别对应的对立点特征的第一距离大于目标语义特征与目标语类别中的其他语义特征的第二距离;

该目标类别与目标样本图像的标签类别相同。

还可以包括基于交叉熵损失函数以及分类间隔达到期望值,分类间隔为类别对应的边界之间的间隔。

在一些实施例中,还可以基于目标类别的所有语义特征对目标类别的对立点特征进行优化。作为一个示例,可以确定目标类别的所有语义特征分别与目标类别的对立点特征的第三距离;确定其他类别的所有语义特征分别与目标类别的对立点特征的第四距离;基于预先设定的优化算法对目标类别的对立点特征进行优化,以便使得所有第三距离的和趋近于无限大,且所有第四距离的和趋近于无限小。

其中,语义分割中每个像素点最后都投射为高维空间中的一个目标语义特征(为一个向量),同类别像素的目标语义特征在该高维空间中可以聚到一起称为一个簇。为语义分割中的每个类别(除else类别外)分别定义一个该高维空间中的对立点特征p。该对立点特征可以用于描述所有的else类别的所有目标语义特征的簇中心。基于此,每个类别的对立点特征应该尽可能与该类别的目标语义特征簇远离。此时,可以通过公式(一)表达该关系:

其中,p_i表示第i类的对立点,t_j表示第j个像素点在高维空间中的特征向量。

为了更好的描述未知物体尽可能的远离已知的有意义的类别,可以将所有的未知物体都归到else类中,因此,可以定义的对立点特征应该尽可能的靠近else类别在高维空间中的语义特征向量簇,此时,可以通过公式(二)表达该关系:

其中p_i表示第i类的对立点,t_l表示第l个else类别的像素点在高维空间中的特征向量。

可以在公式(一)以及公式(二)的约束下,采用梯度下降法对初始的对立点特征进行优化,得到最优的对立点特征。

本申请实施例可以通过上述公式(一)和公式(二)的对抗机制训练的模型,并且在原有的softmax交叉熵损失函数的基础上加上分类间隔,能够最大程度上拉开各个类别在高维空间中的距离,增大类间的距离,降低类别之间错误分割的概率,同时使得未知物体尽可能的被分为else类别,而不去干扰已知的有意义的类别物体的分割。

如图3所示,本发明实施例还提供一种场景语义分割模型训练装置200,所述装置包括:

第一确定模块201,确定训练样本以及初始的场景语义分割模型,所述训练样本包括样本图像以及与所述样本图像中的像素对应有类别的标签,所述类别包括多个已知类别和其他类别,所述场景语义分割模型包括与每个已知类别对应的对立点特征,所述对立点特征对应于其他类别;

第二确定模块202,场景语义分割模型对目标样本图像进行特征提取,得到目标语义特征,并确定所述目标语义特征的目标类别;

训练模块203,基于所述目标类别、目标样本图像的类别的标签以及所述对立点特征对所述初始的场景语义分割模型按照预设期望进行参数优化,确定训练好的场景语义分割模型;

其中,所述预设期望包括所述目标语义特征与所述目标类别对应的对立点特征的第一距离大于所述目标语义特征与所述目标类别中的其他语义特征的第二距离;所述目标类别与所述目标样本图像的标签类别相同。

在一些实施例中,还包括优化模块,基于目标类别的所有语义特征对所述目标类别的对立点特征进行优化。

在一些实施例中,优化模块,还具体用于,确定目标类别的所有语义特征分别与所述目标类别的对立点特征的第三距离;确定其他类别的所有语义特征分别与所述目标类别的对立点特征的第四距离;基于预先设定的优化算法对所述目标类别的对立点特征进行优化,以便使得所有第三距离的和趋近于无限大,且所有所述第四距离的和趋近于无限小。

在一些实施例中,第二确定模块202,还具体用于,所述场景语义分割模型对目标样本图像进行特征提取得到多阶语义特征;将所述多阶语义特征中在分类的前一层的特征图像提取出来的语义特征确定为目标语义特征。

在一些实施例中,每个像素对应有一个类别标签、一个对立点特征、一个目标语义特征以及一个目标类别。

在一些实施例中,所述场景语义分割模型包括特征提取层以及分类层,所述特征提取层包括所述对立点特征。

在一些实施例中,所述预设期望还包括基于交叉熵损失函数以及分类间隔达到期望值,所述分类间隔为类别对应的边界之间的间隔。

图4为本发明实施例提供的电子设备300的硬件架构示意图。参见图4所示,该电子设备300包括:机器可读存储介质301和处理器302,还可以包括非易失性存储介质303、通信接口304和总线305;其中,机器可读存储介质301、处理器302、非易失性存储介质303和通信接口304通过总线305完成相互间的通信。处理器302通过读取并执行机器可读存储介质301中场景语义分割模型训练的机器可执行指令,可执行上文实施例描述场景语义分割模型训练方法。

本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。

非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的非易失性存储介质,或者它们的组合。

可以理解的是,本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述,在此不再重复赘述。

本发明实施例所提供计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序代码被执行时可实现上述任一实施例所述的场景语义分割模型训练方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。

技术分类

06120115918289