掌桥专利:专业的专利平台
掌桥专利
首页

图像语义分割方法及装置

文献发布时间:2024-04-18 19:52:40


图像语义分割方法及装置

技术领域

本发明涉及人工智能技术领域,尤其涉及图像语义分割方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

现有的语义分割技术大多集中在精标注或者弱标注。对于精标注,虽然众多技术成果展示出了良好的性能,但是对于设备异常检测这样真实的大规模复杂场景来说,其标注成本难以承受,从而很难大规模扩展。受限于深度学习方法自身的约束,如果数据集太少,模型的泛化性无法得到保证,大量标注又使得图像语义分割的效率低下。虽然弱监督能够通过非常廉价的标注成本来解决部分问题,但是模型预测的准确性不高,且根本无法适用于多类别不规则目标的复杂任务中。

发明内容

本发明实施例提供一种图像语义分割方法,用以提升图像语义分割的效率和精确性,该方法包括:

获取粗标注图像集;

将粗标注图像集输入至第一语义分割模型,得到粗标注图像集中各个未标注像素对应的第一预测语义类别;其中,第一语义分割模型为利用粗标注图像集对机器学习模型进行训练后得到;

利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型;

将粗标注图像集输入至第二语义分割模型,得到粗标注图像集中各个未标注像素对应的第二预测语义类别及粗标注图像集中各个像素对应的第一损失函数值;

根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵;

根据粗标注图像集中各个粗标注图像对应的重加权权重矩阵及粗标注图像集中各个像素对应的第一损失函数值确定粗标注图像集中各个像素对应的第二损失函数值;

利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型;

获取待预测的图像;

将待预测的图像输入至第三语义分割模型,得到待预测的图像对应的语义分割结果。

本发明实施例还提供一种粗标注图像语义分割装置,用以提升图像语义分割的效率和精确性,该装置包括:

训练模块,用于获取粗标注图像集;将粗标注图像集输入至第一语义分割模型,得到粗标注图像集中各个未标注像素对应的第一预测语义类别;其中,第一语义分割模型为利用粗标注图像集对机器学习模型进行训练后得到;利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型;将粗标注图像集输入至第二语义分割模型,得到粗标注图像集中各个未标注像素对应的第二预测语义类别及粗标注图像集中各个像素对应的第一损失函数值;根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵;根据粗标注图像集中各个粗标注图像对应的重加权权重矩阵及粗标注图像集中各个像素对应的第一损失函数值确定粗标注图像集中各个像素对应的第二损失函数值;利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型;

识别模块,用于获取待预测的图像;将待预测的图像输入至第三语义分割模型,得到待预测的图像对应的语义分割结果。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像语义分割方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像语义分割方法。

本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述图像语义分割方法。

本发明实施例中,获取粗标注图像集;将粗标注图像集输入至第一语义分割模型,得到粗标注图像集中各个未标注像素对应的第一预测语义类别;利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型;将粗标注图像集输入至第二语义分割模型,得到粗标注图像集中各个未标注像素对应的第二预测语义类别及粗标注图像集中各个像素对应的第一损失函数值;根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵;根据粗标注图像集中各个粗标注图像对应的重加权权重矩阵及粗标注图像集中各个像素对应的第一损失函数值确定粗标注图像集中各个像素对应的第二损失函数值;利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型;获取待预测的图像;将待预测的图像输入至第三语义分割模型,得到待预测的图像对应的语义分割结果,与现有技术相比,利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型,通过重加权权重矩阵对粗标注图像集中各个像素对应的第一损失函数值加权,抑制了错误标注对第三语义分割模型的影响,使用自监督的方式避免了未标注的像素没有监督的弊端,提升了第三语义分割模型的性能,提升了图像语义分割的效率和精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明提供的图像语义分割方法的流程示意图;

图2为本发明提供的图像语义分割方法的流程示意图;

图3为本发明提供的图像语义分割方法的流程示意图;

图4为本发明提供的图像语义分割方法的流程示意图;

图5为本发明提供的图像语义分割装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

图1为本发明实施例提供的一种图像语义分割方法所对应的流程示意图,如图1所示,该方法包括:

步骤101,获取粗标注图像集。

精标注需要逐像素地对图片中所有像素赋予一个代表类别的标签,而粗标注只需要大致勾勒出目标的多边形轮廓。不同于弱标注中采用图像级别标注或者涂鸦标注,多边形轮廓能够最大限度地在减少标注成本,同时保留目标原有的形状,更适用于复杂场景及复杂目标的语义分割任务。

步骤102,将粗标注图像集输入至第一语义分割模型,得到粗标注图像集中各个未标注像素对应的第一预测语义类别。

需要说明的是,其中,第一语义分割模型为利用粗标注图像集对机器学习模型进行训练后得到。

在一种可能的实施方式中,机器学习模型采用DeepLabv3+。

步骤103,利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型。

步骤104,将粗标注图像集输入至第二语义分割模型,得到粗标注图像集中各个未标注像素对应的第二预测语义类别及粗标注图像集中各个像素对应的第一损失函数值。

在一种可能的实施方式中,语义分割模型采用交叉熵作为损失函数。

步骤105,根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵。

步骤106,根据粗标注图像集中各个粗标注图像对应的重加权权重矩阵及粗标注图像集中各个像素对应的第一损失函数值确定粗标注图像集中各个像素对应的第二损失函数值。

本发明实施例中,为了修复错误的监督信号,通过重加权权重矩阵对粗标注图像集中各个像素对应的第一损失函数值进行加权。

步骤107,利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型。

本发明实施例中,将第二损失函数值进行反向传播,经过多次迭代训练,得到第三语义分割模型。

步骤108,获取待预测的图像。

步骤109,将待预测的图像输入至第三语义分割模型,得到待预测的图像对应的语义分割结果。

本发明实施例中,利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型。利用自监督的方式来处理未标注像素并反向传播梯度值,即将神经网络在未标注像素处预测得到的第一预测语义类别作为伪标签,再用伪标签来监督。

上述方案,通过重加权权重矩阵对粗标注图像集中各个像素对应的第一损失函数值加权,抑制了错误标注对第三语义分割模型的影响,使用自监督的方式避免了未标注的像素没有监督的弊端,提升了第三语义分割模型的性能,提升了图像语义分割的效率和精确性。

本发明实施例在步骤105中,根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵,步骤流程如图2所示,具体如下:

步骤201,根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别构建多个无向图。

需要说明的是,多个无向图中各个无向图与粗标注图像集中各个粗标注图像一一对应;无向图的顶点与粗标注图像中各个像素一一对应;无向图的边用于指示粗标注图像中各个像素之间的位置关系。

步骤202,根据各个粗标注图像对应的无向图确定各个粗标注图像对应的置信度矩阵。

需要说明的是,置信度矩阵中的各个元素与粗标注图像中各个像素一一对应,用于指示粗标注图像中各个已标注像素对应的语义类别的可信度及粗标注图像中各个未标注像素对应的第二预测语义类别的可信度。

步骤203,根据各个粗标注图像对应的置信度矩阵确定各个粗标注图像对应的重加权权重矩阵。

本发明实施例中,首先将第二语义分割模型的输出定义为:

logits(A

式中:C是类别数,A

为了更好地计算图像里相邻像素点之间的形式化关系,本发明实施例将logits转化为无向图

式中:

接下来构造无向图上的边。由于粗标注图像里空间相邻的像素点之间存在相关性,于是将空间局部相邻的像素点之间建立边的关系。即在构造的无向图里,如果顶点u所代表的像素点与顶点v所代表的像素点存在空间相邻,即它们在上下左右四个方向相邻,那么顶点u与顶点v之间会建立一条无向边。

是所有边的集合。如果顶点u,v之间存在一条无向边,则可以表示为

对于顶点u和v,存在

上述方案构建了无向图来形式化表示logits中每个像素之间的关系。

在一种可能的实施方式中,将logits转化为无向图时,使用当前像素周围的四个相邻的像素建边,即上、下、左、右四个方向。

进一步地,基于无向图,计算得到对应的置信度矩阵,步骤流程如图3所示,具体如下:

步骤301,计算当前顶点与邻接顶点相关系数。

本发明实施例中,首先计算得到当前顶点的特征向量的最大元素所在的位置i与邻接顶点的特征向量的最大元素所在的位置j,并将当前顶点与邻接顶点的位置i与j的元素提取后分别形成新的长度为2的向量。将两个向量计算点积的结果作为当前顶点与邻接顶点的相关系数。

步骤302,对当前顶点与所有邻接顶点分别计算点积,取均值后归一化得到置信度。

上述方案,基于无向图,计算得到对应的置信度矩阵,提高了图像语义分割的效率。

本发明实施例中,重加权权重与置信度成反比关系。对于高置信度的样本,无论标注是否正确,应该抑制它的损失函数值。对于低置信度的样本,无论标注是否正确,应该增大它的损失函数值。因此,如果顶点与邻接顶点的关系越密切,它的相关系数越大,置信度越大,重加权权重就应该越小,否则呈现相反的关系。

重加权权重矩阵的具体计算公式如下:

其中,Φ表示重加权权重矩阵,

本发明实施例在将粗标注图像集输入至第一语义分割模型之前,步骤流程如图4所示,具体如下:

步骤401,将粗标注图像集作为样本数据,构建训练集和测试集。

步骤402,利用训练集对机器学习模型进行训练,得到第一语义分割模型。

步骤403,利用测试集对第一语义分割模型进行测试。

上述方案,将粗标注图像集作为样本数据,构建训练集和测试集,利用训练集对机器学习模型进行训练,得到第一语义分割模型,提高了第一语义分割模型的有效性。

本发明实施例中还提供了一种图像语义分割装置,如下面的实施例所述。该装置如图5所示,所述装置包括:

训练模块501,用于获取粗标注图像集;将粗标注图像集输入至第一语义分割模型,得到粗标注图像集中各个未标注像素对应的第一预测语义类别;其中,第一语义分割模型为利用粗标注图像集对机器学习模型进行训练后得到;利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型;将粗标注图像集输入至第二语义分割模型,得到粗标注图像集中各个未标注像素对应的第二预测语义类别及粗标注图像集中各个像素对应的第一损失函数值;根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵;根据粗标注图像集中各个粗标注图像对应的重加权权重矩阵及粗标注图像集中各个像素对应的第一损失函数值确定粗标注图像集中各个像素对应的第二损失函数值;利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型;

识别模块502,用于获取待预测的图像;将待预测的图像输入至第三语义分割模型,得到待预测的图像对应的语义分割结果。

本发明实施例中,所述训练模块501具体用于:

根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别构建多个无向图;多个无向图中各个无向图与粗标注图像集中各个粗标注图像一一对应;无向图的顶点与粗标注图像中各个像素一一对应;无向图的边用于指示粗标注图像中各个像素之间的位置关系;

根据各个粗标注图像对应的无向图确定各个粗标注图像对应的置信度矩阵;置信度矩阵中的各个元素与粗标注图像中各个像素一一对应,用于指示粗标注图像中各个已标注像素对应的语义类别的可信度及粗标注图像中各个未标注像素对应的第二预测语义类别的可信度;

根据各个粗标注图像对应的置信度矩阵确定各个粗标注图像对应的重加权权重矩阵。

本发明实施例中,所述训练模块501具体用于:

重加权权重矩阵的具体计算公式如下:

其中,Φ表示重加权权重矩阵,

本发明实施例中,所述训练模块501还用于:

在将粗标注图像集输入至第一语义分割模型之前,将粗标注图像集作为样本数据,构建训练集和测试集;

利用训练集对机器学习模型进行训练,得到所述第一语义分割模型;

利用测试集对所述第一语义分割模型进行测试。

由于该装置解决问题的原理与图像语义分割方法相似,因此该装置的实施可以参见图像语义分割方法的实施,重复之处不再赘述。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像语义分割方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像语义分割方法。

本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述图像语义分割方法。

本发明实施例中,获取粗标注图像集;将粗标注图像集输入至第一语义分割模型,得到粗标注图像集中各个未标注像素对应的第一预测语义类别;利用粗标注图像集及粗标注图像集中各个未标注像素对应的第一预测语义类别对第一语义分割模型进行训练,得到第二语义分割模型;将粗标注图像集输入至第二语义分割模型,得到粗标注图像集中各个未标注像素对应的第二预测语义类别及粗标注图像集中各个像素对应的第一损失函数值;根据粗标注图像集及粗标注图像集中各个未标注像素对应的第二预测语义类别确定粗标注图像集中各个粗标注图像对应的重加权权重矩阵;根据粗标注图像集中各个粗标注图像对应的重加权权重矩阵及粗标注图像集中各个像素对应的第一损失函数值确定粗标注图像集中各个像素对应的第二损失函数值;利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型;获取待预测的图像;将待预测的图像输入至第三语义分割模型,得到待预测的图像对应的语义分割结果,与现有技术相比,利用粗标注图像集及粗标注图像集中各个像素对应的第二损失函数值对第二语义分割模型进行训练,得到第三语义分割模型,通过重加权权重矩阵对粗标注图像集中各个像素对应的第一损失函数值加权,抑制了错误标注对第三语义分割模型的影响,使用自监督的方式避免了未标注的像素没有监督的弊端,提升了第三语义分割模型的性能,提升了图像语义分割的效率和精确性。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 三维图像的语义分割方法、装置、设备及存储介质
  • 图像语义分割标注的方法、装置、存储介质和设备
  • 一种用于图像的语义分割方法和装置
  • 图像语义分割方法、装置、电子设备和计算机可读介质
  • 一种针对RGB-D图像的语义分割方法及装置
  • 图像语义分割模型训练方法、图像语义分割方法及装置
  • 图像语义分割模型训练方法、图像语义分割方法及装置
技术分类

06120116335044