掌桥专利:专业的专利平台
掌桥专利
首页

图像分割模型的训练方法、图像分割方法和装置

文献发布时间:2024-04-18 20:01:23


图像分割模型的训练方法、图像分割方法和装置

本申请涉及图像处理技术领域,尤其涉及一种图像分割模型的训练方法、图像分割方法和装置。

近年来,卷积神经网络凭借其强大的特征提取能力,使基于深度学习的抠图算法成为主流。然而,相关技术中,图像分割模型训练采用的训练样本包括三元图,其中,三元图中包括前景区域、背景区域和无法识别是前景还是背景的未知区域,该三元图是基于人工生成的精度较高的三元图,使得训练得到的图像分割模型的鲁棒性较低,同时相关技术中图像分割模型训练的准确性也较差。

发明内容

本申请提出一种图像分割模型的训练方法、图像分割方法和装置,以提高图像分割模型的准确性和鲁棒性。

本申请一方面实施例提出了一种图像分割模型的训练方法,包括:

获取训练样本;所述训练样本包括训练图像,所述训练图像包括标注的掩膜图和标注的三元图;所述训练图像是采用待处理图像和所述待处理图像对应的三元图拼接得到的;其中,所述标注的掩膜图包括前景区域和背景区域;所述标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域;

将所述训练样本输入图像分割模型,得到所述待处理图像对应的预测三元图和目标预测掩膜图;

根据所述预测三元图和所述标注的三元图之间的差异,以及所述目标预测掩膜图和所述标注的掩膜图之间的差异,确定所述图像分割模型的目标损失;

根据所述目标损失对所述图像分割模型进行训练。

本申请另一方面实施例提出了一种图像分割方法,包括:

获取目标待处理图像和所述目标待处理图像对应的目标三元图;

将所述目标待处理图像和所述目标三元图输入训练得到的图像分割模型,以得到目标掩膜图;所述图像分割模型采用前述一方面所述的图像分割模型的训练方法训练,以得到所述经过训练的图像分割模型;

根据所述目标掩膜图,对所述目标待处理图像进行分割,得到所述目标待处理图像中前景区域中的对象。

本申请另一方面实施例提出了一种图像分割模型的训练装置,包括:

获取模块,用于获取训练样本;所述训练样本包括训练图像,所述训练图像包括标注的掩膜图和标注的三元图;所述训练图像是采用待处理图像和所述待处理图像对应的三元图拼接得到的;其中,所述标注的掩膜图包括前景区域和背景区域;所述标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域;

处理模块,用于将所述训练样本输入图像分割模型,得到所述待处理图像对应的预测三元图和目标 预测掩膜图;

确定模块,用于根据所述预测三元图和所述标注的三元图之间的差异,以及所述目标预测掩膜图和所述标注的掩膜图之间的差异,确定所述图像分割模型的目标损失;

训练模块,用于根据所述目标损失对所述图像分割模型进行训练。

本申请另一方面实施例提出了一种图像的抠图装置,包括:

获取模块,用于获取目标待处理图像和所述目标待处理图像对应的目标三元图;

处理模块,用于将所述目标待处理图像和所述目标三元图输入训练得到的图像分割模型,以得到目标掩膜图;所述图像分割模型采用前述一方面所述的图像分割模型的训练方法训练,以得到所述经过训练的图像分割模型;

分割模块,用于根据所述目标掩膜图,对所述目标待处理图像进行分割,得到所述目标待处理图像中前景区域中的对象。

本申请另一方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述一方面所述的图像分割模型的训练方法或前述另一方面所述的图像分割方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述一方面所述的图像分割模型的训练方法或前述另一方面所述的图像分割方法。

本申请另一方面实施例提出了一种计算机程序产品,其上存储有计算机程序,所述程序被处理器执行时实现如前述一方面所述的图像分割模型的训练方法或前述另一方面所述的图像分割方法。

本申请提出的图像分割模型的训练方法、图像分割方法和装置,获取训练样本,训练样本包括训练图像,训练图像包括标注的掩膜图和标注的三元图;训练图像是采用待处理图像和所述待处理图像对应的三元图拼接得到的,其中,标注的掩膜图包括前景区域和背景区域,标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域,将训练样本输入图像分割模型,得到待处理图像对应的预测三元图和目标预测掩膜图,根据预测三元图和目标预测掩膜图,确定图像分割模型的目标损失,根据目标损失对图像分割模型进行训练。本申请中训练样本对应的三元图不需要人工生成的高精度三元图,提高了训练样本所需三元图的鲁棒性,在模型训练的过程中根据预测三元图和标注的三元图间的差异,以及目标预测掩膜图和标注的掩膜图间的差异,确定图像分割模型的优化目标,提高了图像分割模型的训练效果和鲁棒性。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例所提供的一种图像分割模型的训练方法的流程示意图;

图2为本申请实施例所提供的一种训练样本中待处理图像的生成示意图;

图3A为本申请实施例所提供的一种三元图生成的示意图之一;

图3B为本申请实施例所提供的一种三元图生成的示意图之二;

图3C为本申请实施例所提供的一种三元图生成的示意图之三;

图4为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图;

图5为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图;

图6为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图;

图7为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图;

图8为本申请实施例提供的一种图像分割模型的结构示意图;

图9为本申请实施例提供的一种图像分割方法的流程示意图;

图10为本申请实施例提供的一种图像分割模型的训练装置的结构示意图;

图11为本申请实施例提供的一种图像分割装置的结构示意图;

图12为本申请实施例提供的一种电子设备的框图。

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的图像分割模型的训练方法、图像分割方法和装置。

图1为本申请实施例所提供的一种图像分割模型的训练方法的流程示意图。

本申请实施例的图像分割模型的训练方法的执行主体为图像分割模型的训练装置,该装置可设置于电子设备中,电子设备可以为服务器、终端设备等,终端设备例如为智能手机、掌上电脑等,本实施例中不进行限定。

如图1所示,该方法可以包括以下步骤:

步骤101,获取训练样本。

训练样本包括训练图像,训练图像包括标注的掩膜图和标注的三元图。训练图像是采用待处理图像和待处理图像对应的三元图拼接得到的。其中,标注的掩膜图包括前景区域和背景区域;标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域。本申请实施例中,掩膜图和三元图均为灰度图,其中,前景区域中各像素点的像素值为第一设定值,背景区域中各像素点的像素值为第二设定值,未知区域中各像素点的像素值为第三设定值,第三设定值为介于第一设定值和第二设定值之间的像素值,例如,第一设定值为255,第二设定值为0,第三设定值为0-255之间的值,例如为128。

本申请实施例中,训练图像是采用待处理图像和待处理图像对应的三元图拼接得到的,其中,待处理图像即为要进行前景图像分割,即需要进行抠图处理的图像。其中,对于待处理图像,作为一种实施方式,如图2所示,可从设定数据集中获取成对的原始图像和标注的掩膜图,对原始图像通过前景预测方法将前景信息扩散到背景区域,生成背景处理后的前景图像,达到排除背景信息干扰的目的,作为一种实现方式,采用标注的掩膜图对原始图像进行图像分割,分割出前景部分,进而采用前景部分的各个像素点的像素信息,更新相邻的背景部分的像素信息,通过不断的向外扩散,将前景部分的像素信息扩 散至整个背景部分,使得背景部分和前景部分的像素信息相似,例如,原始图像通过前景预测后得到的前景图像中,像素信息则和前景中小猫的像素信息相似。进而,随机从公开的COCO数据集和BG-20k数据集中选取图像作为背景图像,根据标注的掩膜图,对背景处理后的前景图像和背景图像进行加权融合,得到训练用的原图,即待处理的图像。

待处理图像对应的三元图可以采用下述至少一种方式生成,该三元图相比于人工生成的精度较高的三元图,包括的未知区域增大,未知区域中包括确定为前景的像素点和确定为背景的像素点,也就是说将已确定为前景的像素点或背景的像素点作为未知像素点,增加到未知区域中,以增加未知区域的面积,实现了在未知区域中增加干扰信息,以生成各类三元图,从而提高了图像分割模型在各类三元图上的泛化性和鲁棒性。

基于图3A-3C,对三元图的生成方式进行实例说明:

作为第一种实施方式,将待处理图像输入分割模型,得到待处理图像对应的掩膜图,如图3A所示,该掩膜图相比于图3B中标注的掩膜图,包括噪声信号,即掩膜图中猫咪身上的灰色部分,掩膜图为二值图,其中,掩膜图中包括的多个像素点和待处理图像中的多个像素点对应,根据掩膜图中各个像素点的像素值,即灰度值,确定像素值属于(0,255)区间的多个像素点,并重新将像素值属于(0,255)区间的多个像素点的像素值设置为设定值,例如为128,并将该像素值为128的多个像素点的区域作为未知区域,也就是说未知区域中包括的各个像素点不确定属于前景区域还是属于背景区域,进而,针对未知区域,采用大小不同的膨胀核对未知区域进行膨胀,以得到待处理图像对应的三元图。

作为第二种实施方式,获取待处理图像标注的掩膜图,如图3B所示,对标注的掩膜图添加噪声,例如为高斯白噪声,进而,确定标注的掩膜图中的未知区域,并采用大小不同的膨胀核对未知区域进行膨胀,得到待处理图像对应的三元图,图3B中,从左到右示出了采用膨胀核大小分别为9,19和29生成的三元图。其中,确定标注的掩膜图中的未知区域的方式,可参照第一种实施方式中的说明,原理相同,此处不再赘述。

作为第三种实施方式,获取待处理图像标注的掩膜图,从标注的掩膜图中确定前景区域和背景区域,其中,前景区域的像素点的像素值为255,背景区域的像素点的像素值为0,从前景区域中随机选择设定数量的像素点,作为已知前景点,从背景区域中随机选择设定数量的像素点,作为已知背景点,如图3C所示,从左到右依次示出了随机选取4个点,8个点和18个点生成的三元图,并将剩余区域作为未知区域,其中,未知区域的像素点的像素值为设定值,例如128,从而,得到待处理图像对应的三元图。

需要说明的是,训练样本可以为根据待处理图像和上述实施方式中至少一种三元图通过通道级联的方式得到的,以生成多种训练样本,提高训练样本的多样性。在对图像分割模型进行训练时,可采用生成的多种不同的训练样本进行模型训练,以提高模型训练的效果,同时,提高了图像分割模型在各类三元图上的泛化性。例如,训练样本为彩色图像,则包括红Red,绿Green和蓝Blue三个通道的像素信息,三元图为灰度图,包括一个通道的像素信息,将待处理图像和三元图进行通道级联,使得训练样本每一个像素点对应4个通道的像素信息,提高了训练样本携带的信息量。

步骤102,将训练样本输入图像分割模型,得到待处理图像对应的预测三元图和目标预测掩膜图。

其中,图像分割模型可以为神经网络的模型,通过对图像分割模型的训练,使得图像分割模型可以学习到输入的训练样本和对应的掩膜图之间的对应关系,从而,基于精度较高的掩膜图可进行准确的前 景区域分割,以得到只包括前景对象的抠图,也就是说得到的抠图中前景对象是不透明的,而背景部分是透明的,提高了抠图效果。进而,基于得到的抠图可更换任意的背景,可适用于各种背景替换的场景。

其中,关于预测三元图和目标预测掩膜图,可参照步骤101中关于三元图和预测三元图的相关解释说明,原理相同,此处不再赘述。

步骤103,根据预测三元图和标注的三元图之间的差异,以及目标预测掩膜图和标注的掩膜图之间的差异,确定图像分割模型的目标损失。

本申请实施例中,将标准的三原图作为监督信号,确定预测三元图和标注的三元图间的差异,以及以标注的掩膜图作为监督信号,确定图像分割模型预测得到的预测掩膜图和标注的掩膜图之间的差异,将掩膜图的差异和三元图的差异,一起作为图像分割模型的优化目标,实现了在图像分割模型优化过程中,将三元图损失和掩膜损失的多任务的损失作为优化目标,以在优化过程中不断修正三元图的损失,使得预测得到的三元图越来越准确,从而降低了图像分割模型对输入的训练样本对应的三元图的精度要求,提高了图像分割模型对三元图的鲁棒性和泛化性,而修正三元图和修正掩膜图是相互促进的,最终提高了图像分割模型的训练效果,使得训练得到的图像分割模型在进行图像分割时具有较高的准确性。

步骤104,根据目标损失对图像分割模型进行训练。

进而,采用目标损失函数对图像分割模型进行反向梯度训练,以调整图像分割模型的参数,进而根据调整后的图像分割模型的参数,继续采用训练样本进行训练,直至目标损失函数的值最小,则确定图像分割模型训练完毕。通过三元图损失和目标掩膜损失,确定图像分割模型的目标损失,将目标损失作为优化目标,相比于相关技术中仅采用掩膜损失作为优化目标的图像分割模型,本申请训练得到的图像分割模型提高了对三元图识别的鲁棒性,同时提高了识别的准确性。另外,使用该图像分割模型对图像进行抠图处理,提高图像处理的精确性。

本申请实施例的图像分割模型的训练方法中,获取训练样本,训练样本包括训练图像,训练图像包括标注的掩膜图和标注的三元图,训练图像是采用待处理图像和待处理图像对应的三元图拼接得到的,其中,标注的掩膜图包括前景区域和背景区域,标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域,将训练样本输入图像分割模型,得到待处理图像对应的预测三元图和目标预测掩膜图,根据预测三元图和目标预测掩膜图,确定图像分割模型的目标损失,根据目标损失对图像分割模型进行训练。本申请中训练样本对应的三元图不需要人工生成的精度较高的三元图,提高了训练样本所需三元图的鲁棒性和泛化性,在模型训练的过程中根据预测三元图和标注的三元图间的差异,以及目标预测掩膜图和标注的掩膜图间的差异,确定图像分割模型的优化目标,提高了图像分割模型的训练效果和鲁棒性。

基于上述示例,图4为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图,如图4所示,该方法包括以下步骤:

步骤401,获取训练样本。

其中,步骤401可参照前述实施例中的解释说明,原理相同,此处不再赘述。

步骤402,将训练图像输入图像分割模型的编码器进行编码,得到编码器的多层卷积层中各层卷积层所输出的图像特征。

其中,图像分割模型包括编码器和两个解码器,两个解码器为用于解码生成预测三元图的三元图解 码器和用于生成预测掩膜图的掩膜解码器。

其中,编码器包括多层卷积层,每一层卷积层用于对训练图像进行特征提取,得到对应不同尺度的图像特征,其中,各层卷积层输出的图像特征中包括结构纹理信息和语义信息。

步骤403,将多层卷积层输出的图像特征输入图像分割模型的三元图解码器,得到预测三元图。

其中,三元图解码器由多个反卷积层叠加构成,多层卷积层输出的图像特征和多个反卷积层具有对应关系,根据对应关系,将多层卷积层输出的图像特征对应输入三元图解码器的多个反卷积层,以预测得到预测三元图。

作为一种实施方式,编码器的多层卷积层包括高层卷积层和低层卷积层,其中,低层卷积层输出的图像特征中包括丰富的结构和/或纹理信息,而语义信息较少,而高层卷积层输出的图像特征中包括丰富的语义信息,而结构和/或纹理信息较少。三元图解码器的多个反卷积层包括低层反卷积层和高层反卷积层,从而,编码器的高层卷积层和三元图解码器的低层反卷积层对应,编码器的低层卷积层和三元图解码器的高层反卷积层对应,即实现错层连接,或跳层连接,以使得三元图解码器可以基于编码器的多层卷积层提取到多个尺度的特征,预测生成预测三元图,提高了预测三元图生成的准确性。

步骤404,将多层卷积层输出的图像特征和预测三元图,输入图像分割模型的掩膜解码器,得到目标预测掩膜图。

作为一种实施方式,将高层卷积层输出的图像特征和预测三元图,输入掩膜解码器的第一解码层,得到第一预测掩膜图,将第一预测掩膜图和低层卷积层输出的图像特征,输入掩膜解码器的第二解码层,得到目标预测掩膜图,实现了通过跳层连接,以使的掩膜解码器可以基于编码器的多层卷积层提取到的多个尺度的特征,生成预测掩膜图,提高了预测掩膜图生成的准确性。

步骤405,根据预测三元图和标注的三元图之间的差异,以及目标预测掩膜图和标注的掩膜图之间的差异,确定图像分割模型的目标损失。

步骤406,根据目标损失对图像分割模型进行训练。

其中,步骤405和步骤406可参照前述实施例中的解释说明,原理相同,此处不再赘述。

本申请实施例的图像分割模型的训练方法中,训练图像是待处理图像和对应的三元图,该三元图不需要采用不包含噪声信息的高精度三元图,降低了图像分割模型对输入样本对应的三元图的要求,提高了三元图的鲁棒性。进而,将训练图像输入图像分割模型的编码器进行编码,得到编码器的多层卷积层中各层卷积所输出的图像特征,将多层卷积输出的图像特征输入图像分割模型的三元图解码器,得到预测三元图,将多层卷积输出的图像特征和预测三元图,输入图像分割模型的掩膜解码器,得到目标预测掩膜图,通过获取的多尺度图像特征,采用双解码结构进行解码,得到目标预测掩膜图,进而,基于目标预测掩膜图和预测三元图确定多任务损失,以进行模型优化,提高了图像分割模型的训练效果,以使得生成的目标预测掩膜图更加准确,从而在抠图场景下,基于目标预测掩膜图实现高精度抠图。

基于上述示例,图5为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图,如图5所示,步骤405包括以下步骤:

步骤501,根据预测三元图和标注的三元图之间的差异,确定三元图损失。

本申请实施例中,以标注的三元图作为监督信号,确定图像分割模型预测得到的预测三元图和标注的三元图之间的差异,而预测三元图中包括前景区域、背景区域,以及前景区域和背景区域间的未知区 域,在标注的三元图中,准确确定了未知区域,从而,该差异可以为未知区域间的差异,具体可以为未知区域中包括的像素点的像素值间的差异,基于该差异确定的三元图损失,可作为预测三元图的优化目标。

作为一种实施方式,三元图解码器使用三元图损失L

L

其中,L

步骤502,根据目标预测掩膜图和标注的掩膜图之间的差异,确定目标掩膜损失。

本申请实施例中,以标注的掩膜图作为监督信号,确定图像分割模型预测得到的预测掩膜图和标注的掩膜图之间的差异,而预测掩膜图中包括前景区域和背景区域,从而,预测掩膜图和标注的掩膜图之间的差异,可以为前景区域之间的差异和背景区域之间的差异,具体可以为前景区域中包括的像素点的像素值间的差异,以及背景区域中包括的像素点的像素值间的差异。而基于该差异确定的目标掩膜损失,可作为预测掩膜图优化的目标。

其中,目标掩膜损失在后续实施例中还会详细解释,此处不再赘述。

步骤503,根据三元图损失和目标掩膜损失,确定图像分割模型的目标损失。

在本申请的一种实施方式中,采用设定的第二权重值,对三元图损失和目标掩膜损失进行加权计算,得到图像分割模型的目标损失。

本申请实施例的图像分割模型的训练方法中,基于目标预测掩膜图和预测三元图确定多任务损失,即三元图损失和目标掩膜损失,根据三元图损失和目标掩膜损失确定图像分割模型的损失函数以进行模型优化,提高了图像分割模型的训练效果,以使得生成的目标预测掩膜图更加准确,从而在抠图场景下,基于目标预测掩膜图实现高精度抠图。

基于上述实施例,图6为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图,如图6所示,步骤502包括以下步骤:

步骤601,根据训练样本标注的三元图中的各像素点的像素值,确定训练样本标注的三元图中的未知区域。

其中,未知区域是处于前景区域和背景区域之间的图像区域,即未知区域中的像素点不确定是属于前景区域还是属于背景区域。

本申请实施例中,各像素点的像素值为灰度值。

本实施例中,标注的三元图中的未知区域中的各个像素点的灰度值为设定值,通过各个像素点的灰度值,可确定未知区域,即确定未知区域包括的多个像素点在标注的三元图中的位置,从而可以识别未知区域包括的多个像素点。

步骤602,根据训练样本标注的掩膜图,确定未知区域中的子区域。

其中,子区域中包括的各像素点属于前景区域。

本申请实施例中,标注的掩膜图中,包括准确的前景区域和背景区域,即可确定哪些像素点属于前景区域,哪些像素点属于背景区域,将未知区域中包括的各个像素点,分别与前景区域包括的像素点和背景区域包括的像素点比对,即可从未知区域中确定出属于前景区域的各个像素点,而未知区域中属于 前景区域的各个像素点对应的区域即为子区域。

步骤603,根据未知区域,在目标预测掩膜图中确定和未知区域对应的第一区域,以及在训练样本标注的掩膜图中确定和未知区域对应的第二区域。

本申请实施例中,待处理图像的各个像素点,与标注的三元图中的各个像素点对应,与目标预测掩膜图和标注的掩膜图中的各个像素点也对应,从而,根据未知区域包括的像素点,可在目标预测掩膜图中确定和未知区域对应的第一区域,以及在训练样本标注的掩膜图中确定和未知区域对应的第二区域。

步骤604,根据子区域,在目标预测掩膜图中确定和子区域对应的第三区域,以及在标注的掩膜图中确定和子区域对应的第四区域。

本申请实施例中,待处理图像的各个像素点,与标注的三元图中的各个像素点对应,与目标预测掩膜图和标注的掩膜图中的各个像素点也对应,从而,根据标注的三元图中的子区域包括的像素点,可在目标预测掩膜图中确定和子区域对应的第三区域,以及在训练样本标注的掩膜图中确定和子区域对应的第四区域。

步骤605,根据第一区域中包括的多个像素点和第二区域中包括的多个像素点之间的像素值的差异,确定未知区域的第一掩膜损失。

作为一种实施方式,根据第一区域中包括的像素点的像素值,确定像素点属于前景区域的第一置信度,以及根据第二区域中包括的像素点的像素值,确定像素点属于前景的第二置信度,根据第一置信度、第二置信度和未知区域中包括的像素点的数量,确定第一掩膜损失。

步骤606,根据第三区域中包括的多个像素点和第四区域中包括的多个像素点之间的像素值的差异,确定子区域的第二掩膜损失。

作为一种实施方式,根据第三区域中包括的像素点的像素值,确定像素点属于前景区域的第三置信度,以及根据第四区域中包括的像素点的像素值,确定像素点属于前景区域的第四置信度,根据第三置信度、第四置信度和子区域中包括的像素点的数量,确定第二掩膜损失。

步骤607,根据第一掩膜损失和第二掩膜损失,确定目标掩膜损失。

作为一种实施方式,采用设定的第一权重值,对第一掩膜损失和第二掩膜损失进行加权计算,得到目标掩膜损失。其中,第一权重值为设定的权重值,例如为0.5。

目标掩膜损失可基于以下的公式确定:

其中,L

本申请实施例的图像分割模型的训练方法中,基于三元图解码器输出的预测三元图,确定未知区域的掩膜损失和子区域的掩膜损失,来确定掩膜解码器的损失函数,以提高掩膜解码器的优化目标,提高 了优化目标确定的准确性。

基于上述实施例,本申请实施例提供了另一种图像分割模型的训练方法,图7为本申请实施例提供的另一种图像分割模型的训练方法的流程示意图,如图7所示,该方法包括以下步骤:

步骤701,获取训练样本。

步骤702,将训练图像输入图像分割模型的编码器进行编码,得到编码器的多层卷积层中各层卷积所输出的图像特征。

步骤703,将多层卷积层输出的图像特征输入图像分割模型的三元图解码器,得到预测三元图。

其中,步骤701至步骤703可参照前述实施例中的解释说明,原理相同,此处不再赘述。

步骤704,将高层卷积层输出的图像特征和预测三元图,输入掩膜解码器的第一解码层,得到第一预测掩膜图。

其中,多层卷积层中包括高层卷积层和低层卷积层。低层卷积层为多层,多个低层卷积层所输出的图像特征按照包括的结构和/或纹理信息由多到少划分为第一低层结构特征、至少一个第二低层结构特征和第三低层结构特征。需要说明的是,高层卷积层输出的图像特征中包括的结构和/或纹理信息最少,包括的语义信息最多。其中,多层卷积层进行划分时,可以基于输出的图像特征包括的结构和/或纹理信息的多少,划分为多个高层卷积层和多个低层卷积层,也就是说高层卷积层和低层卷积层的划分,本实施例中不进行限定。

第二解码层包括第一解码子层、至少一个第二解码子层和第三解码子层。

步骤705,将第一预测掩膜图和第三低层结构特征,输入第二解码层中的第一解码子层,得到第一解码子层输出的预测掩膜图。

步骤706,针对第二解码子层的第一个第二解码子层,将第一解码子层输出的预测掩膜图,和第一个第二解码子层对应的第二低层结构特征,输入第一个第二解码子层。

步骤707,针对第一个第二解码子层以外的任一第二解码子层,将上一层的第二解码子层输出的预测掩模图和第二解码子层对应的第二低层结构特征,输入该第二解码子层。

步骤708,将最后一个第二解码子层输出的预测掩膜图和第一低层结构特征,输入第二解码层中的第三解码子层,得到目标预测掩膜图。

其中,目标预测掩膜图为掩膜解码器最后一层的第三解码子层预测得到的掩膜图。

需要说明的是,前一层的解码子层输出的预测掩膜图,输入后一层的解码子层后,后一层的解码子层会将输入的预测掩膜图转化为对应的三元图,使得每一层基于前层的输出和对应的低层结构特征,逐渐预测得到准确的目标预测掩膜。

本申请实施例中,高层卷积层和第一解码层对应,而多个低层卷积层和至少一个第二解码子层和第三解码子层对应,实现了跳层连接,作为一种示例,如图8所示,编码器包括4个卷积层,分别为c1,c2,c3和c4,其中,c4为高层卷积层,c3,c2和c1为多个低层卷积层,其中,高层卷积层c4输出的图像特征,输入掩膜解码器的第一解码层d1;低层卷积层c3输出的图像特征,输入掩膜解码器的第二解码层的第二解码子层d2;低层卷积层c2输出的图像特征,输入掩膜解码器的第二解码层的第一解码子层d3;低层卷积层c1输出的图像特征,输入掩膜解码器的第二解码层的第三解码子层d4,即使得编码器的多层卷积层输出的各层的图像特征,尤其是包括丰富的结构和/纹理信息的图像特征,以及语义特 征,均可输入掩膜解码器对应的解码层,实现了基于多个尺度的特征进行逐层解码,可以准确识别出边缘信息,例如,包括的胡须,发丝等,提高了解码的可靠性。

步骤709,根据预测三元图和训练样本标注的三元图之间的差异,确定三元图损失。

步骤710,根据目标预测掩膜图和训练样本标注的掩膜图之间的差异,确定目标掩膜损失。

步骤711,根据三元图损失和目标掩膜损失,确定图像分割模型的目标损失。

步骤712,根据目标损失对图像分割模型进行训练。

其中,步骤709至步骤712,可参照前述实施例中的解释说明,原理相同,此处不再赘述。

本申请实施例中的图像分割模型的训练方法中,通过将编码器划分为多层的卷积层提取图像特征,两个解码器均划分为多个解码层,编码器的多层卷积层和解码器的多个解码层,通过跳层连接,使得编码器的多层卷积层输出的各层的图像特征,均可输入相应解码器对应的解码层,实现了基于多个尺度的特征进行解码,提高了解码的可靠性和准确性。

基于上述实施例,本申请实施例提供了一种图像分割方法,图9为本申请实施例提供的一种图像分割方法的流程示意图,如图9所示,该方法包括以下步骤:

步骤901,获取目标待处理图像和目标待处理图像对应的目标三元图。

步骤902,将目标待处理图像和目标三元图输入训练得到的图像分割模型,以得到目标掩膜图。

其中,图像分割模型可采用前述的图像分割模型的训练方法对应的任一实施例中的训练方法训练,以得到经过训练的图像分割模型,对于训练方法此处不再赘述。

步骤903,根据目标掩膜图,对目标待处理图像进行分割,得到目标待处理图像中前景区域中的对象。

本申请实施例的图像分割方法的执行主体为图像分割装置,图像分割装置可设置在任意的电子设备中,其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。

本申请实施例中,基于精度较高的目标掩膜图可对目标待处理图像进行准确的前景区域分割,可就说将高精度的目标掩膜图和待分割的目标待处理图像进行加权,以得到只包括前景区域中的对象的抠图,该抠图的精度较高,可实现精细的抠图。其中,得到的抠图中前景区域中的对象是不透明的,而背景部分是透明的,进而,基于得到的抠图可更换任意的背景,可适用于各种背景替换的场景。例如,应用在人机交互时,如,图像分割方法设置在手机中,用户使用手机中的应用程序,以运行图像分割方法,例如,在图像分割界面,用户点击证件照,可实现证件照换背景,或者,点击图像中的主体人、猫或狗等贴到各种风景、海报上。

本申请实施例的图像分割方法中,基于训练得到的图像分割模型,对目标待处理图像进行识别以得到高精度的目标掩膜图,基于目标掩膜图进行准确的抠图,提高了抠图的准确性。

为了实现上述实施例,本申请实施例还提出一种图像分割模型的训练装置。

图10为本申请实施例提供的一种图像分割模型的训练装置的结构示意图。

如图10所示,该装置可以包括:

获取模块1001,用于获取训练样本;所述训练样本包括训练图像,所述训练图像包含标注的掩膜图 和标注的三元图;所述训练图像是采用待处理图像和所述待处理图像对应的三元图拼接得到的;其中,标注的掩膜图包括前景区域和背景区域;所述标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域。

处理模块1002,用于将所述训练样本输入图像分割模型,得到所述待处理图像对应的预测三元图和目标预测掩膜图。

确定模块1003,用于根据所述预测三元图和所述标注的三元图之间的差异,以及所述目标预测掩膜图和所述标注的掩膜图之间的差异,确定所述图像分割模型的目标损失。

训练模块1004,用于根据所述目标损失对所述图像分割模型进行训练。

进一步,在本申请实施例的一种实施方式中,确定模块1003,具体用于:

根据所述预测三元图和所述标注的三元图之间的差异,确定三元图损失;

根据所述目标预测掩膜图和所述标注的掩膜图之间的差异,确定目标掩膜损失;

根据所述三元图损失和所述目标掩膜损失,确定所述图像分割模型的目标损失。

进一步,在本申请实施例的一种实施方式中,处理模块1002,具体用于:

将所述训练图像输入图像分割模型的编码器进行编码,得到所述编码器的多层卷积层中各层卷积层所输出的图像特征;

将所述多层卷积层输出的图像特征输入所述图像分割模型的三元图解码器,得到所述预测三元图;

将所述多层卷积层输出的图像特征和所述预测三元图,输入所述图像分割模型的掩膜解码器,得到所述目标预测掩膜图。

在本申请实施例的一种实施方式中,确定模块1003,具体用于:

根据所述标注的三元图中的各像素点的像素值,确定所述标注的三元图中的未知区域;所述未知区域是处于前景区域和背景区域之间的图像区域;

根据所述标注的掩膜图,确定所述未知区域中的子区域;所述子区域中包括的各像素点属于前景区域;

根据所述未知区域,在所述目标预测掩膜图中确定和所述未知区域对应的第一区域,以及在所述标注的掩膜图中确定和所述未知区域对应的第二区域;

根据所述子区域,在所述目标预测掩膜图中确定和所述子区域对应的第三区域,以及在所述标注的掩膜图中确定和所述子区域对应的第四区域;

根据所述第一区域中包括的多个像素点和所述第二区域中包括的多个像素点之间的像素值的差异,确定所述未知区域的第一掩膜损失;

根据所述第三区域中包括的多个像素点和所述第四区域中中包括的多个像素点之间的像素值的差异,确定所述子区域的第二掩膜损失;

根据所述第一掩膜损失和第二掩膜损失,确定所述目标掩膜损失。

作为一种实施方式,确定模块1003,具体还用于:

根据所述第一区域中包括的像素点的像素值,确定所述像素点属于前景区域的第一置信度,以及根据所述第二区域中包括的像素点的像素值,确定所述像素点属于前景的第二置信度;

根据所述第一置信度、所述第二置信度和所述未知区域中包括的像素点的数量,确定所述第一掩膜 损失。

作为一种实施方式,确定模块1003,具体还用于:

根据所述第三区域中包括的像素点的像素值,确定所述像素点属于前景区域的第三置信度,以及根据所述第四区域中包括的像素点的像素值,确定所述像素点属于前景区域的第四置信度;

根据所述第三置信度、所述第四置信度和所述子区域中包括的像素点的数量,确定所述第二掩膜损失。

作为一种实施方式,确定模块1003,具体还用于:

采用设定的第一权重值,对所述第一掩膜损失和所述第二掩膜损失进行加权计算,得到所述目标掩膜损失。

作为一种实施方式,确定模块1003,具体还用于:

采用设定的第二权重值,对所述三元图损失和所述目标掩膜损失进行加权计算,得到所述图像分割模型的目标损失。

作为一种实施方式,所述多层卷积中包括高层卷积层和低层卷积层,在本申请实施例的一种实施方式中,处理模块1002,具体用于:

将所述高层卷积层输出的图像特征和所述预测三元图,输入所述掩膜解码器的第一解码层,得到第一预测掩膜图;

将所述第一预测掩膜图和所述低层卷积层输出的图像特征,输入所述掩膜解码器的第二解码层,得到所述目标预测掩膜图。

作为一种实施方式,所述低层卷积层为多层,多个所述低层卷积层所输出的图像特征按照包括的结构和/或纹理信息由多到少划分为第一低层结构特征、至少一个第二低层结构特征和第三低层结构特征;所述第二解码层包括第一解码子层、至少一个第二解码子层和第三解码子层;

作为一种实施方式,处理模块1002,具体还用于:

将所述第一预测掩膜图和第三低层结构特征,输入所述第二解码层中的第一解码子层,得到所述第一解码子层输出的预测掩膜图;

针对所述第二解码子层的第一个第二解码子层,将所述第一解码子层输出的预测掩膜图,和所述第一个第二解码子层对应的所述第二低层结构特征,输入所述第一个第二解码子层;

针对所述第一个第二解码子层以外的任一所述第二解码子层,将上一层的第二解码子层输出的预测掩模图和所述第二解码子层对应的所述第二低层结构特征,输入所述第二解码子层;

将最后一个第二解码子层输出的预测掩膜图和所述第一低层结构特征,输入所述第二解码层中的第三解码子层,得到所述目标预测掩膜图。

需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。

本申请实施例的图像分割模型的训练装置中,获取训练样本,训练样本包括训练图像,训练图像包括标注的掩膜图和标注的三元图;训练图像是采用待处理图像和所述待处理图像对应的三元图拼接得到的,其中,标注的掩膜图包括前景区域和背景区域,标注的三元图包括前景区域、背景区域和前景区域和背景区域之间的未知区域,将训练样本输入图像分割模型,得到待处理图像对应的预测三元图和目标预测掩膜图,根据预测三元图和目标预测掩膜图,确定图像分割模型的目标损失,根据目标损失对图像 分割模型进行训练。本申请中训练样本对应的三元图不需要采用不包含噪声信息的三元图,提高了训练样本所需三元图的鲁棒性,在模型训练的过程中根据预测三元图和标注的三元图间的差异,以及目标预测掩膜图和标注的掩膜图间的差异,确定图像分割模型的优化目标,提高了图像分割模型的训练效果和鲁棒性。

为了实现上述实施例,本申请实施例还提出一种图像分割装置。

图11为本申请实施例提供的一种图像分割装置的结构示意图。

如图11所示,该装置可以包括:

获取模块1101,用于获取目标待处理图像和所述目标待处理图像对应的目标三元图。

处理模块1102,用于将所述目标待处理图像和所述目标三元图输入训练得到的图像分割模型,以得到目标掩膜图;所述图像分割模型采用图像分割模型的训练方法对应的任一实施例所述的图像分割模型的训练方法训练,以得到所述经过训练的图像分割模型。

分割模块1103,用于根据所述目标掩膜图,对所述目标待处理图像进行分割,得到所述目标待处理图像中前景区域中的对象。

需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。

本申请实施例的图像分割装置中,基于训练得到的图像分割模型,对目标待处理图像进行识别以得到高精度的目标掩膜图,基于目标掩膜图进行准确的抠图,提高了抠图的准确性。

为了实现上述实施例,本申请还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述图像分割模型的训练方法或前述图像分割方法的实施例所述的方法。

为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述图像分割模型的训练方法或前述图像分割方法的实施例所述的方法。

为了实现上述实施例,本申请还提出一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前述图像分割模型的训练方法或前述图像分割方法的实施例所述的方法。

图12为本申请实施例提供的一种电子设备的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图12,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。

处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件208和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编 程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,4G或5G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种含有异香豆素并吡咯并香豆素结构的OLED材料、制备方法及其应用
  • 一种含有苯并三氮杂*并吡唑酮结构母核的衍生物及制备方法和应用
  • “一锅法”合成含有席夫碱结构单元的胶囊状配位化合物及制备方法和应用
  • 含有氨基酸结构PFP的自组装肽及其制备方法和应用
  • 肽/氨基酸的生产方法、通过所述方法生产的肽/氨基酸及其应用
技术分类

06120116552483