掌桥专利:专业的专利平台
掌桥专利
首页

一种训练人体目标分割模型的方法、人体目标分割方法及相关装置

文献发布时间:2024-04-18 19:58:30


一种训练人体目标分割模型的方法、人体目标分割方法及相关装置

技术领域

本发明涉及目标分割技术领域,尤其涉及一种训练人体目标分割模型的方法、人体目标分割方法及相关装置。

背景技术

在数字化时代,多媒体数字内容已成为人们生活中不可或缺的一部分,涵盖了文本、音频、图像和视频等。随着附带有摄像头和传感器的移动设备的普及,视频已成为互联网用户之间全新的沟通方式,例如视频会议、视频通话等线上形式的视频沟通方式。这种趋势使得一系列视频内容理解技术及其相关应用得以快速发展,实现了处于不同位置的用户之间通过通信设备和网络进行面对面的交谈。视频的人体分割是其中一项核心技术,并且在运动健康领域得到广泛的发展,要求能够实时地分割人物主体,并将人物主体从复杂的背景中分离出来,从而能够精准生成人物在不同背景下运动场景,增强娱乐性。然而在实际应用中,人物运动的场景比较复杂,在分割人物区域的同时,容易将一些复杂的背景图像也分割出来,导致存在明显的伪影情况,运动目标分割边界存在明显的抖动。

发明内容

本发明实施例提供一种训练人体目标分割模型的方法、人体目标分割方法及相关装置,得到的人体目标分割模型能够准确地分割出人体目标,减少复杂背景的干扰和伪影的产生,降低人体目标分割边界的抖动性。

为解决上述技术问题,第一方面,本发明实施例提供一种训练人体目标分割模型的方法,人体目标分割网络包括背景编码网络和人体分割网络,所述人体分割网络包括编码模块、特征融合模块和解码模块,所述方法包括:

获取训练集,所述训练集包括多张包含人体目标的原始图像,所述原始图像具有所述人体目标对应的真实标签;

提取所述原始图像中的背景区域,基于所述背景区域获取背景图像集,其中,所述背景图像集为采用多个不同的尺寸对所述背景区域进行裁剪后,再进行模态迁移得到,所述模态迁移包括多个不同场景的图像迁移;

将所述背景图像集输入所述背景编码网络进行编码,获得背景特征图;

将所述原始图像输入所述编码模块进行编码,获得原始特征图;

将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合,获得融合特征图;

将所述融合特征图输入所述解码模块进行解码,获得所述人体目标对应的预测标签;

基于损失函数计算所述真实标签和所述预测标签之间的损失,并根据所述损失对所述人体目标分割网络进行迭代训练,直到所述人体目标分割网络收敛,得到所述人体目标分割模型。

在一些实施例中,所述提取所述原始图像中的背景区域,基于所述背景区域获取背景图像集,包括:

获取所述原始图像的人体关键点;

基于所述人体关键点,确定人体矩形框,提取所述人体矩形框外的图像作为背景区域;

采用多个不同的尺寸对所述背景区域进行裁剪,获得多个不同尺寸的背景图像;

基于多个不同场景的图像,对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,所述背景图像集包括多个尺寸、多个模态的背景图像。

在一些实施例中,所述基于多个不同场景的图像,对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,包括:

基于多个不同场景的图像,根据第一公式分别对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,所述第一公式为:

M

M

其中,θ()表示将图像转换为LAB格式,I

在一些实施例中,所述基于多个不同场景的图像,对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,还包括:

调整所述背景图像的显示参数、并进行高斯噪声模糊处理,其中,所述显示参数包括亮度、对比度和饱和度。

在一些实施例中,所述将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合,获得融合特征图,包括:

将所述背景特征图和所述原始特征图输入所述特征融合模块,对所述原始特征图进行卷积运算,得到第一原始特征图;

对所述背景特征图进行扩张卷积运算,得到第一背景特征图;

将所述第一原始特征图和所述第一背景特征图进行残差连接,得到第一融合特征图;

将所述第一融合特征图和所述原始特征图进行连接,得到所述融合特征图。

在一些实施例中,所述损失函数为:

其中,x

为解决上述技术问题,第二方面,本发明实施例提供一种人体目标分割方法,包括:

获取待处理图像;

将所述待处理图像输入人体目标分割模型,以获得所述待处理图像中人体目标的预测标签,其中,所述人体目标分割模型是采用上述任一项训练人体目标分割模型的方法训练得到的;

根据所述人体目标的预测标签从所述待处理图像中分割出人体目标图像。

为解决上述技术问题,第三方面,本发明实施例提供一种电子设备,包括通信连接的处理器和存储器,所述存储器中存储有所述处理器可执行的计算机程序指令,所述计算机程序指令在被所述处理器调用时,以使所述处理器执行上述任一项训练人体目标分割模型的方法或者上述任一项人体目标分割方法。

为解决上述技术问题,第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,处理器运行所述计算机程序指令,以执行上述任一项人体训练目标分割模型的方法,或上述任一项人体目标分割方法。

本发明实施例的有益效果:区别于现有技术的情况,本发明实施例提供的训练人体目标分割模型的方法,人体目标分割网络包括背景编码网络和人体分割网络,所述人体分割网络包括编码模块、特征融合模块和解码模块,所述方法包括:获取训练集,训练集包括多张包含人体目标的原始图像,原始图像具有人体目标对应的真实标签;提取原始图像中的背景区域,基于背景区域获取背景图像集,其中,背景图像集为采用多个不同的尺寸对背景区域进行裁剪后,再进行模态迁移得到,模态迁移包括多个不同场景的图像迁移;将背景图像集输入背景编码网络进行编码,获得背景特征图;将原始图像输入编码模块进行编码,获得原始特征图;将背景特征图和原始特征图输入特征融合模块进行特征融合,获得融合特征图;将融合特征图输入解码模块进行解码,获得人体目标对应的预测标签;基于损失函数计算真实标签和预测标签之间的损失,并根据损失对背景编码网络和人体分割网络进行迭代训练,直到人体目标分割网络收敛,得到人体目标分割模型。

本发明实施例在训练人体目标分割模型时,将原始图像中的背景区域,采用多个不同的尺寸对背景区域进行裁剪后,再基于多个不同场景的图像,对裁剪后的背景区域分别进行模态迁移,得到背景图像集,其中,背景图像集中包括多个尺寸、多个模态的背景图像,将背景图像集输入背景编码网络编码获得背景特征图,并将背景特征图用于模型训练。从而,使得人体目标分割网络在训练时更注重背景图像的特征信息和边界特征的变化,进而得到的人体目标分割模型能够准确地分割出人体目标,减少复杂背景的干扰和伪影的产生,降低人体目标分割边界的抖动性,分割结果更加清晰和可靠,提高分割的稳定性,提升用户的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,以下描述的附图仅示出了本发明的某些实施例,因此不应被看作是对保护范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明一些实施例提供的训练人体目标分割模型的方法的应用场景示意图;

图2是本发明一些实施例提供的电子设备的结构示意图;

图3是本发明一些实施例提供的人体目标分割模型的整体网络结构示意图;

图4是本发明一些实施例提供的训练人体目标分割模型的方法的流程示意图;

图5是图4实施例所示训练人体目标分割模型的方法中步骤S200的一子流程示意图;

图6是图4实施例所示训练人体目标分割模型的方法中步骤S500的一子流程示意图;

图7是本发明一些实施例提供的人体目标分割方法的流程示意图。

具体实施方式

为使本发明实施例的目的和优点更容易被理解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅为本发明一部分实施例,而不是全部的实施例,以下在附图中对本发明实施例的详细描述并非限定本发明要求保护的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。此外,本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义,本说明书所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为便于对本申请实施例提供的方法进行理解,首先对本申请实施例中涉及的名词进行介绍:

(1)神经网络

神经网络可以是由神经单元组成的,具体可以理解为具有输入层、隐含层、输出层的神经网络,一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。其中,具有很多层隐含层的神经网络则称为深度神经网络(deep neural network,DNN)。神经网络中的每一层的工作可以用数学表达式y=a(W·x+b)来描述,从物理层面,神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中、2、3的操作由“W·x”完成,4的操作由“+b”完成,5的操作则由“a()”来实现,这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合,其中,W是神经网络各层的权重矩阵,该矩阵中的每一个值表示该层的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换,即神经网络每一层的W控制着如何变换空间。训练神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。

需要注意的是,在本发明实施例中,基于机器学习任务所采用的模型,本质都是神经网络。神经网络中的常用组件有卷积层、池化层和归一化层等,通过组装神经网络中的这些常用组件,设计得到模型,当确定模型参数(各层的权重矩阵)使得模型误差满足预设条件或调整模型参数的数量达到预设阈值时,模型收敛。

(2)卷积

卷积(Convolution)是一种数学运算,广泛应用于信号处理、图像处理和机器学习等领域。卷积在图像处理中的应用非常常见。当对一个图像进行卷积时,可以将一个小的滤波器或核函数应用于图像的每个像素,通过对相邻像素的加权求和来生成新的像素。这个过程可以用来实现很多图像处理任务,例如边缘检测、图像增强和模糊等。

在机器学习中,卷积神经网络(Convolutional Neural Network,CNN)是一种基于卷积运算的深度学习模型。CNN广泛应用于图像识别、物体检测和语音处理等任务中,其主要优势在于能够自动学习和提取输入数据中的特征。卷积层是CNN的核心组成部分,通过在输入数据上滑动卷积核进行卷积运算,可以有效地捕捉到输入数据的局部模式和结构信息。

(3)卷积层

卷积层(Convolutional Layer)是卷积神经网络的核心组件部分,用于对输入数据进行特征提取和卷积运算。卷积层由一组卷积核组成,每个卷积核可以看作是一个特征检测器,用于检测输入数据中的某种特定特征。卷积层通过在输入数据上滑动卷积核,对输入数据的不同位置进行卷积操作,从而生成输出的特征图。卷积层利用卷积操作对输入数据进行特征提取和特征映射,以捕捉输入数据中的空间局部特征,并通过权重共享来降低参数量,从而实现有效的特征学习和表示。

具体地,卷积层的输入是一个多通道的特征图(如图像或前一层的输出),每个通道对应一种特征,卷积层支持多通道的输入数据和多通道的卷积核,可以提取并整合多种特征信息。卷积核与输入数据进行逐元素乘积并求和,得到一个输出特征图上的单个像素值。通过在输入数据上滑动卷积核,并对每个位置进行卷积操作,可以生成一个与输入数据尺寸相对应的输出特征图。输出特征图中的每个位置对应于输入数据中一个局部区域,通过卷积操作,卷积层能够提取出输入数据中的局部模式和特征。

卷积层在深度学习中具有重要的作用,通过多个卷积核在不同位置和尺度上对输入数据进行特征提取,从而逐渐建立起数据的高层次抽象表示和特征学习。卷积层通常与其他类型的神经网络层(如池化层、激活函数层、全连接层等)结合使用,形成一个完整的卷积神经网络,用于解决图像分割、图像分类和目标检测等计算机视觉任务,也被广泛应用于自然语言处理和其他领域的深度学习任务。

(4)卷积核

卷积核(Convolutional Kernel),也称为滤波器(Filter)或特征检测器(FeatureDetector),是卷积神经网络的核心组件。在图像处理和计算机视觉中,卷积核是一个小型的矩阵或张量,用于在图像上进行卷积操作。卷积核通常是一个正方形的矩阵,其大小可以根据任务的需求进行定义,常见的大小有1*1、3*3、5*5和7*7等。卷积核包含一组权重参数,这些权重参数用于在卷积操作中与输入数据进行加权求和。在卷积操作中,卷积核在输入数据上滑动,并在每个位置与输入数据的对应区域进行元素乘积并求和,从而生成输出的单个像素。

卷积核在卷积神经网络(CNN)中起到了至关重要的作用。通过设计不同的卷积核,网络可以学习到不同的特征,例如边缘、纹理、角点等。每个卷积核可以被看作是一种特征检测器,它对输入数据的某种特定特征进行敏感,并通过滑动窗口的方式在输入数据上进行计算,以提取出该特征在不同位置的存在程度。在深度学习任务中,卷积核的参数可以是通过训练过程自动学习得到的,或者也可以是通过经验进行预先设置。通过反向传播算法,神经网络可以根据损失函数的反馈信号,自动调整卷积核中的权重参数,使得神经网络能够更好地适应任务的需求,并学习到更加高层次的特征表示。

(5)扩张卷积

在计算机视觉和深度学习领域,扩张卷积(Dilated Convolution),也称为空洞卷积(Atrous Convolution),是一种修改传统卷积运算的技术。扩张卷积在卷积核内部引入了间隔(又称为膨胀率),从而使得卷积核在输入特征图上进行跳跃性的操作,从而扩大感受野,同时减少参数数量。在传统的卷积操作中,卷积核的每个元素都与输入特征图的相应区域进行点积运算。例如,一个3*3的卷积核会与输入特征图的每一个3*3的区域进行点积运算,从而得到输出特征图的一个像素。

扩张卷积引入膨胀率(或间隔)的概念,膨胀率决定卷积核内元素之间的距离。举例来说,如果一个3*3的卷积核的膨胀率为1,则与传统卷积相同,每个元素与相应的输入区域进行点积运算。但如果膨胀率为2,则卷积核的元素之间有一个像素的间隔,即只与输入特征图的每隔一个像素的区域进行点积运算。这样可以在不增加卷积核大小的情况下,扩大卷积核的感受野,从而更好地捕捉图像中的全局信息。扩张卷积在深度学习中的应用场景通常包括图像分割和目标检测等任务,通过引入膨胀率,神经网络能够在较小的感受野下获得更广阔的上下文信息,有助于提高模型的性能。

下面说明本发明实施例提供的用于训练人体目标分割模型或用于人体目标分割的电子设备的示例性应用。本发明实施例提供的电子设备可以是笔记本电脑、台式计算机或移动设备等各种合适类型、具有一定计算和控制能力的设备。作为示例,参见图1所示,图1是本发明一些实施例提供的训练人体目标分割模型的方法的应用场景示意图。

具体地,当电子设备100用于训练人体目标分割模型时,电子设备100可以被用来获取训练图像数据和构建人体目标分割模型,例如,本领域技术人员可以在电子设备100上下载准备好的训练图像数据,以及搭建人体目标分割模型的网络结构,并可以在获得训练图像数据时对人体目标分割模型进行训练。其中,训练图像数据包括若干张包含人体目标的原始图像。可以理解的是,电子设备100也可以被用来获取待处理图像数据,例如,本领域技术人员将待处理图像数据打包后,通过通信网络发送给电子设备100,从而,电子设备100获取到待处理图像数据。在一些实施例中,当电子设备100被用于人体目标分割时,电子设备100获取到训练图像数据或待处理图像数据后,发送给电子设备100中的控制器(图1中未示出),从而,控制器采用内置的人体目标分割模型对训练图像数据或待处理图像数据进行人体目标分割,获取人体目标分割结果。

在一些实施例中,电子设备100可以本地执行本发明实施例提供的训练人体目标分割模型的方法来完成采用训练图像数据对设计好的人体目标分割模型进行训练,确定最终的模型参数,从而人体目标分割模型配置该最终的模型参数,即可得到人体目标分割模型。在另一些实施例中,电子设备100可以通过通信网络连接服务器,并向服务器发送本领域技术人员在电子设备100上存储的训练图像数据和构建好的人体目标分割模型,服务器接收该训练图像数据和人体目标分割模型,采用训练图像数据对人体目标分割模型进行迭代训练,确定最终的模型参数,然后将该最终的模型参数发送给电子设备100,电子设备100接收并保存该最终的模型参数,使得人体目标分割模型配置该最终的模型参数,即可得到人体目标分割模型。容易理解地,前述通信网络可以是广域网或者局域网,又或者是二者的组合。

下面说明本发明实施例中电子设备的结构,参见图2所示,图2是本发明一些实施例提供的电子设备100的结构示意图。其中,电子设备100包括通信连接的至少一个处理器110和存储器120(图2中以总线系统连接、一个处理器为例),电子设备100中的各个组件通过总线系统130耦合在一起,总线系统130用于实现这些组件之间的连接通信。容易理解地,总线系统130除包括数据总线之外,还包括电源总线、控制总线和状态信号总线等。但是为了清楚说明和篇幅简洁起见,在图2中将各种总线都标为总线系统130。本领域技术人员可以理解,图2所示的结构仅为示意性的,其并不对上述电子设备100的结构造成限定,例如,上述电子设备100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。

其中,处理器110用于提供运算和控制能力,以控制电子设备100执行相应的任务,例如,控制上述电子设备100执行上述任一项训练人体目标分割模型的方法,或者上述任一项人体目标分割方法。可以理解的是,处理器110可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的训练人体目标分割模型的方法或人体目标分割方法对应的程序指令/模块。处理器110通过运行存储在存储器120中的非暂态软件程序、指令以及模块,可以实现上述任一项训练人体目标分割模型的方法,或上述任一项人体目标分割方法。存储器120可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器120还可以包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

参见图3所示,图3是本发明一些实施例提供的人体目标分割模型的整体网络结构示意图。具体地,在获取训练图像I后,将训练图像I输入至背景提取模型中,采用多个不同的尺寸裁剪训练图像I的背景区域,再基于多个不同场景的图像,对裁剪后的背景区域分别进行模态迁移,得到多个尺寸、多个模态的背景图像,并形成背景图像集

人体分割网络包括编码模块、注意力特征融合模块(即特征融合模块)和解码模块。具体地,在获取训练图像I后,将训练图像I输入至编码模块中,获得对应帧图像的原始特征图

根据上文可以理解,本发明实施例提供的训练人体目标分割模型的方法或人体目标分割方法可以由各种合适类型、具有一定计算和控制能力的电子设备实施,例如由上述电子设备实施执行,或者由其他具有一定计算处理和控制能力、与电子设备通信连接的设备实施执行,例如服务器、智能终端等。下面结合本发明实施例提供的电子设备的示例性应用和实施,说明本发明实施例提供的训练人体目标分割模型的方法或人体目标分割方法。

参阅图4所示,图4是本发明一些实施例提供的训练人体目标分割模型的方法的流程示意图。可以理解地,该训练人体目标分割模型的方法的执行主体可以是上述电子设备,该训练人体目标分割模型的方法包括但不限于以下步骤S100-S600:

S100:获取训练集,所述训练集包括多张包含人体目标的原始图像,所述原始图像具有所述人体目标对应的真实标签。

在具体应用时,可以由用户或训练人员从各种数据源收集多张不同的原始图像,并将多张原始图像组成一个用于训练人体目标分割模型的数据集。可以理解地,在获取到的训练图像数据集中,每张原始图像包含一个或多个人体目标,原始图像中的人体目标可以是静止的或者运动的。显然地,该训练人体目标分割模型的方法适用于对任何原始图像中的人体目标进行分割,尤其在分割的人体目标为运动的人体目标时具有更好的分割效果。

在获得用于训练人体目标分割模型的原始图像数据后,根据原始图像中的人体目标对原始图像中的像素进行标注真实标签,在一些实施例中,标签划分为人体目标和背景两类,并且可以约定使用0表示背景类别,1表示人体目标类别。因此,属于人体目标类别的像素将被标记为1,而属于背景类别的像素将被标记为0。对原始图像中的像素进行标注真实标签后,原始图像中的每个像素被赋予一个特定的类别或标签,用于标识原始图像中的每个像素所属的语义类别或目标类型,使得训练数据集的每个原始图像中的像素都具有相应的真实标签。容易理解地,在获取训练集的过程中,可以由专业人员手动标注原始图像的标签或使用自动标注技术对原始图像进行标注标签。显然地,获取原始图像数据作为训练集时对原始图像进行标注的标签为原始图像中的人体目标和背景的真实标签,而将原始图像输入人体目标分割模型,得到的人体目标分割结果为对原始图像中的人体目标分割后输出的预测标签。

S200:提取所述原始图像中的背景区域,基于所述背景区域获取背景图像集,其中,所述背景图像集为采用多个不同的尺寸对所述背景区域进行裁剪后,再进行模态迁移得到,所述模态迁移包括多个不同场景的图像迁移。

人体目标分割网络是一种用于对图像或视频进行语义分割的计算机模型,人体目标分割网络分割的目标是将图像中的每个像素标记为所属的目标类别或语义类别,实现对图像像素级别的精细分类。例如,在本发明实施例中,人体目标分割网络用于将输入的原始图像中的每个像素分类为属于背景类别或是属于人体目标类别。在一些实施例中,人体目标分割网络是由背景编码网络和人体分割网络组成,分别负责提取背景特征和人体目标特征,并将它们结合起来进行像素级别的分类。

其中,背景编码网络专注于学习背景图像的特征表示,是由多个卷积层和池化层组成,可以在不同层次捕捉图像的不同特征。背景编码模块是背景编码网络的核心组成部分,负责将输入的背景图像转换为对应的背景特征图,以捕捉背景图像的重要语义信息。

人体分割网络一种基于卷积神经网络(CNN)的模型,由编码模块、特征融合模块和解码模块组成,采用编码模块-特征融合模块-解码模块结构,用于学习人体目标特征并实现像素级别分割的神经网络。其中,编码模块负责提取原始图像中人体目标和背景的原始特征表示,以获得原始特征图,并将其逐步减小到较低分辨率,同时保留重要的语义信息,编码模块由一系列卷积层和池化层构成,用于学习高层次的语义特征。特征融合模块将背景编码网络提取的背景特征图与编码模块提取的原始特征图通过连接、加权求和或其他方式进行融合,以将背景的特征信息和人体目标的特征信息结合在一起,获得融合特征图。解码模块接收融合后的融合特征图,通过一系列反卷积、上采样和跳跃连接等操作,将低分辨率特征逐步恢复到原始分辨率,并产生最终的人体目标分割结果,即输出原始图像中的每个像素的预测标签。解码模块的目标是还原人体目标分割结果,并输出像素级别的分割掩码,将每个像素分类为背景或人体目标。

在一些实施例中,人体分割网络可以是基于U2NET(Unified U-Net)网络构建的模型,其中,U2NET模型采用U-Net架构。U2NET模型通过学习大量的图像数据,能够将输入的原始图像分割成具有细节和精确度的前景和背景,并生成与原始图像大小相同的二进制掩码。U2NET模型在图像分割任务中表现出色,尤其在处理复杂的边缘和细节时具有很高的准确性,可用于图像编辑、计算机视觉研究和自动驾驶等领域。

在获取到原始图像后,由于在数据源中收集到的原始图像通常是未经处理或修改的真实图像,需要对获取到的原始图像进行预处理和清洗,包括图像尺寸调整、数据增强、像素值归一化和标准化处理等操作,以确保原始图像满足背景编码网络的输入要求。在把原始图像数据导入目标分割模型进行训练时,由于不清楚各个维度的相对重要程度,首先需要对原始图像数据进行标准化处理,在一些实施例中,可以采用正规化方法对原始图像进行标准化处理,该正规化方法的公式如下:

其中,/>

为均值,s为标准差,标准化处理是将图像的像素值减去均值并除以标准差,使图像的像素值分布接近于均值为0,标准差为1的标准正态分布,将原始图像的像素值处理成均值为0、标准差为1的数组。如果原始图像具有多个通道(例如RGB图像),可以对每个通道独立进行标准化。在这种情况下,可以计算每个通道的均值和标准差,并对每个通道进行独立的均值和标准差标准化。在使用图像处理库(如Python中的OpenCV、PIL等)或深度学习框架(如TensorFlow、PyTorch等)时,可以通过相应的函数和方法来实现图像标准化处理。对于均值和标准差标准化,可以使用相应的计算和运算函数。在一些实施例中,获得均值和标准差后,可以用transforms的Normalize函数来进行标准化处理。容易理解地,除可以采用正规化方法对原始图像进行标准化处理外,还可以采用其他方式进行标准化处理,例如归一化、规范化方法等。

在对获取到的原始图像进行标准化处理后,利用人体目标检测或人体分割算法,标记出原始图像中的人体目标边界框,然后从原始图像中裁剪或提取出与人体目标无关的背景区域,并将该背景区域作为独立的背景图像进行保存或处理,从而得到原始图像中的背景区域。可以理解的是,背景图像是指图像中不包含任何人体目标或感兴趣区域的部分,也可以理解为原始图像中除人体目标之外的图像内容。

获得原始图像的背景区域后,采用多个不同的尺寸对背景区域进行裁剪处理。通过改变裁剪尺寸的大小、应用不同的尺寸变换或使用图像金字塔等技术手段,获得背景区域在不同大小下的表示,从而使得背景图像更具有鲁棒性和丰富性。通过对背景区域进行多个尺寸的裁剪处理,得到多个尺寸的背景图像。其中,每个尺寸的背景图像都包含原始图像中不同的背景特征信息,使得每个背景图像在语义和细节上都有所不同。获得多个尺寸的背景图像后,可以选择将其保存为独立的图像文件,也可以在后续训练学习任务中使用这些背景图像进行训练。

模态迁移是指将一个图像的视觉特征与另一个图像的语义内容相结合,生成一个新的图像,使其具有第二个图像的风格或特征。多个不同场景的图像是指从多个不同场景或来源收集的图像数据,这些图像来自不同的地点、环境或时间,具有各自独特的背景信息。

基于多个不同场景的图像,分别对每一尺寸的背景图像进行模态迁移。将每一尺寸的背景图像的风格或特征分别与另一个预定义的模态图像相融合,获取每一尺寸对应的多个模态的背景图像。可以理解地,预定义的模态图像可以是多个来自于不同场景的图像,或者可以是由特定模型生成的艺术化风格的图像。通过分别将每一尺寸的背景图像进行模态迁移,获取每一尺寸对应的多个模态的背景图像,最终获得多个尺寸、多个模态的背景图像,并形成原始图像的背景图像集。显然地,背景图像集包括多个尺寸、多个模态的背景图像,多个尺寸、多个模态的背景图像融合了多个不同场景的图像的风格或特征,使得它们在视觉和语义上都表现出多样性和个性化,适用于不同场景的人体目标分割任务,增强训练数据的多样性,有助于提升人体目标分割网络的泛化能力和鲁棒性,提高模型的性能和准确度。

参见图5所示,图5为本发明一些实施例提供的训练人体目标分割模型的方法中步骤S200的一子流程示意图,提取所述原始图像中的背景区域,基于所述背景区域获取背景图像集,具体包括但不限于以下步骤S210-S240:

S210:获取所述原始图像的人体关键点。

在人体目标分割任务中,人体关键点(Human Body Keypoints),也被称为姿态估计(Pose Estimation),是指对于人体这一类别的目标,标记出人体特定部位的关键点位置,通常用于代表人体的关键部位,例如头部、眼睛、鼻子、耳朵、肩膀、手肘、手腕、髋部、膝盖、脚踝等。在一些人体目标分割任务中,需要使用特定的深度学习模型或算法,例如姿态估计模型、关键点检测模型等,来检测图像中的人体关键点。具体地,姿态估计模型、关键点检测模型等模型是由卷积神经网络组成,经过训练后可以自动检测图像或视频中的人体关键点。当检测到人体关键点,模型输出每个人体关键点的位置信息,并以像素坐标的形式表示。其中,位置信息描述的是人体关键点在图像中的准确位置,例如(x,y)坐标表示关键点在图像上的水平和垂直位置。容易理解地,提取原始图像中的人体关键点时,可以根据实际需要选择调整变换使用不同的模型或算法。

在一些实施例中,可以采用OpenPose算法提取原始图像中的人体关键点,OpenPose算法是一种基于深度学习的开源姿态估计算法,其能够在输入的原始图像或视频中实时地检测人体关键点,包括头部、手臂、腿部等身体部位的关键位置。OpenPose算法使用卷积神经网络来分析图像或视频,并输出每个人体关键点的准确位置,例如,输出一系列人体关键点的坐标(x,y)来表示人体关键点在图像上的位置。在一些实施例中,可以通过OpenPose算法提取原始图像中的6个人体关键点的位置信息,该6个人体关键点分别为左眼、右眼、左手、右手、左鞋和右鞋,对应地输出该6个人体关键点的坐标。容易理解的是,还可以通过OpenPose算法提取原始图像中的其他数量的人体关键点的位置信息,例如,在其他一些实施例中,可以提取原始图像中的8个人体关键点的位置信息,该8个人体关键点分别为左眼、右眼、左手、右手、左小脚趾、右小脚趾、左大脚趾和右大脚趾,对应地输出该8个人体关键点的坐标。本领域技术人员可以理解,对于提取原始图像的人体关键点的数量,可以根据实际需要进行选择调整变换。

S220:基于所述人体关键点,确定人体矩形框,提取所述人体矩形框外的图像作为背景区域。

在通过特定的深度学习模型或算法获取到原始图像中的人体关键点后,基于获取到的人体关键点,可以计算出包含人物主体的人体矩形框。人体目标分割模型根据计算得到的人体矩形框,将人体矩形框内的图像作为人体区域,人体矩形框外的图像作为背景区域,实现将原始图像中的人体区域与背景区域分隔开。通过裁剪或者掩模操作,将人体矩形框外的图像提取出来,作为背景区域。其中,背景区域是一个与人体区域互斥的部分,包含原始图像中除去人体区域部分的所有图像内容。

在一些实施例中,通过采用OpenPose算法获取到原始图像中所需的6个人体关键点后,基于获取到的该6个人体关键点,可以计算出包含人物主体的人体矩形框。然后根据计算得到的人体矩形框,将人体矩形框内的图像作为人体区域,人体矩形框外的图像作为背景区域,通过裁剪或者掩模等操作,将人体矩形框外的图像作为背景区域裁剪出来,实现将原始图像中的人体区域与背景区域分离。

S230:采用多个不同的尺寸对所述背景区域进行裁剪,获得多个不同尺寸的背景图像。

将人体矩形框外的背景图像作为背景区域提取出来后,针对提取出来的背景区域,随机选择多个不同的尺寸,对背景区域进行裁剪。容易理解地,可以设置多个不同的裁剪尺寸,例如小尺寸、中等尺寸以及大尺寸,或者还可以为其他尺寸,以获得多个具有不同尺寸的背景图像。在一些实施例中,裁剪尺寸可以设置为最小16*16,最大64*64,总共裁剪100张背景图像。通过对背景区域进行不同尺寸的裁剪,得到多个不同大小的背景图像,这些背景图像具有不同的特征和空间分布,从而为人体目标分割模型提供了更丰富多样的背景特征信息,有利于提高人体目标分割模型的泛化能力和鲁棒性。

S240:基于多个不同场景的图像,对每一尺寸的所述背景图像进行模态迁移,获得背景图像集。

具体地,将每一尺寸的背景图像的风格或特征分别与另一个预定义的模态图像相融合,获取每一尺寸对应的多个模态的背景图像,最终获得多个尺寸、多个模态的背景图像,并形成原始图像的背景图像集。在本发明实施例中,预定义的模态图像为多个来自于不同场景的图像,可选地,在其他一些实施例中,预定义的模态图像还可以是由特定模型生成的艺术化风格的图像。基于多个不同场景的图像,通过将每一尺寸的背景图像进行模态迁移,获得包括多个尺寸、多个模态的背景图像的背景图像集,其中,多个尺寸、多个模态的背景图像融合了多个不同场景的图像的风格或特征,使得它们在视觉和语义上都表现出多样性和个性化,增强训练数据的多样性,以适用于不同场景的人体目标分割任务。

在一些实施例中,基于多个不同场景的图像,对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,具体包括但不限于以下步骤S241:

S241:基于多个不同场景的图像,根据第一公式分别对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,所述第一公式为:

M

M

其中,θ()表示将图像转换为LAB格式,I

在一些实施例中,多个不同场景下的图像是事先收集的来自于不同场景且的背景图像,这些图像在拍摄地点、拍摄时间、光照条件和天气等方面存在差异,表示多样化的背景场景。在一些实施例中,可以使用Python中的OpenCV图像处理库分别对每一尺寸的背景图像进行模态迁移处理,获取每一尺寸对应的多个模态的背景图像,最终获得多个尺寸、多个模态的背景图像,并形成原始图像的背景图像集。其中,OpenCV图像处理库包括RGB、HSV以及LAB三种不同的颜色空间。容易理解的是,LAB颜色空间是一种用于描述人类感知颜色的设备无关的颜色模型,LAB颜色空间包含亮度(L)和两个色度通道(A和B),可以用于更准确地表示和处理图像的颜色信息。其中,L通道表示亮度,L通道的值范围为0-100,A和B通道表示色度,A和B通道的值范围在-128到127之间。

获得每一尺寸的背景图像后,将每一尺寸的背景图像和多个来自于不同场景的图像输入OpenCV图像处理库,然后通过采用OpenCV图像处理库中的cv2.imread()函数读取每一尺寸的背景图像和多个不同场景的图像。在读取到对应的图像后,使用OpenCV图像处理库中的cv2.cvtColor()函数,将每一尺寸的背景图像和多个不同场景的图像从BGR(默认的OpenCV颜色表示)转换为LAB颜色表示。

将每一尺寸的背景图像和多个不同场景的图像转换为LAB颜色表示后,在一些实施例中,可以通过采用颜色转换、风格转换和风格迁移等技术,分别对每一尺寸的背景图像进行模态迁移处理,将每一尺寸的背景图像的风格或特征分别与另一个预定义的模态图像相融合,以转换为具有预定义图像模态的背景图像,获取每一尺寸对应的多个模态的背景图像。通过分别对每一尺寸的背景图像进行模态迁移处理,获取每一尺寸对应的多个模态的背景图像,最终获得多个尺寸、多个模态的背景图像,并形成原始图像的背景图像集。可以理解的是,多个尺寸、多个模态的背景图像融合了多个不同场景的图像的风格或特征,代表着不同场景的背景的多样性,使得它们在视觉和语义上都表现出多样性和个性化,增强训练数据的多样性,适用于不同场景的人体目标分割任务,有利于训练人体目标分割模型在各种背景情况下进行准确地分割,提升人体目标分割模型的泛化能力和鲁棒性,提高目标分割的性能和准确度。

在一些实施例中,基于多个不同场景的图像,对每一尺寸的所述背景图像进行模态迁移,获得背景图像集,还包括但不限于以下步骤S242:

S242:调整所述背景图像的显示参数、并进行高斯噪声模糊处理,其中,所述显示参数包括亮度、对比度和饱和度。

对获得的多个尺寸、多个模态的背景图像进行显示参数的调整,包括对背景图像的亮度、对比度和饱和度进行调整。在一些实施例中,亮度调整可以通过线性或非线性变换来实现,例如乘以一个亮度因子或应用Gamma校正等。通过调整背景图像的亮度,可以使背景图像变得更明亮或更暗淡。调整对比度通常可以通过拉伸像素值范围或应用直方图均衡化等方法来实现,对比度调整用于增强背景图像中的色彩差异,使得背景图像中的颜色更加鲜明。饱和度调整用于增大或者减小背景图像中的颜色饱和度,增大饱和度可以使背景图像的颜色更加鲜艳,减小饱和度可以使背景图像的颜色更加柔和。通过调整多个尺寸、多个模态的背景图像的显示参数,可以得到多样化的背景图像,在视觉上具有不同的特征和表现形式。

在对多个尺寸、多个模态的背景图像的显示参数进行调整后,在一些实施例中,可以对每个背景图像应用高斯噪声模糊。高斯噪声模糊是通过对图像进行高斯滤波,引入高斯滤波来模糊图像,从而减少图像中的细节和噪声,使得图像变得更加平滑和真实。其中,高斯滤波是一种线性平滑滤波器,其利用高斯函数对图像中的每个像素进行加权平均,以降低像素之间的差异。引入高斯噪声可以模拟图像中的随机噪声,而高斯滤波则能够减轻这些噪声对图像的影响,使得图像变得更加平滑和模糊。经过高斯噪声模糊处理后,每个背景图像会变得更加柔和,图像的细节和噪声会被降低,从而增强了图像的视觉效果。

S300:将所述背景图像集输入所述背景编码网络进行编码,获得背景特征图。

提取到原始图像中的背景图像集后,将背景图像集输入背景编码网络,背景编码网络通过一系列卷积和池化层,将背景图像集转换为更紧凑的表示形式的背景特征图。在一些实施例中,背景编码网络中卷积层的卷积核大小为3*3,步长设置为2,采用的激活函数为Relu,卷积核的数量分别为128、256,具体的网络结构为卷积层128-激活函数层-批归一化层-卷积层256-激活函数层-批归一化层,背景编码网络将由背景图像集转换得到的背景特征图的尺寸缩放为16*16*256。可以理解的是,获得的背景特征图是对输入的背景图像集的编码表示,捕捉背景图像集中的重要语义特征信息,这些特征信息通常是二维的矩阵或多维的张量,具体取决于背景编码网络的结构和设计。

S400:将所述原始图像输入所述编码模块进行编码,获得原始特征图。

编码模块是由卷积神经网络(CNN)或其变种构成,通过一系列卷积和池化层,逐渐缩减原始图像的空间维度,对输入的原始图像进行特征提取和编码,得到一系列抽象的原始特征图,例如获得尺寸为16*16*512的原始特征图。显然地,原始特征图是原始图像在高级语义层面上的表示,能够捕捉原始图像中的语义和结构信息。原始特征图中的每个像素或特征对应着原始图像中相应位置的语义信息或抽象特征值,可以看作是对原始图像进行了有效的编码。在一些实施例中,编码模块的网络结构中卷积层的卷积核的大小为3*3,步长设置为2,采用的激活函数为Relu,卷积核的数量分别为64、128、256和512,具体的网络结构为卷积层64-激活函数层-批归一化层-卷积层128-激活函数层-批归一化层-卷积层256-激活函数层-批归一化层-卷积层512-激活函数层-批归一化层,其具有良好的图像特征提取能力。

S500:将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合,获得融合特征图。

在人体目标分割任务中,基于多个不同场景的图像,分别对每一尺寸的背景图像进行模态迁移,获得包括多个尺寸、多个模态的背景图像的背景图像集后,分别将每一尺寸的多个模态的背景图像输入到背景编码网络进行编码,获得每一尺寸的背景特征图。

将每一尺寸的背景特征图和原始特征图输入到特征融合模块中,调整不同尺寸的背景特征图的权重参数,以使得特征融合模块在多个尺寸、多个模态的背景图像下进行特征学习和表示,将每一尺寸的背景特征图和原始特征图进行融合,更好地适应人体目标分割任务的需求,并可以学习到更加高层次的特征表示和细节信息。通过多次迭代训练和调整神经网络的权重参数,特征融合模块学习到多个尺寸、多个模态的背景图像的背景细节信息和高级特征表示。特征融合模块根据每一尺寸的背景特征图的权重参数,将背景特征图和原始特征图进行融合,以将人体目标特征信息和背景特征信息综合准确地结合在一起,获得特征融合后的融合特征图,生成像素级别的分割结果,以将图像中的每个像素分类为属于背景类别或是属于人体目标类别。可以理解地,融合特征图是人体目标分割任务的关键结果,包含融合了背景特征信息和人体目标特征信息的高级特征表示。

S600:将所述融合特征图输入所述解码模块进行解码,获得所述人体目标对应的预测标签。

由于神经网络深度不断加深,可能出现梯度消失或爆炸的情况。为了解决这个问题,可以采用跳跃级联连接的方式。跳跃级联连接方式将底层的卷积特征和上层的反卷积特征连接起来,使具有不同空间分辨率的特征图之间可以传递信息。跳跃连接可以加强网络的信息传递,同时保留低层次的细节信息。通过连接上采样特征和下采样特征,可以帮助网络更好地学习图像的局部和全局特征,提高语义分割的精度,加快人体目标分割模型的收敛。

解码模块是人体分割网络的核心组成部分,在一些实施例中,解码模块的网络结构中卷积层的卷积核的大小为3*3,步长设置为1,采用的激活函数为Relu,卷积核的数量分别为256、128、64和1,具体的网络结构为卷积层256-上采样-跳跃级联连接层(和编码模块的第3个卷积核输出结果进行连接)-激活函数层-批归一化层-卷积层128-上采样-跳跃级联连接层(和编码模块的第2个卷积核输出结果进行连接)-激活函数层-批归一化层-卷积层64-上采样-跳跃级联连接层(和编码模块的第1个卷积核输出结果进行连接)-激活函数层-批归一化层-卷积层1-激活函数层-批归一化层。

获得融合特征图后,将融合特征图输入到解码模块,通过一系列反卷积和上采样等操作将融合特征图恢复到输入的原始图像的尺寸,并输出像素级别的分割掩码,即原始图像中的人体目标对应的尺寸为256*256*1的预测标签,将原始图像中的每个像素分类为背景或人体目标。在一些实施例中,约定使用像素值为0表示背景,使用像素值为1表示人体目标。其中,预测标签是一个与原始图像的真实标签具有相同尺寸的矩阵或张量,每个像素被分类为属于背景或是属于人体目标,解码模块的设计允许模型将特征图中学到的高级语义信息转换为图像中每个像素的预测结果。分割掩码给出了图像中每个像素的预测标签,即人体目标对应的预测标签。通过分析分割掩码,可以准确地得知每个像素被分类为属于背景类别或是属于人体目标类别,并对属于人体目标的像素进行分割。

S700:基于损失函数计算所述真实标签和所述预测标签之间的损失,并根据所述损失对所述人体目标分割网络进行迭代训练,直到所述人体目标分割网络收敛,得到所述人体目标分割模型。

在人体目标分割任务中,需要将目标分割模型预测的分割结果与真实标签进行比较,通过预设的损失函数来衡量预测标签与真实标签之间的损失,根据预测标签与真实标签之间的损失,利用优化算法对背景编码网络和人体分割网络(即人体目标分割网络)进行迭代训练,不断调整神经网络参数,直到人体目标分割网络收敛,得到有效的人体目标分割模型。

在一些实施例中,可以采用交叉熵损失函数或Dice损失函数等来计算真实标签和预测标签之间的损失。交叉熵损失函数度量预测概率分布与真实标签之间的差异,而Dice损失函数度量两个集合之间的相似性。可以理解地,计算得到的损失函数值越小,表示人体目标分割模型的预测结果与真实标签越接近,训练过程越优化。

在另一些实施例中,可以采用的损失函数为:

其中,x

在模型训练过程中,通过将原始图像输入人体目标分割网络,得到人体目标分割网络输出的预测标签。然后将预测标签与真实标签进行比较,通过损失函数计算损失函数值。容易理解地,可以利用优化算法(例如Adam、随机梯度下降SGD等),通过反向传播算法,调整背景编码网络和人体分割网络中相关的权重参数,以减小损失函数的值,优化人体目标分割网络的预测能力。在一些实施例中,可以采用Adam优化算法优化人体目标分割网络的权重参数,其中,迭代次数设置为10万次,初始化学习率设置为0.001,权重衰减设置为0.0005,每1000次迭代,学习率衰减为原来的1/10,直到人体目标分割网络收敛。

在多次迭代训练后,人体目标分割网络的损失函数值逐渐减小,人体目标分割网络输出的预测标签与真实标签之间的吻合逐渐提升,直至人体目标分割网络收敛。人体目标分割网络收敛表示人体目标分割模型已经达到一个相对稳定的状态,进行更多的训练不会带来显著的改进和提升。人体目标分割网络接收输入的原始图像并输出像素级别的分割结果,将原始图像中的每个像素准确地分类为属于背景或是属于人体目标。

本发明实施例提供的训练人体目标分割模型的方法,人体目标分割网络包括背景编码网络和人体分割网络,所述人体分割网络包括编码模块、特征融合模块和解码模块,所述方法包括:获取训练集,训练集包括多张包含人体目标的原始图像,原始图像具有人体目标对应的真实标签;提取原始图像中的背景区域,基于背景区域获取背景图像集,其中,背景图像集为采用多个不同的尺寸对背景区域进行裁剪后,再进行模态迁移得到,模态迁移包括多个不同场景的图像迁移;将背景图像集输入背景编码网络进行编码,获得背景特征图;将原始图像输入编码模块进行编码,获得原始特征图;将背景特征图和原始特征图输入特征融合模块进行特征融合,获得融合特征图;将融合特征图输入解码模块进行解码,获得人体目标对应的预测标签;基于损失函数计算真实标签和预测标签之间的损失,并根据损失对背景编码网络和人体分割网络进行迭代训练,直到人体目标分割网络收敛,得到人体目标分割模型。

本发明实施例在训练人体目标分割模型时,将原始图像中的背景区域,采用多个不同的尺寸对背景区域进行裁剪后,再基于多个不同场景的图像,对裁剪后的背景区域分别进行模态迁移,得到背景图像集,其中,背景图像集中包括多个尺寸、多个模态的背景图像,将背景图像集输入背景编码网络编码获得背景特征图,并将背景特征图用于模型训练。从而,使得人体目标分割网络在训练时更注重背景图像的特征信息和边界特征的变化,进而得到的人体目标分割模型能够准确地分割出人体目标,减少复杂背景的干扰和伪影的产生,降低人体目标分割边界的抖动性,分割结果更加清晰和可靠,提高分割的稳定性,提升用户的体验。

参见图6所示,图6为本发明一些实施例提供的训练人体目标分割模型的方法中步骤S500的一子流程示意图,将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合,获得融合特征图,具体包括但不限于以下步骤S510-S540:

S510:将所述背景特征图和所述原始特征图输入所述特征融合模块,对所述原始特征图进行卷积运算,得到第一原始特征图。

卷积运算是深度学习中常用的特征提取方法,卷积运算通过滑动一个卷积核(也称为滤波器)在特征图上提取不同位置的特征,能够进一步加强特征图的表达能力,提取更高层次的特征信息。将每一尺寸的背景特征图和原始特征图输入到特征融合模块中,特征融合模块对原始特征图进行卷积运算,得到对应的尺寸为16*16*512的第一原始特征图。在一些实施例中,特征融合模块的网络结构中卷积层的卷积核的大小为1*1,步长设置为1,采用的激活函数为Relu,卷积核的数量为512。

S520:对所述背景特征图进行扩张卷积运算,得到第一背景特征图。

扩张卷积是一种特殊的卷积运算,扩张卷积层的卷积核在原有的卷积核中间插入若干个空洞(又称为扩张率),以扩大卷积核的感受野,增加特征图的感知范围,从而能够捕捉背景区域更广阔的上下文信息,能够更好地理解背景区域的全局特征,提高目标分割的准确性和鲁棒性。

特征融合模块中的扩张卷积层对每一尺寸的背景特征图进行扩张卷积运算,得到经过扩张卷积处理后的每一尺寸的第一背景特征图,其包含每一尺寸的背景特征图经过扩张卷积后的特征信息。在一些实施例中,特征融合模块的网络结构中扩张卷积层的卷积核的大小为3*3,卷积扩张率设置为4,步长设置为1,采用的激活函数为Relu,卷积核的数量为512。

S530:将所述第一原始特征图和所述第一背景特征图进行残差连接,得到第一融合特征图。

残差连接(Residual Connection),是指在神经网络中引入直接连接或捷径连接的技术。在传统的神经网络中,信息通过层与层之间的线性变换和非线性激活函数传递。然而,当网络变得非常深时,存在梯度消失或梯度爆炸的问题,导致难以训练深层网络,跳跃连接的引入旨在解决这个问题。通过跳跃连接,网络可以更轻松地学习到恒等映射(identity mapping),即将输入信息直接传递给输出,从而使网络的训练更加稳定和高效。

残差连接通过将输入数据直接添加到网络的输出中,具体而言,假设输入为x,通过一系列的网络层进行变换和激活后得到输出为H(x),则残差连接的作用是将输入x与输出H(x)相加得到最终的输出F(x)=x+H(x)。这样,网络可以直接学习到残差,而不是完全依赖于层间的变换。残差连接允许模型直接学习残差,即第一原始特征图与第一背景特征图之间的差异,从而使得特征信息能够更容易地在不同层次传递。通过残差连接,能够有效地融合原始特征和背景特征,增强人体目标分割模型的特征表示能力,提高人体目标分割的准确性和鲁棒性。

在一些实施例中,在特征融合模块中获取到第一原始特征图和每一尺寸的第一背景特征图后,将第一原始特征图和每一尺寸的第一背景特征图进行残差连接。通过添加原始卷积运算后的输入(即第一原始特征图)和经过扩张卷积运算后的残差(即每一尺寸的第一背景特征图)来实现信息传递,使得信息在网络中能够更顺畅地传递,有效地将背景特征信息和人体目标特征信息进行结合,以得到具有更丰富和准确的特征表示的尺寸为16*16*512的第一融合特征图。

S540:将所述第一融合特征图和所述原始特征图进行连接,得到所述融合特征图。

在一些实施例中,在特征融合模块中可以将第一融合特征图和原始特征图进行特征拼接或通道级连接,以将第一融合特征图和原始特征图融合成一个更丰富和综合的融合特征图。其中,特征拼接是指将第一融合特征图和原始特征图在深度(通道数)方向上进行拼接,得到通道数增加的对应的融合特征图。通道级连接是指将第一融合特征图和原始特征图的对应通道进行连接,得到尺寸为16*16*1024的融合特征图,每个通道都是第一融合特征图和原始特征图对应通道的叠加。通过连接第一融合特征图和原始特征图获得的融合特征图包含第一融合特征图中的背景信息和人体目标信息以及原始特征图所捕捉的原始图像的细节特征,具有更丰富和综合的特征表示,提高人体目标分割模型的性能和准确度。

综上所述,本发明实施例提供的训练人体目标分割模型的方法,人体目标分割网络包括背景编码网络和人体分割网络,所述人体分割网络包括编码模块、特征融合模块和解码模块,所述方法包括:获取训练集,训练集包括多张包含人体目标的原始图像,原始图像具有人体目标对应的真实标签;提取原始图像中的背景区域,基于背景区域获取背景图像集,其中,背景图像集为采用多个不同的尺寸对背景区域进行裁剪后,再进行模态迁移得到,模态迁移包括多个不同场景的图像迁移;将背景图像集输入背景编码网络进行编码,获得背景特征图;将原始图像输入编码模块进行编码,获得原始特征图;将背景特征图和原始特征图输入特征融合模块进行特征融合,获得融合特征图;将融合特征图输入解码模块进行解码,获得人体目标对应的预测标签;基于损失函数计算真实标签和预测标签之间的损失,并根据损失对背景编码网络和人体分割网络进行迭代训练,直到人体目标分割网络收敛,得到人体目标分割模型。

本发明实施例在训练人体目标分割模型时,将原始图像中的背景区域,采用多个不同的尺寸对背景区域进行裁剪后,再基于多个不同场景的图像,对裁剪后的背景区域分别进行模态迁移,得到背景图像集,其中,背景图像集中包括多个尺寸、多个模态的背景图像,将背景图像集输入背景编码网络编码获得背景特征图,并将背景特征图用于模型训练。从而,使得人体目标分割网络在训练时更注重背景图像的特征信息和边界特征的变化,进而得到的人体目标分割模型能够准确地分割出人体目标,减少复杂背景的干扰和伪影的产生,降低人体目标分割边界的抖动性,分割结果更加清晰和可靠,提高分割的稳定性,提升用户的体验。

参见图7所示,图7是本发明一些实施例提供的人体目标分割方法的流程示意图。显然地,该人体目标分割方法的执行主体可以是上述电子设备,该人体目标分割方法包括但不限于以下步骤S10A-S30A:

S10A:获取待处理图像。

在应用人体目标分割模型对待处理图像进行人体目标分割时,首先需要获取待处理图像,可以由用户或操作人员从各种数据源中获得用于图像处理或计算机视觉任务的待处理图像数据。可以理解的是,待处理图像可以是以数字形式表示的像素数据,也可以是如JPEG、PNG等格式的图像文件,或者通过如摄像头、扫描仪等图像采集设备获取的实时图像。容易理解的是,在一些实施例中,还可以有其他方式获取待处理图像,例如用户可以通过应用程序获取用户自己上传的图像数据,如社交媒体应用中的头像、相册等。获取待处理图像为后续图像的数据预处理、识别检测、特征提取以及人体目标分割等操作提供可靠的数据源。

S20A:将所述待处理图像输入人体目标分割模型,以获得所述待处理图像中人体目标的预测标签,其中,所述人体目标分割模型是采用上述任一项训练人体目标分割模型的方法训练得到的。

将获取到的待处理图像作为输入数据加载到人体目标分割模型中,待处理图像经过人体目标分割模型的前向传播,模型将待处理图像中的每个像素归类为人体或者背景,以获得预测待处理图像中的人体目标的预测标签。其中,该人体目标分割模型是通过上述任意一项实施例提供的训练人体目标分割模型的方法训练得到的,与上述实施例中的人体目标分割模型具有相同的结构和功能,在此不再一一赘述。在前向传播过程中,待处理图像中的每个像素都被输入人体目标分割模型,并经过一系列卷积、池化、特征融合等操作,以从输入的待处理图像中提取特征信息。人体目标分割模型基于在训练阶段学习到的特征表示和权重参数,对待处理图像中的每个像素输出相应的预测标签,将每个像素归类为人体目标类别或背景类别,进而获得一个与待处理图像大小相同的预测标签图像,得到的预测标签图像即为待处理图像中含有人体目标的预测标签。可以理解的是,在预测标签图像中每个像素都被赋予一个类别标签,用于表示该像素属于人体目标或是背景类别。在一些实施例中,在获得预测标签图像后,需要进行后处理操作,例如去除预测标签图像中的噪声、填充目标区域等,以得到更准确和完整的人体目标分割结果。

S30A:根据所述人体目标的预测标签从所述待处理图像中分割出人体目标图像。

在获得待处理图像中的人体目标的预测标签之后,根据人体目标的预测标签,通过像素级操作,将待处理图像中的人体目标像素从背景中提取出来,得到单独的人体目标图像。其中,该人体目标图像只包含待处理图像中的人体目标部分,背景部分被去除。在一些实施例中,可以简单地通过遍历待处理图像中的像素,根据人体目标的预测标签来选择人体目标像素,提取人体目标的图像,或者还可以通过图像掩码操作生成人体目标的图像。

本发明实施例提供的人体目标分割方法,包括:获取待处理图像;将所述待处理图像输入人体目标分割模型,以获得所述待处理图像中人体目标的预测标签,其中,所述目标分割模型是采用上述任一项训练人体目标分割模型的方法训练得到的;根据所述人体目标的预测标签从所述待处理图像中分割出人体目标图像。训练得到的人体目标分割模型能够准确地分割出人体目标,减少复杂背景的干扰和伪影的产生,降低人体目标分割边界的抖动性,分割结果更加清晰和可靠,提高分割的稳定性,提升用户的体验。

本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,处理器运行所述计算机程序指令,以执行上述发明实施例提供的任一项训练人体目标分割模型的方法,或者上述发明实施例提供的任一项人体目标分割方法。

在一些实施例中,存储介质可以是闪存、硬盘、光盘、寄存器、磁表面存储器、可移动磁盘、CD-ROM、随机存储器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM等存储器,或本技术领域内所公知的任意其他形式的存储介质,也可以是包括上述存储介质之一或任意组合的各种设备。

在一些实施例中,计算机程序指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其他单元。

作为示例,计算机程序指令可以但不一定对应于文件系统中的文件,可以被存储在保存其他程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档的一个或多个脚本中,或者存储在专用于所讨论的程序的单个文件中,又或者存储在多个协同文件(例如存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,计算机程序指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点目通过通信网络互连的多个计算设备上执行。容易理解的是,上述本发明所提供的实施例描述的方法的全部或部分步骤,可以直接使用电子硬件或处理器可执行的计算机程序指令,或者二者的结合来实施。

技术人员可以理解地,本发明所提供的实施例仅是示意性的,实施例的方法中的各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,可以根据实际需要进行顺序调整、合并和删减,实施例的装置或系统中的模块或子模块、单元或子单元可以根据实际需要进行合并、划分和删减。例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者集成到另一个装置,或一些特征可以忽略,或不执行。

需要说明的是,以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施,并不能以此来限定本发明的权利保护范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,依据本发明权利要求所做的均等变化与修饰,均应属于本发明权利要求的涵盖范围。

相关技术
  • 一种目标定位模型的训练方法和目标定位方法及装置
  • 目标分割方法、目标分割模型的训练方法及相关设备
  • 人体图像分割方法、人体图像分割模型的训练方法和装置
技术分类

06120116501117