掌桥专利:专业的专利平台
掌桥专利
首页

迁移学习模型的训练方法及装置、图像处理方法及装置

文献发布时间:2023-06-19 12:07:15


迁移学习模型的训练方法及装置、图像处理方法及装置

技术领域

本公开涉及图像处理领域,尤其涉及一种迁移学习模型的训练方法及装置、图像处理方法及装置。

背景技术

数据标注是深度学习的基础,近几年来深度学习算法的迅速发展离不开数据的支持。特定的深度学习算法一般都需要标注特定的数据,标注的数据量越多,训练后的深度学习算法效果越好。但大量的数据标注需要消耗大量的人力和时间,且工业界的任务、需求不断更新,数据的初始定义并不能满足新任务、新需求的要求,这就需要重新标注数据,然而每次标注都需要投入大量的人力和时间,很难满足任务和需求快速增长的需求。

目前,模型训练过程基本都是遵循“无监督预训练-有监督训练”这一流程,即先使用大量无标签的数据结合无监督学习方法训练出一个较好的图像特征提取模型,然后根据特定任务,使用有标签的数据,通过训练好的图像特征提取模型提取特征来学习这个特定的任务,进而获取到最终的模型;

但是,上述训练过程只能针对某些特定任务,一旦有其他新的任务和需求,就需要重新进行一遍“无监督训练-有监督训练”的流程,而“无监督训练”这一步骤耗时过多,导致训练时长漫长,无法满足快速增长的新任务和新需求,在实际应用落地上受到一定的限制。

发明内容

本公开提供一种迁移学习模型的训练方法及装置、图像处理方法及装置,以至少解决相关技术中的模型训练方法无法满足快速增长的新任务和新需求的问题。

根据本公开实施例的第一方面,提供一种迁移学习模型的训练方法,迁移学习模型包括编码器、解码器和迁移学习网络,包括:获取第一图像数据集,其中,第一图像数据集包括多个第一图像数据和多个第一图像数据的针对目标任务的标注信息;将第一图像数据输入到训练好的编码器中,获取编码后的特征;将编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征;将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据;基于预测数据和第一图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练。

可选地,迁移学习网络包括跳跃结构,其中,跳跃结构的数量根据目标任务确定。

可选地,在迁移学习网络包括N个跳跃结构时,将第一图像数据输入到训练好的编码器中,获取编码后的特征包括:将第一图像数据输入到训练好的编码器的第一层,获取编码后的第一特征;将编码后的第一特征输入到训练好的编码器第i层,获取编码后的第i特征,依次类推,获取到编码后的第N+1特征;将编码后的第一特征、…、编码后的第i特征、…、编码后的第N特征作为编码后的特征;其中,N为正整数,2≤i≤N。

可选地,将编码后的特征输入到迁移学习网络中,获取迁移学习后的特征包括:将编码后的第一特征输入到迁移学习网络中第一跳跃结构,获取迁移学习后的第一特征;将编码后的第i特征输入到迁移学习网络中第i-1跳跃结构,获取迁移学习后的第i-1特征,依次类推,获取到迁移学习后的第N特征。

可选地,将编码后的特征输入到训练好的解码器中,获取解码后的特征包括:将编码后的第N+1特征输入到训练好的解码器的第一层,得到解码后的第一特征;将解码后的第一特征和迁移学习后的第N特征进行融合,得到融合后的第一特征;将融合后的第一特征输入到训练好的解码器的第二层,得到解码后的第二特征;将解码后的第二特征和迁移学习后的第N-1特征进行融合,得到融合后的第二特征,依次类推,得到解码后的第N特征;将解码后的第N特征作为解码后的特征。

可选地,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据包括:将解码后的第N特征和迁移学习后的第一特征进行融合,得到融合后的第N特征;将融合后的第N特征输入到训练好的解码器的第N+1层,得到目标任务下针对第一图像数据的预测数据。

可选地,基于预测数据和第一图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练包括:基于预测数据和第一图像数据的标注信息确定预测损失;通过预测损失调整迁移学习网络的参数,对迁移学习模型进行训练。

可选地,基于预测数据和图像数据的标注信息确定预测损失包括:获取预测数据和第一图像数据的标注信息的均方误差;将均方误差确定为预测损失。

可选地,将第解码后的特征与迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据包括:将解码后的特征与迁移学习后的特征相加,得到目标任务下针对第一图像数据的预测数据;或,将解码后的特征与迁移学习后的特征合并,得到目标任务下针对第一图像数据的预测数据。

可选地,编码器和解码器通过如下方式进行训练:获取第二图像数据集,其中,第二图像数据集包括多个第二图像数据;将第二图像数据输入到编码器和解码器中,获取针对第二图像数据的预测数据;基于针对第二图像数据的预测数据和第二图像数据调整编码器和解码器的参数,对编码器和解码器进行训练。

可选地,目标任务包括图像分割、图像关键点检测、图像风格转移或图像阴影擦除。

根据本公开实施例的第二方面,提供一种图像处理方法,所述图像处理方法利用针对目标任务预先训练的迁移学习模型执行图像处理,所述迁移学习模型包括编码器、解码器和迁移学习网络,所述图像处理方法包括:获取第一图像数据;将第一图像数据输入到训练好的编码器中,获取编码后的特征;将编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征;将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据。

可选地,迁移学习网络包括跳跃结构,其中,跳跃结构的数量根据目标任务确定。

可选地,在迁移学习网络包括N个跳跃结构时,将第一图像数据输入到训练好的编码器中,获取编码后的特征包括:将第一图像数据输入到训练好的编码器的第一层,获取编码后的第一特征;将编码后的第一特征输入到训练好的编码器第i层,获取编码后的第i特征,依次类推,获取到编码后的第N+1特征;将编码后的第一特征、…、编码后的第i特征、…、编码后的第N特征作为编码后的特征;其中,N为正整数,2≤i≤N。

可选地,将编码后的特征输入到迁移学习网络中,获取迁移学习后的特征包括:将编码后的第一特征输入到迁移学习网络中第一跳跃结构,获取迁移学习后的第一特征;将编码后的第i特征输入到迁移学习网络中第i-1跳跃结构,获取迁移学习后的第i-1特征,依次类推,获取到迁移学习后的第N特征。

可选地,将编码后的特征输入到训练好的解码器中,获取解码后的特征包括:将编码后的第N+1特征输入到训练好的解码器的第一层,得到解码后的第一特征;将解码后的第一特征和迁移学习后的第N特征进行融合,得到融合后的第一特征;将融合后的第一特征输入到训练好的解码器的第二层,得到解码后的第二特征;将解码后的第二特征和迁移学习后的第N-1特征进行融合,得到融合后的第二特征,依次类推,得到解码后的第N特征;将解码后的第N特征作为解码后的特征。

可选地,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据包括:将解码后的第N特征和迁移学习后的第一特征进行融合,得到融合后的第N特征;将融合后的第N特征输入到训练好的解码器的第N+1层,得到目标任务下针对第一图像数据的预测数据。

可选地,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下对第一图像数据的预测数据包括:将解码后的特征与迁移学习后的特征相加,得到目标任务下第一图像数据的预测数据;或,将解码后的特征与迁移学习后的特征合并,得到目标任务下第一图像数据的预测数据。

可选地,目标任务包括图像分割、图像关键点检测、图像风格转移或图像阴影擦除。

根据本公开实施例的第三方面,提供一种迁移学习模型的训练装置,该迁移学习模型包括编码器、解码器和迁移学习网络,包括:第一获取单元,用于获取第一图像数据集,其中,第一图像数据集包括多个第一图像数据和多个第一图像数据的针对目标任务的标注信息;第二获取单元,用于将第一图像数据输入到训练好的编码器中,获取编码后的特征;第三获取单元,用于将编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征;融合单元,用于将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据;训练单元,用于基于预测数据和第一图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练。

可选地,迁移学习网络包括跳跃结构,其中,跳跃结构的数量根据目标任务确定。

可选地,在迁移学习网络包括N个跳跃结构时,第二获取单元,还用于将第一图像数据输入到训练好的编码器的第一层,获取编码后的第一特征;将编码后的第一特征输入到训练好的编码器第i层,获取编码后的第i特征,依次类推,获取到编码后的第N+1特征;将编码后的第一特征、…、编码后的第i特征、…、编码后的第N特征作为编码后的特征;其中,N为正整数,2≤i≤N。

可选地,第三获取单元,还用于将编码后的第一特征输入到迁移学习网络中第一跳跃结构,获取迁移学习后的第一特征;将编码后的第i特征输入到迁移学习网络中第i-1跳跃结构,获取迁移学习后的第i-1特征,依次类推,获取到迁移学习后的第N特征。

可选地,第三获取单元,还用于将编码后的第N+1特征输入到训练好的解码器的第一层,得到解码后的第一特征;将解码后的第一特征和迁移学习后的第N特征进行融合,得到融合后的第一特征;将融合后的第一特征输入到训练好的解码器的第二层,得到解码后的第二特征;将解码后的第二特征和迁移学习后的第N-1特征进行融合,得到融合后的第二特征,依次类推,得到解码后的第N特征;将解码后的第N特征作为解码后的特征。

可选地,融合单元,还用于将解码后的第N特征和迁移学习后的第一特征进行融合,得到融合后的第N特征;将融合后的第N特征输入到训练好的解码器的第N+1层,得到目标任务下针对第一图像数据的预测数据。

可选地,训练单元,还用于基于预测数据和第一图像数据的标注信息确定预测损失;通过预测损失调整迁移学习网络的参数,对迁移学习模型进行训练。

可选地,训练单元,还用于获取预测数据和第一图像数据的标注信息的均方误差;将均方误差确定为预测损失。

可选地,融合单元,还用于将解码后的特征与所述迁移学习后的特征相加,得到目标任务下针对第一图像数据的预测数据;或,将解码后的特征与所述迁移学习后的特征合并,得到目标任务下针对第一图像数据的预测数据。

可选地,编码器和解码器通过如下方式进行训练:获取第二图像数据集,其中,第二图像数据集包括多个第二图像数据;将第二图像数据输入到编码器和解码器中,获取针对第二图像数据的预测数据;基于针对第二图像数据的预测数据和第二图像数据调整编码器和解码器的参数,对编码器和解码器进行训练。

可选地,目标任务包括图像分割、图像关键点检测、图像风格转移或图像阴影擦除。

根据本公开实施例的第四方面,提供一种图像处理装置,所述图像处理装置利用针对目标任务预先训练的迁移学习模型执行图像处理,所述迁移学习模型包括编码器、解码器和迁移学习网络,所述图像处理装置包括:第一获取单元,用于获取第一图像数据;第二获取单元,用于将第一图像数据输入到训练好的编码器中,获取编码后的特征;第三获取单元,用于将编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征;融合单元,用于将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据。

可选地,迁移学习网络包括跳跃结构,其中,跳跃结构的数量根据目标任务确定。

可选地,在迁移学习网络包括N个跳跃结构时,第二获取单元,还用于将第一图像数据输入到训练好的编码器的第一层,获取编码后的第一特征;将编码后的第一特征输入到训练好的编码器第i层,获取编码后的第i特征,依次类推,获取到编码后的第N+1特征;将编码后的第一特征、…、编码后的第i特征、…、编码后的第N特征作为编码后的特征;其中,N为正整数,2≤i≤N。

可选地,第三获取单元,还用于将编码后的第一特征输入到迁移学习网络中第一跳跃结构,获取迁移学习后的第一特征;将编码后的第i特征输入到迁移学习网络中第i-1跳跃结构,获取迁移学习后的第i-1特征,依次类推,获取到迁移学习后的第N特征。

可选地,第三获取单元,还用于将编码后的第N+1特征输入到训练好的解码器的第一层,得到解码后的第一特征;将解码后的第一特征和迁移学习后的第N特征进行融合,得到融合后的第一特征;将融合后的第一特征输入到训练好的解码器的第二层,得到解码后的第二特征;将解码后的第二特征和迁移学习后的第N-1特征进行融合,得到融合后的第二特征,依次类推,得到解码后的第N特征;将解码后的第N特征作为解码后的特征。

可选地,融合单元,还用于将解码后的第N特征和迁移学习后的第一特征进行融合,得到融合后的第N特征;将融合后的第N特征输入到训练好的解码器的第N+1层,得到目标任务下针对第一图像数据的预测数据。

可选地,融合单元,还用于将解码后的特征与迁移学习后的特征相加,得到目标任务下第一图像数据的预测数据;或,将解码后的特征与迁移学习后的特征合并,得到目标任务下针对第一图像数据的预测数据。

可选地,目标任务包括图像分割、图像关键点检测、图像风格转移或图像阴影擦除。

根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的迁移学习模型的训练方法和图像处理方法。

根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的迁移学习模型的训练方法和图像处理方法。

根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的迁移学习模型的训练方法和图像处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

根据本公开的迁移学习模型的训练方法及装置、图像处理方法及装置,在训练好编码器和解码器后,针对不同的目标任务,调整迁移学习网络的参数对迁移学习模型进行训练,同时在训练过程中结合相应的特征融合,从而得到了适应目标任务的迁移学习模型,使得可以针对不同任务进行相应的训练,不再仅限于对单一的任务进行训练,而且上述的训练方法经过验证只需要少量的标注数据即可训练出较好的模型,无需大量的标注数据,缩短了训练时间,能够满足快速增长的新需求和新任务。因此,本公开解决了相关技术中的模型训练方法无法满足快速增长的新任务和新需求的问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的迁移学习模型的训练方法的实施场景示意图;

图2是根据一示例性实施例示出的一种迁移学习模型的训练方法的流程图;

图3是根据一示例性实施例示出的一种编码器和解码器的训练网络示意图;

图4是根据一示例性实施例示出的一种优选的迁移学习模型网络示意图;

图5是根据一示例性实施例示出的一种图像处理方法的流程图;

图6是根据一示例性实施例示出的一种迁移学习模型的训练装置的框图

图7是根据一示例性实施例示出的一种图像处理装置的框图;

图8是根据本公开实施例的一种电子设备800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

目前,模型训练过程基本都采用“无监督训练-有监督训练”的流程,而“无监督训练”这一步骤耗时过多,导致训练时长漫长,无法满足快速增长的新任务和新需求,在实际应用落地上受到一定的限制。

针对上述问题,本公开提供了一种迁移学习模型的训练方法,能够满足快速增长的新任务和新需求,例如,该迁移学习模型的训练方法可以应用但不限于以下目标任务上:图像分割、图像关键点检测、图像风格转移或图像阴影擦除,下面以图像分割中的人脸分割的场景为例进行说明。

图1是示出根据本公开的示例性实施例的迁移学习模型的训练方法的实施场景示意图,如图1所述,该实施场景包括服务器100、用户终端110和用户终端120,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装获取人脸图像的摄像头,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。

服务器100接收用户终端110、120发送的对迁移学习模型进行训练的请求之后,统计从用户终端110、120历史上接收到的人脸图像并对统计的人脸图像中的左眼、右眼、左眉毛、右眉毛、鼻子、上嘴唇、下嘴唇、左脸颊、右脸颊等等分别进行标注,并将标注后的人脸图像合并在一起作为第一图像数据集,其中,第一图像数据集包括多个人脸图像数据和多个人脸图像数据的针对人脸分割任务的标注信息,服务器100在获取到第一图像数据集后,将人脸图像数据输入到训练好的编码器中,获取编码后的特征,再将获取的编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征,将获取的解码后的特征和迁移学习后的特征进行融合,得到人脸分割任务下的人脸图像数据的预测数据,进而基于预测数据和人脸图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练,得到最优的针对人脸分割任务的迁移学习模型,通过训练好的迁移学习模型可以对输入的人脸图像进行准确的分割。

下面,将参照图2至图8详细描述根据本公开的示例性实施例的迁移学习模型的训练方法及装置、图像处理方法及装置。

图2是根据一示例性实施例示出的一种迁移学习模型的训练方法的流程图,如图2所示,迁移学习模型的训练方法包括以下步骤:

在步骤S201中,获取第一图像数据集,其中,第一图像数据集包括多个第一图像数据和多个第一图像数据的针对目标任务的标注信息。上述目标任务包括但不限于以下任务:图像分割、图像关键点检测、图像风格转移或图像阴影擦除。更具体地,如人像分割、人像关键点检测、人像风格转移或人像阴影擦除。

具体地,在获取第一图像数据集前,需要对多个第一图像数据进行标注,以目标任务为人脸分割为例进行说明,可以对第一图像通过如下标注方式进行标注:分别对第一图像中的左眼、右眼、左眉毛、右眉毛、鼻子、上嘴唇、下嘴唇、左脸颊、右脸颊、额头、下巴、人中、胡子等等分别进行标注,在标注完成后,将第一图像数据和对第一图像的标注信息合并在一起作为第一图像数据集。需要说明的是,标注方式并不局限于上述提到的标注方式,可以是任何适用的满足需求的标注方式。

返回图2,在步骤S202中,将第一图像数据输入到训练好的编码器中,获取编码后的特征。例如,将第一图像数据输入到训练好的编码器中,得到关于第一图像的高层次语义信息,如表示第一图像中有没有眼睛、鼻子、嘴巴以及哪个地方有眼睛、鼻子、嘴巴等的信息,可以将关于第一图像的高层次语义信息作为编码后的特征。

根据本公开的实施例,在迁移学习网络包括N个跳跃结构时,将第一图像数据输入到训练好的编码器中,获取编码后的特征可以通过如下方式实现:将第一图像数据输入到训练好的编码器的第一层,获取编码后的第一特征;将编码后的第一特征输入到训练好的编码器第i层,获取编码后的第i特征,依次类推,获取到编码后的第N+1特征;将编码后的第一特征、…、编码后的第i特征、…、编码后的第N特征作为编码后的特征;其中,N为正整数,2≤i≤N。

需要说明的是,上述编码器的训练需要与解码器一起进行,根据本公开的示例性实施例,编码器和解码器可以通过如下方式进行训练:获取第二图像数据集,其中,第二图像数据集包括多个第二图像数据;将第二图像数据输入到编码器和解码器中,获取针对第二图像数据的预测数据;基于针对第二图像数据的预测数据和第二图像数据调整编码器和解码器的参数,对编码器和解码器进行训练。上述第二图像数据集的数据量远远多于第一图像数据集。通过本实施例,采用无监督学习方式训练编码器和解码器,无需人力即可得到很好的编码器和解码器。

具体地,仍以人脸分割为例进行说明,可以先从公开数据集中选取三百多万张人脸图像数据,然后将人脸图像数据输入图2所述的网络,通过该网络来重建输入的人脸图像,即得到重建的人脸图像,训练该网络达到输出的人脸图像与输入的人脸图像一摸一样的目的。考虑到实际情况中存在各种各样的影响因素,输出的人脸图像可以与输入的人脸图像存在一定的误差,具体误差的大小根据实际需要确定。上述网络分为编码器(encoder)和解码器(decoder)两部分,其均由若干个卷积神经网络构成,可以采用任意的网络,具体网络结构根据实际需要确定。对上述网络中的编码器(encoder)和解码器(decoder)的训练可以使用相关技术中的无监督学习函数(如,输入图像和输出图像的均方误差函数)来调整编码器(encoder)和解码器(decoder)的参数,直到无监督学习函数达到根据需要设定的预设值,从而得到训练好的编码器和解码器。

需要说明的是,实际应用为了达到更好的效果,上述无监督学习函数也可以使用其他函数,采用这些函数的目的和采用均方误差函数的目的是一样的。例如,如图3所示,上述无监督学习函数还可以采用如下四个函数的结合形式:L_rec,L_adv,L_ssim,L_enc,其中,L_rec和L_ssim为人脸重建损失函数,具体形式不限,例如,可以通过sliding windows的形式判断输入的人脸图像和输出的人脸图像中对应的window的相似性,主要作用是让输出的人脸和输入的人脸一模一样,L_adv为对抗损失函数,主要作用是让模型判断哪个是真实人脸图像哪个是重建的人脸图像,最终让模型无法区分哪个是重建的人图像脸哪个是真实人脸图像,L_enc为正则化损失函数,无监督学习函数可以表示为:

L_unsupervise=x1*L_rec+x2*L_adv+x3*L_enc+x4*L_ssim

其中,x1,x2,x3,x4为不同损失函数的权重,可以根据实际需要设定。

在步骤S203中,将编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征。上述迁移学习网络可以包括但不限于跳跃结构(skip layer),其中,跳跃结构的数量可以根据目标任务确定。例如,如图4所示,图中迁移学习网络一共使用了4个skip layer,实际应用不一定为4个skip layer,可以根据需要调整skip layer的个数,对于一个不同的目标任务,可以添加不同的跳跃结构(skip layer)。

根据本公开的实施例,将编码后的特征输入到迁移学习网络中,获取迁移学习后的特征可以通过方式实现:将编码后的第一特征输入到迁移学习网络中第一跳跃结构,获取迁移学习后的第一特征;将编码后的第i特征输入到迁移学习网络中第i-1跳跃结构,获取迁移学习后的第i-1特征,依次类推,获取到迁移学习后的第N特征。

根据本公开的实施例,将编码后的特征输入到训练好的解码器中,获取解码后的特征可以通过如下方式实现:将编码后的第N+1特征输入到训练好的解码器的第一层,得到解码后的第一特征;将解码后的第一特征和迁移学习后的第N特征进行融合,得到融合后的第一特征;将融合后的第一特征输入到训练好的解码器的第二层,得到解码后的第二特征;将解码后的第二特征和迁移学习后的第N-1特征进行融合,得到融合后的第二特征,依次类推,得到解码后的第N特征;将解码后的第N特征作为解码后的特征。

返回图2,在步骤S204中,将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据。

根据本公开的实施例,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据可以通过如下方式实现:将解码后的第N特征和迁移学习后的第一特征进行融合,得到融合后的第N特征;将融合后的第N特征输入到训练好的解码器的第N+1层,得到目标任务下针对第一图像数据的预测数据。

根据本公开的示例性实施例,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据可以包括将解码后的特征与迁移学习后的特征相加,得到目标任务下针对第一图像数据的预测数据;还可以包括将解码后的特征与迁移学习后的特征合并,得到目标任务下针对第一图像数据的预测数据。需要说明的是,融合处理包括并不限于上述提到的两种方式,可以是其他任何适用于目标任务的融合方式。通过本实施例,可以进一步保证获取的数据的丰富度。

在步骤S205中,基于预测数据和第一图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练。

根据本公开的示例性实施例,基于预测数据和第一图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练可以包括但不限于:基于预测数据和第一图像数据的标注信息确定预测损失,通过预测损失调整迁移学习网络的参数,对迁移学习模型进行训练。通过本实施例,通过实际图像数据的标注信息和经过迁移学习模型得到的预测数据之间的损失,调整迁移学习模型参数使损失达到最小或者预先确定的损失阈值,从而得到符合需求的迁移学习模型参数。

根据本公开的示例性实施例,基于预测数据和第一图像数据的标注信息确定预测损失可以包括但不限于,获取预测数据和第一图像数据的标注信息的均方误差;将均方误差确定为预测损失。通过本实施例,采用均方误差可以方便、快速的得到预测损失。

例如,图4给出了一种优选的迁移学习模型网络,如图4所示,以N等于4为例进行说明,其中,encoder/decoder为无监督学习训练好的编码器和解码器,在此基础上,再加上迁移学习模块skip layers/output layer,迁移学习模块包括迁移学习网络skip layers和输出网络output layer具体过程如下:

首先,获取人脸图像数据集,其中,人脸图像数据集包括多个人脸图像数据和多个人脸图像数据的针对目标任务的标注信息;

然后,将人脸图像数据输入到训练好的编码器的第一层,获取编码后的特征,将编码后的特征分别输入到训练好的编码器第二层和迁移学习网络中第一跳跃结构,获取编码后的第二特征和迁移学习后的第一特征;将编码后的第二特征分别输入到训练好的编码器第i层和迁移学习网络中第i-1跳跃结构,获取编码后的第i特征和迁移学习后的第i-1特征,依次类推,在获取到编码后的第五特征和迁移学习后的第四特征时,将编码后的第五特征输入到训练好的解码器的第一层,得到解码后的第一特征,将解码后的第一特征和迁移学习后的第四特征进行融合,得到融合后的第一特征,依次类推,得到解码后的第四特征和迁移学习后的第一特征;

最后,将解码后的第四特征和迁移学习后的第一特征进行融合,得到融合后的第四特征,将融合后的第四特征输入到训练好的解码器的第五层,得到目标任务下针对输入的人脸图像数据的预测数据,根据预测数据和人脸图像在目标任务下的标注信息对迁移学习网络的参数进行调整,从而实现对迁移学习模型的训练。由于已经使用无监督学习训练得到了一个很好的encoder和decoder,即训练好的encoder和decoder可以很好提取输入图像的特征,因此,结合增加的迁移学习模块,只需要少量样本就可以快速训练满足目标任务的模型并达到很好的效果。需要说明的是,对于不同的目标任务,可以通过添加不同的skiplayer,结合少量的目标任务的有标签数据,训练出的模型就可以达到很好的效果。

图5是根据一示例性实施例示出的一种图像处理方法的流程图,如图5所示的图像处理方法利用针对目标任务预先训练的迁移学习模型执行图像处理,所述迁移学习模型可以包括编码器、解码器和迁移学习网络,需要说明的是,迁移学习模型的训练过程在上面实施例中已经详细表述,此处不在展开论述。如图5所示,图像处理方法包括以下步骤:

在步骤S501中,获取第一图像数据。

在本步骤中,第一图像数据可以时通过用户终端的摄像头拍摄得到图像,也可以时通过用户终端上的应用程序处理后的得到图像,如添加了文字、滤镜等。

在步骤S502中,将第一图像数据输入到训练好的编码器中,获取编码后的特征。编码器训练过程在上面实施例中已经详细表述,此处不在展开论述。例如,将第一图像数据输入到训练好的编码器中,得到关于第一图像的高层次语义信息,如表示第一图像中有没有眼睛、鼻子、嘴巴以及哪个地方有眼睛、鼻子、嘴巴等的信息,可以将关于第一图像的高层次语义信息作为编码后的特征。

根据本公开的示例性实施例,在迁移学习网络包括N个跳跃结构时,将第一图像数据输入到训练好的编码器中,获取编码后的特征包括:将第一图像数据输入到训练好的编码器的第一层,获取编码后的第一特征;将编码后的第一特征输入到训练好的编码器第i层,获取编码后的第i特征,依次类推,获取到编码后的第N+1特征;将编码后的第一特征、…、编码后的第i特征、…、编码后的第N特征作为编码后的特征;其中,N为正整数,2≤i≤N。

在步骤S503中,将编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征。上述迁移学习网络可以包括跳跃结构,跳跃结构的数量根据目标任务确定。

根据本公开的示例性实施例,将编码后的特征输入到迁移学习网络中,获取迁移学习后的特征包括:将编码后的第一特征输入到迁移学习网络中第一跳跃结构,获取迁移学习后的第一特征;将编码后的第i特征输入到迁移学习网络中第i-1跳跃结构,获取迁移学习后的第i-1特征,依次类推,获取到迁移学习后的第N特征。

根据本公开的示例性实施例,将编码后的特征输入到训练好的解码器中,获取解码后的特征包括:将编码后的第N+1特征输入到训练好的解码器的第一层,得到解码后的第一特征;将解码后的第一特征和迁移学习后的第N特征进行融合,得到融合后的第一特征;将融合后的第一特征输入到训练好的解码器的第二层,得到解码后的第二特征;将解码后的第二特征和迁移学习后的第N-1特征进行融合,得到融合后的第二特征,依次类推,得到解码后的第N特征;将解码后的第N特征作为解码后的特征。

在步骤S504中,将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据。需要说明的是,上述目标任务可以包括但不限于如下任务:图像分割、图像关键点检测、图像风格转移或图像阴影擦除。更具体地,如人像分割、人像关键点检测、人像风格转移或人像阴影擦除。

根据本公开的示例性实施例,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据包括:将解码后的第N特征和迁移学习后的第一特征进行融合,得到融合后的第N特征;将融合后的第N特征输入到训练好的解码器的第N+1层,得到目标任务下针对第一图像数据的预测数据。

根据本公开的示例性实施例,将解码后的特征与迁移学习后的特征进行融合,得到目标任务下对第一图像数据的预测数据可以包括将解码后的特征与迁移学习后的特征相加,得到目标任务下第一图像数据的预测数据;还可以包括将解码后的特征与迁移学习后的特征合并,得到目标任务下第一图像数据的预测数据。需要说明的是,融合处理包括并不限于上述提到的两种方式,可以是其他任何适用于目标任务的融合方式。通过本实施例,可以进一步保证获取的数据的丰富度。

为了验证上述实施例中的方法的有效性,本公开通过不同的目标任务、定量或者定性的实验分析来验证本公开上述实施例的有效性和可行性。

目标任务为人脸分割时,验证结果如下:

通过人脸分割数据集验证上述实施例中的训练方法在人脸分割上的效果,同时和其他算法进行比较,包含MO-GC算法,iCNN算法,CNN-RNN算法,AdaptiveRF算法,下面表格展示使用不同比例训练数据的训练结果,定量的结果如表1所示,数值越高越好,face/eyebrows/eyes/nose/mouth为人脸各部位的分割结果,其中,ours代表的是采用本公开实施例中训练方法得到模型对应的结果。

表1实验结果对比表

并且,本公开还分别使用100张标注图片、50张标注图片、25张标注图片和10张标注图片训练迁移学习模型,对比上述训练好的迁移学习模型的输出,可以看到本公开的训练方法使用极少数样本训练即可达到很好效果。

目标任务为人脸关键点检测时,验证结果如下:

通过人脸关键点检测数据集验证上述实施例中的训练方法在人脸关键点检测上的效果,并和其他的算法进行比较,包含RCN+算法,SA算法、TS3算法、3FebRec算法,定量的结果如表2所示,数值越低越好,100%/20%/10%/5%为使用的训练数据的数量,其中,ours代表的是采用本公开实施例中训练方法得到模型对应的结果,可以看到在使用最少训练数据时候,本公开实施例中训练方法得到模型仍然可以取得不错的效果并且比其他算法都要好。

表2实验结果对比表

并且,本公开还分别使用20张标注图片、10张标注图片、5张标注图片和1张标注图片训练迁移学习模型,对比上述训练好的迁移学习模型的输出,可以看到本公开的训练方法使用极少数样本训练即可达到很好效果。

目标任务为人脸风格转移时,验证结果如下:

人脸风格转移指的是给定一张原图和另一张图,将原图转换成另一张图的风格。目前,人脸风格转移对应的数据集不多,所以这里只展示定性的结果,本公开分别使用50张标注图片、25张标注图片、15张标注图片和10张标注图片训练迁移学习模型,对比上述训练好的迁移学习模型的输出,可以看到本公开的训练方法使用极少数样本训练即可达到很好效果。

目标任务为人脸阴影擦除时,验证结果如下:

目前,人脸阴影擦出对应的数据集不多,所以这里只展示定性的结果,本公开分别使用2500张标注图片、500张标注图片、100张标注图片和50张标注图片训练迁移学习模型,对比上述训练好的迁移学习模型的输出,可以看到本公开的训练方法使用极少数样本训练即可达到很好效果。

由上面几个验证的例子可以看到,本公开实施例的训练方法可以很方便应用到各种不同的人脸任务,不需要太多标注的数据,也不需要训练过长时间,训练出的模型就可以达到很好的效果。

本公开的上述方法可以通过两个模块实现,可以分别为无监督模块和有监督模块,无监督模块使用的encoder-decoder模型,可以通过使用大规模未标记数据对抗性训练学习来获得鲁棒的面部表征特征,其中,encoder-decoder模型可使用任意网络模型,具体可以根据实际应用进行调整,例如,想要更高精度可以使用大模型,对精度要求不高的可以用小模型;有监督模块主要为skip layers/output layer,同样可以使用任意模块,具体也可以根据实际场景进行调整,即针对不同的任务添加不同的特征适应和融合层,使用少量的带标签的数据快速有效地适应了目标任务。实验表明,FSMA框架在多种人脸面部应用中性能优秀,在少样本学习领域达到了最好的效果,并且首次为少样本人脸关键点检测、人脸分割、人脸风格迁移和人脸阴影去除任务提供了令人满意的解决方案。

因此,本公开可以使用极少的数据且不需要过长时间的训练,就可以得到效果很好的模型,本公开还可应用于各种人脸任务,而不仅仅是单一任务。综上,本公开提供了一套基于少样本迁移学习的数据标注方法,可以解决训练数据少的问题,同时可以很轻易扩展到其他任务而不是针对单一的任务,此外也给出了一套可以适用于不同人脸任务的验证方案来证明训练的模型的有效性。

图6是根据一示例性实施例示出的一种迁移学习模型的训练装置的框图。参照图6,该装置包括第一获取单元60,第二获取单元62、第三获取单元64,融合单元66和训练单元68。

第一获取单元60获取第一图像数据集,其中,第一图像数据集包括多个第一图像数据和多个第一图像数据的针对目标任务的标注信息;第二获取单元62将获取的第一图像数据输入到训练好的编码器中,以获取编码后的特征;第三获取单元64再将获取的编码后的特征分别输入到训练好的解码器迁移学习网络中,获取解码后的特征和迁移学习后的特征;然后,融合单元66将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据;训练单元68基于得到的预测数据和第一图像数据的标注信息调整迁移学习网络的参数,对迁移学习模型进行训练。

图7是根据一示例性实施例示出的一种图像处理装置的框图。参照图7所示的图像处理装置利用针对目标任务预先训练的迁移学习模型执行图像处理,所述迁移学习模型可以包括编码器、解码器和迁移学习网络,需要说明的是,迁移学习模型的训练过程在上面实施例中已经详细表述,此处不在展开论述。该图像处理装置包括第一获取单元70,第二获取单元72,第三获取单元74,融合单元76。

第一获取单元70获取第一图像数据;第二获取单元72将获取的第一图像数据输入到训练好的编码器中,以获取编码后的特征;第三获取单元74再将获取到的编码后的特征分别输入到训练好的解码器和迁移学习网络中,获取解码后的特征和迁移学习后的特征;然后,融合单元76将解码后的特征和迁移学习后的特征进行融合,得到目标任务下针对第一图像数据的预测数据。

根据本公开的实施例,可提供一种电子设备。图8是根据本公开实施例的一种电子设备800的框图,该电子设备包括至少一个存储器801和至少一个处理器802,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的迁移学习模型的训练方法及图像处理方法。

作为示例,电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备800中,处理器802可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器802还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器中的指令或代码,其中,存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器802可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器802能够读取存储在存储器801中的文件。

此外,电子设备800还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的迁移学习模型的训练方法及图像处理方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的迁移学习模型的训练方法及图像处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 迁移学习模型的训练方法及装置、图像处理方法及装置
  • 一种深度学习模型的训练方法、图像处理方法及装置
技术分类

06120113176772