掌桥专利:专业的专利平台
掌桥专利
首页

图片处理方法、装置和计算机可读存储介质

文献发布时间:2023-06-19 11:39:06


图片处理方法、装置和计算机可读存储介质

技术领域

本公开涉及图像处理技术领域,特别是一种图片处理方法、装置和计算机可读存储介质。

背景技术

人物识别系统中,由于背景、光照、角度、摄像机参数等因素变化往往导致人物特征提取缺失或存在错误,在直接应用场景下性能较差,而基于这样的图像的进一步处理的效果也会收到干扰。

发明内容

本公开的一个目的在于提高图像风格迁移效果的适用范围和可信度。

根据本公开的一些实施例的一个方面,提出一种图片处理方法,包括:将通过第一域的特征提取器提取的图片特征输入第一生成对抗网络的生成器,获取补齐后的特征,第一生成对抗网络的生成器被训练为补齐真实环境中拍摄的图片的缺失特征;将补齐后的特征输入第二生成对抗网络的生成器,获取风格迁移图片,第二生成对抗网络的生成器被训练为将输入的特征还原为同第二域图片一致风格的图片;其中,第一生成对抗网络训练用的真实环境中拍摄的图片和训练完成后生成的图片归属于第一域,第二生成对抗网络训练用的图片和训练完成后生成的图片归属于第二域,第一域和第二域的隐空间对齐。

在一些实施例中,图片处理方法还包括:基于已知特征的图片训练第一生成对抗网络;获取第一生成对抗网络的生成器补齐的数据,和已知特征的图片归属的第一域;基于归属于第二域的图片训练第二生成对抗网络;将第一域与第二域的隐空间对齐。

在一些实施例中,基于已知特征的图片训练第一生成对抗网络包括:根据真实环境中拍摄的图片通过第一域的特征提取器获取人物特征向量;将人物特征向量中随机省略一项或多项特征,通过第一生成对抗网络的生成器补齐特征;第一生成对抗网络的判别器基于已知的人物特征向量判断生成器补齐的特征的真假;重复执行通过第一生成对抗网络的生成器补齐特征的操作,直至判别器的输出达到预定第一目标。

在一些实施例中,基于归属于不同风格的图片训练第二生成对抗网络包括:将归属于第二域的图片通过第二域的特征提取器获取风格图片特征;将所述风格图片特征输入第二生成对抗网络的生成器以便更改图片的风格;第二生成对抗网络的判别器判断第二生成对抗网络的生成器输出的图片是否归属于第二域;重复执行向第二生成对抗网络的生成器输入归属于第二域的图片的操作,直至判别器的输出达到预定第二目标。

在一些实施例中,将第一域与第二域的隐空间对齐包括:分别在第一域的网络结构和第二域的网络结构的编码Encoder层的数据引入隐层,且将第一生成对抗网络和第二生成对抗网络中引入的隐层的数据绑定;将归属于第一域的第一图片输入第一域的网络结构,通过隐层后获取第一向量;第二域的网络结构的解码decoder层根据第一向量获取第二图片;将第二图片输入第二域的网络结构的encoder层,通过隐层后获取第二向量;获取第一向量与第二向量间的距离;重复执行将归属于第一域的相同或不同的第一图片输入第一生成对抗网络的操作,直至第一向量与第二向量间的距离小于预定损失值。

在一些实施例中,第一生成对抗网络的生成层基于的算法包括循环神经网络RNN、门控循环单元GRU或长短期记忆网络LSTM;第一对抗网网络的判别器基于的算法包括多层感知器MLP、支持向量机SVM、朴素贝叶斯。

在一些实施例中,第二生成对抗网络的生成器基于的算法包括神经网路;第二对抗网网络的判别器基于的算法包括MLP、SVM、朴素贝叶斯。

通过这样的方法,能够基于通过GAN的生成能力,通过人物的部分特征联想出剩余特征,完成对人物特征的补齐,并引入风格迁移任务,从而提高图像风格迁移效果的适用范围和可信度。

根据本公开的一些实施例的一个方面,提出一种图片处理装置,包括:补齐单元,被配置为将通过第一域的特征提取器提取的图片特征输入第一生成对抗网络的生成器,获取补齐后的特征,第一生成对抗网络的生成器被训练为补齐真实环境中拍摄的图片的缺失特征;风格迁移单元,被配置为将补齐后的特征输入第二生成对抗网络的生成器,获取风格迁移图片,第二生成对抗网络的生成器被训练为将输入的特征归属的图片修改为第二域的图片的风格;其中,第一生成对抗网络训练用的真实环境中拍摄的图片和训练完成后生成的图片归属于第一域,第二生成对抗网络训练用的图片和训练完成后生成的图片归属于第二域,第一域和第二域的隐空间对齐。

在一些实施例中,图片处理装置还包括:第一训练单元,被配置为基于已知特征的图片训练第一生成对抗网络;第一域获取单元,被配置为获取第一生成对抗网络的生成器补齐的数据,和已知特征的图片归属的第一域;第二训练单元,被配置为基于归属于第二域的图片训练第二生成对抗网络;隐空间对齐单元,被配置为将第一域与第二域的隐空间对齐。

根据本公开的一些实施例的一个方面,提出一种图片处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种图片处理方法。

这样的装置能够基于通过GAN的生成能力,通过人物的部分特征联想出剩余特征,完成对人物特征的补齐,并引入风格迁移任务,从而提高图像风格迁移效果的适用范围和可信度。

根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种图片处理方法的步骤。

通过执行这样的计算机可读存储介质上的指令,能够基于通过GAN的生成能力,通过人物的部分特征联想出剩余特征,完成对人物特征的补齐,并引入风格迁移任务,提高图像风格迁移效果的适用范围和可信度。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:

图1为本公开的图片处理方法的一些实施例的流程图。

图2为本公开的图片处理方法中生成对抗网络生成方法的一些实施例的流程图。

图3为本公开的图片处理方法的一些实施例的示意图。

图4为本公开的图片处理装置的一些实施例的示意图。

图5为本公开的图片处理装置的另一些实施例的示意图。

图6为本公开的图片处理装置的又一些实施例的示意图。

具体实施方式

下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

本公开的图片处理方法的一些实施例的流程图如图1所示。

在步骤101中,将图片的特征输入第一生成对抗网络的生成器,获取图片的补齐特征。在一些实施例中,先将待处理的图片输入第一域的特征提取器,将提取的特征输入第一生成对抗网络的生成器。在一些实施例中,第一生成对抗网络的生成器被训练为补齐真实环境中拍摄的图片的缺失特征。

在步骤102中,将图片的补齐特征输入第二生成对抗网络的生成器,获取风格迁移图片,第二生成对抗网络的生成器被训练为将输入的特征还原为同第二域的图片风格一致的图片。

在一些实施例中,第一生成对抗网络训练用的真实环境中拍摄的图片和生成的图片归属于第一域,第二生成对抗网络训练用的图片和生成的图片归属于第二域,第一域和第二域的隐空间对齐。

GAN(Generative Adversarial Network,生成对抗网络)是由Ian Goodfellow在2014年提出的深度学习框架,它构造生成器和判别器两种模型,其目标主要是通过判别网络来辅助训练一个能够准确学习原始数据分布特性的生成网络。生成网络和判别网络在相互博弈和对抗中不断提高自身性能,达到一种动态平衡状态并使自己的性能达到最优。

生成对抗网络提出以来,相关研究和应用场景催生出各种类型的变体,主要应用于图像数据生成、文本和语音生成等领域。

通过上文实施例中的方法,能够基于通过GAN的生成能力,通过人物的部分特征联想出剩余特征,完成对人物特征的补齐,并引入风格迁移任务,从而提高图像风格迁移效果的适用范围和可信度。

本公开的图片处理方法中生成对抗网络生成方法的一些实施例的流程图如图2所示。

在步骤201中,基于已知特征的图片训练第一生成对抗网络。

在一些实施例中,可以利用特征提取器从真实世界的图像中提取人物特征。人物特征包括但不限于:面部基础特征、年龄、性别、身高、发型,是否有眼镜、是否有胡须、步态特征等,选取恰当的若干特征的组合方式,构成特征向量表示空间。由于受限于现实光照,设备,角度等因素影响,不能保证所提取特征完整或准确。

采用已知完整且准确的模型,随机隐去其中的部分特征或部分特征的若干项,采用生成器进行填补,判别器结合对应的准确特征真假判定,从而实现对第一生成对抗网络的训练。

在一些实施例中,可以根据具体的数据形式选择适应的网络结构,搭建生成器和判别器,组成对抗生成网络架构。其中:

1)生成器:

a.训练目标:

b.由于现实场景中,结合人物动作捕捉的数据通常为时序数据,优先考虑采用RNN及其变体作为生成器,包括但不限于RNN,GRU,LSTM等。

2)判别器:

a.训练目标:

maxDVD(D,G)=E

b.针对生成器的输出数据,选取适应的模型作为判别器。包括但不限于:MLP,SVM,朴素贝叶斯等常见分类器。

其中z为随机噪声数据,x为真实样本中采样获得的数据。生成器的目标在于将随机噪声转成合成特征后,在判别器处获得较高的分数。判别器的目标在于对于真实数据和合成数据,尽量使真实数据得分更高,合成数据得分更低。

通过对抗博弈机制不断迭代训练生成器和判别器,直至达到预定第一目标,在一些实施例中,预定第一目标可以是判别器判别为真的预定比例、概率或连续数量等。

在步骤202中,获取第一生成对抗网络的生成器补齐的数据,和已知特征的图片归属的第一域。在一些实施例中,如图3所示,图3中虚线以上的半部分,即X域(第一域),说明了在第一域,获取第一域的网络结构中的编码器Encoder X的输出后,利用生成对抗网络进行补齐,从而获得补齐或重构后向量的过程。使用充分训练的生成器得到第一域的合成数据。

在步骤203中,基于归属于第二域的图片的特征训练第二生成对抗网络。在一些实施例中,可以将补齐后的特征输入第二生成对抗网络的生成器,获取风格迁移图片,进而将风格图片特征输入第二生成对抗网络的生成器以便更改图片的风格。在一些实施例中,如图3所示,第二域的对抗式生成网络训练方法如下:选取若干目标域即风格域的图片,通过Y域(第二域)的Encoder Y进行特征提取,获取特征向量后,使用生成器进行图片生成,判别器结合原始风格域的图片进行真假判定(即是否是该域风格的图片)。

在一些实施例中,第二域的生成对抗网络模型输入数据为步骤203中的输出。在第二生成对抗网络训练过程中,选取合适的网络结构,搭建生成器和判别器,组成对抗生成网络架构。其中:

1)生成器:

a.训练目标:

b.由于现实场景中,人物图像风格迁移的目标结果为图像数据,故优先考虑采用神经网络其变体作为生成器。

2)判别器:

a.训练目标:

b.针对生成器的输出图片,判别器的任务在于分辨图像是由生成器合成的,还是真实的Domain Y的图片。选取适应的模型作为判别器。包括但不限于:MLP,SVM,朴素贝叶斯等常见分类器。

其中,z为随机噪声数据,x为真实样本中采样获得的数据。生成器的目标在于将随机噪声转成合成特征后,在判别器处获得较高的分数。判别器的目标在于对于真实数据和合成数据,尽量使真实数据得分更高,合成数据得分更低。

通过对抗博弈机制不断迭代训练生成器和判别器,直至达到预定第二目标,在一些实施例中,预定第二目标可以是判别器判别为真的预定比例、概率或连续数量等。

在步骤204中,将第一域与第二域的隐空间对齐。为实现真实域图像同特定风格图像的顺利转换,需要保证两个域的隐空间是共享的。通过循环生成-对齐的方式,引入共享数据层,然后缩小两个域在隐空间生成的向量的距离,来实现隐空间的对齐和共享。

在一些实施例中,两个生成对抗网络分别训练完成后,通过隐空间的对齐步骤完成两个模型的复合过程的方法可以如下所示:

在一些实施例中,可以基于同一张图片分别获取第一域和第二域的隐空间数据,进而由于上述两个数据来自同一张图片,故两个域的隐空间数据应当尽可能一致,或保留同样的关键信息。这里使用向量距离或神经网络对两个隐空间数据的距离进行度量。训练过程的目标为尽量减小该距离。在一些实施例中,第一域的隐空间数据可以基于将真实图片数据经过第一域的网络结构的编码层Encoder X处理获取;在一些实施例中,可以基于将真实图片数据从Encoder X输入,由第二域的网络结构的解码层Decoder Y(第二生成对抗网络)生成图片,然后该图片由第二生成对抗网络的编码层Encoder Y进行处理,获得第二域的隐空间数据。

在一些实施例中,可以在两个GAN的特征向量生成层后分别引入两层隐层,进行两个编码层Encoder生成向量的大小对齐以及信息的融合。引入隐层后,执行以下操作:首先将两个GAN使用的隐层参数进行绑定,即两个模型公用两层隐层。然后第一域的网络结构的编码层Encoder X完成信息提取,通过第一生成对抗网络完成补齐,传播过新加入的两层隐层后得到向量A,由第二域的生成对抗网络生成成为风格域的图片,最后风格域图片经过第二域的网络结构的编码层Encoder Y和两层隐层得到向量B,将向量A和向量B的距离作为训练步骤的损失函数,减小该损失函数,实现隐空间的对齐。

这样的方法能够将两个对抗式生成网络相结合,通过分别引入两层参数互相绑定的隐层,实现两个网络的隐空间对齐和复用,从而完成联合训练和支持多项任务的目的,提升风格迁移任务的鲁棒性。

本公开的图片处理装置的一些实施例的示意图如图4所示。

补齐单元401能够将通过第一域的特征提取器提取的图片特征输入第一生成对抗网络的生成器,获取特征补齐图片。在一些实施例中,第一生成对抗网络的生成器被训练为补齐真实环境中拍摄的图片的缺失特征。

风格迁移单元402能够将将补齐后的特征输入第二生成对抗网络的生成器,获取风格迁移图片,第二生成对抗网络的生成器被训练为将输入的特征还原为同第二域的图片风格一致的图片。在一些实施例中,第一生成对抗网络训练用的真实环境中拍摄的图片和在训练完成后生成的图片归属于第一域,第二生成对抗网络训练用的图片和在训练完成后生成的图片归属于第二域,第一域和第二域的隐空间对齐。

这样的装置能够基于通过GAN的生成能力,通过人物的部分特征联想出剩余特征,完成对人物特征的补齐,并引入风格迁移任务,从而提高图像风格迁移效果的适用范围和可信度。

在一些实施例中,如图4所示,图片处理装置还可以包括第一训练单元403、第一域获取单元404、第二训练单元405和隐空间对齐单元406。

第一训练单元403能够于已知特征的图片训练第一生成对抗网络,如采用已知完整且准确的模型,随机隐去其中的部分特征或部分特征的若干项,采用生成器进行填补,判别器结合对应的准确特征真假判定,从而实现对第一生成对抗网络的训练。

第一域获取单元404能够获取第一生成对抗网络的生成器补齐的数据,和已知特征的图片归属的第一域。

第二训练单元405能够基于归属于第二域的图片训练第二生成对抗网络。

隐空间对齐单元406能够将第一域与第二域的隐空间对齐。

在一些实施例中,第一训练单元403、第一域获取单元404、第二训练单元405和隐空间对齐单元406的数据处理方式可以如图2实施例中所示。

这样的图片处理装置能够将两个对抗式生成网络相结合方案,通过分别引入两层参数互相绑定的隐层,实现两个网络的隐空间对齐和复用,从而完成联合训练和支持多项任务的目的,提升风格迁移任务的鲁棒性。

本公开图片处理装置的一个实施例的结构示意图如图5所示。图片处理装置包括存储器501和处理器502。其中:存储器501可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中图片处理方法的对应实施例中的指令。处理器502耦接至存储器501,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器502用于执行存储器中存储的指令,能够提高图像风格迁移效果的适用范围和可信度。

在一个实施例中,还可以如图6所示,图片处理装置600包括存储器601和处理器602。处理器602通过BUS总线603耦合至存储器601。该图片处理装置600还可以通过存储接口604连接至外部存储装置605以便调用外部数据,还可以通过网络接口606连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高图像风格迁移效果的适用范围和可信度。

在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图片处理方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

相关技术
  • 图片处理方法、图片处理装置及计算机可读存储介质
  • 人像图片处理方法、装置、计算机可读存储介质和计算机设备
技术分类

06120113007274