掌桥专利:专业的专利平台
掌桥专利
首页

生成图像的方法、训练人物检测模型的方法、程序及装置

文献发布时间:2023-06-19 12:02:28


生成图像的方法、训练人物检测模型的方法、程序及装置

技术领域

本发明涉及图像生成领域和人物检测领域,具体涉及一种生成图像的方法、一种训练人物检测模型的方法以及相应的计算机程序产品和处理图像的装置。

背景技术

基于计算机视觉的人物检测技术可通过处理摄像头采集到的图像或视频信息对人物的位置等进行检测。人物检测具有广泛的应用前景,例如可用于行人检测并作为车辆辅助驾驶、车辆自动驾驶、智能视频监控和人体行为分析等应用中的关键技术。近年来,机器学习逐渐成为计算机视觉等领域被广泛使用的算法。基于机器学习的人物检测技术越来越受到学术界和工业界的重视。

基于机器学习的人物检测模型的性能不仅取决于模型构建的质量,而且依赖于训练数据的质量和数量。为了保证人物检测模型的性能,通常需要大量的样本进行训练,然而大量样本的获取需要耗费大量的人力和物力。数据增强技术是一种较好的降低采集成本的方法,可以有效地扩展训练样本数,提高人物检测模型的识别准确率。

例如,现有的生成式网络如变分自编码器(Variational Autoencoder,简称VAE)、生成式对抗网络(Generative Adversarial Networks,简称GAN)等可以基于具有有限数量的训练样本的训练数据集生成新样本。

但是,目前生成的过程多为随机过程,现有的生成模型很难保证在生成高质量高清图像的同时精准地控制目标图像的样式,因而生成的图像不适于用作人物检测模型的训练样本。

因此,现有技术在图像生成方面以及提升人物检测模型识别率方面仍然存在诸多不足。

发明内容

本发明的目的在于提供一种改进的生成图像的方法、一种改进的训练人物检测模型的方法以及相应的计算机程序产品和装置。

根据本发明的第一方面,提供了一种生成图像的方法,其中,所述方法包括以下步骤:

S1、提供包含人物的原始图像;

S2、从原始图像中裁剪出至少一个原始人物图像块;

S3、基于每个原始人物图像块生成合成人物图像块,其中,合成人物图像块具有相应的原始人物图像块中的背景以及与相应的原始人物图像块中的人物姿态不同的人物姿态;

S4、用合成人物图像块替换原始图像中的相应的原始人物图像块以生成合成图像。

根据本发明,新生成的合成人物图像块具有原始人物图像块中的背景。即,合成人物图像块包含了与原始图像中的环境信息相匹配的背景信息。因此可以直接将原始人物图像块替换为相应的新生成的合成人物图像块。由此生成的完整的合成图像中除了人物以外的其它元素均不会被改变。在合成图像中,新的合成人物图像块既在合理的位置又有合理的大小,同时又能很好地符合原始图像中的环境信息。与原始图像相比,这些合成图像具有不同的人物姿态,因此可提供更多样的人物姿态和边界框信息。

根据本发明的一个可选实施例,合成人物图像块具有相应的原始人物图像块中的人物外观。

根据本发明的一个可选实施例,步骤S1还包括提供目标姿态信息,在步骤S3中,基于每个原始人物图像块并且根据目标人物姿态生成合成人物图像块,使得合成人物图像块具有目标姿态信息所代表的目标人物姿态。

根据本发明的一个可选实施例,目标姿态信息由姿态图像提供,所述姿态图像包含根据真实人体骨架链接方式进行连接的姿态关键点。替代地,目标姿态信息由目标姿态人物图像提供,所述目标姿态人物图像包含具有目标人物姿态的人物。替代地,目标姿态信息由一组姿态关键点的位置数据提供。

根据本发明的一个可选实施例,目标姿态信息具有相关联的标注信息,在步骤S3中生成的合成人物图像块具有与相应的目标姿态信息相关联的标注信息,其中,标注信息可选地包括人物意图信息和/或手势信息。

根据本发明的一个可选实施例,在步骤S3中,将原始人物图像块和目标姿态信息输入人物生成器中,所述人物生成器生成合成人物图像块。

根据本发明的一个可选实施例,人物生成器配置成能够执行下述步骤:

S31、识别原始人物图像块中的人物的至少一个姿态关键点;

S32、基于所述至少一个姿态关键点从原始人物图像块截取多个前景图像区块和多个背景图像区块;

S33、从所述多个前景图像区块和所述多个背景图像区块提取至少一个第一特征向量;

S34、从目标姿态信息获取至少一个第二特征向量;以及

S35、由步骤S33中提取的所述至少一个第一特征向量和步骤S34中获取的所述至少一个第二特征向量生成合成人物图像块。

根据本发明的第二方面,提供了一种训练人物检测模型的方法,其中,所述方法包括下述步骤:提供训练数据集,所述训练数据集包括通过根据本发明的生成图像的方法生成的合成图像;以及利用训练数据集训练人物检测模型,其中,所述训练数据集可选地包括原始图像。

如上文所述,一方面,在合成图像中,新的合成人物图像块既具有合理的位置和合理的大小,同时又能很好地符合原始图像中的周围环境信息。另一方面,这些合成图像可提供更多样的人物姿态和边界框信息。因此,合成图像特别适合用于训练人物检测模型,从而使人物检测模型获得更高的识别率。

根据本发明的第三方面,提供了一种计算机程序产品,其包括计算器程序指令,其中,当所述计算机程序指令被一个或多于一个处理器执行时,所述处理器能够执行根据本发明的生成图像的方法或根据本发明的训练人物检测模型的方法。

根据本发明的第四方面,提供了一种处理图像的装置,所述装置包括处理器和与处理器通信连接的计算机可读存储装置,计算机可读存储装置中存储有计算机程序,当所述计算机程序被处理器执行时,用于实施根据本发明的生成图像的方法或根据本发明的训练人物检测模型的方法。

通过本发明,实现了:使生成的合成图像中的人物具有合理的位置和大小,避免出现前景与背景信息不吻合的问题。利用合成图像训练人物检测模型,从而提高人物检测模型的识别率。

附图说明

下面,通过参看附图更详细地描述本发明,可以更好地理解本发明的原理、特点和优点。附图包括:

图1示出了根据本发明的一个示例性实施例的处理图像的装置的示意性结构框图;

图2示出了根据本发明的一个示例性实施例的生成图像的方法的流程图;

图3示例性地示出了原始图像的示意图;

图4示意性地示出了根据本发明的一个示例性实施例的生成图像的方法;

图5示意性地示出了根据本发明的一个示例性实施例的生成合成人物图像块的过程;以及

图6示意性地示出了根据本发明的一个示例性实施例的训练人物检测模型的方法。

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白,以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,而不是用于限定本发明的保护范围。

图1示出根据本发明的一个示例性实施例的处理图像的装置的示意性结构框图。所述处理图像的装置包括处理器1和与处理器1通信连接的计算机可读存储装置2。计算机可读存储装置2中存储有计算机程序,当所述计算机程序被处理器1执行时,用于实施将在下文予以详细解释的生成图像的方法或训练人物检测模型的方法。

根据一个示例性实施例,与处理器1通信连接的显示装置3被提供。借助于显示装置3,用户可以查看将被处理图像的装置处理的原始图像10和由装置生成的新的合成图像20。

根据一个示例性实施例,与处理器1通信连接的输入装置4被提供。借助于输入装置4,用户可以选择或输入将被装置处理的原始图像10。输入装置4例如可以包括:键盘、鼠标和/或触控屏。

根据一个示例性实施例,与处理器1通信连接的摄像装置5被提供。借助于摄像装置5,用户可以拍摄包含人物图像以作为将被装置处理的原始图像10。特别是,原始图像10不仅包含人物,还包含周围环境信息、例如人物所处的场景。

根据一个示例性实施例,提供由多个原始图像10构成的原始图像集。原始图像集可以存储在计算机可读存储装置2或与处理器1通信连接的另外的存储装置中。

图2示出根据本发明的一个示例性实施例的生成图像的方法的流程图。

在步骤S1中,提供包含人物的原始图像10。图3示例性地示出了原始图像10的示意图,原始图像10包含人物和人物所处的场景。原始图像10可以是上文提到的原始图像集中任一幅图像。示例性地,原始图像10可以是用户借助摄像装置5所拍摄的图像或者是从视频流中截取的一帧人物图像。

然后,在步骤S2中,从原始图像10中裁剪出至少一个原始人物图像块11。如图4所示,从图3所示的原始图像10中可裁剪出两个原始人物图像块11。裁剪出的原始人物图像块11包含完整的人物,并且还包含少量的背景。

在一个示例性实施例中,识别原始图像10中包含的人物的姿态关键点,并根据识别出的姿态关键点裁剪出原始人物图像块11,以使得单个原始人物图像块11包含单个完整人物。例如,通过识别出的姿态关键点,可确定人物边框,将人物边框向外扩张、例如扩张1.5倍以形成用于裁剪出原始人物图像块11的裁剪边框。

接下来,在步骤S3中,基于每个原始人物图像块11生成合成人物图像块21,其中,合成人物图像块21具有相应的原始人物图像块11中的背景以及与相应的原始人物图像块11中的人物姿态不同的人物姿态。合成人物图像块21具有新的人物姿态和边界框信息,使得全数据集这方面的信息更丰富。

可选地,合成人物图像块21具有相应的原始人物图像块11中的人物外观。由此,合成人物图像块21仅改变了原始人物图像块11中的人物姿态,而保持了原始人物图像块11的人物外观与背景。

示例性地,可借助于人物生成器30来生成合成人物图像块21。如图4所示,人物生成器30基于两个原始人物图像块11生成了两个相应的合成人物图像块21。

接下来,在步骤S4中,用合成人物图像块21替换原始图像10中的相应的原始人物图像块11以生成合成图像20。在新生成的合成人物图像块21中,已经包含了与原始图像10的背景和环境信息相匹配的像素级别的背景信息,因此可以直接将原始人物图像块11替换为相应的新生成的合成人物图像块21。由此,新生成的完整的合成图像20中除了人物以外的其它元素均不会被改变。在合成图像20中,新的合成人物图像块21既在合理的位置又有合理的大小,同时又能很好地符合周围环境信息。这些合成图像20可提供更多样的人物姿态和边界框信息。将原始图像集与合成图像集一起用于训练人物检测模型40,可以使人物检测模型40获得更高的识别率。

图5示出了根据本发明的一个示例性实施例的生成合成人物图像块21的过程。在该示例性实施例中,步骤S1还包括提供目标姿态信息。并且,在步骤S3中,基于每个原始人物图像块11并且根据目标人物姿态生成合成人物图像块21,使得合成人物图像块21具有目标姿态信息所代表的目标人物姿态。

目标姿态信息可由姿态图像提供,所述姿态图像包含根据真实人体骨架链接方式进行连接的姿态关键点。原始人物图像块11和具有目标姿态的姿态图像被输入人物生成器30中,然后,所述人物生成器30输出合成人物图像块21。本发明对目标姿态的来源不作限制,它可以是原始图像集中的其它人物姿态,也可以是其它数据集中的人物姿态。

替代地,目标姿态信息可由目标姿态人物图像提供,所述目标姿态人物图像包含具有目标人物姿态的人物。目标姿态人物图像可以选自原始图像集,也可以不属于原始图像集。

替代地,目标姿态信息可由一组姿态关键点的位置数据提供。应理解,本发明对目标姿态信息的具体形式不作限制。

在一个示例性实施例中,目标姿态信息具有相关联的标注信息,在步骤S3中生成的合成人物图像块21具有与相应的目标姿态信息相关联的标注信息。标注信息例如包括人物意图信息和/或手势信息。由此,生成的合成图像20也会具有相关联的标注信息,这些合成图像20可特别有利地用于训练人物意图识别器或人物手势检测器等,以用于提升其表现。

在一个示例性实施例中,人物生成器30配置成能够执行下述步骤:

S31、识别原始人物图像块11中的人物的至少一个姿态关键点;

S32、基于所述至少一个姿态关键点从原始人物图像块11截取多个前景图像区块和多个背景图像区块;

S33、从所述多个前景图像区块和所述多个背景图像区块提取至少一个第一特征向量;

S34、从目标姿态信息获取至少一个第二特征向量;以及

S35、由步骤S33中提取的所述至少一个第一特征向量和步骤S34中获取的所述至少一个第二特征向量生成合成人物图像块21。

人物生成器30也可设置成其它类型的生成器,只要人物生成器30在功能上满足能够控制生成人物图像的外观、姿态和背景的要求即可。应理解,本发明对人物生成器30的具体种类不作限制。

图6示出了根据本发明的一个示例性实施例的训练人物检测模型40的方法的示意图。在所述训练人物检测模型40的方法中,利用根据本发明的生成图像的方法生成合成图像20。然后,提供训练数据集,所述训练数据集包括合成图像20。训练数据集可存储在计算机可读存储介质中。可选地,训练数据集还包括原始图像10。即,可将原始图像10和合成图像20一起用于训练人物检测模型40。

如上文所述,合成图像20中的人物具有合理的大小和位置,并且不会出现前景与背景信息不吻合的问题。合成图像20可以提供更多样的人物姿态和边界框信息,使得训练数据集的信息更丰富。将原始图像集与合成图像集一并交给人物检测模型40训练,可以使人物检测模型40获得更高的识别率。

另外,本发明还涉及一种计算机程序产品,其包括计算器程序指令,当所述计算机程序指令被一个或多于一个处理器执行时,所述处理器能够执行根据本发明的生成图像的方法或根据本发明的训练人物检测模型的方法。所述计算机程序指令可存储在计算机可读存储介质中。在本发明中,计算机可读存储介质例如可包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

尽管这里详细描述了本发明的特定实施方式,但它们仅仅是为了解释的目的而给出的,而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下,各种替换、变更和改造可被构想出来。

相关技术
  • 生成图像的方法、训练人物检测模型的方法、程序及装置
  • 模型训练、虚拟人物图像生成方法和装置以及存储介质
技术分类

06120113147215