掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进CycleGAN数据增强的行人重识别方法

文献发布时间:2023-06-19 16:08:01



技术领域

本发明涉及一种基于改进CycleGAN数据增强的行人重识别方法,属于行人识别技术领域。

背景技术

随着深度学习的迅速发展,近年来行人重识别得到了很多关注。行人重识别又被称为行人再识别,如今被视为图像检索的一类关键子问题。它是利用计算机视觉算法对跨设备的行人图像或视频进行匹配,即给定一个查询图像,在不同监控设备的图像库检索出同一个行人。行人重识别的相关概念被提出至今已过去十余年时间,新方法、新思路不断涌现,如今已发展成计算机视觉领域的热门问题。

ReID的巨大挑战是获取数据非常困难。自从Goodfellow等人提出生成对抗网络(GAN)以来,已经陆续提出许多新的改进网络用于图片生成,循环生成对抗网络(CycleGAN)模型是两个对称的镜像,形成一个环网络,它的优势在于可以把任意不匹配两个图像作为输入。另一方面,每组摄像机拍摄的图像风格是不同的,例如分辨率,环境,照明等。因此,图片风格的变化具有对同一人的识别结果有相当大的影响。CamStyle被提出利用CycleGAN生成不同摄像机风格的行人图片,来减少这种影响。从不同的角度来看,一个人的姿势特征将非常不同,有些相机可能会捕捉到更多的人的姿势,而另一些相机可能会捕捉到很少或没有行人姿态。在现有的行人识别方法中,可以通过更充分地学习行人的姿势敏感特征来区分行人。然而,简单地通过生成不同姿态的图像再归一化来增加数据的方法,会引起背景环境差异,光线,以及图像的分辨率等,这限制了识别效果的实质性改进。

另外,当使用CycleGAN生成的图像来训练ReID网络时,会面临生成图像中没有标签的问题。如果生成的图像未手动标记,则在训练过程中生成图像的标记方法不同,这也会影响最终识别结果。许多方法侧重于将标签分配给生成的未标记数据。标签平滑正则化(LSRO)方法用于伪标签分配,以便在预定义的训练中生成数据的统一标签分布。但是,将相同的虚拟标签分配给生成的数据显然不适合实际的图像分布。

发明内容

本发明所要解决的技术问题是提供一种基于改进CycleGAN数据增强的行人重识别方法,引入样本扩充设计,在实现学习目标域身份特征的同时,还可以实现姿势变化和风格变化的组合,提高网络训练的准确性,进而能够有效提高行人重识别的准确性。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于改进CycleGAN数据增强的行人重识别方法,按如下步骤A至步骤B,获得关于预设数据库中各目标人物身份识别的人物识别模型,然后应用人物识别模型,针对待识别人物图像进行身份识别;

步骤A.基于预设数据库中各目标人物分别所对应预设各风格类型人物样本图像,应用目标循环生成对抗网络,生成获得各新增人物样本图像加入预设数据库中,并由预设数据库中全部人物样本图像,构成样本数据集,然后进入步骤B;

步骤B.基于样本数据集,以人物样本图像为输入、人物样本图像所对应预设数据库中目标人物为输出,针对预设神经网络进行训练,获得人物识别模型。

作为本发明的一种优选技术方案:所述目标循环生成对抗网络包括生成器网络G

所述步骤A中基于预设数据库中各目标人物分别所对应预设各风格类型人物样本图像,以任意两风格类型划为一组,获得各个类型组,分别针对各个类型组,执行如下步骤A1,获得各新增人物样本图像;

步骤A1.分别针对预设数据库中各目标人物,执行如下步骤A1-1至步骤A1-9,获得各新增人物样本图像;

步骤A1-1.初始化生成器网络G

步骤A1-2.选择目标人物对应类型组中第一风格类型的人物样本图像,作为目标人物样本图像x,同时由预设数据库中随机选择除该目标人物以外其余一位随机目标人物对应类型组中第二风格类型的人物样本图像,作为辅助人物样本图像y,然后进入步骤A1-3;

步骤A1-3.由生成器网络G

同时,由生成器网络G

步骤A1-4.由判别网络D

同时,由判别网络D

步骤A1-5.分割网络F

步骤A1-6.获得目标人物样本图像的姿势掩膜图像F

步骤A1-7.由生成器网络G

同时,由生成器网络G

步骤A1-8.基于第一对抗损失L

步骤A1-9.修正生成器网络G

作为本发明的一种优选技术方案:所述步骤A1-4中,按如下公式:

L

获得第一对抗损失L

同时,按如下公式:

L

获得第二对抗损失L

作为本发明的一种优选技术方案:所述步骤A1-6中,按如下公式:

L

L

获得目标人物样本图像的姿势掩膜图像F

作为本发明的一种优选技术方案:所述步骤A1-7中,按如下公式:

L

获得第四新人物样本图像G

同时,按如下公式:

L

获得第三新人物样本图像G

作为本发明的一种优选技术方案:所述步骤A1-8中,按如下公式:

L

L

获得L

L

构建目标人物对应的网络总损失L

作为本发明的一种优选技术方案:所述步骤B包括如下步骤B1至步骤B2;

步骤B1.基于预设数据库中K个目标人物,定义各新增人物样本图像分别对应的标签为1xK的一维向量,记为

步骤B1-1.根据新增人物样本图像经预设神经网络,输出一个1xK的一维向量p(X)={p(X

步骤B1-2.获得该新增人物样本图像分别对应预设数据库中各目标人物的概率p(X

步骤B2.基于样本数据集,以人物样本图像为输入、人物样本图像所对应预设数据库中目标人物为输出,针对预设神经网络进行训练,获得人物识别模型。

作为本发明的一种优选技术方案:所述步骤B2针对预设神经网络进行训练的过程中的损失函数为如下交叉熵损失;

其中,

本发明所述一种基于改进CycleGAN数据增强的行人重识别方法,采用以上技术方案与现有技术相比,具有以下技术效果:

本发明所设计一种基于改进CycleGAN数据增强的行人重识别方法中,一是基于改进的循环生成对抗网络(cycle-consistent generative adversarial network,CycleGAN),构造数据增强的完整行人重识别(re-identification,ReID)识别框架;二是提出改进的CycleGAN网络结构,将姿态约束子网络嵌入原始CycleGAN网络中,并通过分割和二值化将彩色行人图像转换为掩膜图像,在训练过程中实时获得行人姿势;三是进一步构造可以约束源图像姿态的损失函数,得到改进的CycleGAN的总体损失函数,使得当学习风格类型和人的身份ID到目标域时,保持姿态一致;四是引入半监督学习的多伪正则化标签(multi-pseudo regularized label,MpRL)方法为未标记的数据分配标签,并通过动态更新的训练策略,进一步提高这种方法的有效性;整个方案在行人重识别上,无论从改进CycleGAN生成的增强图片的效果,还是行人重识别的准确率,相较其他经典行人重识别网络,都具有明显的优势。

附图说明

图1本发明整体网络架构示意图;

图2本发明改进的CycleGAN结构示意图;

图3改进的CycleGAN在Market1501数据集上生成的图像示意图;

图4相关网络在Market1501数据集上的视觉对比结果示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所设计一种基于改进CycleGAN数据增强的行人重识别方法,如图1所示,按如下步骤A至步骤B,获得关于预设数据库中各目标人物身份识别的人物识别模型,然后应用人物识别模型,针对待识别人物图像进行身份识别。

步骤A.基于预设数据库中各目标人物分别所对应预设各风格类型人物样本图像,应用目标循环生成对抗网络,生成获得各新增人物样本图像加入预设数据库中,并由预设数据库中全部人物样本图像,构成样本数据集,然后进入步骤B。

上述设计方案在实际应用中,如图2所示,所述目标循环生成对抗网络包括生成器网络G

所述步骤A中基于预设数据库中各目标人物分别所对应预设各风格类型人物样本图像,以任意两风格类型划为一组,获得各个类型组,分别针对各个类型组,如图2所示,执行如下步骤A1,获得各新增人物样本图像。

步骤A1.分别针对预设数据库中各目标人物,执行如下步骤A1-1至步骤A1-9,获得各新增人物样本图像。

步骤A1-1.初始化生成器网络G

步骤A1-2.选择目标人物对应类型组中第一风格类型的人物样本图像,作为目标人物样本图像x,同时由预设数据库中随机选择除该目标人物以外其余一位随机目标人物对应类型组中第二风格类型的人物样本图像,作为辅助人物样本图像y,然后进入步骤A1-3。

步骤A1-3.由生成器网络G

同时,由生成器网络G

步骤A1-4.由判别网络D

L

获得第一对抗损失L

同时,由判别网络D

L

获得第二对抗损失L

步骤A1-5.分割网络F

步骤A1-6.按如下公式:

L

L

获得目标人物样本图像的姿势掩膜图像F

步骤A1-7.由生成器网络G

L

获得第四新人物样本图像G

同时,由生成器网络G

L

获得第三新人物样本图像G

步骤A1-8.基于第一对抗损失L

L

L

获得L

L

构建目标人物对应的网络总损失L

步骤A1-9.修正生成器网络G

通过上述步骤A获得样本数据集后,进一步执行如下步骤B。

步骤B.基于样本数据集,以人物样本图像为输入、人物样本图像所对应预设数据库中目标人物为输出,针对预设神经网络进行训练,获得人物识别模型。

实际应用中,上述步骤B具体设计执行如下步骤B1至步骤B2。

步骤B1.基于预设数据库中K个目标人物,定义各新增人物样本图像分别对应的标签为1xK的一维向量,记为

步骤B1-1.根据新增人物样本图像经预设神经网络,输出一个1xK的一维向量p(X)={p(X

步骤B1-2.获得该新增人物样本图像分别对应预设数据库中各目标人物的概率p(X

步骤B2.基于样本数据集,以人物样本图像为输入、人物样本图像所对应预设数据库中目标人物为输出,针对预设神经网络进行训练,获得人物识别模型。

LSRO的K类具有相同的预训练权重,它认为生成图像具有相同的模拟所有预定义训练类别分布能力,但对于当前的训练来说这是不切实际的。它将相同的虚拟标签映射到所有生成的图像,这可能导致训练中的模糊预测。由MpRL分配的k类预训练权重不同,它为生成的图像分配了不同的虚拟标签。通过比较,可以得出结论,MpRL解决了半监督学习中LSRO的问题,并且MpRL方法在行人识别中也更有效。结合真实数据和生成数据,因此上述步骤B2中针对预设神经网络进行训练的过程中的损失函数为如下交叉熵损失;

其中,

将本发明所设计基于改进的CycleGAN数据增强的行人重识别方法,应用于实际当中,使用Python3编程语言进行实验,实施上述网络架构的框架是Pytorch。实验使用ubuntu16.04.3系统在Linux服务器上运行。服务器使用Intel Xeon E5-2695处理器,220Gb内存和NVIDIATeslaM40(12GB)GPU。

首先,本发明在不同相机域训练了改进的CycleGAN模型。分别训练了Market-1501和CUHK03-NP数据集。输入图像重置为256×256,bachsize设置为8。模型的学习率为0.0002。本发明使用Adam优化算法,Adam的动量为τ=0.5。通过改进的CycleGAN网络的训练,本发明生成预期的样式和姿态迁移图片,并将它们集成到原始数据集中,作为ReID网络的输入。

参数λ和β在优化改进的CycleGAN模型的损失函数方面发挥着重要作用。初始训练,根据经验设置为λ=10,β=10。经过大量的实验测试后,本发明得出了最好的预期结果:λ=5,β=10。当λ太高时,生成的完整图片会保留源域的行人身份,并且无法了解目标域的行人身份;当λ太小时,生成图像的分辨率较低,错误增加和训练时间也会增加。

接着,本发明训练ReID网络。本发明提出的方法可以应用于许多模型,本发明使用st-ReID模型来验证本发明提出的方法的有效性。对于st-ReID基线网络,训练图像输入为384×192大小。学习率最初设定为0.1,40次迭代后降至0.01。本发明根据st-ReID方法设置超参数,其中平滑因子为1和2,缩减因子为5和5。此外,本发明还使用随机裁剪、随机翻转和随机擦除等数据增强的小技巧,其中随机擦除率设置为p=0.8。在MpRL中,本发明分别设置为

在训练ReID网络时,本发明采用了动态更新MpRL的方法。生成数据与预定义训练类之间的对应关系在训练过程中迭代更新,详情如下:如果epoch<20,在每个epoch中,(1)设置L

如图3所示,改进的CycleGAN生成的图像示例。从横向来看,可以看到生成模型倾向于从真实图片中学习姿势信息,从而提高同一行人的样本多样性;从垂直方向来看,生成模型可以学习不同相机下的宏观风格特征,从而缩小域差异。通过结合两个的生成特征,可以获得更多的更适合重识别任务的附加数据样本。

为了验证提出方法的优越性,本发明将其与现有的先前方法进行了比较。具体而言,本发明选择DCGAN,PNGAN,Camstyle,DGnet方法,在Market-1501数据集上生成了不同的行人图片,其视觉效果如图4所示。

如图4所示,从左到右分别是真实的图像,分别由DCGAN,PNGAN,DGnet,Camstyle,improved CycleGAN生成的图像。通过图4的观察,本发明可以看到DCGAN生成的图片并不完美,只是粗略地显示了行人衣服的颜色,但行人的边缘不是清晰的,背景更加模糊。除了光线,阴影和颜色的样式不同,Camstyle生成的图像具有与原始图像相同的前景和背景。PNGAN简单地采取姿态作为条件,生成相对良好的视觉效果。但是可以发现在一些图片中,尽管衣服是相同的,但行人的身份已经改变。DGnet关注于行人的换装操作,其前景和背景是最清晰的。但是,从选定的例子中,本发明可以看到交叉处理过程中,图像样式变化很大,颜色偏差却非常相似。尽管PNGAN和DGnet取得了很好的效果,但他们并没有专注于减少不同相机之间的风格差距。

如图4所示,本发明提出的方法完全研究了真实的图片,这增加了在维持目标行人ID基础上的行人姿势的多样性。此外,图像从源域转换为目标域,目标域中的图像样式也会学习到,因此本发明提出的改进的CycleGAN方法可以将不同相机之间的风格差异缩小到一定的范围,从而使识别更加准确。

表1:不同ReID方法的重识别结果

为了提供本发明提出的方法的优越性,本发明将本发明的工作与最先进的ReID方法进行了比较,应该指出的是,在本发明中,Resnet50被用作上述方法的骨干网络。如表1所示,评估了不同ReID方法的定量识别结果。RK代表重排序。从表1中可以看到,提出的ReID方法优于其他网络架构,如LightMBN,Top-DB-Net。对于Market-1501数据集,获得了rank-1,mAP的准确性分别为98.27%和96.20%,与st-ReID方法相比,rank-1的相对改善率为0.79%,mAP的相对改善率为2.51%。对于CUHK03-NP数据集,本发明获得rank-1和mAP的准确性分别为90.71%和96.65%,rank-1的相对改善率为2.43%,mAP的相对改善率为2.09%。简而言之,本发明在Market-1501和CUHK03-NP数据集上的都取得了较好的效果。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

技术分类

06120114718639