导航：首页> 其他类目不包含的电技术>一种基于多模态的图卷积神经网络行人重识别方法

一种基于多模态的图卷积神经网络行人重识别方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及一种基于多模态的图卷积神经网络行人重识别方法，属于行人重识别领域。

背景技术

行人重识别在视频监控跟踪识别方面具有重要的应用意义，能够在尽量避免人力资源介入的情况下，对海量监控视频数据中的行人进行检索，寻找出目标行人。由于现实中行人图像状况十分复杂，行人外观复杂、摄像头分辨率低、跨场景、遮挡严重，而且摄像头在各种公共区域大量部署，在数以万计的监控视频图像中检索到目标行人或者有效的信息，采用人工监控的方式显然是不科学的，这样做不仅效率低下且严重浪费人力资源。因此，利用行人重识别技术对数以万计的监控视频中行人进行精准的定位，这让行人重识别技术成为了当今研究热点。

现阶段，行人重识别主要运用人工智能、深度学习等技术对行人进行识别跟踪，其过程为：选择来自某个摄像头下的行人图像作为识别目标，其他摄像头下的全部行人作为检索库，使用模型算法对检索对象以及检索库中全部行人的外观信息进行特征提取，通过特征匹配的方式，以此匹配出现在其他摄像头下该行人的图像。因此，行人重识别是一个行人检索匹配任务，对于从某个摄像头获取的行人图像，从其他多个非重叠监控摄像头中匹配出该行人。基于图像的传统的行人重识别方法一般在于提取低级的图像特征。这些方法在小规模数据集上取得了一定的成功，但是这些基于人工设计特征的方法都存在一定的局限性，需要手动设计特征，导致工作量庞大且效率低下，不适于现有的大规模数据集。随着深度学习的发展，基于深度学习的行人重识别研究逐渐成为研究热点。

如今大部分行人重识别的研究都是围绕行人外观信息进行特征提取而展开的，基于行人外观信息的行人重识别指的是：基于行人的衣着、性别、背包等外观信息，设计相应的模型算法，提取行人图像特征并对其特征进行匹配操作，在检索库中匹配出同一身份的行人。行人重识别又分为单域任务与跨域任务，单域任务是指行人数据采集于同一场景下不同区域，训练与测试数据分布近似，同一行人外观变化主要受到环境影响，大部分衣装信息未发生改变。而跨域任务是指行人数据采集于多个不同的场景，不仅场景间差异较大，而且行人大部分衣装信息发生改变，训练与测试数据分布差异较大，为模型鲁棒性带来较高的要求。本发明基于单域任务开展相关研究。由此可见，行人重识别技术的关键在于如何设计合理科学的模型提取具有判别性和鲁棒性的特征。

目前在深度学习领域实现行人重识别的国内外研究技术方案包括：

(1)基于行人文本属性的领域

行人文本属性(例如行人性别、衣着类型及颜色等外观信息)作为行人特征重要补充，不会以行人角度、姿态而转移，具有高阶的语义空间，并且通常蕴含着与行人身份ID高度相关的信息。因此，研究学者将行人文本属性信息引入行人重识别领域中，将行人文本属性识别以及行人重识别相结合，成为了新的研究热点。

Khamis等人[1]提出了联合学习属性一致性的行人重识别模型，将行人文本属性信息引入到行人匹配排序过程中，对相似度排序进行约束。另外，在训练阶段联合排序组损失与属性分类损失共同优化模型。邵晓雯等人[2]提出了一种融合行人文本属性特征的方法，不仅将行人文本属性分类引入到行人重识别网络中，还根据属性生成对应的权重，最终将加权的属性特征与全局特征相结合。

Lin等人[3]在行人重识别数据集Market-1501和DukeMTMC-reID分别标注了27和23种文本属性，例如性别，头发长度，鞋子类型，携带背包，上衣颜色以及下衣颜色等。其次，提出了行人文本属性识别模块(Attribute Person Recognition,APR)，该模块是在卷积神经网络的基础上加入M+1个分类器构成的，其中M+1个分类器中由M个行人文本属性分类器和1个行人身份ID分类器组成。然后通过引入属性重加权ARM模块学习属性之间的关联性和依赖性，以此提升属性预测准确性，同时在训练过程中引入属性预测，分别探讨各个属性对模型识别效果的影响。另外，还提出了测试阶段加速行人检索匹配的方法，根据检索对象与检索库中属性的不同，快速过滤检索库中的行人图像。

Arne等人[4]提出了属性信息互补的行人重识别方法(Attribute-ComplementaryReid Net,ACRN)，该方法通过预训练属性预测模型并将识别的属性语义信息融合到行人重识别模型中，实验结果表明属性信息融合为模型效果带来了显著的提升，另外，作者还进一步深入探讨了哪些属性最适合行人重识别。Tay等人[5]提出了一个属性注意力模型(Attribute Attention Network,AANet)，由全局特征提取模块(Global FeatureNetwork,GFN)、行人部位检测模块(Part Feature Network，PFN)和关键属性检测模块(AFN)组成。AFN模块首先对行人文本属性进行分类预测，根据属性分类结果生成属性类别激活图(Attribute Feature Network,CAM)。CAM用于定位图像中判别性区域，随后被送到属性注意力图(Attribute Attention Map,AAM)分类器中学习关键的属性信息。

Shi等人[6]提出了一种属性对齐网络，由粗对齐和精对齐模块组成，分别选取预训练的人体部位检测模型与属性预测模型来生成人体部位特征与属性特征，其中精对齐模块选择出重要的属性特征，最后将属性特征与相应的部位特征相融合。

(2)基于图卷积神经网络的领域

图神经网络(Graph Neural Network,GNN)[7]近年迅速发展，它可以具有优秀的图节点关系学习能力。另外，图卷积神经网络(Graph Convolutional Network,GCN)[8]提出了通过卷积的方式学习图上节点的关系，优化了传统图模型，进一步提升了图卷积神经网络的特征挖掘能力。图卷积神经网络已经在一些计算机视觉领域取得了成功的应用，例如基于人体关键点的行为识别[9]、视频分类[10]、多标签图像识别[11]等。行人数据集中存在某些潜在的高阶语义联系，例如行人与行人图像间相似性关系，视频中连续帧的时序关系以及行人身体部位关节点联系等，将图神经网络应用到行人重识别任务中可以更好地学习到行人之间的联系。

Shen等人[12]设计了一个相似性引导图神经网络模型(Similarity-GuidedGraph Neural Network,SGGNN)，该网络在训练阶段引入检索库中图像之间的关联性来增强特征学习，获取得到更具判别性的行人特征。SGGNN在训练阶段引入标签信息监督学习更加精确的特征融合权重，以此更新节点特征。这种相似性引导的方式保证了特征融合的合理性以及特征融合权重的精确性。

Bao等人[13]提出了一种掩码图注意力模型(Masked Graph Attention Network,MGAT)，以此挖掘数据样本中丰富的全局交互信息，根据掩码注意力矩阵学习图节点。特别地，首先把卷积神经网络提取到的深度特征构建成图，通过掩码注意力矩阵更新节点特征，以此拉近相同身份ID的行人，疏远不同身份ID的行人。同时采用优化反馈损失来增强MGAT模型的特征映射能力，避免在测试阶段处理大规模图的问题。

Wang等人[14]提出了一种通过自适应方向图卷积层来抑制无意义特征的方法(High-Order Re-Identification,HOReID)，该方法将行人局部特征视为图的节点，将匹配问题转化为图匹配问题，提出了一种基于跨图匹配的方法来预测行人相似度。Yan等人[15]针对行人重识别中光照变化，行人姿态及复杂背景等问题，提出一种注意力模块，筛选出检索图像与检索图库中相似度高的行人对作为上下文节点信息，再构造图卷积神经网络来学习并输出行人对之间的相似性。对于基于视频的行人重识别，Yang等人[16]提出了一种时空图卷积神经网络(Spatial-Temporal Graph Convolutional Network,ST-GCN)，对于输入同一段视频序列的若干个行人建立时间上图卷积神经网络，对该段视频序列中每个行人的特征进行分块建立空间上的图卷积神经网络，最后将时空图卷积的输出特征融合，将同一行人的不同图像联合起来，可以有效解决遮挡以及不同行人相似性高的问题。

总而言之，目前国内外研究学者在行人重识别领域进行了大量的研究工作，但是发明出精准及鲁棒的行人重识别模型仍然具有较大的挑战性，这主要是由于在实际场景中的行人数据复杂多样，存在跨场景、遮挡、光线变化。现有技术方案仍然存在以下缺陷：

缺点一：部分现有技术虽然使用了行人文本属性信息进行建模，但是忽略了行人文本属性之间潜在的语义联系；

缺点二：部分现有技术通过引入图卷积神经网络研究行人重识别，但是没有对行人文本属性进行建模研究。

参考文献：

[1]KHAMIS S,KUO C H,SINGH V K,et al.Joint learning for attribute-consistent person re-identification[C]//Proceedings of the 2014EuropeanConference on Computer Vision.Cham,Springer,2014:134-146.

[2]邵晓雯，帅惠，刘青山.融合属性特征的行人重识别方法[J].自动化学报，2022，48(2)：564-571.

[3]LIN Y T,ZHENG L,ZHENG Z D,et al.Improving person re-identificationby attribute and identity learning[J].Pattern Recognition,2019,95(C):151-161.

[4]SCHUMANN A,STIEFELHAGEN R.Person re-identification by deeplearningattribute-complementary information[C]//Proceedings of the 2017IEEEConference on Computer Vision and Pattern Recognition Workshops.Washington,DC:IEEE Computer Society,2017:1435-1443.

[5]TAY C P,ROY S,YAP K H.Aanet:attribute attention network forpersonre-Identifications[C]//Proceedings of the 2019 IEEE/CVF ConferenceonComputer Vision and Pattern Recognition.Piscataway:IEEE,2019:7127-7136.

[6]Shi Y X，Ling H F，Wu L,et al.Learning refined attribute-alignednetworkwith attribute selection for person re-identification[J].Neurocomputing,2020,402:124-133.

[7]Wu Z,Pan S,Chen F,et al.A Comprehensive Survey on GraphNeuralNetworks[J].IEEE Transactions on Neural Networks and Learning Systems,2020,32(1):4-24.

[8]Kipf T N,Welling M.Semi-supervised classification withgraphconvolutional networks[C].The 5th International Conference onLearningRepresentations.Toulon:ICLR,2017.

[9]Yan S,Xiong Y,Lin D.Spatial temporal graph convolutional networksforskeleton-based action recognition[C].In Thirty-Second AAAI ConferenceonArtificial Intelligence,2018:7444-7452.

[10]Wang X,Gupta A.Videos as space-time region graphs[C].Proceedingsofthe European Conference on Computer Vision(ECCV),2018:399-417.

[11]Chen Z,Wei X,Wang P,et al.Multi-label image recognition withgraphconvolutional networks[C].Computer Vision and Pattern Recognition,2019:5177–5186.

[12]Shen Y,Li H,Yi S,et al.Person Re-identification withDeepSimilarity-Guided Graph Neural Network[C].European Conference onComputerVision.arXiv,2018:508-526.

[13]Bao L,Ma B,Chang H,et al.Masked Graph Attention Network forPersonRe-Identification[C].2019 IEEE/CVF Conference on Computer Vision andPatternRecognition Workshops(CVPRW).IEEE,2019:1496-1505.

[14]WANG G A,YANG S,LIU H Y,et al.High-order information matters:learning relation and topology for occluded person re-identification[C]//Proceedings of the 2020IEEE/CVF Conference on Computer Vision and PatternRecognition,Piscataway:IEEE,2020:6449-6458.

[15]Yan Y,Zhang Q,Ni B,et al.Learning Context Graph for Person Search[C].IEEE,2019:2158-2167.

[16]Yang J,Zheng W,Yang Q,et al.Spatial-Temporal Graph ConvolutionalNetwork for Video-Based Person Re-Identification[C].2020IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(CVPR).IEEE,2020:3289-3299.

发明内容

本发明的目的是：现有技术对行人文本属性之间潜在的语义联系研究不足，同时没有做到将行人文本属性与图卷积神经网络相结合并应用到行人重识别中。

为了达到上述目的，本发明的技术方案是提供了一种基于多模态的图卷积神经网络行人重识别方法，其特征在于，包括以下步骤：

步骤1、构建并训练行人文本属性预测模型，其中，对于行人图像X

步骤2、根据步骤1中得到的行人文本属性预测模型预测获得训练集中每张行人图像的文本属性，并根据模型预测置信度由大到小排序，则对于行人图像X

步骤3、将步骤2获得的文本属性转换为特征向量表示，并使得行人文本属性特征与行人图像全局特征维度对齐，获得维度为D的行人文本属性特征；

步骤4、利用行人全局图像特征提取模型提取行人全局图像特征，包括以下步骤：

行人全局图像特征提取模型使用ResNet-50作为骨干网络，将行人图像输入骨干网络后，将ResNet-50的最后一层下采样操作步长从2修改为1，在得到最后一层卷积操作的行人特征后，使用全局平均池进行处理，对于经过全局池化层的特征，采用BN层来对其进行正则化操作，通过BN层后所获得的行人全局图像特征表示为G

其中，w

步骤5、通过图卷积神经网络学习文本属性间联系语义，与图像特征融合，具体包括以下步骤：

步骤501、构建节点特征集合V和图的邻接矩阵AD，以此作为图卷积神经网络输入，其中，节点特征集合V初始化为行人文本属性特征集合A

V＝{G

图的邻接矩阵AD为相似性矩阵，用于度量两个节点之间的关联度，有：

AD∈R

式中：AD

步骤502、为了使得图卷积神经网络对节点间关系进行挖掘，图卷积神经网络各层使用残差链接方式，如下式所示：

其中：l表示当前图卷积神经网络层数；AD

步骤503、通过图卷积计算，挖掘行人文本属性中隐含的语义联系信息，并将该语义联系信息融合到行人图像特征中，最后输出最终的行人特征；

步骤6、计算行人相似性：

根据步骤6中图卷积神经网络输出的最终的行人特征，计算行人相似度，并以此计算评价指标，具体为首位命中率Rank-1，平均精度均值mAP。

优选地，步骤1中，所述行人文本属性预测模型使用ResNet-50作为骨干网络，将行人图像X

式中，

优选地，步骤2中，若通过行人文本属性预测模型预测获得的行人图像X

优选地，步骤2中，对所述行人文本属性预测模型进行训练时，采用多标签二分类交叉熵损失函数(MBCE Loss)。函数定义为：

式中：M表示训练集图像数量；N表示属性数量；

优选地，步骤3中，使用词向量编码的方法对步骤2获得的行人文本属性进行向量特征表示。

优选地，步骤3中，将步骤2获得的文本属性转换为特征向量表示后，将所获得的文本属性特征输入到全连接层，将所获得的文本属性特征的向量维度扩大至D维，得到最终的行人文本属性特征，表示为

优选地，步骤4中，对所述行人全局图像特征提取模型进行训练时，采用交叉熵损失、三元组损失和中心损失的组合作为优化的目标函数。

优选地，步骤4中，采用交叉熵损失来优化余弦距离，如下式所示：

式中，p

利用三元组损优化行人图像特征空间时，在训练过程中，每个批次中随机选取一个样本作为anchor，通过计算欧几里得距离，选取距离最远且与anchor相同身份ID的样本作为正样本，即选择相同身份ID但最不相似的行人作为正样本；选取距离最近但与anchor不同身份ID的样本作为负样本，即选择不同身份ID但最相似的行人作为负样本，则三元组损失函数如下式所示：

式中：f

中心损失如下式所示：

式中，c

则最终损失L

式中，λ表示中心损失的权重。

图卷积神经网络算法具有挖掘复杂行人图像数据特征以及对行人数据潜在关系建模的能力。本发明基于图卷积神经网络的理论方法，提出了一种具有创新性的科学有效的图卷积神经网络行人重识别方法。本发明更加深入挖掘行人属性之间潜在语义联系，并将其融入到行人特征中，通过多模态的方式，运用图卷积神经网络学习行人文本属性之前潜在的语义联系，并将其融合到行人重识别中。本发明将行人图像与文本属性特征视为图节点，通过图卷积运算传递图节点特征，使得行人图像特征融合文本属性间隐含的语义联系信息，最终图卷积神经网络输出得到的行人特征更具鲁棒性，克服现有技术对行人文本属性之间潜在的语义联系研究不足，同时没有做到将行人文本属性与图卷积神经网络相结合并应用到行人重识别中的问题。

与现有技术相比，本发明具有如下有益效果：

1、本发明提出了一种结合文本与图像特征的端到端训练的多模态行人重识别算法框架；

2、本发明利用图卷积神经网络对行人文本属性之间潜在的联系语义信息进行建模和研究，并将该语义联系信息与图像特征融合，有利于识别文本属性关联系，可以进一步指导行人重识别的研究，学习更具判别性与鲁棒性的行人特征。

附图说明

图1是本发明的整体处理流程图；

图2是本发明的整体算法流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

行人文本属性之间存在潜在的语义联系，对属性间潜在联系学习有利于行人特征表示，例如男性更可能留着短发和穿短衣袖衣服，而女性更可能留着长发和穿长裙等，而多个属性共同出现在同一行人身上，可以有效地检索到与其身份相同的行人，区分出与其身份不同的行人，即多个属性紧密联系可以为行人身份提供强有力的支持，对属性间潜在语义联系的学习有利于行人特征表示。现有的技术方法往往忽视属性间潜在关系的挖掘。图卷积神经网络近年来发展迅速，提出了通过卷积的方式学习图上节点关系，优化了传统图模型，进一步提升了图神经网络的特征表达能力，具有优秀的图节点关系学习能力。图卷积神经网络已经在行人重识别领域取得了成功的应用。行人重识别数据集中存在某些潜在的高阶语义联系，例如行人与行人图像间相似性关系，视频中连续帧的时序关系以及行人身体部位关节点联系等，将图神经网络应用到行人重识别任务中可以更好的学习到行人之间的联系，因此也有不少现有技术将图神经网络与行人重识别相结合，但是这些方法并没有对行人文本属性关系进行建模研究，不利于学习鲁棒的行人特征。

同时，图卷积神经网络提出了通过卷积的方式学习图上节点关系，优化了传统图模型，进一步提升了图卷积神经网络的特征表达能力，具有优秀的图节点关系学习能力。将图卷积神经网络应用到行人文本属性隐含语义联系的挖掘上，可以为行人特征带来重要的语义信息。受到图卷积神经网络强大的关系挖掘能力的启发，为了更好地利用并建模挖掘行人文本属性之间潜在的语义联系信息，本发明提出了一种基于多模态的图卷积神经网络行人重识别方法，该发明将行人图像与文本属性特征视为图节点，通过图卷积运算传递图节点特征，使得行人图像特征融合文本属性间隐含的语义联系信息，最终图卷积神经网络输出得到的行人特征更具鲁棒性。

基于上述设计思想，本发明的基于多模态的图卷积神经行人重识别方法，如图1所示，包括以下步骤：

步骤1、训练行人文本属性预测模型。

在本步骤中，使用ResNet-50作为骨干网络，给定输入行人图像X

式中，

由此得到预训练的行人文本属性预测模型。

步骤2：获取训练集行人图像的文本属性。

根据步骤1中得到的预训练的行人文本属性预测模型，预测获得每张行人图像的文本属性，并根据模型预测置信度由大到小排序，表示为：

式中：A

步骤3：文本属性转换为特征向量表示。

在本步骤中，为了将步骤2中获得的行人文本属性信息表示为特征的形式，使用词向量编码的方法对行人文本属性进行向量特征表示。由于Glove与Word2Vec方法无法处理OOV问题，即行人文本属性不在其词库中，FastText模型可以通过n-gram方法解决该问题，所以采用预训练的FastText模型对文本属性进行词向量特征表示，输出300维的行人文本属性词向量。

步骤4：扩大文本属性特征向量维度。

在本步骤中，为了将行人文本属性特征与行人图像全局特征维度对齐，将300维的行人文本属性特征输入到全连接层，转换到2048维的特征向量。最终将行人文本属性特征表示为：

式中，D＝2048表示属性特征维度，k表示选择的top-k个属性。特别地，当该行人图像预测得到的文本属性数量小于k时，采用零填充的方式对属性进行补全。

步骤5：提取行人全局图像特征。

首先，在数据预处理方面，采用多种数据增强技术组合的方式进行训练，例如随机翻转、随机裁剪、随机擦除等，可以有效提升模型的鲁棒性。

其次，特征图中更高的空间分辨率可以带来巨大的效果提升，特征图空间分辨率越大，行人图像中的细粒度特征信息留存越多，从而模型识别精度更高。将ResNet-50的最后一层下采样操作步长从2修改为1，可以增加最终行人特征图分辨率，具体地，给定256*128分辨率的输入图像X，修改步长前从最后一层卷积层获得HWC为8*4*2048d的特征，修改后获得HWC为16*8*2048d的特征。另外，在得到最后一层卷积操作的行人特征后，使用全局平均池进行处理，使得更加关注行人全局特征。

最终，对于经过全局池化层的特征，采用BN层来对其进行正则化操作，BN层可以有效纠正模型训练过程引起的分布偏差，即降低行人特征之间分布的差异性，让模型更好地学习训练数据中的分布。通过BN层后的行人全局特征为G

其中，w

在训练阶段，采用交叉熵损失、三元组损失和中心损失的组合作为优化的目标函数，该组合策略可以让模型学习到更加具有区别性的特征。

首先，采用交叉熵损失来优化余弦距离，计算公式为：

其中，p

其次，利用三元组损优化行人图像特征空间。这里采用困难样本挖掘策略，选取最困难的正负样本对，利于三元组损失更有效的计算。具体而言，在训练过程中，每个批次中随机选取一个样本作为anchor，通过计算欧几里得距离，选取距离最远且与anchor相同身份ID的样本作为正样本，即选择相同身份ID但最不相似的行人作为正样本；选取距离最近但与anchor不同身份ID的样本作为负样本，即选择不同身份ID但最相似的行人作为负样本。损失函数计算如下所示。

式中：f

最后，使用中心损失目的是在特征空间中为每个行人身份ID学习一个中心类别。因此，它的目标是在分离类间的同时最小化类内差异，其计算公式如下所示：

式中，c

式中，λ表示中心损失的权重，在实验中设置为0.0005，这种损失函数的组合可以让模型学习到更加区别性的特征。

另外，在行人文本属性识别模型中，采用多标签二分类交叉熵损失函数(MBCELoss)。函数定义为：

式中：M表示训练集图像数量；N表示属性数量；

步骤6：图卷积神经网络学习文本属性间联系语义，与图像特征融合，具体包括以下步骤：

首先构建节点特征集合V和图的邻接矩阵AD，以此作为图卷积神经网络输入。节点特征集合V初始化为行人文本属性特征集合A

V＝{G

式中，k表示top-k属性的数量，D＝2048。此外，还构造了一个相似性矩阵

AD作为邻接矩阵来度量两个节点之间的关联度。相似性矩阵计算公式为：

AD∈R

式中：V

为了使得图卷积神经网络对节点间关系进行挖掘，使用残差链接方式，计算公式如下：

其中：l表示当前图卷积神经网络层数；AD

在图卷积神经网络的训练过程中，通过图卷积计算，挖掘行人文本属性中隐含的语义联系信息，并将该语义联系信息融合到行人图像特征中，最后输出最终的行人特征。

步骤7：计算行人相似性。

根据步骤6中图卷积神经网络输出的最终行人特征，计算行人相似度，并以此计算评价指标，具体为首位命中率Rank-1，平均精度均值mAP。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：何嘉明;张恺;孙峥;
专利申请人：东方财富信息股份有限公司;

上一篇：一种白藜芦醇包裹体及其制备方法和应用
下一篇：一种具有散热功能的工业电源板