掌桥专利:专业的专利平台
掌桥专利
首页

一种行人重识别方法、装置、电子设备及可读存储介质

文献发布时间:2023-06-19 09:29:07


一种行人重识别方法、装置、电子设备及可读存储介质

技术领域

本发明涉及图像处理技术领域,具体涉及一种行人重识别方法、装置、电子设备及可读存储介质。

背景技术

行人重识别(Person Re-identification,ReID)任务的目标是去匹配不同摄像机拍摄到的同一个人的图像,它广泛应用于视频分析、智慧城市等领域。虽然人们近来提出了多种针对ReID的方法,然而,它们大多侧重于人的全身图像,忽略了更具挑战性且也是实际应用中经常出现的行人遮挡问题。

与匹配出现人整体信息的情况相比,遮挡情况下的ReID更具挑战性,原因如下:在遮挡区域中,图像包含的辨别信息较少,使得更容易被匹配到错误的人身上去;基于身体部位之间的特征信息做匹配虽然有效,但需要事先进行严格的人体对齐,因此遮挡严重时效果不佳。

近年来,人们提出了许多针对遮挡或具体部位的ReID方法,然而大多数只考虑了特征学习和对齐的一阶信息,鲁棒性不强,影响识别结果的准确性。

发明内容

本发明提供一种行人重识别方法、装置、电子设备及可读存储介质,以部分或全部解决现有技术中行人重识别过程相关的上述问题。

依据本发明第一方面,提供了一种行人重识别方法,包括:

获取待识别的一对人像图片;

获取每个所述人像图片的一阶特征,所述一阶特征包括所述人像图片中每个关键点的局部特征,和所述人像图片的全局特征;

基于所述人像图片的一阶特征,获取所述人像图片的关系信息;

基于每个所述人像图片的所述一阶特征和所述关系信息,获取每个所述人像图片的人体拓扑信息;

基于每个所述人像图片的所述关系信息和所述人体拓扑信息,获取行人重识别结果,所述行人重识别结果包括所述一对人像图片中是否包含同一人像。

可选地,所述基于所述人像图片的一阶特征,获取所述人像图片的关系信息的步骤,包括:

针对每个所述人像图片,基于所述人像图片的一阶特征,通过方向自适应的图卷积层,获取所述人像图片的关系信息;

其中,所述方向自适应的图卷积层被配置为:

基于所述人像图片的所述全局特征与所述局部特征之间的差,获取所述人像图片的自适应邻阶矩阵;

根据所述自适应邻阶矩阵、所述局部特征以及所述全局特征,获取所述人像图片的关系信息。

可选地,所述基于所述人像图片的所述全局特征与所述局部特征之间的差,获取所述人像图片的自适应邻阶矩阵的步骤,包括:

基于所述全局特征构建K×K维的全局特征矩阵,所述全局特征矩阵中的元素为全局特征;

基于全部所述局部特征构建K×K维的局部特征矩阵,所述全局特征矩阵中的元素为局部特征;

对所述全局特征矩阵和所述局部特征矩阵进行元素减法运算,得到第一矩阵;

对所述第一矩阵中的元素进行取绝对值处理以及批量归一化处理,并将处理后的矩阵作为第一全连接层的输入,获取所述第一全连接层的输出,作为所述自适应邻阶矩阵;

其中,所述K为所述关键点的数量。

可选地,所述根据所述自适应邻阶矩阵、所述局部特征以及所述全部特征,获取所述人像图片的关系信息的步骤,包括:

对所述自适应邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述所述局部特征输入第三全连接层;

对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

可选地,所述针对每个所述人像图片,基于所述人像图片的一阶特征,通过方向自适应的图卷积层,获取所述人像图片的关系信息的步骤,包括:

针对每个所述人像图片,基于所述人像图片的一阶特征,和原始邻阶矩阵,通过所述方向自适应的图卷积层,获取所述人像图片的关系信息;

所述根据所述自适应邻阶矩阵、所述局部特征以及所述全局特征,获取所述人像图片的关系信息的步骤,包括:

对所述所述自适应邻阶矩阵与所述原始邻阶矩阵进行元素乘法运算,得到第一邻阶矩阵;

对所述第一邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述局部特征输入第三全连接层;

对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

可选地,所述基于每个所述人像图片的所述一阶特征和所述关系信息,获取每个所述人像图片的人体拓扑信息的步骤,包括:

基于每个所述人像图片的所述一阶特征和所述关系信息,通过跨图嵌入对齐层,获取每个所述人像图片的人体拓扑信息;

其中,所述跨图嵌入对齐层被配置为:

根据所述人像图片的一阶特征和关系信息,通过图匹配策略获取表征两张所述人像图片中关键点的对齐信息的第三邻阶矩阵;

根据所述第三邻阶矩阵和所述人像图片的一阶特征和关系信息,通过每张人像图片增强另一张人像图片,获取每个所述人像图片的人体拓扑信息。

可选地,所述根据所述人像图片的一阶特征和关系信息,通过图匹配策略获取表征两张所述人像图片中关键点的对齐信息的第三邻阶矩阵的步骤,包括:

将每个所述人像图片的一阶特征和关系信息输入隐藏空间中,得到每个所述人像图片的隐藏特征;

通过图匹配策略获取两个所述人像图片的隐藏特征之间的关联矩阵,即为所述第三邻阶矩阵;

其中,所述隐藏空间中包含至少一个网络结构层,所述网络结构层为一个全连接层和一个线性整流函数层的级联,或为一个全连接层。

可选地,所述根据所述第三邻阶矩阵和所述人像图片的一阶特征和关系信息,通过每张人像图片增强另一张人像图片,获取每个所述人像图片的人体拓扑信息的步骤,包括:

根据所述第三邻阶矩阵和每张所述人像图片的隐藏特征,获取每个所述人像图片的人体拓扑信息。

可选地,所述基于每个所述人像图片的所述关系信息和所述人体拓扑信息,获取行人重识别结果,所述行人重识别结果包括所述一对人像图片中是否包含同一人像的步骤,包括:

基于每个所述人像图片的所述关系信息,获取两张所述人像图片之间的第一相似度;

基于每个所述人像图片的所述人体拓扑信息,获取两张所述人像图片之间的第二相似度;

根据所述第一相似度和所述第二相似度,获取所述两张人像图片之间的最终相似度;

响应于所述相似度高于预设相似度阈值,确认所述一对人像图片包含同一人像。

根据本发明的第二方面,提供了一种行人重识别装置,包括:

人像图片获取模块,用于获取待识别的一对人像图片;

一阶语义模块,用于获取每个所述人像图片的一阶特征,所述一阶特征包括所述人像图片中每个关键点的局部特征,和所述人像图片的全局特征;

高阶关系模块,用于基于所述人像图片的一阶特征,获取所述人像图片的关系信息;

高阶人体拓扑模块,用于基于每个所述人像图片的所述一阶特征和所述关系信息,获取每个所述人像图片的人体拓扑信息;

人像检测模块,用于基于每个所述人像图片的所述关系信息和所述人体拓扑信息,获取行人重识别结果,所述行人重识别结果包括所述一对人像图片中是否包含同一人像。

可选地,所述高阶关系模块,具体用于针对每个所述人像图片,基于所述人像图片的一阶特征,通过方向自适应的图卷积层,获取所述人像图片的关系信息;

其中,所述方向自适应的图卷积层被配置为:

基于所述人像图片的所述全局特征与所述局部特征之间的差,获取所述人像图片的自适应邻阶矩阵;

根据所述自适应邻阶矩阵、所述局部特征以及所述全局特征,获取所述人像图片的关系信息。

可选地,所述方向自适应的图卷积层,具体被被配置为:

基于所述全局特征构建K×K维的全局特征矩阵,所述全局特征矩阵中的元素为全局特征;

基于全部所述局部特征构建K×K维的局部特征矩阵,所述全局特征矩阵中的元素为局部特征;

对所述全局特征矩阵和所述局部特征矩阵进行元素减法运算,得到第一矩阵;

对所述第一矩阵中的元素进行取绝对值处理以及批量归一化处理,并将处理后的矩阵作为第一全连接层的输入,获取所述第一全连接层的输出,作为所述自适应邻阶矩阵;

其中,所述K为所述关键点的数量。

可选地,所述方向自适应的图卷积层,具体还被配置为:

对所述自适应邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述所述局部特征输入第三全连接层;

对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

可选地,所述高阶关系模块,还用于针对每个所述人像图片,基于所述人像图片的一阶特征,和原始邻阶矩阵,通过所述方向自适应的图卷积层,获取所述人像图片的关系信息;

所述方向自适应的图卷积层,具体还被配置为:

对所述所述自适应邻阶矩阵与所述原始邻阶矩阵进行元素乘法运算,得到第一邻阶矩阵;

对所述第一邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述局部特征输入第三全连接层;

对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

可选地,所述高阶人体拓扑模块,具体用于基于每个所述人像图片的所述一阶特征和所述关系信息,通过跨图嵌入对齐层,获取每个所述人像图片的人体拓扑信息;

其中,所述跨图嵌入对齐层被配置为:

根据所述人像图片的一阶特征和关系信息,通过图匹配策略获取表征两张所述人像图片中关键点的对齐信息的第三邻阶矩阵;

根据所述第三邻阶矩阵和所述人像图片的一阶特征和关系信息,通过每张人像图片增强另一张人像图片,获取每个所述人像图片的人体拓扑信息。

可选地,所述跨图嵌入对齐层,具体被配置为:

将每个所述人像图片的一阶特征和关系信息输入隐藏空间中,得到每个所述人像图片的隐藏特征;

通过图匹配策略获取两个所述人像图片的隐藏特征之间的关联矩阵,即为所述第三邻阶矩阵;

其中,所述隐藏空间中包含至少一个网络结构层,所述网络结构层为一个全连接层和一个线性整流函数层的级联,或为一个全连接层。

可选地,所述跨图嵌入对齐层,具体还被配置:

根据所述第三邻阶矩阵和每张所述人像图片的隐藏特征,获取每个所述人像图片的人体拓扑信息。

可选地,所述人像检测模块,包括:

第一相似度获取子模块,用于基于每个所述人像图片的所述关系信息,获取两张所述人像图片之间的第一相似度;

第二相似度获取子模块,用于基于每个所述人像图片的所述人体拓扑信息,获取两张所述人像图片之间的第二相似度;

第三相似度获取子模块,用于根据所述第一相似度和所述第二相似度,获取所述两张人像图片之间的最终相似度;

同一人像确认子模块,用于响应于所述相似度高于预设相似度阈值,确认所述一对人像图片包含同一人像。

根据本发明的第三方面,提供了一种电子设备,包括:

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述的任意一种行人重识别方法。

根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行第一方面所述的任意一种行人重识别方法。

根据本发明的行人重识别方法,通过学习具有判别力特征和人体拓扑信息的高阶关系,以进行行人重识别。由此解决了现有的行人重识别方案鲁棒性不强,影响识别结果准确性的技术问题。取得了提高行人重识别结果准确性的有益效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明实施例的一种行人重识别方法的步骤流程图之一;

图2示出了根据本发明实施例的一种现有的行人重识别的流程示意图;

图3示出了根据本发明实施例的一种行人重识别方法的步骤流程图之二;

图4示出了根据本发明实施例的一种ADGC层的示意图;

图5示出了根据本发明实施例的一种CGEA层的示意图;

图6示出了根据本发明实施例的一种用以行人重识别的框架的结构示意图;以及

图7示出了根据本发明实施例的一种行人重识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1,示出了本发明实施例中一种行人重识别方法的步骤流程图。

步骤110,获取待识别的一对人像图片。

步骤120,获取每个所述人像图片的一阶特征,所述一阶特征包括所述人像图片中每个关键点的局部特征,和所述人像图片的全局特征。

步骤130,基于所述人像图片的一阶特征,获取所述人像图片的关系信息。

步骤140,基于每个所述人像图片的所述一阶特征和所述关系信息,获取每个所述人像图片的人体拓扑信息。

步骤150,基于每个所述人像图片的所述关系信息和所述人体拓扑信息,获取行人重识别结果,所述行人重识别结果包括所述一对人像图片中是否包含同一人像。

其中的人像图片可以为其中包含人像的任意一种图片,例如摄像头的监控视频中的任意一个视频帧、监控图片、通过其他任何可用方式获取得到的图片,等等。人像图片可以为包括至少人像的图片,也可以为经过处理后的其中仅包含一个人像的图片,对此本发明实施例不加以限定。

如图2所示,人们很容易会被一些障碍物(如行李、柜台、人群、汽车、树木)遮挡,或者由于部分身体走出了摄像机拍摄区域而造成遮挡。因此,有必要去准确匹配只具有局部可观测的行人图片,这就是所谓的遮挡行人重识别问题。

与匹配出现人整体信息的情况相比,遮挡情况下的ReID更具挑战性,原因如下:在遮挡区域中,图像包含的辨别信息较少,使得更容易被匹配到错误的人身上去;基于身体部位之间的特征信息做匹配虽然有效,但需要事先进行严格的人体对齐,因此遮挡严重时效果不佳。例如,在图2(a)中,可以看到关键点信息会受遮挡(关键点1,2)和异常值(关键点3)所影响。比如,关键点1和2被遮挡,导致无意义特征;关键点3是异常值,导致对其偏差。例如,图2(b)展示的是一个常见的遮挡情况下的行人重识别的解决方案。它提取关键点区域的局部特征,并假设所有关键点准确且局部特征对齐良好。此时,特征提取(FeatureLearning)、对齐(Alignment Learning)、匹配(Matching)三个阶段都依赖于各个关键点的一阶信息,鲁棒性不强。

在本发明实施例中,为了使遮挡ReID问题得到更好的解决。除了考虑特征学习和对齐的一阶信息之外,还考虑了高阶信息。具体地说,为了解决行人重识别场景下的遮挡问题,本申请实施例中提出了一个新的方式来联合建模高阶关系和人体拓扑信息。其中高阶信息可以包括但不限于关系信息。

因此,在本发明实施例中,在特征学习阶段,通过将一张图像的一组局部特征视为图(graph)的节点(node),也即关键点来学习关系信息。通过在图中传递信息,因关键点被遮挡而导致的无意义特征问题,可以通过其相邻的有意义的特征进行改善。具体地,获取每个所述人像图片的一阶特征,所述一阶特征包括所述人像图片中每个关键点的局部特征,和所述人像图片的全局特征。而且,在本发明实施例中,可以通过任何可用方式识别人像图片的关键点,以及获取每个关键点的的局部特征,和人像图片的全局特征,对此本发明实施例不加以限定。例如,可以提取关键点区域的一阶语义特征作为其局部特征。这样做是因为,很多方法已经证明,基于身体局部的特征表示对行人重识别是有效的;其次,局部特征的准确对齐对于针对遮挡或具体部位的ReID也是必要的。例如,可以利用一个卷积神经网络来提取不同关键点的局部特征。

例如,给一张人像图片,可以通过一个卷积神经网络(CNN)学习它的特征图(Feature Map),通过一个姿态估计器(Pose Estimator)学习它的关键点,通过元素相乘(element-product)操作和全局平均池化(global-pooling,GP/g(.))操作学习它所有关键点的特征向量,即为每个关键点的局部特征。

需要注意的是,虽然人体关键点预测已经能够达到很高的精度,但依然会因为画面中存在遮挡和只出现部分身体而导致特征提取的性能依然不佳,导致关键点的位置和其置信度不准确。也即,虽然通过语义特征提取能够获得不同关键点区域的一阶语义信息,但是这依然无法应对由于行人画面不完整所带来的被遮挡ReID问题。因此,为了获取更具判别力的特征,在本发明实施例中,可以进一步建模以获取高阶的关系信息。具体地,可以基于所述人像图片的一阶特征,获取所述人像图片的关系信息。在本发明实施例中,可以通过任何可用方式获取人像图片的关系信息,对此本发明实施例不加以限定。例如,可以通过图神经网络(Graph Convolutional Network,GCN)方法来建模高阶关系信息。在GCN中,不同关键点区域的语义特征可以被视为节点。通过在节点之间传递信息,一阶语义信息(节点特征)和高阶特征(边特征/关系信息)都可以被照顾到。其中,关系信息可以理解为表征人像图片中任意两个关键点之间相连的边的边特征。

在获取得到每个人像图片中的一阶特征和关系信息之后,则可以进一步基于每个所述人像图片的所述一阶特征和所述关系信息,获取每个所述人像图片的人体拓扑信息。在本发明实施例中,可以通过任何可用方式获取人像图片的人体拓扑信息,对此本发明实施例不加以限定。而且,在构建每个人像图片的人体拓扑信息时,还可以参照两张人像图片之间的对齐信息,分别从其中一个人像图片中的有用信息对另一人像图片进行修复增强,从而提高获取得到的人体拓扑信息的准确性。而且,在本发明实施例中,可以通过任何可用方法获取两张人像图片之间的对齐信息,对此本发明实施例不加以限定。其中,两张人像图片之间的对齐信息可以理解为两张图片中各个关键点的局部特征的匹配程度、全局特征的匹配程度,等等。

例如,在对齐阶段,可以使用图匹配算法(graphmatching)等任何可用算法来学习鲁棒的对齐能力。这种方法除了能用点到点的对应关系进行对齐外,它还能对边到边的对应关系进行建模。然后,通过构造一个跨图像的图,即可以将对齐信息嵌入进特征。而且,可以通过将学习的对齐信息视为邻接矩阵来传递信息。这样做,可以通过迁移一张人像图片中的有用信息来增强另一张人像图片,并且可以将对齐信息嵌入特征中。正因如此,异常关键点的特征才能通过其在另一幅图像上的相应特征来修复。其中的对齐信息可以包括两张人像图片中关键点到关键点的对应关系、边到边的对应关系,等等。

对于相应地两张人像图片而言,则可以基于其中增强后的每个人像图片,获取每个人像图片的人体拓扑信息,进而基于每个人像图片的人体拓扑信息,检测两张人像图片之后是否包含同一人像。从而可以按照人像图片中包含的人像,对人像图片进行分类。

例如,对于两张互相增强后的人像图片而言,可以通过任何可用方式获取两者人体拓扑信息的相似度,如果两者人体拓扑信息的相似度达到预设阈值,则可以认定其中包含同一人像。

而且,在本发明实施例中,可以通过任何可用方式获取两个人像图片的人体拓扑信息之间的相似度,对此本发明实施例不加以限定。例如,在验证损失的监督下,可以利用全连接层网络等任何可用方式来学习彼此修复增强后的两张人像图片的人体拓扑信息之间的相似度,从而获知各个人像图片中是否包含有同一人像。

参照图3,在本发明实施例中,可以通过以下方式获取人像图片的关系信息:

步骤S131,针对每个所述人像图片,基于所述人像图片的一阶特征,通过方向自适应的图卷积层,获取所述人像图片的关系信息;

其中,所述方向自适应的图卷积层被配置为:

S1,基于所述人像图片的所述全局特征与所述局部特征之间的差,获取所述人像图片的自适应邻阶矩阵。

S2,根据所述自适应邻阶矩阵、所述局部特征以及所述全局特征,获取所述人像图片的关系信息。

如上述,为了获取更具判别力的特征,可以通过GCN网络来建模高阶的关系信息。虽然如此,被遮挡的ReID还是存在一个问题,即被遮挡区域的特征经常是无意义甚至噪声干扰。当在这些特征在图中进行传递时,甚至可能带来更多噪声,对被遮挡ReID产生副作用。因此,在本发明实施例中,提出了一个方向自适应的图卷积层(Adaptive DirectedGraph Convolutional,ADGC),来学习和传递关系信息。ADGC层可以动态学习信息传递的方向和程度(degree)。因此,ADGC层可以促进语义特征的消息传递,并抑制无意义和嘈杂的消息。最后,输出的节点既包含语义信息(也即一阶特征)又包含相关信息(也即关系信息)。

ADGC层的输入包括人像图片的一个全局特征V

例如,在ADGC层中可以包括三个全连接层,其中通过连接(concat)每个全连接层的输出数据,即为ADGC层的输出。而且,各个全连接层的输入分别为全局特征V

可选地,在本发明实施例中,步骤S1进一步可以包括:

S11,基于所述全局特征构建K×K维的全局特征矩阵,所述全局特征矩阵中的元素为全局特征;其中,所述K为所述关键点的数量。

S12,基于全部所述局部特征构建K×K维的局部特征矩阵,所述全局特征矩阵中的元素为局部特征;

S13,对所述全局特征矩阵和所述局部特征矩阵进行元素减法运算,得到第一矩阵;

S14,对所述第一矩阵中的元素进行取绝对值处理以及批量归一化处理,并将处理后的矩阵作为第一全连接层的输入,获取所述第一全连接层的输出,作为所述自适应邻阶矩阵。

如图4所示为一种ADGC层的示意图。其中,V

如图4所示,在获取得到全局特征矩阵和局部特征矩阵之后,则可以进一步对所述全局特征矩阵和所述局部特征矩阵进行元素减法运算,得到第一矩阵;进而对所述第一矩阵中的元素依次进行取绝对值处理以及批量归一化处理,并将处理后的矩阵作为第一全连接层的输入,获取所述第一全连接层的输出,作为所述自适应邻阶矩阵;其中,所述K为所述关键点的数量。

可选地,在本发明实施例中,S2进一步可以包括:

步骤S21,对所述自适应邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述所述局部特征输入第三全连接层;

步骤S22,对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

相应地,在获取得到当前的自适应邻阶矩阵之后,则可以对所述自适应邻阶矩阵与所述局部特征进行矩阵乘法运算,也即上述的matrix multiplication运算,并将运算结果输入第二全连接层,同时将所述所述局部特征输入第三全连接层;进而对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素加法运算,并基于元素加法运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。例如,可以将第二全连接层的输出数据和所述第三全连接层的输出数据进行元素加法运算的运算结果和全局特征进行连接(concat),进而得到k+1维的关系信息。

可选地,在本发明实施例中,所述步骤S131进一步可以包括:针对每个所述人像图片,基于所述人像图片的一阶特征,和原始邻阶矩阵,通过所述方向自适应的图卷积层,获取所述人像图片的关系信息。

另外,在本发明实施例中,为了提高ADGC层的性能,进一步提高重识别结果的准确性。还设置一原始邻阶矩阵,以调节ADGC层的性能。其中,原始邻阶矩阵的具体取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。

那么此时步骤S2进一步可以包括:

步骤S23,对所述所述自适应邻阶矩阵与所述原始邻阶矩阵进行元素乘法运算,得到第一邻阶矩阵。

步骤S24,对所述第一邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述局部特征输入第三全连接层。

步骤S25,对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

此时,原始邻接矩阵在ADGC层中的存在形式如图4所示。那么此时,在获取关系信息时,则可以对所述所述自适应邻阶矩阵与所述原始邻阶矩阵进行元素乘法运算,得到第一邻阶矩阵。进而对所述第一邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述局部特征输入第三全连接层。进一步对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

例如,给定一个人像图片x,可以通过一个卷积神经网络(CNN)学习x的特征图m

如图4所示的ADGC层,其输入为人像图片x的一个全局特征V

其中,f1和f2为两个非共享的全连接层。

此时,给定一张人像图片,可以通过上述的公式

V

其中,f

而且,假设给出两张行人图片(x1,x2),它们基于关系信息的相似度可以由以下公式计算得到。K是关键点个数,β是对应人体关键点的置信度,v是经过高阶关系学习优化后,对应的关键点的特征,也即关系信息。

参照图3,在本发明实施例中,可以通过以下方式获取每个所述人像图片的人体拓扑信息:

步骤141,基于每个所述人像图片的所述一阶特征和所述关系信息,通过跨图嵌入对齐层,获取每个所述人像图片的人体拓扑信息。

其中,所述跨图嵌入对齐层被配置为:

T1,根据所述人像图片的一阶特征和关系信息,通过图匹配策略获取表征两张所述人像图片中关键点的对齐信息的第三邻阶矩阵;

T2,根据所述第三邻阶矩阵和所述人像图片的一阶特征和关系信息,通过每张人像图片增强另一张人像图片,获取每个所述人像图片的人体拓扑信息。

在基于身体部位的特征表示已经被证明对行人重识别是有效的。一种简单的对齐策略是直接去匹配同样关键点之间的特征。然而这种一阶对齐策略并不能应对异常值,特别是当画面人物有大面积遮挡的情况。

相反,图匹配(graphmatching,GM)策略可以自然地将人体拓扑的高阶信息也考虑进去。但它只能学习一对一的对应关系,导致这种硬对齐策略对于异常值仍然十分敏感,性能容易受到干扰。为此,在本发明实施例中提出了一个跨图嵌入对齐(Cross-GraphEmbedding-Alignment,CGEA)层,它不仅能够充分利用经图匹配算法习得的人体拓扑信息,还能避免来自一对一对齐的干扰。

对于CGEA层而言,其以两张包含各自的一阶特征和关系信息的人像图片作为输入,使用图匹配策略学习两个人像图片上关键点的对应关系,即为两张人像图片中关键点的对齐信息,并通过将学习的对齐信息视为第三邻接矩阵来传递信息。这样做,可以通过迁移一张人像图片中的有用信息来增强另一张人像图片,并且可以将对齐信息嵌入人像图片的特征中,从而提高最终得到的每个人像图片的人体拓扑结构的准确性和全面性。而且,CGEA层可以输出嵌入的特征,具体可以包括但不限于各个人像图片的语义特性和基于对齐信息引导得到的人类拓扑信息。

可选地,在本发明实施例中,所述步骤T1进一步可以包括:

T11,将每个所述人像图片的一阶特征和关系信息输入隐藏空间中,得到每个所述人像图片的隐藏特征;

T12,通过图匹配策略获取两个所述人像图片的隐藏特征之间的关联矩阵,即为所述第三邻阶矩阵;其中,所述隐藏空间中包含至少一个网络结构层,所述网络结构层为一个全连接层和一个线性整流函数层的级联,或为一个全连接层。

所述步骤T2进一步可以包括:根据所述第三邻阶矩阵和每张所述人像图片的隐藏特征,获取每个所述人像图片的人体拓扑信息。

例如,CGEA层的结构可以如图5所示。首先,给定两张人像图片x1和x2,通过x1和x2的一阶特征、关系信息

其中,[·,·]表示按照矩阵维度的级联操作,f表示全连接层。

另外,在本发明实施例中,CGEA层的输出还可以为两张人像图片,其中每个人像图片中包含有各自的人体拓扑信息。在图5中,U表示训练得到的关联矩阵。

在本发明实施例中,为了快速检测两张人像图片中是否包含同一人像,可以构建一个高阶拓扑模块(High-Order Human-Topology Module),其中包含前后级联的CGEA层F

其中,|·|表示元素级别的取绝对值操作,f

具体地说,为了解决行人重识别场景下的遮挡问题,提出了一个新的框架来联合建模高阶关系信息和人体拓扑信息。如图6所示,本发明实施例中用以进行行人重识别的框架可用包括三个模块,一阶语义模块(One-Order Semantic Module,S)、高阶关系模块(High-Order Relation Module,R)和高阶人体拓扑模块(T)。

其中,S可以取人体关键点区域的语义特征。在S中,首先可以利用CNN backbone学习特征图,用人体关键点估计模型来学习关键点,然后,提取对应关键点的语义信息,即为上述的一阶特征;(2)R能对不同语义局部特征之间的关系信息进行建模。在R中,人们将习得的图像语义特征看作图的关键点,然后提出了一个方向自适应的图卷积层(ADGC,Adaptive-Direction Graph Convolutional)层来学习和传递边缘特征信息。ADGC层可以自动决定每个边的方向和度。从而促进语义特征的信息传递,抑制无意义和噪声特征的传递。最后,学习到的节点包含语义和关系信息。(3)T可以学习到鲁棒的对齐能力,并预测两幅图像之间的相似性。在T中,提出一个跨图嵌入对齐(CGEA,cross-graph embedded-alignment)层。它以两个人像图片(graph)作为输入,利用图匹配策略学习其之间节点的对应关系,然后将学习到的对应关系视为邻接矩阵来传递信息。正因如此,相关联的特征才能被增强,对齐信息才能被嵌入到特征中去。最后,为了避免强行一对一对齐的情况,可以通过将两个人像图片映射到到一个logit模型(评定模型)并用一个验证损失进行监督来预测其相似性。

参照图3,在本发明实施例中,所述步骤150进一步可以包括:

步骤151,基于每个所述人像图片的所述关系信息,获取两张所述人像图片之间的第一相似度;

步骤152,基于每个所述人像图片的所述人体拓扑信息,获取两张所述人像图片之间的第二相似度;

步骤153,根据所述第一相似度和所述第二相似度,获取所述两张人像图片之间的最终相似度;

步骤154,响应于所述相似度高于预设相似度阈值,确认所述一对人像图片包含同一人像。

在本发明实施例中,为了提高识别结果的准确性,可以同时参照关系信息和人体拓扑信息获取两张人像图片之间的相似度。而且,在本发明实施例中,可以通过任何可用方式获取上述的第一相似度和第二相似度,对此本发明实施例不加以限定。而且,第一相似度、第二相似度与最终相似度之间的对应关系也可以根据需求进行自定义设置,对此本发明实施例也不加以限定。

例如,对于相似度计算,给定一对人像图片(x1,x2),可以由公式(4)计算出的相似度

其中,γ可以为预设权重,具体取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。

如图6所示,在上述框架的训练过程中,可以使用分类损失(classificationloss)函数、三元组损失(triplet loss)函数和认证损失(verification loss)函数来监督训练。例如,在训练过程中,可以通过最小化框架的损失函数的方式对框架进行端到端训练。

例如,对于框架中用于提取一阶特征的一阶语义模块而言,可以设置其损失函数包括分类损失L

其中,β

对于框架中用于提取高阶的关系信息的高阶关系模块而言,同样可以设置其损失函数包括分类损失L

对于框架中用于提取人体拓扑信息的高阶人体拓扑模块而言,则可以设置其损失函数如以下公式所示:

其中,y表示真实值,如果人像图片x1和x2为同一身份的人像图片,也即人像图片x1和x2中包含同一身份的人像,那么y的取值为1,否则y的取值为0。

在推理阶段,给定一张待查询的人像图片x_q,首先可以通过任何可用方式获取其与库中所有备选的人像图片的相似度x

当然,也可以直接基于本方案获取的最终相似度,选取与目标人像图片的相似度满足预设相似度阈值,或者是获取与目标人像图片的相似度最高的N个作为与目标人像图片包含同一人像的人像图片,等等。

本文提出了一种新的框架,来学习具有判别力特征和人体拓扑信息的高阶关系。为了学习关系信息,将图像的局部特征表示为图(graph)的节点(node),并提出了一种自适应方向图卷积(ADGC)层来促进语义特征的信息传递,抑制无意义和噪声特征的信息传递。

对于学习拓扑信息,提出了跨图(graph)嵌入对齐层(CGEA),它以两个图(graph)作为输入,利用图匹配策略学习其之间节点的对应关系,然后将学习到的对应关系视为邻接矩阵来传递信息。它可以避免敏感地硬一对一对齐,并执行鲁棒的软对齐。可以有效提高行人重识别结果的准确性。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图7,示出了本发明实施例中一种行人重识别装置的结构示意图。

人像图片获取模块210,用于获取待识别的一对人像图片;

一阶语义模块220,用于获取每个所述人像图片的一阶特征,所述一阶特征包括所述人像图片中每个关键点的局部特征,和所述人像图片的全局特征;

高阶关系模块230,用于基于所述人像图片的一阶特征,获取所述人像图片的关系信息;

高阶人体拓扑模块240,用于基于每个所述人像图片的所述一阶特征和所述关系信息,获取每个所述人像图片的人体拓扑信息;

人像检测模块250,用于基于每个所述人像图片的所述关系信息和所述人体拓扑信息,获取行人重识别结果,所述行人重识别结果包括所述一对人像图片中是否包含同一人像。

可选地,所述高阶关系模块230,具体用于针对每个所述人像图片,基于所述人像图片的一阶特征,通过方向自适应的图卷积层,获取所述人像图片的关系信息;

其中,所述方向自适应的图卷积层被配置为:

基于所述人像图片的所述全局特征与所述局部特征之间的差,获取所述人像图片的自适应邻阶矩阵;

根据所述自适应邻阶矩阵、所述局部特征以及所述全局特征,获取所述人像图片的关系信息。

可选地,所述方向自适应的图卷积层,具体被被配置为:

基于所述全局特征构建K×K维的全局特征矩阵,所述全局特征矩阵中的元素为全局特征;

基于全部所述局部特征构建K×K维的局部特征矩阵,所述全局特征矩阵中的元素为局部特征;

对所述全局特征矩阵和所述局部特征矩阵进行元素减法运算,得到第一矩阵;

对所述第一矩阵中的元素进行取绝对值处理以及批量归一化处理,并将处理后的矩阵作为第一全连接层的输入,获取所述第一全连接层的输出,作为所述自适应邻阶矩阵;

其中,所述K为所述关键点的数量。

可选地,所述方向自适应的图卷积层,具体还被配置为:

对所述自适应邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述所述局部特征输入第三全连接层;

对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

可选地,所述高阶关系模块230,还用于针对每个所述人像图片,基于所述人像图片的一阶特征,和原始邻阶矩阵,通过所述方向自适应的图卷积层,获取所述人像图片的关系信息;

相应地,所述方向自适应的图卷积层,具体还被配置为:

对所述所述自适应邻阶矩阵与所述原始邻阶矩阵进行元素乘法运算,得到第一邻阶矩阵;

对所述第一邻阶矩阵与所述局部特征进行矩阵乘法运算,并将运算结果输入第二全连接层,同时将所述局部特征输入第三全连接层;

对所述第二全连接层的输出数据和所述第三全连接层的输出数据进行元素相加运算,并基于元素相加运算的运算结果,和所述全局特征,获取所述所述人像图片的关系信息。

可选地,所述高阶人体拓扑模块240,具体用于基于每个所述人像图片的所述一阶特征和所述关系信息,通过跨图嵌入对齐层,获取每个所述人像图片的人体拓扑信息;

其中,所述跨图嵌入对齐层被配置为:

根据所述人像图片的一阶特征和关系信息,通过图匹配策略获取表征两张所述人像图片中关键点的对齐信息的第三邻阶矩阵;

根据所述第三邻阶矩阵和所述人像图片的一阶特征和关系信息,通过每张人像图片增强另一张人像图片,获取每个所述人像图片的人体拓扑信息。

可选地,所述跨图嵌入对齐层,具体被配置为:

将每个所述人像图片的一阶特征和关系信息输入隐藏空间中,得到每个所述人像图片的隐藏特征;

通过图匹配策略获取两个所述人像图片的隐藏特征之间的关联矩阵,即为所述第三邻阶矩阵;

其中,所述隐藏空间中包含至少一个网络结构层,所述网络结构层为一个全连接层和一个线性整流函数层的级联,或为一个全连接层。

可选地,所述跨图嵌入对齐层,具体还被配置:

根据所述第三邻阶矩阵和每张所述人像图片的隐藏特征,获取每个所述人像图片的人体拓扑信息。

可选地,所述人像检测模块250,包括:

第一相似度获取子模块,用于基于每个所述人像图片的所述关系信息,获取两张所述人像图片之间的第一相似度;

第二相似度获取子模块,用于基于每个所述人像图片的所述人体拓扑信息,获取两张所述人像图片之间的第二相似度;

第三相似度获取子模块,用于根据所述第一相似度和所述第二相似度,获取所述两张人像图片之间的最终相似度;

同一人像确认子模块,用于响应于所述相似度高于预设相似度阈值,确认所述一对人像图片包含同一人像。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

在本发明实施例中还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述的任意一种行人重识别方法。

在本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的任意一种行人重识别方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于行人重识别的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

相关技术
  • 一种行人重识别方法、装置、电子设备和可读存储介质
  • 一种行人重识别方法、装置、电子设备及计算机可读存储介质
技术分类

06120112185875