掌桥专利:专业的专利平台
掌桥专利
首页

一种图像识别方法、装置、存储介质及设备

文献发布时间:2023-06-19 19:30:30


一种图像识别方法、装置、存储介质及设备

技术领域

本申请涉及图像处理技术领域,尤其涉及一种图像识别方法、装置、存储介质及设备。

背景技术

人体特征提取是计算机视觉中一个比较重要的任务,在得到人体特征数据后,可以根据人体特征数据,对人体所在图像进行进一步检索和处理,以得到更为准确的人体图像识别结果。目前,人体特征提取任务已得到了较快的发展。

在复杂的开放场景下,如在城市交通车水马龙的场景下,行人特征的提取易受遮挡和姿态变化影响严重,借助行人的姿态信息提取鲁棒的人体特征虽然可以部分减轻前述问题。但现有的一些利用姿态估计来划分行人图片或者特征图,以得到行人的局部表观特征的方法,以及一些简单地聚合姿态序列来输出行人步态特征的方法,均忽略了图像中行人局部被遮挡的问题,也并未能充分利用姿态序列间的时序关系,导致提取出的人体的表观特征和步态特征的鲁棒性均较低,进而导致人体特征的提取效果较差。

发明内容

本申请实施例的主要目的在于提供一种图像识别方法、装置、存储介质及设备,能够更为准确的提取出图像中人体的特征数据,以根据人体特征数据进一步得到更为准确的人体图像识别结果。

本申请实施例提供了一种图像识别方法,包括:

获取待识别的目标图像;所述目标图像中包含目标用户的图像;

预测所述目标图像中目标用户的遮挡区域;并确定所述遮挡区域中所述目标用户的局部特征;

预测所述目标图像中目标用户的局部表观特征;并利用所述遮挡区域中所述目标用户的局部特征对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征;

提取所述目标图像中目标用户对应的姿态帧的底层特征,并对所述姿态帧的底层特征进行时序聚合处理,得到所述目标用户对应的步态特征;

将所述聚合后的表观特征和所述步态特征进行融合处理,并根据处理结果,对所述目标图像中目标用户进行识别处理,得到识别结果。

一种可能的实现方式中,所述预测所述目标图像中目标用户的遮挡区域;并确定所述遮挡区域中所述目标用户的局部特征,包括:

利用预设的姿态估计算法,估计出所述目标图像中目标用户的关键点信息;

对所述目标用户的关键点信息进行编码处理,得到所述目标用户对应的遮挡区域的伪标签信息;

将所述目标用户对应的遮挡区域的伪标签信息输入预先构建的局部遮挡预测模型,预测得到所述遮挡区域中所述目标用户的局部特征。

一种可能的实现方式中,所述预设的姿态估计算法为姿态估计开源算法OpenPose。

一种可能的实现方式中,所述局部遮挡预测模型是利用自监督学习的方式训练得到的。

一种可能的实现方式中,所述预测所述目标图像中目标用户的局部表观特征,包括:

利用卷积神经网络提取所述目标图像中所述目标用户的全局特征;

根据所述目标用户对应的遮挡区域的伪标签信息,确定所述目标用户对应的N个预设局部区域的权重;所述N为大于0的正整数;

利用所述N个预设局部区域的权重对所述全局特征进行分割,得到所述目标用户的局部表观特征。

一种可能的实现方式中,所述利用所述遮挡区域中所述目标用户的局部特征对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征,包括:

根据所述遮挡区域中所述目标用户的局部特征,采用超图建立所述目标用户的局部表观特征之间的时空相关性;

根据所述时空相关性,对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征。

一种可能的实现方式中,所述提取所述目标图像中目标用户对应的姿态帧的底层特征,并对所述姿态帧的底层特征进行时序聚合处理,得到所述目标用户对应的步态特征,包括:

利用卷积神经网络提取所述目标图像中所述目标用户的姿态帧的底层特征;

利用Transformer网络模型对所述姿态帧的底层特征之间的时序关系进行聚合处理,以确定所述目标用户对应的步态特征。

本申请实施例还提供了一种图像识别装置,包括:

获取单元,用于获取待识别的目标图像;所述目标图像中包含目标用户的图像;

第一预测单元,用于预测所述目标图像中目标用户的遮挡区域;并确定所述遮挡区域中所述目标用户的局部特征;

第二预测单元,用于预测所述目标图像中目标用户的局部表观特征;并利用所述遮挡区域中所述目标用户的局部特征对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征;

提取单元,用于提取所述目标图像中目标用户对应的姿态帧的底层特征,并对所述姿态帧的底层特征进行时序聚合处理,得到所述目标用户对应的步态特征;

识别单元,用于将所述聚合后的表观特征和所述步态特征进行融合处理,并根据处理结果,对所述目标图像中目标用户进行识别处理,得到识别结果。

一种可能的实现方式中,所述第一预测单元包括:

估计子单元,用于利用预设的姿态估计算法,估计出所述目标图像中目标用户的关键点信息;

编码子单元,用于对所述目标用户的关键点信息进行编码处理,得到所述目标用户对应的遮挡区域的伪标签信息;

预测子单元,用于将所述目标用户对应的遮挡区域的伪标签信息输入预先构建的局部遮挡预测模型,预测得到所述遮挡区域中所述目标用户的局部特征。

一种可能的实现方式中,所述预设的姿态估计算法为姿态估计开源算法OpenPose。

一种可能的实现方式中,所述局部遮挡预测模型是利用自监督学习的方式训练得到的。

一种可能的实现方式中,所述第二预测单元包括:

第一提取子单元,用于利用卷积神经网络提取所述目标图像中所述目标用户的全局特征;

确定子单元,用于根据所述目标用户对应的遮挡区域的伪标签信息,确定所述目标用户对应的N个预设局部区域的权重;所述N为大于0的正整数;

分割子单元,用于利用所述N个预设局部区域的权重对所述全局特征进行分割,得到所述目标用户的局部表观特征。

一种可能的实现方式中,所述第二预测单元包括:

建立子单元,用于根据所述遮挡区域中所述目标用户的局部特征,采用超图建立所述目标用户的局部表观特征之间的时空相关性;

第一聚合子单元,用于根据所述时空相关性,对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征。

一种可能的实现方式中,所述提取单元包括:

第二提取子单元,用于利用卷积神经网络提取所述目标图像中所述目标用户的姿态帧的底层特征;

第二聚合子单元,用于利用Transformer网络模型对所述姿态帧的底层特征之间的时序关系进行聚合处理,以确定所述目标用户对应的步态特征。

本申请实施例还提供了一种图像识别设备,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述图像识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述图像识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述图像识别方法中的任意一种实现方式。

本申请实施例提供的一种图像识别方法、装置、存储介质及设备,首先获取待识别的目标图像;其中,目标图像中包含目标用户的图像,然后预测目标图像中目标用户的遮挡区域;并确定遮挡区域中目标用户的局部特征;接着,预测目标图像中目标用户的局部表观特征;并利用遮挡区域中目标用户的局部特征与目标用户的局部表观特征进行时序聚合处理,得到目标用户对应的聚合后的表观特征,再提取目标图像中目标用户对应的姿态帧的底层特征,并对姿态帧的底层特征进行时序聚合处理,得到目标用户对应的步态特征;进而可以将聚合后的表观特征和步态特征进行融合处理,并根据处理结果,对目标图像中目标用户进行识别处理,得到识别结果。

可见,由于本申请在对目标图像进行人体特征提取时,充分考虑了人体局部被遮挡的问题,并在时间、空间域上对未遮挡的表观特征和步态特征进行自适应聚合,从而实现了端到端的行人表观特征和步态特征的提取,增强了从目标图像中提取的人体表观特征和步态特征的鲁棒性,进而能够根据人体特征数据得到更为准确的人体图像识别结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的流程示意图;

图2为本申请实施例提供的图像识别整体过程的示例图;

图3为本申请实施例提供的一种图像识别装置的组成示意图。

具体实施方式

图像监控通常是指通过图像来监控目标,其在电力、交通、金融、电信等行业已经得到了广泛的应用。由于该技术能够给特定区域的安全保障带来很大的便利性,备受人们的欢迎。与此同时,对图像监控的准确性也提出了更高的要求。其中,对于图像中人体特征的提取显得尤为重要。

目前在复杂的开放场景下,如在城市交通车水马龙的场景下,由于行人视频中存在各种遮挡、姿态变化及不同行人穿着相似等问题,提取有效的行人表观特征、步态特征等人体特征可以有效减轻前述问题的影响。大量研究表明,行人的姿态信息可以有效指导行人特征的提取。一方面,一些行人再识别方法借助姿态估计进行行人图像局部划分,利用局部特征代表行人表观特征。但是,这些方法基本均未考虑局部区域遮挡问题,导致行人局部特征间不能准确对齐,使得网络学习到的行人表观特征不准确。另一方面,步态特征也是一种有效的行人判别特征,现有的基于姿态的步态识别方法通常是采用简单的帧聚合方法来输出步态特征,也未能充分利用帧间时序关系,导致提取出的人体的表观特征和步态特征的鲁棒性均较低,进而导致人体特征的提取效果较差。

具体来讲,现有的图像中行人再识别的方法,通常是借助现有开源的姿态估计算法得到行人的关键点信息(生物信息)来划分和对齐行人局部区域,提取行人局部特征,虽然是提取鲁棒的行人表观特征的一种有效方法,可以很好地减轻上述问题的影响。但这些方法基本均直接利用划分得到的行人局部特征做匹配,忽略了行人可能被遮挡的问题,从而导致行人局部特征间不能准确对齐。另外,由于不同行人走路姿势各不相同,步态信息可以看作是一种特殊的行人姿态信息(行为信息)。利用该信息其实是可以有效解决因光照不足或者行人穿着相似场景下,基于表观信息的行人再识别方法失效问题的。而现有大多数基于姿态的步态识别方法中却仅仅采用简单的时序聚合方法来输出步态特征,没有充分建模时序关系,导致输出的步态特征缺乏判别性,进而导致人体特征的提取效果较差。

为解决上述缺陷,本申请提供了一种图像识别方法,首先获取待识别的目标图像;其中,目标图像中包含目标用户的图像,然后预测目标图像中目标用户的遮挡区域;并确定遮挡区域中目标用户的局部特征;接着,预测目标图像中目标用户的局部表观特征;并利用遮挡区域中目标用户的局部特征与目标用户的局部表观特征进行时序聚合处理,得到目标用户对应的聚合后的表观特征,再提取目标图像中目标用户对应的姿态帧的底层特征,并对姿态帧的底层特征进行时序聚合处理,得到目标用户对应的步态特征;进而可以将聚合后的表观特征和步态特征进行融合处理,并根据处理结果,对目标图像中目标用户进行识别处理,得到识别结果。

可见,由于本申请在对目标图像进行人体特征提取时,充分考虑了人体局部被遮挡的问题,并在时间、空间域上对未遮挡的表观特征和步态特征进行自适应聚合,从而实现了端到端的行人表观特征和步态特征的提取,增强了从目标图像中提取的人体表观特征和步态特征的鲁棒性,进而能够根据人体特征数据得到更为准确的人体图像识别结果。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

第一实施例

参见图1,为本实施例提供的一种图像识别方法的流程示意图,该方法包括以下步骤:

S101:获取待识别的目标图像;目标图像中包含目标用户的图像。

在本实施例中,将需要进行人物识别的任一图像定义为目标图像,并将目标图像中包含的待识别的用户定义为目标用户,需要说明的是,本实施例不限制目标图像的类型,比如,目标图像可以是由红(R)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等,例如可将图2最左侧所示的原图像作为目标图像。

可以理解的是,目标图像可以根据实际需要,通过拍照等方式获得,例如,人们行走在马路上利用手机拍摄的包含人物的图像、或者从视频流中截取的包含人物的图像等均可作为目标图像。进一步的,在获取到目标图像后,可以利用本实施例提供的方案对该目标图像进行识别,以提取出其中目标用户的人体特征,进而得到目标图像中目标用户的识别结果。

S102:预测目标图像中目标用户的遮挡区域;并确定遮挡区域中目标用户的局部特征。

在本实施例中,通过步骤S101获取到包含目标用户的目标图像后,为了能够更为准确的提取出图像中人体的特征数据,以根据人体特征数据得到更为准确的人体图像识别结果,进一步可以利用现有或未来出现的图像处理方法,对目标图像进行处理,以预测出目标图像中目标用户的遮挡区域;并确定遮挡区域中目标用户的局部特征,用以执行后续步骤S103。

具体来讲,一种可选的实现方式是,在获取到包含目标用户的目标图像后,首先可以利用预设的姿态估计算法,估计出目标图像中目标用户的关键点信息,然后,对估计出的目标用户的关键点信息进行编码处理,得到目标用户对应的遮挡区域的伪标签信息,用以表征预测出的遮挡区域位置,接着,可以将目标用户对应的遮挡区域的伪标签信息输入预先构建的局部遮挡预测模型,预测得到遮挡区域中目标用户的局部特征。

其中,预设的姿态估计算法的具体内容可根据实际情况进行选取,本申请对此不进行限定,比如可以将姿态估计开源算法OpenPose作为预设的姿态估计算法,用以估计出目标图像中目标用户的人体动作、面部表情、手指运动等姿态关键点信息,如图2所示。

需要说明的是,由于在实际应用中,遮挡无处不在。为了能够实现准确的用户局部对齐和匹配,预先识别出用户的遮挡区域是很有必要的。但是,用户的遮挡区域实际上是没有标签的,即,对于每一个目标图像而已,并不能确定出其包含的目标用户的哪些局部位置被遮挡,所以对于局部遮挡预测模型来说,是无法进行有监督训练来自动识别遮挡区域。因此,本申请提出猜的一种优选的实现方式是,采用自监督学习的方式,训练得到局部遮挡预测模型来自适应预测局部遮挡区域。其中,局部遮挡预测模型的具体构成不做限定,且其训练方式也与现有模型训练方式一致,在此不再赘述。

举例说明:如图2所示,以将图2中最左侧所示的原图像作为目标图像为例,其存在目标用户的遮挡情况,即目标用户的手部被遮挡,在对其进行识别时,如图2中间位置框图所示,可以先由姿态估计开源算法OpenPose估计出目标用户的关键点信息,然后通过建模帧特征之间的关系来学习遮挡区域的伪标签通过对其进行编码处理,以预测出目标用户的遮挡区域的得分,即为目标用户遮挡区域标注伪标签信息。接着,可以将此伪标签信息输入后续的局部遮挡预测模型,以预测并输出遮挡区域中目标用户的局部特征。

在本步骤中,最为重要的一点就是如何得到目标用户对应的遮挡区域的伪标签信息。具体的,在实际应用中,遮挡物在视频图像中通常是非连续性出现。因此,可以利用不同帧之间的信息关系,来学习遮挡部分的伪标签信息。以第i帧的第p部分的特征f

其中,Ψ(·)表示相似度计算功能;

S103:预测目标图像中目标用户的局部表观特征;并利用遮挡区域中目标用户的局部特征对目标用户的局部表观特征进行时序聚合处理,得到目标用户对应的聚合后的表观特征。

在本实施例中,通过步骤S101获取到包含目标用户的目标图像,以及通过步骤S102确定出遮挡区域中目标用户的局部特征后,为了能够更为准确的提取出图像中人体的特征数据,以根据人体特征数据得到更为准确的人体图像识别结果,进一步的,可以先利用现有或未来出现的表观特征提取方法,预测出目标图像中目标用户的局部表观特征;然后再利用遮挡区域中目标用户的局部特征与预测出的目标用户的局部表观特征进行时序聚合处理,得到目标用户对应的聚合后的表观特征,用以执行后续步骤S105。

需要说明的而是,考虑到序列中各帧之间可以实现信息互补,即相同的目标用户局部特征可能在一些帧中被遮挡,但是在另一些帧中可能重新出现。由此,本申请是通过建模帧特征之间的关系的方式,根据序列帧中其他帧对应当前帧遮挡区域的目标用户局部表观特征,并将其特征与目标用户局部表观特征相乘,来实现填补遮挡区域特征的作用。

具体来讲,一种可选的实现方式是,首先可以利用卷积神经网络提取目标图像中目标用户的全局特征,得到大小为T×C×H×W的特征图(如图2上方所示的“图像特征”),其中,T表示特征图的幅度,C表示特征图的通道数;H表示特征图的高度,W表示特征图的宽度;然后可以根据通过步骤S102得到的目标用户对应的遮挡区域的伪标签信息,对特征图中目标用户对应的N个预设局部区域赋予权重,再利用这N个预设局部区域的权重对目标用户的全局特征(即特征图)进行分割,从而得到目标用户的局部表观特征,如图2所示的“分块后的特征”。

其中,N表示目标用户特征图预先被划分的区域块数,具体划分方式和数量不做限定,比如可以将特征图沿着水平或者竖直方向进行三等分,则N=3,或者,也可以将特征图按照井字格的形式进行九等分,则N=9。

需要说明的是,在实际应用中,为了减轻局部遮挡对目标用户人体特征提取结果的影响,本申请将剔除原目标图像中目标用户被遮挡区域的特征,并利用通过上述步骤S102确定出的遮挡区域中目标用户的局部特征对其进行替换,以补充遮挡区域的特征。之后,再通过局部时序聚合的处理方式,得到目标用户对应的聚合后的表观特征。

具体来讲,在确定出目标图像中每一帧的目标用户的局部表观特征后,需要对不同帧的局部表观特征进行时序聚合处理,从而才能输出视频级表观特征。对此,本申请是通过学习不同部分特征之间的相关性,来聚合帧的局部特征。并且,为了生成可靠的表观特征,本申请同时考虑了各个特征间的空间和时间相关性,提出采用超图(Hypergraphs)来建立目标用户的局部表观特征帧间相关性和帧内相关性。再根据该相关性,对目标用户的局部表观特征进行时序聚合处理,得到目标用户对应的聚合后的表观特征。

其中,超图是允许节点通过图中的消息传递与其邻居进行通信的。与标准图模型相比,超图可以对涉及多个节点的高阶相关性进行建模,适合序列中局部特征的相关性建模。由此,本申请提出构建超图G=(V,ε)来捕获时空依赖关系,其中,V表示顶点,ε表示超边。将p个局部特征f

其中,N

对于节点f

/>

通过计算超边与节点f

n

其中,D(·)表示相似度度量;获得超边信息后,将节点特征和超边特征进行级联,再利用一个全连接层即可更新节点特征f

h

S104:提取目标图像中目标用户对应的姿态帧的底层特征,并对姿态帧的底层特征进行时序聚合处理,得到目标用户对应的步态特征。

在本实施例中,通过步骤S101获取到包含目标用户的目标图像后,进一步可以利用现有或未来出现的特征提取方法,提取出目标图像中目标用户对应的姿态帧的底层特征(如图2下方方框中所示的“姿态特征”),并对姿态帧的底层特征进行时序聚合处理,以得到目标用户对应的步态特征,如图2所示,用以执行后续步骤S105。

具体来讲,由于基于姿态的步态识别对用户的服装变化和携带物遮挡具有很好的鲁棒性。所以,一种可选的实现方式是,首先可以将目标用户的姿态视为一组序列,然后利用卷积神经网络提取目标图像中目标用户的姿态帧的底层特征;接着,可以基于Transformer网络模型在建立视觉要素之间关系方面的强大优势,利用Transformer网络模型对姿态帧的底层特征之间的时序关系进行聚合处理,以确定出目标用户对应的鲁棒的步态特征。

其中,需要说明的是,本申请之所以优选采用Transformer网络模型进行聚合操作,是因为Transformer网络模型可以很好的处理序列型数据,可以充分挖掘数据间的关系。相比于循环神经网络(Recurrent Neural Network,RNN)或长短期记忆网络(LongShort-Term Memory,LSTM)等,Transformer网络模型也有效避免了递归运算,允许并行计算,从而减少了训练时间、降低了计算量,也减轻了由于长期依赖性导致性能下降问题的影响。因此,本申请优选采用Transformer网络模型来实现姿态帧之间的交互,以充分利用姿态帧间的时序关系,输出目标用户对应的鲁棒的步态特征。

S105:将聚合后的表观特征和步态特征进行融合处理,并根据处理结果,对目标图像中目标用户进行识别处理,得到识别结果。

在本实施例中,通过步骤S103得到目标用户对应的聚合后的表观特征,以及通过步骤S104得到目标用户对应的步态特征后,进一步可以利用现有或未来出现的特征融合方法,将聚合后的表观特征和步态特征进行融合处理,得到处理结果(即融合后的特征),并保障该处理结果对于各种情况均具备鲁棒性。其融合后的特征将可在众多序列帧中完成对应目标查找的任务,如实现对目标图像中目标用户的识别查找处理,得到识别结果。

综上,本实施例提供的一种图像识别方法,首先获取待识别的目标图像;其中,目标图像中包含目标用户的图像,然后预测目标图像中目标用户的遮挡区域;并确定遮挡区域中目标用户的局部特征;接着,预测目标图像中目标用户的局部表观特征;并利用遮挡区域中目标用户的局部特征与目标用户的局部表观特征进行时序聚合处理,得到目标用户对应的聚合后的表观特征,再提取目标图像中目标用户对应的姿态帧的底层特征,并对姿态帧的底层特征进行时序聚合处理,得到目标用户对应的步态特征;进而可以将聚合后的表观特征和步态特征进行融合处理,并根据处理结果,对目标图像中目标用户进行识别处理,得到识别结果。

可见,由于本申请在对目标图像进行人体特征提取时,充分考虑了人体局部被遮挡的问题,并在时间、空间域上对未遮挡的表观特征和步态特征进行自适应聚合,从而实现了端到端的行人表观特征和步态特征的提取,增强了从目标图像中提取的人体表观特征和步态特征的鲁棒性,进而能够根据人体特征数据得到更为准确的人体图像识别结果。

第二实施例

本实施例将对一种图像识别装置进行介绍,相关内容请参见上述方法实施例。

参见图3,为本实施例提供的一种图像识别装置的组成示意图,该装置300包括:

获取单元301,用于获取待识别的目标图像;所述目标图像中包含目标用户的图像;

第一预测单元302,用于预测所述目标图像中目标用户的遮挡区域;并确定所述遮挡区域中所述目标用户的局部特征;

第二预测单元303,用于预测所述目标图像中目标用户的局部表观特征;并利用所述遮挡区域中所述目标用户的局部特征对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征;

提取单元304,用于提取所述目标图像中目标用户对应的姿态帧的底层特征,并对所述姿态帧的底层特征进行时序聚合处理,得到所述目标用户对应的步态特征;

识别单元305,用于将所述聚合后的表观特征和所述步态特征进行融合处理,并根据处理结果,对所述目标图像中目标用户进行识别处理,得到识别结果。

在本实施例的一种实现方式中,所述第一预测单元302包括:

估计子单元,用于利用预设的姿态估计算法,估计出所述目标图像中目标用户的关键点信息;

编码子单元,用于对所述目标用户的关键点信息进行编码处理,得到所述目标用户对应的遮挡区域的伪标签信息;

预测子单元,用于将所述目标用户对应的遮挡区域的伪标签信息输入预先构建的局部遮挡预测模型,预测得到所述遮挡区域中所述目标用户的局部特征。

在本实施例的一种实现方式中,所述预设的姿态估计算法为姿态估计开源算法OpenPose。

在本实施例的一种实现方式中,所述局部遮挡预测模型是利用自监督学习的方式训练得到的。

在本实施例的一种实现方式中,所述第二预测单元303包括:

第一提取子单元,用于利用卷积神经网络提取所述目标图像中所述目标用户的全局特征;

确定子单元,用于根据所述目标用户对应的遮挡区域的伪标签信息,确定所述目标用户对应的N个预设局部区域的权重;所述N为大于0的正整数;

分割子单元,用于利用所述N个预设局部区域的权重对所述全局特征进行分割,得到所述目标用户的局部表观特征。

在本实施例的一种实现方式中,所述第二预测单元303包括:

建立子单元,用于根据所述遮挡区域中所述目标用户的局部特征,采用超图建立所述目标用户的局部表观特征之间的时空相关性;

第一聚合子单元,用于根据所述时空相关性,对所述目标用户的局部表观特征进行时序聚合处理,得到所述目标用户对应的聚合后的表观特征。

在本实施例的一种实现方式中,所述提取单元304包括:

第二提取子单元,用于利用卷积神经网络提取所述目标图像中所述目标用户的姿态帧的底层特征;

第二聚合子单元,用于利用Transformer网络模型对所述姿态帧的底层特征之间的时序关系进行聚合处理,以确定所述目标用户对应的步态特征。

进一步地,本申请实施例还提供了一种图像识别设备,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述图像识别方法的任一种实现方法。

进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述图像识别方法的任一种实现方法。

进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述图像识别方法的任一种实现方法。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 医学图像的病灶定位识别方法、装置、设备及存储介质
  • 图像中文本的识别方法及装置、电子设备、存储介质
  • 一种图像识别方法、装置以及存储介质
  • 一种图像识别方法、装置和存储介质
  • 一种渐进式图像识别方法、装置、系统及存储介质
  • 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质
  • 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质
技术分类

06120115938869