掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及图像处理领域,具体的说是一种改进YOLOv5的多人姿态估计修正算法。

背景技术

目前,人体姿态估计作为计算机视觉领域的重点方向之一,广泛应用在人机交互、传感器以及商业等领域。二维人体姿态估计的目的是检测人物部位关键点并有序连接。传统算法基于图结构模型进行人体姿态预测,但预测精度不准且预测速度较慢,因此将基于深度学习的目标检测算法应用到人体姿态预测中。目前主要分为双阶段目标检测算法(如Mask-RCNN,Fast-RCNN等)和单阶段目标检测算法(如YOLO等)。

双阶段目标检测算法需要对输入的图象提取候选区域,并将每个候选区域调整为固定大小后输入到卷积神经网络中,再将得到的结果输入到分类器中进行类别判定。Girshick等人提出使用Fast-RCNN进行人体姿态预测,该方法能够对无遮挡的单个人物进行精准预测,但对于人物密度较高或关键部位遮挡等问题,存在关键点预测混乱及忽略被遮挡人物的预测等现象,致使预测精度降低。

单阶段目标检测算法直接产生目标的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果。Cao等人引入了一种将身体部位彼此关联以形成完整的人体姿势的表示方法来编码人体四肢的方向,称为部件关联场(Part Association Field,PAF),通过热图共同学习关键点位置和部分亲和字段,从而实现对人体姿态的自底向上的解析。Newell等人通过预测关联嵌入标签和关键点用热图来进行单阶段多人姿势估计,并将具有相似标签值的关键点分组为一个姿势。Nieet等人引入了一种新的表示形式,称为结构化姿态表示(SPR),为每个人设定一个根关键点,并通过位移映射对剩余关键点的相对位置进行编码。Kreisset等人扩展了PAF的概念,提出用来定位身体部位的部件强度场(PartIntensity Field,PIF),并将PIF和PAF混合使用形成复合场。通过加入尺度相关的拉普拉斯L1损失,他们的方法在低分辨率图像上优于以前的方法。Cheng等人用HigherHRNet解决了单阶段人体姿势估计中的尺度变化问题,该网络在训练期间使用高分辨率特征金字塔,并在推断期间使用多分辨率热图聚合。

以上方法分别从不同角度提高了人体姿态估计的精度,但预测高密度人群中的小尺度目标仍缺少有效方法。

发明内容

为了提高高密度人群中小尺度目标的姿态预测精度,本发明提出了改进YOLOv5的多人姿态估计修正算法。该方法通过在YOLOv5的骨干网络中,融入跳跃注意力模块,而后再颈部网络中利用加权双向特征金字塔并联合使用跳跃注意力模块与Transformer编码器,在检测部分增加检测头,使网络对微小目标更加敏感,最后,利用网络预测得到关键点对象信息并对其修整,得到最终多人姿态估计结果,解决高密度人群中小尺度目标的姿态预测的技术问题。

本发明解决技术问题所采用的方案是:

首先,在YOLOv5的骨干网络中,融入跳跃注意力模块,帮助网络在图像中找到感兴趣区域;其次,在颈部网络中,利用加权双向特征金字塔提高网络对不同尺度特征图间的特征融合能力,并联合使用跳跃注意力模块与Transformer编码器,使网络获取全局信息和丰富的上下文信息;再次,在检测部分增加一个检测头,使网络对微小目标更加敏感;最后,利用网络预测得到的关键点对象信息修正姿态对象信息得到最终的多人姿态估计结果。

进一步地,在骨干网络(Backbone)部分引入跳跃注意力机制(Jump AttentionMechanism,JAM),提高网络模型对重要特征信息的敏感度同时弱化对无用特征的关注度。

进一步地,在颈部网络(Neck)部分,利用加权双向特征金字塔网络(Bidirectional Feature Pyramid Network,BiFPN)替换路径聚合网络(Path-Aggregation Network,PANet)。在特征融合期间为每个输入增加一个额外的权重,有利于网络对不同尺度特征的学习。同时联合使用跳跃注意力机制(JAM)与Transformer编码器,捕获全局和上下文信息,提高网络模型的特征融合能力。

进一步地,在检测头(Head)部分,增加一个由底层且高分辨率的特征生成的检测头,提高网络模型对小尺度目标的包容性。

最后,预测人体姿态对象及每个关键点对象,利用获取到的关键点对象信息修正姿态对象信息,提高网络对人体姿态的预测精度。

积极效果,由于本发明在YOLOv5的骨干网络添加JAM,提高网络对兴趣区域的特征提取能力,抵抗混淆信息,聚焦于有用的目标对象;其次利用BiFPN替换颈部网络的PANet,加强网络特征融合能力,同时联合Transformer与JAM,使网络更加关注全局信息;再增添一个高分辨率的小目标检测检测头,使网络更加关注小尺度目标;最后结合关键点信息对姿态信息进行修正,得到最终预测结果。综上所述,利用本申请所述方法能够获得更高小小尺度目标的识别精度,本发明较YOLOv5在COCO数据集上AP50提高2.2%,AP75提高3.3%,验证了本发明的精确性和鲁棒性。适宜作为高密度人群中小尺度目标的姿态预测精度方法应用。

附图说明

图1为本发明架构示意图;

图2为本发明改进YOLOv5网络结构图;

图3为本发明跳跃注意力机制结构示意图;

图4为Transformer编码结构示意图;

图5为PANet与BiFPN网络结构图;

图6为利用本发明所述方法在COCO数据集上的可视化实验对比结果;

图7为利用本发明所述方法构建模型在拥挤场景下的人体姿态估计定性结果;

图8为利用本发明所述方法构建模型在COCO数据集上预测姿态对象的定性结果;

图9为利用本发明所述方法构建模型在COCO数据集上预测关键点对象的定性结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明中,在不矛盾或冲突的情况下,本发明的所有实施例、实施方式以及特征可以相互组合。在本发明中,常规的设备、装置、部件等,既可以商购,也可以根据本发明公开的内容自制。在本发明中,为了突出本发明的重点,对一些常规的操作和设备、装置、部件进行的省略,或仅作简单描述。

首先,在YOLOv5的骨干网络中,融入跳跃注意力模块,帮助网络在图像中找到感兴趣区域;

在骨干网络(Backbone)部分引入跳跃注意力机制(Jump Attention Mechanism,JAM),提高网络模型对重要特征信息的敏感度同时弱化对无用特征的关注度。

参阅说明书附图2,将图片输入到YOLO检测器,初步获取关键点信息和姿态信息,但由于检测到的锚框较多,利用NMS算法进行锚框筛选,得到候选的姿态对象和关键点对象,再利用候选关键点对象修正候选姿态对象,得到最终人体姿态估计结果。

参阅说明书附图3,注意力机制是一种增强图像特征的通用模块,使网络模型更加关注图像中的重要特征同时弱化次要特征。传统的注意力机制从通道和空间两个层面处理图像特征,但忽略了输入特征与输出特征间的直接联系。因此,为了最大限度利用特征图的各通道信息以及不同空间位置信息,本发明利用跳跃注意力机制作为网络在图像中找到感兴趣区域的方法,如图3中(a)所示,该方法分为跳跃通道注意力机制(Jump ChannelAttention Mechanism,JCAM)和跳跃空间注意力机制(Jump Spatial AttentionMechanism,JSAM)两个部分,分别如图3中(b)、(c)所示。跳跃通道注意力机制(JCAM)主要关注检测的内容,跳跃空间注意力机制(JSAM)主要关注检测目标的位置。对于给定的特征图,会沿着通道和空间两个独立的维度依次推导出注意图,然后将注意图与输入特征图相乘,进行自适应特征细化。

输入到跳跃注意力机制(JAM)模块的特征图C首先会经过跳跃通道注意力机制(JCAM)模块,该模块主要关注特征的通道层面。各特征通道由不同的卷积核产生,因此对网络模型的贡献度各不相同,但网络模型仍均等的获取各通路的特征信息,使包含重要特征信息的通道不能突出。因此本申请使用跳跃通道注意力机制(JCAM)依据特征通道包含特征信息的多少重新分配权重,使网络有针对性地关注重要特征,同时弱化次要特征。

跳跃通道注意力机制(JCAM)的具体操作为:对特征图C进行平均池化与最大池化处理,分别生成两个不同的上下文特征描述符,以此聚合特征映射信息。将上述描述符分别输入到由两个全连接层构成的多层感知机中,对通道注意力权重进行重分配,分别得到中间特征C

C

C

C

其中,MaxPool表示对特征图C进行最大池化操作,AvgPool表示对特征图进行平均池化操作。MLP为多层感知机,σ为Sigmoid函数。

在考虑完通道层面后,将通道兴趣特征图C

跳跃空间注意力机制(JSAM)的具体操作为:将不同通道在同一平面空间点上的值进行最大池化和平均池化操作后,将两个特征图拼接从而获得信息丰富的特征描述符,采用大小为7×7的卷积核进行卷积操作,通过Sigmoid函数进行归一化得到兴趣特征图,利用跳跃连接将兴趣特征图与通道兴趣特征图C

C

其次,在颈部网络中,利用加权双向特征金字塔提高网络对不同尺度特征图间的特征融合能力,并联合使用跳跃注意力模块与Transformer编码器,使网络获取全局信息和丰富的上下文信息;

在颈部网络(Neck)部分,利用加权双向特征金字塔网络(Bidirectional FeaturePyramid Network,BiFPN)替换路径聚合网络(Path-Aggregation Network,PANet)。在特征融合期间为每个输入增加一个额外的权重,有利于网络对不同尺度特征的学习。同时联合使用JAM与Transformer编码器,捕获全局和上下文信息,提高网络模型的特征融合能力。

其中,所述Transformer编码器,YOLOv5的骨干网络对于全局信息的获取能力较弱,因此本申请利用Transformer编码器块替换了其中的一些卷积块和CSP瓶颈块,使网络能够捕获全局信息和丰富的上下文信息,进而补充由卷积所导致的缺失的全局信息,提高网络对小尺度目标的检测能力。参阅说明书附图4,Transformer编码器主要由输入模块,编码模块和输出模块构成。该模块首先通过位置编码(Positional Encoding,PE)操作量化特征间的相对位置关系,采用正弦函数计算位于偶数位置的特征,采用余弦函数计算位于奇数位置的特征,得到编码模块的输入X

编码模块由多个编码层组成,每个子层中包含多头注意力(Multi-headAttention,MHA)与前馈神经网络(Feed-forward Network,FFN),子层间以残差的方式进行连接。该模块下的多头注意力可以帮助当前节点获得上下文语义信息,关注全局感受野下的不同区域,使网络关注目标区域并获取有效特征。考虑到该过程可能对复杂情况的拟合度不够,采用前馈神经网络提高模型的拟合能力。其中注意力机制(Attention)作为该模块的核心部分,是依据给定的查询矩阵Q∈R

多头注意力(MHA)是利用可学习的n组线性变换将查询、键和值投影到不同的子空间,并行完成n个操作后将n个注意力的输出进行拼接,与线性变换矩阵W

MHA(Q,K,V)=Concat(head

其中,W

采用残差连接将初始结果与编码模块子层的输出结果叠加后进行分层归一化处理。防止模型因网络层数的加深而导致过拟合现象,采用Dropout层处理编码模块,有助于网络更好地收敛,获得最终输出,具体操作如下:

X

FFN(x)=max(0,xW

X

其中,FFN为前向反馈计算,LayerNorm为分层归一化操作,X

其中,所述加权双向特征金字塔网络(BiFPN),YOLOv5的颈部网络采用PANet,虽然该网络能够将高层的语义信息通过下采样的方式进行传递,但是不用尺度的特征信息在特征融合过程中的贡献不同。因此,本申请选用加权双向特征金字塔网络(BiFPN)替换PANet,网络结构如图5所示。采用快速归一化融合方法将富含语义的高层特征和具有高分辨率信息的低层特征进行加权融合,以便学习不同输入特征的重要性,快速归一化融合方法的计算如下:

其中O为快速归一化融合结果,w

加权双向特征金字塔网络的输出包含了粗粒度特征和细粒度特征,在训练的过程中网络能够自主为互异的融合特征分配对应权重,以此提高网络的表征能力并提高精度。

再次,对检测部分进行改进,在检测部分增加增加一个由底层且高分辨率的特征生成的检测头,提高网络模型对小尺度目标的包容性,使网络对微小目标更加敏感。

YOLOv5的检测部分主要依赖于检测头,检测头的主要作用是用于检测特征图中目标对象的位置和类别,不同尺度的检测头检测到的图象特征也各不相同。YOLOv5通常使用3个检测头对3种不同尺度的图象进行检测,分别为20×20,40×40,80×80。对应的感受野为32×32,16×16,8×8。

但在真实场景下的目标人物在图象中的占比受摄像距离以及人群密集程度等因素影响,当摄像位置与检测目标较远或人群站位密集时,检测目标在图像中所占据的像素点个数也会因此减少,当超出感受野的范围时,检测结果就会受到干扰。

因此,本申请在保留原有三个检测头的基础上增加一个160×160的检测头,将感受野缩小至4×4,使网络获取多种不同尺度的输出网格。其中尺度较小的网格感受野较大,用于检测较大的目标;尺度较大的网格感受野较小,用于检测较小的目标。通过对以上不同尺度图像进行预测,可以获得以人物关键点为主体的关键点对象和以人物整体为主体的姿态对象。

由于目标的预测结果过多,因此依据目标姿态IOU阈值τ

O

O

最后,预测人体姿态对象及每个关键点对象,利用获取到的关键点对象信息修正姿态对象信息,提高网络对人体姿态的预测精度,得到最终的多人姿态估计结果。

其中,所述修正算法Amend,关键点对象专门用于检测具有强局部特征的单个关键点。在人类姿态估计中常见的关键点包括肘关节和膝关节等。传统的人体姿态估计是以自底向上的方式对检测到的关键点进行连接。然而,关键点对象不携带关于人物或姿势的信息,它存在于一个姿态对象的子空间中,而姿态对象更适合于具有弱局部特征的关键点,因为它们使网络能够学习一组关键点之间的空间关系。

因此本申请提出修正算法Amend,利用候选关键点对象O

(1)将姿态对象和姿态置信度初始化为0。

(2)遍历候选姿态对象O

(3)遍历每个姿态对象的关键点并获取坐标。

(4)将姿态对象置信度>置信度公差的姿态对象保存至P′中。

(5)当P′和候选关键点对象O

(6)遍历候选关键点对象O

(7)计算姿态对象中的关键点与关键点对象间的欧氏距离,同时获取距离最小下标。

(8)若最小距离<距离公差,且姿态对象的置信度<关键点对象的置信度,则将姿态对象对应的坐标和置信度替换为关键点对应的坐标和置信度。

(9)连接最终确定的关键点坐标,获得修正后的多人姿态估计结果。

应用本申请所述方法进行实验,实验过程及结果:

1.数据集及评价指标:

实验选用COCO数据集,该数据集为用于多人姿态估计的大数据集,训练集包含有118000张图像,验证集包含5000张图像,测试集由20000张图像组成。

评价指标采用不同的平均精确度衡量模型的检测能力,其中AP

其中,TP为检测器输出的结果中正确的个数,FP为检测器输出的结果中错误的个数,FN为真实值中未被找出的个数。AP为P-R曲线与坐标轴围成的面积,面积大小与模型的性能呈正相关。

2.实验设置

输入图像的尺寸转化为640×640,批量大小设置为8,进行300轮训练。使用Adam优化器,初始学习率为0.0001。训练过程中使用马赛克操作、HSV颜色空间扰动、水平翻转、平移和缩放等方式进行数据扩充。单幅图像的损失L计算如下:

L=N

其中,L

3.COCO数据集上的实验结果

为验证本申请所述方法的性能,与近年来人体姿态估计方法分别进行定性和定量实验对比,结果如表1和图6所示。

由表1的定量实验结果可知,本申请所提出的方法在COCO数据集中虽然准确率AP的值较HigherHRNet-W48方法有所下降,但在AP

由实验数据与预测结果可见,本申请所述方法通过使用跳跃注意力机制有效提取图像中的人物特征;利用联合JAM与Transformer编码器的BiFPN网络促进多尺度特征融合;小目标检测头使网络更关注小尺度目标;修正算法提高了人体姿态的预测精度。

表1:在COCO数据集上的实验对比结果

参阅说明书附图6,图6给出了一组在COCO数据集中的可视化实验对比结果,其中图6(a-c)分别表示原始图像、HigherHRNet方法和FCpose方法预测结果,图6(Ours)为本文预测结果。较粗(红色)边框为存在预测错误或预测不完整的问题。由图可见,在第一行图像中,左边及中间人物存在物体遮挡问题,造成了人物关键部分特征丢失,与HigherHRnet与FCpose方法相比,利用本申请所述方法较为准确地完成了人体姿态估计;第二行图像中,人物在拥挤场景下较为集中,局部区域较为相似且小目标较多,利用本申请所述方法能够更好地完成多人姿态估计。第三行图像中人物服饰颜色相同,存在局部遮挡,利用本申请所述方法能够较好地排除干扰,具有较高的鲁棒性。第四行图像中,中间人物的重叠率较高,与其他方法相比,利用本申请所述方法对人体姿态的估计精度更高。

参阅说明书附图7-9,为了验证本申请所述方法能够对于人群密集场景下的目标人物实现鲁棒性的人体姿态估计,给出一组在拥挤场景下的预测过程。图7为本申请所述方法模型在COCO数据集上进行人体姿态估计的定性结果。图8、图9为本申请所述方法在COCO数据集上的人体姿态估计过程。实验结果表明,即使在检测目标较多的情况下,本申请所述方法依旧能使网络关注到小尺度目标人物,验证了模型的高鲁棒性。

4.消融实验

为了验证各模块有效性,本申请在原模型的基础上添加各模块进行验证,实验结果如表2所示。

表2:消融实验结果

在YOLOv5的主干网络中颈部添加JAM,AP

综上,本申请提出的改进YOLOv5的多人姿态估计修正算法,首先在YOLOv5的骨干网络添加JAM,提高网络对兴趣区域的特征提取能力,抵抗混淆信息,聚焦于有用的目标对象;其次利用BiFPN替换颈部网络的PANet,加强网络特征融合能力,同时联合Transformer与JAM,使网络更加关注全局信息;再增添一个高分辨率的小目标检测检测头,使网络更加关注小尺度目标;最后结合关键点信息对姿态信息进行修正,得到最终预测结果。在COCO数据集上的实验表明,与其它方法相比,本申请所述方法能够获得更高的精度,消融实验结果验证了本申请所述方法给出各模块的有效性。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116571317