掌桥专利:专业的专利平台
掌桥专利
首页

一种增强解析能力的人体解析模型构建方法

文献发布时间:2024-04-18 20:02:18


一种增强解析能力的人体解析模型构建方法

技术领域

本发明属于人体图像处理技术领域,尤其涉及一种增强解析能力的人体解析模型构建方法。

背景技术

人体图像解析旨在对人体图像进行逐像素识别,理解图像中人体各个部分的语义,广泛应用于行人重识别、视频监控和人物动作分析。人体图像解析是一项细粒度的解析任务,其精确程度直接影响了其应用性。

人体部位信息对解析至关重要,合理地利用人体结构能够加强对人体部位的识别。Gong等提出自监督敏感结构的学习方法,从全局上下文的角度整合人体关节的结构信息,实现了人体解析。然而在如今的人体解析方法中,基于深度学习的方法在高效性和准确性方面有着更好的效果。基于深度学习的语义分割方法包括全卷积网络(FCN)、U-Net、PSPNet、SegNet和DeepLab等。与传统的图像分割方法相比,这些方法能够利用深度学习技术提取图像的高级语义信息,从而显著提高图片的分割精度。全卷积神经网络(FCN)是一种具有代表性的网络结构,其特点是在图像的分辨率和语义信息之间进行了巧妙的权衡,通过端到端的训练方式,更好地捕捉到图像中的空间信息以及上下文信息,进而实现高精度的语义分割。

对于人体解析这一图像分割的方向,人体实例分割解析中包含单阶段的实例分割方法,该方法的工作受到单阶段目标检测研究的启发,因此,存在两种主要思路;一种是基于锚点框单阶段检测模型,如YOLO、RetinaNet等,其代表作包括YOLACT和SOLO。另一种是基于无锚框检测模型的思路,如FCOS等,其代表方法有polarMask和AdaptIS等。

根据上述研究,对于实例级人体解析网络,大多的解析都是基于对人体的检测基础上进行的,没有做到真正的检测和解析同时进行;并且在增强人体解析特征的注意力机制融合上下文信息方面,没有提出对人体解析任务效果有提升的方案。

发明内容

针对现有技术的不足,本发明提供了一种增强解析能力的人体解析模型构建方法,构建的模型解决了单阶段人体解析算法中无法充分获取人体目标上下文信息及其注意力机制融合特征的问题,提高了人体解析模型算法的准确性。

为了达到上述目的,本发明的技术方案是:

一种增强解析能力的人体解析模型构建方法,包括以下步骤:

步骤1)构建人体图像解析网络模型;所述网络模型包括骨干网络、颈部网络和头部网络,其中,骨干网络是模型的特征提取部分,用于从输入图像中提取高层次、语义丰富的特征;颈部网络是介于骨干网络和头部网络之间的中间层,用于在骨干网络提取的特征基础上进行特征融合、上下文增强;头部网络是模型的输出部分,用于负责最终的预测和分割任务;

步骤2)通过计算特征图的注意力和对特征图进行上下文信息融合激活操作,将注意力机制计算得到的新特征图和上下文增强计算得到的新特征图通过堆叠的操作融合在一起,得到注意力融合上下文信息模块,并将注意力融合上下文信息模块加入到颈部网络中;其中,注意力机制为三重注意力机制,其三重注意力分别由上部分支、中部分支和下部分支组成;

步骤3)在颈部网络中采用轻量级的通用上采样算子CARAFE,完成人体解析模型的构建;

步骤4)对构建的人体解析模型进行训练,更新模型中骨干网络、颈部网络和头部网络的权重系数,得到最佳权重系数的人体解析模型。

优选的,所述骨干网络由深度卷积神经网络(CNN)组成;所述颈部网络包括卷积层、池化层和注意力机制;所述头部网络是由分割网络和检测网络结合而成,其又被称为检测分割头。

优选的,所述骨干网络设置的层数为50层,且使用残差网络结构来避免训练时梯度爆炸和参数冗余情况;设置输入图片尺寸为640*640,且特征提取通道数通过设置卷积核逐层增加。

优选的,所述网络模型采用的数据集是Active Template Regression-ATR数据集,其中包含了数据集为单人场景人体解析数据集。

优选的,所述特征融合用于将不同层之间的特征图通过上采样或下采样的方法整合到同一大小,融合成一个特征图;所述上下文增强是用于在同一特征图中将不同位置的特征信息通过融合激活操作增强其特征表现。

优选的,所述三重注意力不同的分支负责捕获空间维度H或W与通道维度C之间的交互特征;其中,上部分支负责计算通道维度C和空间维度W的注意力权重;中部分支负责计算通道维度C与空间维度H之间的注意力权重;下部分支用于捕获空间维度C和W之间的依赖性。

优选的,所述上下文信息融合激活分为上下文信息融合操作和上下文信息激活两部分;

其中,上下文信息融合操作方式为:在输入特征图大小为C×H×W保持通道数C不变的前提下,对H×W尺度大小分别进行4倍、8倍和16倍的下采样操作,将H和W的尺度缩小到原始尺度的1/4,1/8和1/16;

上下文信息激活操作方式为:对原始输入特征图进行3×3大小的卷积操作,使卷积操作后的特征图大小与原始输入特征图C×H×W大小一致,以通过此操作保留一定的原特征图信息;将三个下采样尺度的输出特征图通过上采样的操作把H和W这两个方向的大小恢复到原始大小,再与卷积操作所输出的特征图排列聚合到一起;运用卷积的操作将所有输出特征图聚合的部分恢复到与原始输入特征图相同的大小C×H×W。

优选的,所述上采样算子CARAFE首先利用输入特征图来预测上采样核,然后基于预测的上采样核来进行特征上采样。

优选的,对人体解析模型进行训练包括以下步骤:

41)将调整好标签的数据集准备好,并且设置数据集输入模型时的训练批次Batch-size;

42)对模型中需要的权重系数进行初始化,将训练数据及其标签按批次送入模型中进行前向传播得到预测值和真实值的误差,即损失值Loss;

43)采用随机梯度下降SGD的方法根据得到的损失值Loss来更新模型中骨干网络、颈部网络和头部网络的权重系数,使模型收敛从而达到最佳性能;

44)将验证集的图片和标签输入模型进行多次验证,并计算和记录模型多次验证在验证集上的评价指标mAP0.5值,将mAP0.5值最高的一个,作为最佳权重系数。

本发明的技术效果和优点:

本发明提供的基于一种增强解析能力的人体解析模型构建方法,通过构建的骨干网络,从而可从人体解析数据集中对人体图片进行深度特征提取;通过构建的颈部网络,可根据注意力机制对于实例分割任务提升性能,以及上下文特征融合对于人体解析性能的提升的特点,通过将注意力机制与特征图上下文信息融合操作,提高了人体解析的准确度和可靠性,并且在颈部网络中采取保存更多细节特征的上采样操作提升了模型的性能,实现更深度的特征图信息融合,进一步增强了网络人体部位解析的能力。

附图说明

图1是本发明的人体解析模型构建流程框图;

图2是本发明的三重注意力机制结构示意图;

图3是本发明的注意力机制融合上下文信息模块的结构示意图;

图4是本发明的CARAFE上采样算子结构示意图;

图5是采用本发明进行人体解析的流程图。

具体实施方式

以下结合附图给出的实施例对本发明作进一步详细的说明。

参见图1所示,一种增强解析能力的人体解析模型构建方法,包括以下步骤:

步骤1)构建人体图像解析网络模型;所述网络模型包括骨干网络、颈部网络和头部网络,其中,骨干网络是模型的特征提取部分,用于从输入图像中提取高层次、语义丰富的特征;颈部网络是介于骨干网络和头部网络之间的中间层,用于在骨干网络提取的特征基础上进行特征融合、上下文增强;头部网络是模型的输出部分,用于负责最终的预测和分割任务;

步骤2)通过计算特征图的注意力和对特征图进行上下文信息融合激活操作,将注意力机制计算得到的新特征图和上下文增强计算得到的新特征图通过堆叠的操作融合在一起,得到注意力融合上下文信息模块,并将注意力融合上下文信息模块加入到颈部网络中;其中,注意力机制为三重注意力机制,其三重注意力分别由上部分支、中部分支和下部分支组成;

步骤3)在颈部网络中采用轻量级的通用上采样算子CARAFE,完成人体解析模型的构建;

步骤4)对构建的人体解析模型进行训练,更新模型中骨干网络、颈部网络和头部网络的权重系数,得到最佳权重系数的人体解析模型。

通过采用本申请构建的人体解析模型对人体进行解析,模型可根据注意力机制对于实例分割任务提升性能,以及上下文特征融合对于人体解析性能的提升的特点,通过进行注意力机制与特征图上下文信息融合的操作,并且在颈部网络中采取保存更多细节特征的上采样操作提升了模型的性能,实现更深度的特征图信息融合,进一步增强了网络人体部位解析的能力。

下面给出具体实施方式

步骤1)构建人体图像解析网络模型;所述网络模型包括骨干网络、颈部网络和头部网络,其中,骨干网络是模型的主要特征提取部分,用于从输入图像中提取高层次、语义丰富的特征;颈部网络是介于骨干网络和头部网络之间的中间层,用于在骨干网络提取的特征基础上进行特征融合、上下文增强;头部网络是模型的输出部分,用于负责最终的预测和分割任务。

其中,所述特征融合用于将不同层之间的特征图通过上采样或下采样的方法整合到同一大小,融合成一个特征图;所述上下文增强是用于在同一特征图中将不同位置的特征信息通过融合激活操作增强其特征表现。

具体实施时,所述骨干网络由深度卷积神经网络(CNN)组成;所述颈部网络包括卷积层、池化层和注意力机制;所述头部网络是由分割网络和检测网络结合而成,其又被称为检测分割头。

进一步的,所述骨干网络设置的层数为50层,且使用残差网络结构来避免训练时梯度爆炸和参数冗余情况;设置输入图片尺寸为640*640,且特征提取通道数通过设置卷积核个数逐层增加。

具体实施时,所述网络模型采用的数据集是Active Template Regression-ATR数据集,其中包含了数据集为单人场景人体解析数据集。

具体实施时,Active Template Regression-ATR数据集共17700张,包含了Background、Hat、Hair、Sunglasses、Upper-clothes等18个类别,在其中选取了5311张图片作为训练集,1772张图片作为验证集进行网络的训练和验证。

步骤2)通过计算特征图的注意力和对特征图进行上下文信息融合激活操作,将注意力机制计算得到的新特征图和上下文增强计算得到的新特征图通过堆叠的操作融合在一起,得到注意力融合上下文信息模块,并将注意力融合上下文信息模块加入到颈部网络中。

所述注意力机制为三重注意力机制,其三重注意力分别由上部分支、中部分支和下部分支组成。

具体实施时,参见图2所示,所述三重注意力不同的分支负责捕获空间维度H或W与通道维度C之间的交互特征;其中,上部分支负责计算通道维度C和空间维度W的注意力权重;中部分支负责计算通道维度C与空间维度H之间的注意力权重;下部分支用于捕获空间维度之间的依赖性。

进一步的,上部分支对输入张量进行Z池化(Z-Pool)操作,然后通过一个卷积层(Conv),接着用Sigmoid函数生成注意力权重;中部分支首先进行相同的Z池化和卷积操作,然后同样通过Sigmoid函数生成注意力权重;下部分支保持输入不做改变,执行Z池化和卷积操作,之后也通过Sigmoid函数生成注意力权重。

最后,上部分支、中部分支和下部分支在生成注意力权重后,会对输入进行排列,然后将三个分支的输出进行平均聚合,最终得到三重注意力输出。

优选的,在此注意力机制中,Z池化就是将特征图的第一维度的大小变为2,如果输入特征图的尺度为C×H×W,经过Z池化后,大小将变成2×H×W。

具体实施时,参见图3所示,所述上下文信息融合激活分为上下文信息融合操作和上下文信息激活两部分;

其中,上下文信息融合操作方式为:在输入特征图大小为C×H×W保持通道数C不变的前提下,对H×W尺度大小分别进行4倍、8倍和16倍的下采样操作,将H和W的尺度缩小到原始尺度的1/4,1/8和1/16;

具体实施时,通过采用上下文信息融合操作可增强特征图对上下文信息的表达从而提升模型性能。

上下文信息激活操作方式为:对原始输入特征图进行3×3大小的卷积操作,使卷积操作后的特征图大小与原始输入特征图C×H×W大小一致,以通过此操作保留一定的原特征图信息;将三个下采样尺度的输出特征图通过上采样的操作把H和W这两个方向的大小恢复到原始大小,再与卷积操作所输出的特征图排列聚合到一起;运用卷积的操作将所有输出特征图聚合的部分恢复到与原始输入特征图相同的大小C×H×W。

具体实施时,上述通过上下文信息融合操作和上下文信息激活的操作被合称为上下文信息融合激活模块,其中,融合操作被设计的目的是利用来自输入特征图的大邻域上的空间上下文信息来增强特征图的特征表达能力,它具有自适应学习每个空间位置对特征图相关特征贡献的能力;激活操作被设计的目的是在融合操作后解码所利用的上下文信息,并使用输入特征图产生新的特征表示,将来自融合操作的空间相关特征图双线性插值上采样到具有与输入特征图相同大小的H和W。因此,上下文信息融合激活操作所产生的新输出特征图不但具有与输入特征图相同的维度,而且携带更多H×W尺度上感知的上下文信息。

步骤3)在颈部网络中采用轻量级的通用上采样算子CARAFE,完成模型构建。

具体实施时,参见图4所示,所述上采样算子CARAFE首先利用输入特征图来预测上采样核,每个位置的上采样核是不同的,然后基于预测的上采样核来进行特征上采样,其中n表示上采样n倍。

具体实施时,在颈部网络中,需要对骨干网络中提取的特征图进行一系列上采样融合操作,目的是为了让最后送入头部网络中的特征图具有更丰富的特征信息,提高人体解析的准确度和可靠性。上采样操作可以表示为每个位置的上采样核和输入特征图中对应邻域的像素做点积,可以称之为特征重组。本发明所使用的上采样操作CARAFE在重组时可以有较大的感受野,会根据输入特征来指导重组过程,同时整个算子比较轻量级。

步骤4)对构建的人体解析模型进行训练,更新模型中骨干网络、颈部网络和头部网络的权重系数,得到最佳权重系数的人体解析模型。

具体实施时,对人体解析模型进行训练包括以下步骤:

41)将调整好标签的数据集准备好,并且设置数据集输入模型时的训练批次Batch-size;

具体实施时,输入模型时的图像大小为640×640,训练批次(Batch-size)设置为2。

42)对模型中需要的权重系数进行初始化,将训练数据及其标签按批次大小送入模型中进行前向传播得到预测值和真实值的误差,即损失值Loss;

43)采用随机梯度下降SGD的方法根据得到的损失值Loss来更新模型中骨干网络、颈部网络和头部网络的权重系数,使模型收敛从而达到最佳性能;

44)将验证集的图片和标签输入模型进行多次验证,并计算和记录模型多次验证在验证集上的评价指标mAP0.5值,将mAP0.5值最高的一个,作为最佳权重系数。

具体实施时,将验证集的图片和标签输入模型进行验证,但在验证阶段模型系数不进行更新,只完成前向传播并计算和记录模型在验证集上的评价指标mAP0.5值。这样就完成了模型权重系数的一次迭代训练并得到了一次迭代训练的mAP0.5值,为了得到最优模型,因此,设置训练的轮数为100轮,将记录100次迭代的mAP0.5值。最后,在100次训练后得到的权重系数中选择mAP0.5值最高的一个,作为100次模型训练后得到的最佳权重系数。

下面将本申请的模型在验证集上的mAP0.5作为人体各个部分的分割评价指标,mAP是英文mean average precision的缩写,意思是平均精度均值,我们知道AP(averageprecision)就是平均精度,代表不同召回率下的精度的平均值。在人体解析任务中,会将人体分割为不同的部位,每个部位都可算作一个类别,每一个类都能计算出各自的AP值,那么多个类别的AP值平均就是mAP。在交并比(Intersection over Union-IoU)为0.5时计算出来的mAP值就称为mAP0.5,其中交并比指的是真实标签(ground truth mask)与预测标签(predict mask)的交集面积占两者并集面积的一个比率,IoU值越大说明预测检测框的模型算法性能越好。因此,本申请通过mAP0.5来判断网络模型的性能;

将对ATR数据集中选取的数据进行网络输入所需要的标签格式调整后,首先进行基础网络(指不添加注意力融合上下文信息模块和CARAFE上采样算子)的训练,并保存实验结果,然后在将注意力融合上下文信息模块和CARAFE上采样算子加入到网络中进行训练,并记录实验结果,两者实验结果如表1所示:

表1为基础模型与本申请构建的模型实验结果对照表

从表1中可以看出,本申请构建的人体解析模型在加入特定的注意力机制融合上下文信息模块和CARAFE上采样算子后,在精度、召回、mAP0.5和mAP0.5-0.9上的表现,都是要优于基础模型。

以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术分类

06120116581952