掌桥专利:专业的专利平台
掌桥专利
首页

基于可学习向量与注意力机制的端到端头部姿态估计方法

文献发布时间:2024-04-18 19:58:53


基于可学习向量与注意力机制的端到端头部姿态估计方法

技术领域

本发明属于计算机视觉领域,更具体地,涉及一种基于可学习向量与注意力机制的端到端头部姿态估计方法。

背景技术

图像理解作为人工智能计算机视觉的一个重要领域分支,致力于使计算机能够理解和解释图像中的信息。头部姿态估计是图像理解任务中的经典研究领域,其目的是从图像中人的面部信息来获得头部的姿态,进而为分析人的意图提供有力的线索。随着智能设备的普及,头部姿态估计被应用于驾驶员监控、视线估计等多种任务,广泛的应用前景使其具备重要的研究价值。

早期头部姿态研究工作主要采集数字图像处理方法即依据预先定义头部区域的图像特征进行特征提取与检测,其中图像特征的预定义依赖于经验知识,对光照、姿态等变化缺乏适应能力。随着深度学习的发展,以数据为驱动的神经网络被广泛应用于各类图像分析任务中,研究人员开始尝试采用深度学习模型代替人工方式提取特征并进行头部姿态的估计。上述方式的头部姿态估计需要两个步骤,先采用人脸检测模型定位人脸图像,再使用头部姿态估计模型估计姿态。一方面,由于两个模型独立训练,它们产生的误差将会累积,进而限制估计精度的提升。另一方面,两个模型的图片处理时间将会累加,从而提高了头部姿态估计的计算复杂度,这将会影响实际应用时的实用性。

为此端到端的技术思路开始应用于头部姿态估计。端到端的模型建立人脸检测与头部姿态估计之间的关系,可以跳过人脸检测,直接从原始图像中估计其头部姿态,进而降低了累积误差,简化了模型的实施,有利于提高图像的检测速度,便于弱计算环境下的实际应用。

然而目前主流的端到端头部姿态估计也存在一定的性能缺陷:一方面,人工设置的参数过多难以保证模型性能最优,例如区域候选网络需要设置大量与候选框有关的参数包括初始锚框的数量、尺寸、判断正负样本的交并比阈值以及训练过程中正负样本比例;另一方面,在最终的头部姿态框的筛选过程中,常用的非极大值抑制模块不具备剔除冗余候选框的能力,导致该部分结构最终输出多余的高置信度头部姿态估计值,因此需要进行过滤以降低参数复杂度,减弱其对最终性能的影响。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于可学习向量与注意力机制的端到端头部姿态估计方法,其目的在于从模型结构和模型设计两个方面对当前主流端到端头部姿态估计方法进行改进,进而提高头部姿态估计的精度与模型性能。

为实现上述目的,按照本发明的第一方面,提供了一种基于可学习向量与注意力机制的端到端头部姿态估计方法,包括:

训练阶段:构建头部姿态估计模型并对其进行训练;

其中,所述头部姿态估计模型包括:

特征提取模块,用于对输入图像进行多尺度特征提取得到多尺度特征图X

级联姿态估计模块,用于对X

姿态转换模块,用于根据所述人脸边界框将局部头部姿态转换为全局头部姿态;

应用阶段:将待估计的图像输入至训练好的头部姿态估计模型,得到全局头部姿态。

按照本发明的第二方面,提供了一种基于可学习向量与注意力机制的端到端头部姿态估计系统,包括:计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。

按照本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如第一方面所述的方法。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

1、现有主流的头部姿态估计算法往往需要人脸检测定位与头部姿态识别两个步骤,取得了较高的精度,但存在计算复杂度高,误差会累积并且在复杂与实际场景下存在实时性差、识别率低的问题。为优化此问题,本发明引入端到端的一体化设计思想,在头部姿态估计模型设计时引入可学习的向量集合储备先验的人脸信息,减少模型中大量有关人脸的参数设置;采用了注意力机制和动态卷积模块对图像中头部姿态特征进行增强,搭建级联姿态估计模块,并设计姿态转换模块实现局部与全局姿态的转换。从而提升模型的估计精度与鲁棒性。

2、本发明提供的方法,在模型训练设计方面,采用二分图最优匹配算法将网络输出的估计值与真实值一对一匹配以计算损失函数,仅凭置信度即可避免冗余的输出,从而能够抛弃相关过滤模块,加快了模型实时处理速度。

3、本发明提供的方法,考虑到不同数据集含有的不同人脸的头部姿态信息,提出了多数据集训练的模型参数融合方法,提高模型泛化能力。

附图说明

图1为本发明提供的一种基于可学习向量与注意力机制的端到端头部姿态估计方法流程图。

图2为本发明提供的头部姿态估计模型结构图。

图3为本发明提供的WIDER FACE数据集预处理流程图。

图4为本发明提供的主干网络与特征金字塔网络结构示意图。

图5为本发明提供的及联姿态估计模块示意图。

图6为本发明提供的第t级单级姿态估计子模块结构图。

图7为本发明提供的头部姿态动态卷积模块结构图。

图8为本发明提供的姿态转换模块局部图像与完整图像示意图.

图9为本发明提供的二分图匹配与损失函数计算示意图。

图10为本发明提供的基于多数据集训练的模型参数融合流程图。

图11为本发明提供的本发明MHPE及各模型在AFLW2000-3D与BIWI数据集上的头部姿态估计误差示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供一种基于可学习向量与注意力机制的端到端头部姿态估计方法,包括:

训练阶段:构建头部姿态估计模型并对其进行训练;

其中,所述头部姿态估计模型包括:

特征提取模块,用于对输入的图像进行多尺度特征提取得到多尺度特征图X

级联姿态估计模块,用于对X

其中,所述注意力模块用于对Q

其中,P

姿态转换模块,用于根据所述人脸边界框将局部头部姿态转换为全局头部姿态;

应用阶段:将待估计的图像输入至训练好的头部姿态估计模型,依次通过特征提取模块、级联姿态估计模块、姿态转换模块得到全局头部姿态,包括欧拉角和人脸关键点。

进一步地,在所述训练阶段,损失函数为:

其中,N为级联姿态估计模块的子模块个数;c

进一步地,在应用阶段,为所述级联姿态估计模块的最后一级子模块设置置信度最小阈值,以对其输出的局部头部姿态集合、候选框集合进行筛选过滤。

所述置信度最小阈值可根据实际需求设置,例如:若设定为0.8,则在在应用阶段,最后一级子模块输出置信度大于0.8的一系列局部头部姿态及候选框。

进一步地,所述头部姿态动态卷积模块包括第一、第二全连接层;

经过第一全连接层输出两组卷积核参数集合Kernel 1

所述候选框动态卷积模块包括第三、第四全连接层;

经过第三全连接层输出两组卷积核参数集合Kernel 1

进一步地,

通过全连接层对

其中,W

Q

通过全连接层对Q

Q

通过全连接层对Q

进一步地,所述特征提取模块包括互相连接的ResNet-18网络与特征金字塔网络;

或,所述特征提取模块包括互相连接的ResNet-50网络与特征金字塔网络。

进一步地,所述头部姿态为6DoF或3DoF头部姿态。

进一步地,采用多种数据集对所述头部姿态估计模型进行训练,将采用各数据集训练得到的模型参数进行加权得到的结果作为训练好的模型的参数。

具体地,以头部姿态为6DoF头部姿态为例,如图1所示,本发明提供的方法主要包括四个部分:第一部分是对数据集进行预处理;第二部分是对端到端网络模型的详细设计;第三部分是对网络训练过程即训练方案、损失函数、训练技巧的设计;第四部分是对网络模型进行训练与测试,输出最终头部姿态估计结果并比较精度与网络性能。

第一部分包括一个步骤:

S1.处理头部姿态估计常用数据集WIDER FACE、300W-LP、BIWI以及AFLW2000-3D,分别构建用于训练与测试的局部6DoF头部姿态。

本发明提出的模型用于训练的训练集为WIDER FACE数据集以及人工合成的头部姿态数据集300W-LP。WIDER FACE数据集中含有丰富的人脸信息,用此数据集训练模型能够提高模型的泛化能力。但是WIDER FACE数据集中没有人工标注的头部姿态真值,所以在S1中采用弱监督学习的方法,使用RetinaFace模型对数据集中每个图片的人脸与头部姿态进行关键点与边界框两个方面的检测,并基于此标注该数据集中的6DoF头部姿态,其训练标注格式均为局部6DoF头部姿态向量,同时包含检测边框。然而前述WIDER FACE数据集预处理时姿态真值是粗略的,所以为了更进一步提升模型的性能,需要使用含有姿态真值信息的300W-LP进行第二阶段整个模型的训练,由于300W-LP数据集提供了欧拉角真值和人脸关键点,首先将欧拉角转换为旋转矩阵,再利用罗德里格斯公式将旋转矩阵转换为全局的旋转向量r

第二部分包括三个步骤:

S2.搭建特征提取网络,包括主干网络及特征金字塔网络,通过自顶向下和自底向上的信息传递来实现多尺度特征的提取。主干网络主要用于从图像中提取有用的特征信息,特征金字塔网络是在主干网络基础上构建的,其主要目的是处理S1中的图片数据并生成多尺度的图像特征图。

优选地,采用基于残差块的ResNet-18或ResNet-50系列网络来对图像数据进行自底向上特征图提取,随后基于特征金字塔网络自顶向下将不同层次的语义信息传递给低层特征图,进而处理不同尺度的图像特征。

如图4所示,其中的左侧主干网络为经典的ResNet系列网络,自底向上的路径从网络的底层提取粗糙但具有高分辨率的特征,逐步获得深层次的语义信息,而图4中右侧的特征金字塔网络通过自顶向下的路径从网络的顶层提取语义丰富但分辨率较低的特征,其每个层级之间通过上采样和特征融合的方式进行连接,一方面包含主干网络捕获到的特定尺度的全局特征信息,另一方面包含每个检测对象的局部语义信息,从而捕获到不同尺度下的检测对象的基础特征信息与深度语义信息。通过这种方式特征金字塔网络能够处理不同尺度的图像特征。

S3.搭建级联姿态估计模块,包括多个姿态估计模块的级联和三个可学习向量的集合组成。该模块的输入为S2中特征金字塔网络的输出多尺度图像特征图X

具体地,以抛弃区域候选网络以减少人工设定的参数为目标,构建级联姿态估计模块,在网络中引入可学习的向量集合:P

如图5所示,级联姿态估计模块包括多个级联的头部姿态估计子模块。

首先构建三个可学习向量集合P

本发明搭建的头部姿态估计子模块,其结构如图6所示,第t级姿态估计模块的输入为上一个级联的姿态估计模块的输出:潜在局部6DoF头部姿态集合

在注意力模块中,优选8个注意力头进行自注意力的计算。基于Transformer的自注意力计算时输入的“q,k,v”均为建议特征集合Q

在区域特征聚合模块中,其输入由候选框集合B

头部姿态动态卷积模块主要用于进一步加强图像中人脸区域的头部姿态特征,抑制非人脸区域的头部姿态特征。也即,头部姿态动态卷积模块使得每一个姿态特征向量都会有一个专门定制的卷积核与之进行卷积交互。传统算法中的卷积核的权值在训练之后就已经固定,无法自适应的提取图像特征,此种卷积模块可以针对每一个人脸图像特征Q动态的生成定制化的卷积核权值,使之自适应增强每一个人脸图像特征的语义信息,从而提高6DoF头部姿态的检测性能。图7为本发明提供的头部姿态动态卷积模块结构图。模块的输入为不同建议特征加权和后的集合

最后S3步骤将上述各模块输出的建议特征集合Q

本发明采用了注意力机制与动态卷积模块增强图像语义特征,并抑制非人脸区域的头部姿态特征。

S4.搭建姿态转换模块,将级联姿态估计模块的输出局部6DoF头部姿态

具体地,级联姿态估计模块输出

在该步骤中,本基于相机投影矩阵搭建姿态转换模块,本发明给出全局的头部姿态与局部的头部姿态转换公式并基于此进行头部姿态的转换:

R

t

其中K

第三部分包括两个步骤:

S5.基于二分图最优匹配中的匈牙利匹配算法设计全局损失函数。为实现消除冗余的头部姿态输出、抛弃传统非极大值抑制模块的目标,在计算损失函数时,本发明采用二分图最优匹配中的匈牙利匹配算法为一个真实值分配一个估计值,使得模型具备自主过滤多余头部姿态输出的能力。具体地除此之外,模型训练时采用深度监督的方法对每一级姿态估计模块的输出均计算其局部损失值,加速模型收敛,提高训练效率。

具体地,损失函数设计包括两个部分:分别是二分图匹配以及计算相应损失函数。级联姿态估计模块最终输出300组估计值集合

采用二分图最优匹配中的匈牙利匹配算法为一个真实值分配一个估计值,使得模型具备自主过滤多余头部姿态输出的能力。除此之外,模型训练时采用深度监督的方法对每一级姿态估计模块的输出均计算其损失值,加速模型收敛,提高训练效率。如图9所示为二分图匹配与损失函数计算示意图,整个计算过程分为两部分,分别是二分图匹配以及计算相应损失函数。首先求得级联姿态估计模块中最后一个姿态估计模块输出的估计值集合与真实值集合之间最优的二部匹配

S6.基于多数据集训练的模型参数融合。为达到调整模型参数,提高模型性能的目标,本发明提出了基于多数据集训练的模型参数融合方案。模型参数融合是指将多个相同结构但不同权重参数的模型中的参数进行加权平均然后得到一套新的权重参数的方法。这种方法能够有效提升模型的性能,且不会增加额外的计算复杂度和内存开销。

第四部分包括两个步骤:

S7.基于S1中预处理后的训练数据,调试S2到S6步骤中所搭建的端到端头部姿态估计网络超参数使得模型在验证集上的总体损失不再下降并得到在S1中两个训练集上的训练模型,最后依据S6将这两个训练模型结果进行参数融合,得到泛化能力更强的权重参数以提升模型精度。

S8.基于S7中得到的最终权重参数在S1中测试集上进行头部姿态估计结果测试,同时定义模型性能的评价指标如误差值、处理速度等。

具体地,在步骤S6、S7中,对于模型的参数融合策略,M

进一步地,在步骤S8中所述的评价指标主要包括两个部分:第一部分是模型在测试集上估计每个欧拉角的平均绝对误差MAE

下面以一个具体的例子对本发明提供的方法进行进一步说明。

S1.首先处理头部姿态估计常用数据集,构建用于训练与测试的局部6DoF头部姿态。训练集WIDER FACE数据集中含有丰富的人脸信息,但是其中没有人工标注的头部姿态真值,本发明使用RetinaFace模型标注该数据集中的6DoF头部姿态。图3为WIDER FACE数据集预处理流程图。该流程首先使用RetinaFace检测WIDER FACE数据集中的人脸边界框及其二维关键点坐标并统计每张图片检测到的数量,然后采用SolvePnP算法求解图像中二维人脸关键点与人头坐标系中标准人脸模型三维关键点的映射关系,从而得到全局6DoF头部姿态向量p

特别地,本发明以BIWI数据集、AFLW2000-3D数据集作为测试集,其中由于BIWI数据集只包含表示人头旋转方向的欧拉角真值数据,因此在BIWI数据集上的测试只评估模型估计欧拉角即旋转向量的性能。AFLW2000-3D数据集包含有表示人头旋转的欧拉角真值以及68个人脸关键点真值,本发明利用数据集中给出的人脸关键点真值,应用SolevePnP算法获得平移向量的真值,因此在AFLW2000-3D数据集上的测试评估模型估计6DoF头部姿态的性能,包括旋转向量与平移向量的估计效果。

具体地,BIWI数据集包含有20个实验人员其中包括男性14名,女性6名,戴眼镜的有4名,共计24个视频序列,15678张视频图像。图像的像素大小均为640*480。按照300W-LP的制作方式处理AFLW2000-3D数据集中的前2000张图片,图片像素大小为450*450,包含有头部的三个欧拉角真值和68个人脸的关键点坐标真值,并且包含有不同的姿态,光照和面部表情。

S2.搭建主干网络并构建特征金字塔网络,如图4所示。

S3.搭建级联姿态估计模块,如图5所示。

具体地,

S4.基于相机投影矩阵搭建姿态转换模块,如图8所示。

S5.采用二分图最优匹配中的匈牙利匹配算法为一个真实值分配一个估计值,使得模型具备自主过滤多余头部姿态输出的能力,如图9所示。

S6.该步骤中基于多数据集的模型训练权重结果进行权重参数融合参数,如图10所示,M

S7.该步骤结合S1到S6的数据集处理与网络模型搭建进行模型训练,具体方案如下:使用NVIDIA GeForce RTX 3090,24GB进行训练,使用基于ResNet-18和ResNet-50的FPN网络作为主干网络,并在COCO数据集上进行了预训练。对于训练,利用预处理的WIDER FACE数据集并采用批量大小为12的ADAMW优化器,模型训练30个epoch,学习率初始化为2.5e-5。对于损失函数,将焦点损失函数的权重λ

model

其中x∈[0,1]为权重因子。

S8.设定模型测试评价指标,具体包括欧拉角向量误差与平移向量误差。具体地,头部姿态估计向量为p=(r,t),r=(r

具体地,模型性能的评价指标分为两个部分:

第一部分是模型在测试集上估计每个欧拉角的平均绝对误差MAE

第二部分是模型在测试集上估计每个平移向量的平均绝对误差MAE

进一步地,将所搭建的端到端头部姿态估计模型加载训练好的融合权重,并输入BIWI数据集与AFLW2000-3D数据集进行测试,计算对应的评价指标。图11是本发明在测试数据集上的测试结果及与其他模型的比较结果。

综上,针对传统深度网络模型中人工设定参数过多的问题,本发明提出了一个可学习向量集合的方案,通过网络中预先设定一组可学习的候选框,使得它们能够在训练过程中通过反向传播学习到先验的人脸位置及大小。这样就可以不需要在模型中设定人脸目标框的大小,数量以及尺寸等参数,从而也能够抛弃区域候选网络。与可学习的候选框对应,也设置了相同数量的可学习的建议特征和潜在头部姿态估计向量。

针对传统检测系统中产生多余头部姿态估计值的问题,本发明提出二分图最优匹配中常用的匈牙利匹配算法的损失函数计算方案,在计算损失函数时将模型的头部姿态估计值与真实值进行一对一匹配并基于此过滤筛选掉低置信度冗余头部姿态数据,通过反向传播算法更新模型的权重,使得模型能够输出高置信度的头部姿态估计值,从而可以抛弃非极大值抑制模块,避免其带来的影响。

在模型结构设计方面,本发明新增了注意力模块和动态卷积模块增强人脸区域的头部姿态特征,抑制非人脸区域的头部姿态特征,从而提高了模型的头部姿态估计性能。

在模型训练设计方面,本发明提出基于多数据集训练的模型参数融合方案。模型在不同训练集训练能够学习到不同的知识信息,通过从不同模型中取长补短,以此进一步提高模型头部姿态估计性能。

本发明实施例提供一种基于可学习向量与注意力机制的端到端头部姿态估计系统,包括:计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述任一实施例所述的方法。

本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如上述任一实施例所述的方法。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术分类

06120116510898