掌桥专利:专业的专利平台
掌桥专利
首页

基于双分支特征融合三维人脸重建方法

文献发布时间:2024-04-18 20:02:18


基于双分支特征融合三维人脸重建方法

技术领域

本发明涉及图像处理技术领域,具体为基于双分支特征融合三维人脸重建方法。

背景技术

单视图图像的 3D 人脸重建在生物识别领域、商业领域发挥着重要作用,目的在于欺骗人脸识别系统以及增强人脸识别系统的反欺骗能力。商业领域可以通过快速获取个性化的人脸模型,加速游戏、动画等内容的创作过程。这有助于提高内容的个性化程度,满足用户多样化的需求。3D 人脸模型的快速获取对于虚拟现实和增强现实应用具有重要意义。它可以改善虚拟体验的真实感,为用户提供更加沉浸式的体验。3D 人脸重建技术也可以在艺术创作中发挥作用,为艺术家提供创作工具,同时也有助于数字化保存和传承文化遗产。

传统的基于CNN的方法直接输出VW图,该方法强调人脸重建速度,这可能导致网络学习尺度信息和深度信息不足,影响了输出的人脸模型的精度

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了基于双分支特征融合三维人脸重建方法,具备无约束环境下人脸重建的准确性等优点,解决了上述技术问题。

(二)技术方案

为实现上述目的,本发明提供如下技术方案:一种基于双分支特征融合三维人脸重建方法,包括以下步骤:

S1、获取待进行重建的人脸图像,包括输入任意尺寸大小的图片,获取图片中人脸位置中心,以人脸位置中心裁剪出人脸图像;

S2、采用双分支网络对人脸图像进行特征提取,双分支网络包括ResNet分支和TRANSFORMER分支;

S3、对步骤S2中双分支输出的特征图进行进行自注意力交互后进行交叉注意力交互;

S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算;

S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估。

作为本发明的优选技术方案,所述步骤S1中的获取的人脸图像的具体过程如下:

S1.1、输入任意尺寸大小的图片;

S1.2、获取图片中人脸位置中心;

S1.3、以人脸位置中心裁剪出人脸图像。

作为本发明的优选技术方案,所述步骤S2的具体过程如下:

S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络;

S2.2、接收步骤S1获取的人脸图像,通过ResNet分支对其进行下采样和升维;

S2.3、将升维后的特征图通过多次不同的下采样倍数升维输入到TRANSFORMER分支中;

S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔,沿通道方向排列并对特征进行输出。

作为本发明的优选技术方案,所述TRANSFORMER分支通过注意力机制先对特征图

其中,

作为本发明的优选技术方案,接着所述TRANSFORMER分支通过注意力机制先对特征图

其中,

作为本发明的优选技术方案,所述步骤S3具体步骤如下:

S3.1、对TRANSFORMER分支输出的特征进行自注意力交互;

S3.2、将ResNet分支的输出特征

S3.3、将特征

作为本发明的优选技术方案,所述步骤S4中的损失函数

其中,

作为本发明的优选技术方案,所述步骤S4中的VW图记录了三维人脸各点的坐标。

作为本发明的优选技术方案,所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下:

其中,

作为本发明的优选技术方案,所述步骤S5中的评估函数表达式如下:

其中,

与现有技术相比,本发明提供了基于双分支特征融合三维人脸重建方法,具备以下有益效果:

本发明通过双分支网络充分发挥卷积和TRANSFORMER的优点,卷积运算擅长提取局部特征,而TRANSFORMER可以捕获长距离的特征依赖,融合模块将双分支的输出融合优势互补,解决了卷积层的缺点,捕获全局特征表示的局限性,解决了TRANSFORMER的缺点,提高了对无约束环境下人脸重建的准确性。

附图说明

图1为本发明流程示意图;

图2为本发明总架构示意图;

图3为本发明双分支网络的模型示意图;

图4为本发明融合模块的模型示意图;

图5为本发明解码器的模型示意图;

图6为本发明不同方法的总距离误差对比示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-6,一种基于双分支特征融合三维人脸重建方法,包括以下步骤:

S1、获取待进行重建的人脸图像,输入任意尺寸照片,使用如RetinaFace等人脸识别模型获取人脸位置,以人脸为中心裁剪出256*256的人脸图像;

S2、采用双分支网络对人脸图像进行特征提取,建立一个具有ResNet分支和TRANSFORMER分支的双分支网络,双分支网络包含ResNet0、ResNet1、ResNet2、ResNet3、ResNet4、CNN0、TRANSFORMER0、TRANSFORMER1、TRANSFORMER2、TRANSFORMER3、1*1CNN0、1*1CNN1、1*1CNN2,融合模块包含交叉注意力0、自注意力0、CNN0,解码器部分包含17个反卷积层,接着双分支网络接收大小为(3,256,256)的数据,通过设计的第一个分支ResNet网络结构的第0层到第4层逐步进行下采样和升维,输出大小为(512,8,8)的特征,特征图沿通道方向排列得到(512,64)特征;(3,256,256)的原人脸图像通过CNN0下采样四倍以及升维输出(64,64,64)特征图,CNN全称卷积神经网络,是由一些可学习的滤波器集合构成的,滤波器可以学习到某种视觉特征并在匹配到该特征时激活,由于滤波器的高宽较小以及其权重共享的特点,使得卷积神经网络能够高效提取局部特征;

随后特征图输入TRANSFORMER0提取全局特征输出(64,64,64)特征图,(64,64,64)特征图输入1*1CNN0进行升维得到(512,64,64)特征图作为特征金字塔的第一层,Transformer是一种基于注意力机制的序列模型。自注意力机制是Transformer的核心部分,它允许模型在处理序列时,将输入序列中的每个元素与其他元素进行比较,以便在不同上下文中正确地处理每个元素。同时(64,64,64)特征图输入CNN1下采样两倍及升维输出(128,32,32)特征图;(128,32,32)特征图输入TRANSFORMER1提取全局特征输出(128,32,32)特征图,(128,32,32)特征图输入1*1CNN1进行升维得到(512,32,32)特征图作为特征金字塔的第二层,同时(128,32,32)特征图输入CNN2下采样两倍及升维输出(256,16,16)特征图;(256,16,16)特征图输入TRANSFORMER2提取全局特征输出(256,16,16)特征图,(256,16,16)特征图输入1*1CNN2进行升维得到(512,16,16)特征图作为特征金字塔的第三层,同时(256,16,16)特征图输入CNN3下采样两倍及升维输出(512,8,8)特征图;(512,8,8)特征图输入TRANSFORMER3提取全局特征输出(512,8,8)特征图作为特征金字塔的第四层。最后将(512,64,64)(512,32,32)(512,16,16)(512,8,8)的特征金字塔沿通道方向排列,输出大小为(512,8440)的特征,对于TRANSFORMER块,使用了CSwin Transformer里的注意力机制。对特征图

对于1*1CNN,为卷积核大小为1*1,步距为1的卷积层;

S3、对步骤S2中双分支输出的特征图进行融合,构建融合模块,建立一个双特征融合模块,包含交叉注意力0、自注意力0、CNN0,自注意力0将TRANSFORMER分支输出的特征金字塔进行特征交互,TRANSFORMER分支输出的(512,8440)特征做自注意力交互,使各层特征之间学习到各层的尺度信息,输出大小为(512,8440)特征;由于token数量大,为降低计算量,该自注意力采用Dattn机制,具体的,输入特征

将ResNet分支的(512,64)输出特征

将(512,8440)特征按照原来的金字塔形状还原为(512,64,64)(512,32,32)(512,16,16)(512,8,8);将两个(512,8,8)特征图concat,得到(1024,8,8)特征图,经过CNN0降维得到大小为(512,8,8)的特征;

S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算,损失函数

其中,

S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估,遍历VW图的像素点,进行三维人脸重建,VW图每个像素点在三个通道上都分别有一个值,代表了三维空间上的x坐标,y坐标,z坐标,VW像素点与其对应在三维空间上的点的关系如下:

其中,

设计评估指标进行客观评估,对于每张测试图像,输入到所发明的双分支特征融合网络,预测一张VW位置图;选择使用归一化的平均误差,这是可见地标误差的平均值,以边界框的大小为归一化系数。

评估对象为45000个点的

与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比实验,从而验证本发明设计的方法的三维人脸重建效果。PRNet是发明于2018年的经典人脸重建网络,特点是直接通过神经网络,建立从2D图片到3D模版的映射关系,效率很高。3DDFA是发明于2019年的经典人脸重建网络,通过提取四元数使得模型面对大姿态人脸也能高精度重建。SADENet是发明于2022年的人脸重建网络,预测一个依赖姿势的人脸和一个独立于姿势的人脸通过感知遮挡的自对齐进行组合,以生成最终的3D面,具有出色的效果。

ALFW2000-3D是通过从AFLW数据集中选择前2000张图像构建的。每个样本都包含ground truth的3D人脸和相应的68个地标。本申请将AFLW2000-3D数据集作为测试集,采用归一化平均误差(NME)作为评价指标来评估网络在人脸重建任务上的质量。

根据偏航角将测试集分为3个子集:[0°,30°], [30°, 60°], 和[60°, 90°],然后测试小、中、大姿势的人脸的NME,如图6所示,使用客观评价指标,对本发明方法与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比,本发明方法在偏航角分为[0°,30°], [30°,60°], 和[60°, 90°],地标误差均为最小,表明本发明所设计的方法的三维人脸重建的准确度高,效果较为理想。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120116581083