掌桥专利:专业的专利平台
掌桥专利
首页

一种基于超分辨率重建的视线估计方法

文献发布时间:2024-01-17 01:26:37


一种基于超分辨率重建的视线估计方法

技术领域

本发明涉及深度学习和计算机视觉领域,具体涉及一种基于超分辨率重建的视线估计方法。

背景技术

视线估计旨在确定图像或视频中一个人注视的方向和点。由于视线行为是人类社会行为的一个基本方面,因此可以根据视线估计的对象来推断潜在的信息。

早期的视线估计方法采用单眼图像作为输入,使用卷积神经网络训练模型,输出视线的二维坐标点。接着,双眼视线估计方法被提出,由于单眼的方法没法充分利用双眼的互补信息,双眼视线估计方法补足了这一缺点。但是单眼和双眼的视线估计方法还有一些缺陷,比如需要额外的模块来检测眼睛,需要额外的模块估计头部姿态。之后,全脸视线估计方法被提出,该方法只需要输入人脸图像,就能得到最终视线估计结果的输出,是一种端到端的学习策略,并且能考虑全脸的全局特征,现在很多主流的视线估计方法都以全脸的视线估计方法为基础。但是该方法采用的浅层残差网络学习能力受限,提升效果有限,并且仍然没有解决在低分辨率场合下视线估计精度大幅度下降的问题。

发明内容

本发明目的:在于提供一种基于超分辨率重建的视线估计方法,解决低分辨率场合下视线估计精度显著下降的问题。

为实现以上功能,本发明设计一种基于超分辨率重建的视线估计方法,执行如下步骤S1-步骤S5,完成目标对象的人脸视线估计:

步骤S1:使用摄像头采集预设数量的人脸图像,构建人脸图像训练集;

步骤S2:构建超分辨率重建模块,包括预设数量的残差块和与其相对应的格式转换块,超分辨率重建模块以低分辨率的人脸图像为输入,基于各残差块采用逐步上采样方式对人脸图像中的特征进行上采样,生成预设大小的高分辨率的人脸图像;

步骤S3:对超分辨率重建模块进行预训练,获得预训练好的超分辨率重建模块;

步骤S4:构建视线估计模块,以超分辨率重建模块输出的高分辨率的人脸图像为输入,采用ResNet50提取人脸图像中的特征,并基于空间权重机制,赋予人脸图像中各区域的权重,通过增加人脸图像中视线相关区域的权重,抑制其他区域的权重,获得针对人脸图像的视线估计结果;

步骤S5:采用步骤S1所构建的人脸图像训练集对超分辨率重建模块、视线估计模块进行整体训练,以完成对目标对象的人脸视线估计。

作为本发明的一种优选技术方案:步骤S3中采用人脸数据集FFHQ对超分辨率重建模块进行预训练。

作为本发明的一种优选技术方案:步骤S2所述的超分辨率重建模块具有依次串联的6个残差块,对低分辨率的人脸图像进行逐步上采样,以提取其中特征,第一个残差块的输入为大小为C×16×16的学习常数F

其中

风格转换块

风格转换块

式中,γ表示轻量级网络,其中μ和σ是特征的均值和标准差,y

作为本发明的一种优选技术方案:超分辨率重建模块引入语义感知风格损失

式中,φ

式中,⊙表示元素乘积,ε=1e-8用于避免除数为零。

作为本发明的一种优选技术方案:超分辨率重建模块引入重建损失

式中,等式右侧第二项为多尺度特征匹配损失,用于匹配

作为本发明的一种优选技术方案:超分辨率重建模块引入对抗性损失

基于多尺度鉴别器和合页损失构建目标函数

基于语义感知风格损失

式中,λ

作为本发明的一种优选技术方案:步骤S4的具体方法如下:

步骤S4.1:采用预训练的ResNet50作为特征提取器,从超分辨率重建模块输出的预设大小的高分辨率的人脸图像中提取特征,输出特征图;

步骤S4.2:采用空间权重机制,通过一个支路学习人脸图像中人脸区域各位置的权重,用于增加人脸图像中视线相关区域的权重,抑制其他区域的权重;

步骤S4.3:使用全连接层对特征进行分类,并输出表示视线的坐标(x,y),用于表示视线估计结果。

作为本发明的一种优选技术方案:步骤S4.2的空间权重机制包含三个卷积层,其过滤器大小为1×1,是一个修正的线性单元层,分别针对各卷积层,从卷积层输入大小为N×H×W的激活张量U,其中N是特征图的通道数量,H和W是特征图的高度和宽度,空间权重机制生成一个H×W空间权重矩阵W,空间权重矩阵W与激活张量U的各通道逐元素相乘得到该通道上的加权激活图,公式如下式:

V

式中,W为空间权重矩阵,U

作为本发明的一种优选技术方案:在视线估计模块的训练中,空间权重机制前两层卷积层的过滤器权值由均值为0,偏差为0.1的高斯分布中随机初始化,最后一个卷积层的滤波器权重由均值为0,方差为0.001的高斯分布中随机初始化,并且具有一个恒定的偏差项为1;其中激活张量U和空间权重矩阵W的梯度表示为:

式中,N为特征图的通道数量。

作为本发明的一种优选技术方案:视线估计模块引入损失函数

式中,ξ

有益效果:相对于现有技术,本发明的优点包括:

本发明所设计一种基于超分辨率重建的视线估计方法,可以增加低分辨率场合下视线估计的精度。目前视线估计主流的评价指标大多都是角度误差,即视线估计预测值和真实值的偏差角度,该指标越小,效果越好。实验训练采用视线估计经典的数据集MPIIFaceGaze,对测试集进行LQ处理以测试本方法在低分辨率场景下的效果。采用相同的实验条件和其他先进的方法进行比较,经过实验可得,Dilated-Net方法在数据集上的平均误差为4.86°,Gaze360方法在数据集上的平均误差为5.02°,Rt-Gene方法在数据集上的平均误差为6.43°。而本发明的PGGA-Net方法在数据集上的平均误差为3.96°,优于其他方法。证明本发明的方法在低分辨率环境下能增加视线估计的精度。

附图说明

图1(a)是现有的单眼视线估计网络结构图;

图1(b)是现有的双眼视线估计网络结构图;

图1(c)是现有的全脸视线估计网络结构图;

图2是现有的全脸视线估计网络结构图;

图3(a)是现有方法的流程图;

图3(b)是本发明实施例提供的一种基于超分辨率重建的视线估计方法的流程图;

图4是根据本发明实施例提供的PGGA-Net网络框架图;

图5(a)是根据本发明实施例提供的残差块结构图;

图5(b)是根据本发明实施例提供的风格转换块结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

现有的单眼、双眼、全脸视线估计网络结构图分别参照图1(a)-1(c),单眼视线估计方法采用单眼图像作为输入,使用卷积神经网络训练模型,输出视线的二维坐标点。双眼视线估计方法补足了单眼的方法没法充分利用双眼的互补信息这一缺点。但是单眼和双眼的视线估计方法还有一些缺陷,比如需要额外的模块来检测眼睛,需要额外的模块估计头部姿态。全脸视线估计方法解决了上述缺点,只需要输入人脸图像,就能得到最终视线估计结果的输出,是一种端到端的学习策略,并且能考虑全脸的全局特征。

现有的全脸视线估计网络结构图参照图2,基于一种融合无参注意力机制的卷积神经网络,归一化后的人脸图像通过第一个卷积模块,卷积核的大小为7×7,接着送入三层的网络中,每一层都有2个残差块,接着送入包含1×1的卷积层中进行卷积操作,完成脸部特征提取,然后将提取到的特征调整为向量的形式和头部姿态信息拼接融合,接着经过全连接层得到视线估计结果。

现有的全脸视线估计流程图参照图3(a),使用融合了无参注意力机制的浅层残差神经网络进行全脸视线估计方法,这种方法可以在不增加网络参数数量的情况下,提升网络的性能,但是该方法采用的浅层残差网络学习能力受限,提升效果有限,并且仍然没有解决在低分辨率场合下视线估计精度大幅度下降的问题。

参照图3(b),图4,本发明实施例提供的一种基于超分辨率重建的视线估计方法,该方法基于PGGA-Net网络框架,PGGA-Net网络框架主要由两个模块组成,分别是超分辨率重建模块和视线估计模块,超分辨率重建模块是一种渐进式语义感知风格转换框架,对低分辨率人脸图像恢复细节和清晰度,以提高视线估计精度。执行如下步骤S1-步骤S5,完成目标对象的人脸视线估计:

步骤S1:使用摄像头采集预设数量的人脸图像,构建人脸图像训练集;

步骤S2:构建超分辨率重建模块,一种渐进式语义感知风格转换框架,对低分辨率人脸图像恢复细节和清晰度,以提高视线估计精度,包括预设数量的残差块和与其相对应的格式转换块,超分辨率重建模块以低分辨率的人脸图像为输入,基于各残差块采用逐步上采样方式对人脸图像中的特征进行上采样,生成预设大小的高分辨率的人脸图像;

所述的超分辨率重建模块具有依次串联的6个残差块,对低分辨率的人脸图像进行逐步上采样,以提取其中特征,第一个残差块的输入为大小为C×16×16的学习常数F

其中

风格转换块

风格转换块

式中,γ表示轻量级网络,其中μ和σ是特征的均值和标准差,y

超分辨率重建模块引入语义感知风格损失

式中,φ

式中,⊙表示元素乘积,ε=1e-8用于避免除数为零。

超分辨率重建模块引入重建损失

式中,等式右侧第二项为多尺度特征匹配损失,用于匹配

超分辨率重建模块引入对抗性损失

基于多尺度鉴别器和合页损失构建目标函数

基于语义感知风格损失

式中,λ

步骤S3:采用人脸数据集FFHQ对超分辨率重建模块进行预训练,获得预训练好的超分辨率重建模块;预训练的目的是为了初始化模型参数,加快模型的收敛速度,同时提高模型的泛化能力。

步骤S4:构建视线估计模块,以超分辨率重建模块输出的高分辨率的人脸图像为输入,采用ResNet50提取人脸图像中的特征,并基于空间权重机制,赋予人脸图像中各区域的权重,通过增加人脸图像中视线相关区域的权重,抑制其他区域的权重,获得针对人脸图像的视线估计结果;

步骤S4的具体方法如下:

步骤S4.1:采用预训练的ResNet50作为特征提取器,从超分辨率重建模块输出的预设大小的高分辨率的人脸图像中提取特征,输出特征图;

和浅层神经网络相比,深层残差神经网络有更强的表达能力、更好的泛化性能、更高的准确率,以及拥有自适应特征学习的能力等优点,ResNet50利用了残差连接,在模型中添加跨层连接,可以解决神经网络中梯度消失以及梯度爆炸等问题,和传统的卷积神经网络相比,ResNet50有了更高的准确性,同时由于引入了残差连接,模型训练也更容易收敛,因此ResNet50成为了受到广泛应用的模型。

采用ResNet50作为特征提取器可以提高视线估计模型的性能和泛化能力,输入的高分辨率的人脸图像大小为224×224,经过ResNet50提取特征后,输出特征图大小为2048×14×14。

步骤S4.2:采用空间权重机制,通过一个支路学习人脸图像中人脸区域各位置的权重,用于增加人脸图像中视线相关区域的权重,抑制其他区域的权重;

空间权重机制包含三个卷积层,其过滤器大小为1×1,是一个修正的线性单元层,分别针对各卷积层,从卷积层输入大小为N×H×W的激活张量U,其中N是特征图的通道数量,H和W是特征图的高度和宽度,空间权重机制生成一个H×W空间权重矩阵W,空间权重矩阵W与激活张量U的各通道逐元素相乘得到该通道上的加权激活图,公式如下式:

V

式中,W为空间权重矩阵,U

步骤S4.3:使用全连接层对特征进行分类,并输出表示视线的坐标(x,y),用于表示视线估计结果。

步骤S5:采用步骤S1所构建的人脸图像训练集对超分辨率重建模块、视线估计模块进行整体训练,以完成对目标对象的人脸视线估计。

在视线估计模块的训练中,空间权重机制前两层卷积层的过滤器权值由均值为0,偏差为0.1的高斯分布中随机初始化,最后一个卷积层的滤波器权重由均值为0,方差为0.001的高斯分布中随机初始化,并且具有一个恒定的偏差项为1;其中激活张量U和空间权重矩阵W的梯度表示为:

式中,N为特征图的通道数量。

视线估计模块的误差采用L1Loss,又叫平均绝对误差,代表模型估计预测值和真实值之间的误差的平均值,视线估计模块引入损失函数

式中,ξ

以下为本发明所设计方法的一个实施例:

本实施例首先需要对超分辨率重建模块进行预训练,采用FFHQ人脸数据集作为训练数据集,使用Adam优化器对模型进行预训练,选择β

视线估计数据集采用视线估计经典的数据集MPIIFaceGaze,包含了15名受试者的总计45000张图像,采用P00号实验者的3000张图作为测试集,其余的42000张图作为训练集。

对视线估计数据集进行数据预处理,目的是消除环境因素,简化注视回归问题,具体步骤如下所示:

S1:用于对整个视线估计数据集进行预处理。在该函数中,首先获取MPIIFaceGaze数据集中的个人文件夹列表,并按照文件名排序,然后遍历每个个人文件夹,获取该人的注释信息和图像信息,并将处理后的图像和信息保存到指定的路径中。

S2:读取该人的相机矩阵和注释信息,然后遍历该人的所有图像,获取重要的注释信息,如人脸中心点、左右眼角点等,通过注释信息进行图像的归一化和剪裁,并获取图像中的人脸和左右眼的图像,最后获取重要的信息,如3D注视点和3D头部朝向,并将处理后的图像和信息保存到指定的路径中。

S3:对于每张图像,首先通过注释信息进行图像的归一化处理,获取人脸中心点和注视点的距离,然后按照一定比例进行图像的缩放,保证注视点和人脸中心点之间的距离为固定值,缩放后的数据集图像大小为224×224。

S4:根据归一化后的注释信息,获取重要的信息,如3D注视点和3D头部朝向,并将处理后的图像和信息保存到指定的路径中。

S5:为了测试本方法在低分辨率图像上的结果,对测试集采用python中的resize()函数进行下采样,将尺寸向下调整为112×112分辨率,再向上恢复为224×224分辨率,变成低分辨率图像。

S6:对整个PGGA-Net网络使用预处理过后的MPIIFaceGaze进行训练,bath size设置为128,epoch设置为20,学习率设置为0.00001。

S7:使用训练好的模型在测试集上进行验证。

评价指标:目前视线估计主流的评价指标大多是角度误差,即视线估计预测值和真实值的偏差角度,该指标越小,效果越好。

对比模型采用视线估计先进的方法Dilated-Net、RT-Gene、Gaze360。其中Dilated-Net设置batch size为128,epoch为20,学习率为0.001;RT-Gene设置batch size为128,epoch为20,学习率为0.0001;Gaze360设置batch size为128,epoch为20,学习率为0.0001。实验结果如表1所示:

表1本发明提出的网络和其他先进网络的实验结果

由表1的实验数据可知,本发明的方法在低分辨率环境下能有效增加视线估计的精度。实验证明本发明提出的方法优于其他方法,证明本方法在低分辨率环境下能有效增加视线估计的精度。

以下为本发明实施例的一种适用场景:

视线估计有广大的应用场景,其中的一个应用场景就是考试作弊的检测,通过电脑自带摄像头对考生进行视线估计监测考生的视线是否看着电脑,从而判断考生是否作弊。由于很多学校计算机机房使用的老式电脑或者笔记本,因此摄像头所捕捉的图片清晰度较低,而传统的视线估计针对此类场景下的准确度较低,而本发明提出的方法能解决该问题。

S1:采用老式电脑的前置摄像头对考生的脸部等间隔采集图片,5s为一个间隔,图片的分辨率较低。

S2:对收集到的图片输入到本发明提出的PGGA-Net网络中。

S3:本发明所提出的PGGA-Net网络会计算得到考生的视线估计结果,然后将结果和视线阈值进行比对,如果考生的视线角度连续数张超出阈值,则认为考生有很大可能出现了作弊的行为。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

相关技术
  • 一种基于多记忆及混合损失的视频超分辨率重建方法
  • 一种基于特征增强的图像超分辨率重建方法
  • 一种基于快速循环卷积网络的图像超分辨率重建方法
  • 一种基于联合运动估计与超分辨率重建的图像重建方法
  • 一种基于联合运动估计与超分辨率重建的图像重建方法
技术分类

06120116214423