掌桥专利:专业的专利平台
掌桥专利
首页

一种基于令牌学习的人脸视频心率估计系统及方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明属于生理信号处理领域,涉及到计算机视觉、深度学习和信号处理等技术,具体地说是一种基于令牌学习的人脸视频心率估计系统及方法。

背景技术

早期的心率估计方法主要基于心电图技术和接触式光体积描记术信号,这些方法需要专业的设备通过接触患者的皮肤来收集心率数据,然而使用这些接触式传感器可能会使患者很不舒服,尤其对那些皮肤敏感的人群如皮肤烧伤的患者和新生婴儿,因此,基于非接触式的人脸视频心率估计吸引了越来越多的关注。

近些年来,基于远程光体积描记术(rPPG)信号的心率测量技术发展迅速,该技术可以通过普通摄像机在不需要任何皮肤接触的情况下从人脸视频中获取心率,其原理是皮肤对光的吸收随着心跳引起的血容量的周期性变化而变化。因此,可以通过捕捉周期性的肤色变化来估计心率。然而,这种皮肤颜色的变化十分微弱,而且很容易受到光照和头部运动等各种噪声的影响。

早期的基于rPPG的心率测量方法主要使用色彩空间转换和信号分解的方法从视频中提取生理信号,然后这些方法受限于某种确切的假设,如特定的皮肤反射模型和线性组合,不能适用于其它复杂的场景。随着深度学习的快速发展,一些方法开始使用具有强大建模能力的深度学习来解决人脸视频中各种噪音的影响,但这些方法主要利用传统的卷积神经网络对视频或手工提取的特征图进行处理,存在着很多弊端,尤其卷积神经网络受限于有限的时空感受野,常常忽略了长范围的时空感受野之间的相互作用,从而导致人脸视频的心率估计结果精确度较差,且泛化性较弱,难以适应各种复杂的现实场景。

发明内容

本发明针对现有技术中存在的不足之处,提供一种基于令牌学习的人脸视频心率估计系统及方法,以期能实现人脸视频心率的准确估计,并能提高人脸视频心率估计的准确性和鲁棒性。

本发明为解决技术问题采用如下的方法方案:

本发明一种基于令牌学习的人脸视频心率估计系统的特点在于,包括:面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块;

所述面部关键点检测模块采用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧的面部关键点位置;

所述特征提取模块通过所述面部关键点位置选取面部感兴趣区域,再对所述面部感兴趣区域进行色彩空间转换后,再采用像素平均池化操作对转换后的面部感兴趣区域进行去噪处理,从而生成人脸视频的多尺度时空图;

所述rPPG信号预测模块基于所述人脸视频的多尺度时空图,采用深度学习的方法搭建并训练基于令牌学习的神经网络模型,并使用训练好的基于令牌学习的神经网络模型对待预测的多尺度时空图进行转换,得到相应的rPPG信号;

所述心率计算模块对所述rPPG信号进行峰值点检测以获得心跳的频率,从而输出所述人脸视频的平均心率值。

本发明所述的基于令牌学习的人脸视频心率估计系统的特点也在于,所述rPPG信号预测模块是按如下过程进行神经网络模型的训练:

步骤a:构建基于令牌学习的神经网络模型,包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,所述令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入层构成,所述Transformer编码器包含L层结构,每一层均由第一层标准化层、多头注意力层、第一残差连接层、第二层标准化层、第一多层感知机和第二残差连接层顺序构成,所述rPPG信号预测器由第三层标准化层和第二多层感知机构成;

步骤b:所述人脸视频的多尺度时空图输入所述令牌提取器中,先将所述人脸视频的多尺度时空图切分成不同的图像块,然后,所述图像块经过线性映射层的处理后得到令牌,所述令牌和额外的可学习令牌输入位置编码嵌入层中进行处理,从而获取令牌特征;

所述令牌特征依次经过Transformer编码器的L层结构处理后,由最后一层结构输出的令牌特征,并从中获取rPPG信号的特征表示;

所述rPPG信号的特征表示依次经过所述rPPG信号预测器的第三层标准化和第二多层感知机的处理后,得到所述多尺度时空图对应的rPPG信号;

步骤c:利用负皮尔逊相关系数计算所述多尺度时空图对应的rPPG信号和标签PPG信号之间的误差,并作为所述基于令牌学习的神经网络模型的损失函数,再采用Adam优化器更新神经网络模型的参数,并在损失函数停止下降时停止训练,从而得到训练好的基于令牌学习的神经网络模型。

本发明一种基于令牌学习的人脸视频心率估计方法的特点是按如下步骤进行:

步骤1、数据预处理:

步骤1.1、获取心率估计数据集,令所述心率估计数据集中的任意一个人脸视频为V

步骤1.2、使用基于深度学习的人脸检测器OpenFace检测所述人脸视频V

步骤1.3、使用所述第i个人脸视频V

步骤1.4、将所述面部感兴趣区域

步骤1.5、计算所述色彩空间转换后的感兴趣区域

步骤1.6、使用长度为T帧、步长为st帧的滑动窗口将所述多尺度时空图M

步骤2、基于令牌学习的神经网络模型的训练:

建立基于令牌学习的神经网络模型F(I

令当前训练次数为e,并初始化e=1,令第e次训练时神经网络模型F(I

步骤2.1、令牌提取器的处理:

步骤2.1.1、将所述第p个定长多尺度时空图I

步骤2.1.2、所述令牌提取器利用式(1)提取(2

式(1)中,

步骤2.2、Transformer编码器的处理:

所述Transformer编码器利用式(2)对第l-1层令牌特征Z

式(2)中,MSA为多头注意力层,LN为层标准化;MLP为多层感知机层,Z

步骤2.3、rPPG信号预测器的处理;

rPPG信号预测器利用式(3)获得所述第p个定长多尺度时空图I

式(3)中,

式(4)中,

步骤2.5、判断所述第e次训练时的误差Loss(ξ

步骤3、心率计算;

利用峰值点检测计算所述训练好的基于令牌学习的神经网络模型预测的rPPG信号的各个峰值点位置,并通过所述峰值点位置计算出心跳频率,从而计算出所述rPPG信号对应的平均心率值。

与现有技术相比,本发明的有益效果体现在:

1、本发明利用先进的深度学习技术,提出了基于令牌学习的人脸视频心率估计系统,该系统由面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块组成,可以适用于估计包含各种光照强度和头部运动噪音的人脸视频的心率值,并提高了人脸视频心率估计的准确性和鲁棒性。

2、本发明提出的特征提取模块中,利用面部关键点获取面部生理信号最丰富的感兴趣区域,并通过色彩空间转换和像素平均池化操作将视频转换成多尺度时空图,较好地抑制了背景区域的噪音,同时还增强了微弱的心率信号。

3、本发明提出的rPPG信号预测模块中,使用基于令牌学习的神经网络模型自适应地整合多尺度时空图的全局特征,而不再受限于卷积神经网络有限的时空感受野,从而降低了误差,提高了预测准确度。

4、本发明提出一种基于令牌学习的人脸视频心率估计方法,该方法提取不同组合感兴趣区域全局时间上的令牌特征,再通过Transformer编码器学习不同令牌特征之间的全局相关性,从而充分挖掘人脸视频中微弱的心率信号,有利于进一步提高该方法的鲁棒性。

附图说明

图1为本发明基于令牌学习的人脸视频心率估计系统的结构示意图;

图2为本发明基于令牌学习的人脸视频心率估计系统的特征提取模块的结构框图;

图3为本发明基于令牌学习的人脸视频心率估计系统的rPPG信号预测模块的结构框图。

具体实施方式

下面将结合附图,对本发明的具体实施技术方案进行详细说明。

本实施例中,一种基于令牌学习的人脸视频心率估计系统,如图1所示,包括:面部关键点检测模块,特征提取模块,rPPG信号预测模块和心率计算模块。

其中,面部关键点检测模块,是从输入的人脸视频每一帧人脸图像中检测面部关键点位置;

具体实施中,是输入一段人脸视频,使用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧人脸图像的面部关键点位置;

特征提取模块的结构框图如图2所示,通过面部关键点位置选取面部感兴趣区域,再对面部感兴趣区域进行色彩空间转换,并采用像素平均池化操作进行去噪处理,从而生成人脸视频的多尺度时空图;

具体实施中,通过W=68个面部关键点位置选取n=6个面部感兴趣区域,再利用n个面部感兴趣区域的非空子集获得(2

rPPG信号预测模块的结构框图如图3所示,是采用深度学习的方法搭建并训练基于令牌学习的神经网络模型,并使用训练好的基于令牌学习的神经网络模型对定长多尺度时空图进行转换,得到相应的rPPG信号;

具体实施中,rPPG信号预测模块是按如下过程进行神经网络模型的训练:

步骤a:构建基于令牌学习的神经网络模型,包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入构成,Transformer编码器由层标准化、多头注意力、残差连接、层标准化、多层感知机和残差连接顺序构成,rPPG信号预测器由层标准化和多层感知机构成;

步骤b:人脸视频的多尺度时空图输入令牌提取器中,将人脸视频的多尺度时空图切分成不同的图像块,图像块经过线性映射层处理后得到令牌,并增加一个额外的可学习令牌,再对所有令牌增加位置编码嵌入,从而获取令牌特征;

令牌特征依次经过Transformer编码器的层标准化、多头注意力、残差连接、层标准化、多层感知机和残差连接的处理,得到更新后的令牌特征,将更新后的令牌特征依次经过L层Transformer编码器的处理后,从而从最后一层的令牌特征中获得rPPG信号的特征表示;

rPPG信号的特征表示依次经过rPPG信号预测器的层标准化和多层感知机处理后,得到多尺度时空图对应的rPPG信号;

步骤c:利用负皮尔逊相关系数计算多尺度时空图对应的rPPG信号和标签PPG信号之间的误差,并作为基于令牌学习的神经网络模型的损失函数,再采用Adam优化器更新模型参数,并在损失函数停止下降时停止训练,从而得到训练好的基于令牌学习的神经网络模型;

心率计算模块,是使用峰值点检测计算出rPPG信号所有的峰值点位置,并通过峰值点位置计算出平均心跳频率,从而计算出rPPG信号对应的平均心率值。

本实施例中,一种基于令牌学习的人脸视频心率估计方法是先输入人脸视频,检测人脸视频中每一帧的面部关键点位置;再使用面部关键点位置获取面部感兴趣区域,并对面部感兴趣区域进行色彩空间转换和像素平均池化操作,从而生成人脸视频的多尺度时空图;然后,构建基于令牌学习的神经网络模型对多尺度时空图进行学习,并预测相应的rPPG信号;最后对预测的rPPG信号进行峰值点检测,并计算出相应的平均心率值。具体的说,包括如下步骤:

步骤1、获取心率估计数据集,并将数据集中的视频按参与者划分为训练数据集和测试数据集两部分。划分的训练集占总视频的80%,测试数据集占剩下的20%。每条视频同时包含RGB视频、标签PPG信号和标签心率值。

步骤2、数据预处理:

步骤2.1、令心率估计数据集中的任意一个人脸视频为V

步骤2.2、使用基于深度学习的人脸检测器OpenFace检测人脸视频V

步骤2.3、使用第i个人脸视频V

步骤2.4、将面部感兴趣区域

步骤2.5、计算色彩空间转换后的感兴趣区域

步骤2.6、使用长度为T=300帧、步长为st=15帧的滑动窗口将多尺度时空图M

步骤3、神经网络模型训练:

建立基于令牌学习的神经网络模型F(I

令当前训练次数为e,并初始化e=1,令第e次训练时神经网络模型F(I

步骤3.1、令牌提取器:

步骤3.1.1、将定长多尺度时空图I

步骤3.1.2、利用式(1)所示的令牌提取器提取第0层令牌特征,从而得到定长多尺度时空图I

其中,

步骤3.2、Transformer编码器:

利用式(2)所示Transformer编码器对各层令牌特征Z

其中,MSA为多头注意力层,MLP为多层感知机层,L=6为Transformer编码器的层数;步骤3.3、rPPG信号预测器

利用式(3)所示的rPPG信号预测器获得定长多尺度时空图I

式(3)中,

步骤3.4、利用式(4)构建第e次训练时神经网络模型的损失函数Loss(ξ

式(4)中,

步骤3.5、判断第e次训练时的误差Loss(ξ

步骤4、心率计算

利用峰值点检测计算最优神经网络模型预测的rPPG信号的各个峰值点位置,并通过峰值点位置计算出心跳频率,从而计算出rPPG信号对应的平均心率值。

综上所述,本发明提出的一种基于令牌学习的人脸视频心率估计系统及方法,解决了传统基于卷积神经神经网络的方法受限于有限的时空感受野,同时利用能够抑制噪音和增强心率信号的多尺度时空图表示人脸视频中的心率信号;提取不同组合感兴趣区域全局时间上的令牌特征,再通过Transformer编码器学习不同令牌特征之间的全局相关性,从而充分挖掘人脸视频中微弱的心率信号;该人脸视频心率估计系统及方法有效地提升了人脸视频心率估计的准确性,同时能够克服复杂的场景噪音,增加了心率估计的鲁棒性。

相关技术
  • 一种基于令牌学习的人脸视频心率估计系统及方法
  • 一种基于色彩空间学习的人脸视频心率估计方法
技术分类

06120114722846