掌桥专利:专业的专利平台
掌桥专利
首页

人脸关键点处理方法、系统、终端及存储介质

文献发布时间:2023-06-19 09:26:02


人脸关键点处理方法、系统、终端及存储介质

技术领域

本发明实施例涉及数字图像处理,特别涉及人脸关键点处理方法、系统、终端及存储介质。

背景技术

人脸关键点处理技术目前在移动端美颜/美妆类、2D/3D人脸贴纸类应用中被广泛使用,随着近几年深度学习取得的显著性成果,卷积神经网络(Convolutional NeuralNetworks,CNN)已成为人脸关键点处理技术主要技术手段,然而在网络训练时,由于采用的是一些离散的静态标注样本,样本规模及多样性限制等因素影响,在视频流中任务中,容易出现人脸点位预测结果有轻微的视觉抖动。

现有技术属于从算法模型层面去克服问题,一方面标注一些连续视频帧样本,增加样本规模并重新训练网络,另一方面采用一些泛化性更好的网络或进行超参数调整;其中,前者需要时间及人力成本来增加样本来训练网络,后者的网络升级和超参调整需要反复进行实验和验证,也需要增加时间和人力投入。

发明内容

本发明实施方式的目的在于提供一种人脸关键点处理方法、系统及存储介质,使得在不增加训练样本或升级算法的前提下,实现抑制人脸关键点抖动。

为解决上述技术问题,本发明的实施方式提供了一种人脸关键点处理方法,包括以下步骤:

预测当前帧中人脸关键点位置数据;

根据当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据,计算当前帧相对于上一帧的人脸关键点位置数据的偏移量;

根据人脸关键点位置数据的偏移量,计算当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数;

根据当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,对当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据进行加权融合,得到当前帧中降噪后的人脸关键点位置数据。

本发明的实施方式还提供了一种人脸关键点处理系统,包括:

数据预测模块:预测当前帧中人脸关键点位置数据;

偏移获取模块:根据当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据,计算当前帧相对于上一帧的人脸关键点位置数据的偏移量;

系数计算模块:根据人脸关键点位置数据的偏移量,计算当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数;

加权更新模块:根据当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,对当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据进行加权融合,得到当前帧中降噪后的人脸关键点位置数据。

本发明的实施方式还提供了一种终端,其特征在于,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的人脸关键点处理方法。

本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述的人脸关键点处理方法。

相对于现有技术而言,本实施例不增加训练样本,不用升级算法。采用连续帧人脸关键点位置数据的预测结果,得到人脸关键点位置数据的偏移量,通过偏移量求解其上一帧和当前帧中的人脸关键点位置数据的加权系数,结合人脸关键点位置数据和对应加权系数,更新当前帧中降噪后人脸关键点位置数据,在不增加样本不升级算法的情况下,实现抑制人脸关键点位置的抖动的目的。

另外,根据人脸关键点位置数据的偏移量,计算当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,包括:根据人脸关键点位置数据的偏移量,得到当前帧中人脸关键点位置数据的偏移量的统计量;根据预设关系模型及当前帧中人脸关键点位置数据的偏移量的统计量,得到统计量对应的权重,其中,预设关系模型为统计量与权重的关系模型;根据统计量对应的权重,得到当前帧中人脸关键点位置数据的加权系数;根据当前帧中人脸关键点位置数据的加权系数,得到上一帧中人脸关键点位置数据的降噪后的加权系数。统计量往往反映样本数据的集中趋势,以统计量作为计算加权系数的依据,使得加权系数的分配更加合理有效。

另外,关系模型包括:线性的曲线模型或非线性的曲线模型;其中,统计量与权重为正相关。

另外,根据人脸关键点位置数据的偏移量,得到当前帧中人脸关键点位置数据的偏移量的统计量,包括:利用当前帧人脸关键点预设区域计算归一化距离;根据归一化距离,对人脸关键点位置数据的偏移量进行归一化处理;计算归一化处理后当前帧中人脸关键点位置数据的偏移量的统计量。人脸关键点位置归一化处理可减少计算量,使得运算过程更简洁明了,降低错误率。

另外,人脸关键点位置数据的偏移量包括:人脸关键点位置数据在图像坐标系中各坐标轴方向的坐标值的变化量;人脸关键点位置数据的偏移量的统计量,包括:人脸关键点位置数据在图像坐标系中,各坐标轴方向的坐标值的变化量的均值和标准差。

另外,图像坐标系为平面坐标系,坐标轴方向分别是x轴方向和y轴方向;x轴方向的均值和标准差、y轴方向的均值和标准差分别记为μ

另外,人脸关键点位置数据的偏移量的统计量包含两种,根据统计量对应的权重,得到当前帧中人脸关键点位置数据的加权系数的具体计算方式为:w

另外,在根据当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,对当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据进行加权融合,得到当前帧中降噪后的人脸关键点位置数据之后,还包括:从人脸关键点位置数据的偏移量中提取人脸预设区域关键点位置数据的偏移量;根据人脸预设区域关键点位置数据的偏移量,计算当前帧中人脸预设区域关键点位置数据的加权系数和上一帧中降噪后的人脸预设区域关键点位置数据的加权系数;根据当前帧中人脸预设区域关键点位置数据的加权系数和上一帧中降噪后的人脸预设区域关键点位置数据的加权系数,对当前帧中人脸预设区域关键点位置数据和上一帧中降噪后的人脸预设区域关键点位置数据进行加权融合,得到当前帧中重新降噪后的人脸预设区域关键点位置数据。由于部分预设区域点抖动较其他部位更易被用户感知,所以对预设区域单独防抖处理,得到的防抖动效果更加准确。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是根据本发明第一实施方式的人脸关键点处理方法的流程图;

图2是根据本发明第一实施方式提供的步骤103的具体流程图;

图3是根据本发明第一实施方式提供的子步骤1031的具体流程图;

图4是根据本发明第二实施方式提供的人脸关键点处理方法的流程图;

图5是根据本发明第二实施方式提供的步骤205的具体流程图;

图6是根据本发明第三实施方式提供的人脸关键点处理系统示意图;

图7是根据本发明第四实施方式的终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种人脸关键点处理方法,具体流程如图1所示。

步骤101,预测当前帧中人脸关键点位置数据;

步骤102,根据当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据,计算当前帧相对于上一帧的人脸关键点位置的偏移量;

步骤103,根据人脸关键点位置数据的偏移量,计算当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数;

步骤104,根据当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,对当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据进行加权融合,得到当前帧中降噪后的人脸关键点位置数据。

对于现有技术而言,本实施例不增加训练成本,不用升级算法。采用每帧人脸关键点位置数据的预测结果,得出上一帧和当前帧中的人脸关键点位置数据的加权系数,结合人脸关键点位置数据和加权系数,更新去噪后当前帧中人脸关键点位置数据,人力和时间耗费少的情况下,实现抑制人脸关键点位置的抖动的目的。

本申请实施例中的人脸关键点处理方法为终端执行,终端例如智能手机、平板电脑等需要执行人脸关键点识别的智能设备。在一个例子中,智能手机端执行美颜/美妆类应用时,可执行本发明中的人脸关键点处理方法,提高该应用程序中视频流任务的人脸关键点位置识别准确度,提升用户体验。

下面对本实施方式的人脸关键点处理方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。

在步骤101中,使用卷积神经网络对视频流中当前帧图像进行预测,得到人脸关键点位置数据;

在步骤102中,上一帧中降噪后人脸关键点位置数据和当前帧中人脸关键点位置数据的差值,即为所求人脸关键点位置数据的偏移量。

在一个例子中,步骤103包括以下步骤,具体流程如图2所示:

步骤1031:根据人脸关键点位置数据的偏移量,得到当前帧中人脸关键点位置数据的偏移量的统计量;

步骤1032:根据预设关系模型及当前帧中人脸关键点位置数据的偏移量的统计量,得到统计量对应的权重,其中,预设关系模型为统计量与权重的关系模型;

步骤1033:根据统计量对应的权重,得到当前帧中人脸关键点位置数据的加权系数;

步骤1034:根据当前帧中人脸关键点位置数据的加权系数,得到上一帧中人脸关键点位置数据的降噪后的加权系数。

其中,步骤1031包括以下子步骤,具体流程图如图3所示:

子步骤1031-1:利用当前帧中人脸关键点预设区域计算归一化距离;

子步骤1031-2:根据归一化距离,对人脸关键点位置数据的偏移量进行归一化处理;

子步骤1031-3:计算归一化处理后当前帧中人脸关键点位置数据的偏移量的统计量。

子步骤1031-1至子步骤1031-3,即步骤1031,在一个实例中,通过实验发现,两眼之间的距离,即眼距N

另外,人脸关键点位置数据的偏移量包括:人脸关键点位置数据在图像坐标系中各坐标轴方向的坐标值的变化量;人脸关键点位置数据的偏移量的统计量,包括:人脸关键点位置数据在图像坐标系中,各坐标轴方向的坐标值的变化量的均值和标准差。例如,该图像坐标系为一个平面坐标系,图像坐标系为平面坐标系,坐标轴方向分别是x轴方向和y轴方向;x轴方向的均值和标准差、y轴方向的均值和标准差分别记为μ

步骤1031至1034可以采用线性曲线模型或非线性曲线模型,在一个实例中,预设关系模型采用分段线性曲线模型,统计量和权重为正相关,统计量采用均值和标准差数据,其中,如果是均值和权重关系模型,则横轴代表均值变化,纵轴代表对应权重的变化,如果是标准差和权重的关系模型,则横轴代表标准差的变化,纵轴代表对应权重的变化;根据曲线模型及输入的均值和标准差数据,映射得到当前帧的均值权重w

步骤104在一个实例中,可根据公式F

本发明的第二实施方式涉及一种人脸关键点处理方法,具体流程如图4所示。

步骤201,预测当前帧中人脸关键点位置数据;

步骤202,根据当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据,计算当前帧相对于上一帧的人脸关键点位置数据的偏移量;

步骤203,根据人脸关键点位置数据的偏移量,计算当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数;

步骤204,根据当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,对当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据进行加权融合,得到当前帧中降噪后的人脸关键点位置数据;

步骤205,再次处理,得到当前帧中重新降噪后的人脸预设区域关键点位置数据。

其中,步骤201至步骤204与第一实施例大致相同,为了避免重复,不再赘述。不同之处在于,还包括步骤205。

在一个例子中,步骤205包含以下子步骤,具体流程如图5所示:

子步骤2051:从人脸关键点位置数据的偏移量中提取人脸预设区域关键点位置数据的偏移量;

子步骤2052:根据人脸预设区域关键点位置数据的偏移量,计算当前帧中人脸预设区域关键点位置数据的加权系数和上一帧中降噪后的人脸预设区域关键点位置数据的加权系数;

子步骤2053:根据当前帧中人脸预设区域关键点位置数据的加权系数和上一帧中降噪后的人脸预设区域关键点位置数据的加权系数,对当前帧中人脸预设区域关键点位置数据和上一帧中降噪后的人脸预设区域关键点位置数据进行加权融合,得到当前帧中重新降噪后的人脸预设区域关键点位置数据。

在一个例子中,由于眼部区域普遍较容易感知,选择眼部区域作为预设区域。

相较于第一实施例,本实施例在进行人脸关键点位置数据更新之后,针对人脸预设区域的位置数据再次处理和更新。由于实验发现,人脸眼部区域关键点位抖动较其他部位更易被用户感知,所以完成对人脸眼部区域关键点位防抖动处理,并单独更新,作为本次人脸关键点处理的输出,使得人脸关键点防抖动处理效果更明显。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种人脸关键点处理系统,如图6所示,包括:

数据预测模块301:预测当前帧中人脸关键点位置数据;

偏移获取模块302:根据当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据,计算当前帧相对于上一帧的人脸关键点位置数据的偏移量;

系数计算模块303:根据人脸关键点位置数据的偏移量,计算当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数;

加权更新模块304:根据当前帧中人脸关键点位置数据的加权系数和上一帧中降噪后的人脸关键点位置数据的加权系数,对当前帧中人脸关键点位置数据和上一帧中降噪后的人脸关键点位置数据进行加权融合,得到当前帧中降噪后的人脸关键点位置数据。

在数据预测模块301中,使用卷积神经网络对视频流中当前帧图像进行预测,得到人脸关键点位置数据。

在偏移获取模块302中,上一帧中降噪后人脸关键点位置数据和当前帧中人脸关键点位置数据的差值,即为所求人脸关键点位置数据的偏移量。

在系数计算模块303中,根据人脸关键点位置数据的偏移量,得到当前帧中人脸关键点位置数据的偏移量的统计量;根据预设关系模型及当前帧中人脸关键点位置数据的偏移量的统计量,得到统计量对应的权重,其中,预设关系模型为统计量与权重的关系模型;根据统计量对应的权重,得到当前帧中人脸关键点位置数据的加权系数;根据当前帧中人脸关键点位置数据的加权系数,得到上一帧中人脸关键点位置数据的降噪后的加权系数。

其中,根据人脸关键点位置数据的偏移量,得到当前帧中人脸关键点位置数据的偏移量的统计量,包括:选取上一帧和当前帧中变化最小的人脸关键点位置数据作为归一化距离,对人脸关键点位置数据的偏移量进行归一化处理,计算归一化处理后当前帧中人脸关键点位置数据的偏移量的统计量。

另外,人脸关键点位置数据的偏移量包括:人脸关键点位置数据在图像坐标系中各坐标轴方向的坐标值的变化量;人脸关键点位置数据的偏移量的统计量,包括:人脸关键点位置数据在图像坐标系中,各坐标轴方向的坐标值的变化量的均值和标准差。例如,该图像坐标系为一个平面坐标系,图像坐标系为平面坐标系,坐标轴方向分别是x轴方向和y轴方向;x轴方向的均值和标准差、y轴方向的均值和标准差分别记为μ

人脸关键点位置数据的偏移量的统计量包含两种,根据统计量对应的权重,得到当前帧中人脸关键点位置数据的加权系数的具体计算方式为:w

在加权更新模块304中,运用公式F

不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种终端,如图7所示,包括:

至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一的人脸关键点处理方法。

其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

技术分类

06120112168193