掌桥专利:专业的专利平台
掌桥专利
首页

一种方法、装置、计算机设备以及存储介质

文献发布时间:2023-06-19 18:35:48


一种方法、装置、计算机设备以及存储介质

技术领域

本申请涉及互联网技术领域,尤其涉及一种方法、装置、计算机设备以及存储介质。

背景技术

通过单张图片估计头部姿态的六自由度(6DOF),对于真人与虚拟世界的交互具有重要的意义。目前,常见的做法是采用二阶人脸检测方法和单阶人脸检测方法,但是,二阶人脸检测算法依赖于对大量候选区域的判断,计算量较大,并且,二阶人脸检测算法中从检测框到6DOF的中间步骤太多,容易造成累计误差。采用单阶人脸检测虽然可以解决候选框依赖的问题,减小计算量,并且通过直接预测6DOF,可以减小累积误差,但单阶人脸检测方法的初始预测框是随机初始化得到的,因此单阶人脸检测方法会导致在训练过程中训练不收敛的情况。

发明内容

本申请实施例提供一种方法、装置、计算机设备以及存储介质,可以提高单阶人脸检测方法在训练过程中的训练速度。

本申请实施例一方面提供了一种方法,可包括:

获取标准图片和初始人脸姿态模型;所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵;

通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵;

根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数;

基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵;

根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数;

基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型;所述人脸姿态模型用于预测图片中人脸的姿态信息。

在一种可行的实施方式中,还包括:

对所述标准图片中的人脸进行标记生成标准图片的标准逻辑值矩阵,标准预测框矩阵和标准自由度矩阵。

在一种可行的实施方式中,所述通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵,包括:

通过所述初始人脸姿态模型中的特征提取模块,对所述标准图片进行特征提取,生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始自由度矩阵;

通过所述初始人脸姿态模型中的标签选择模块,对所述初始自由度矩阵进行筛选处理,生成初始局部自由度矩阵。

在一种可行的实施方式中,所述基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵,包括:

通过所述初始人脸姿态模型中的标签选择模块,将所述初始预测框矩阵进行筛选处理生成初始筛选预测框矩阵,将所述标准预测框矩阵进行筛选处理生成标准筛选预测框矩阵;

基于所述标准筛选预测框矩阵和初始筛选预测框矩阵,获取在第一时刻的第一预测框损失值,获取在目标时刻的第二预测框损失值;所述目标时刻是所述初始人脸姿态模型的当前训练时刻,所述第一时刻是所述当前训练时刻的前一轮训练的训练时刻;

根据所述第一预测框损失值、第二预测框损失值确定所述目标时刻的置信状态,根据所述置信状态确定候选预测框矩阵。

在一种可行的实施方式中,所述根据所述第一预测框损失值、第二预测框损失值确定所述目标时刻的置信状态,根据所述置信状态确定候选预测框矩阵,包括:

获取所述第二预测框损失值和第一预测框损失值之间的比值;

若所述比值大于比值阈值,则所述目标时刻的置信状态为不通过,则将所述标准筛选预测框矩阵确定为所述候选预测框矩阵;

若所述比值小于或等于比值阈值,则所述目标时刻的置信状态为通过,则将所述初始筛选预测框矩阵确定为所述候选预测框矩阵。

在一种可行的实施方式中,所述根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数,包括:

基于所述候选预测框矩阵,将所述初始局部自由度矩阵转换为初始全局自由度矩阵;

根据所述初始全局自由度矩阵和所述标准全局自由度矩阵生成姿态损失函数。

在一种可行的实施方式中,所述基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型,包括:

根据所述类别损失函数,标准框损失函数和姿态损失函数调整所述初始人脸姿态模型的参数;

当所述初始人脸姿态模型的参数满足收敛条件时,将所述调整参数后的初始人脸姿态模型确定为人脸姿态模型。

本申请实施例一方面提供了一种装置,可包括:

数据获取单元,用于获取标准图片和初始人脸姿态模型;所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵;

初始矩阵生成单元,用于通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵;

第一损失函数生成单元,用于根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数;

候选框生成单元,用于基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵;

第二损失函数生成单元,用于根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数;

模型生成单元,用于基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型;所述人脸姿态模型用于预测图片中人脸的姿态信息。

在一种可行的实施方式中,还包括:

标准矩阵生成单元,用于对所述标准图片中的人脸进行标记生成标准图片的标准逻辑值矩阵,标准预测框矩阵和标准自由度矩阵。

在一种可行的实施方式中,所述初始矩阵生成单元具体用于:

通过所述初始人脸姿态模型中的特征提取模块,对所述标准图片进行特征提取,生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始自由度矩阵;

通过所述初始人脸姿态模型中的标签选择模块,对所述初始自由度矩阵进行筛选处理,生成初始局部自由度矩阵。

在一种可行的实施方式中,所述候选框生成单元,包括:

置信状态确定子单元,用于通过所述初始人脸姿态模型中的标签选择模块,将所述初始预测框矩阵进行筛选处理生成初始筛选预测框矩阵,将所述标准预测框矩阵进行筛选处理生成标准筛选预测框矩阵;

基于所述标准筛选预测框矩阵和初始筛选预测框矩阵,获取在第一时刻的第一预测框损失值,获取在目标时刻的第二预测框损失值;所述目标时刻是所述初始人脸姿态模型的当前训练时刻,所述第一时刻是所述当前训练时刻的前一轮训练的训练时刻;

候选框生成子单元,用于根据所述第一预测框损失值、第二预测框损失值确定所述目标时刻的置信状态,根据所述置信状态确定候选预测框矩阵。

在一种可行的实施方式中,所述候选框生成子单元具体用于:

获取所述第二预测框损失值和第一预测框损失值之间的比值;

若所述比值大于比值阈值,则所述目标时刻的置信状态为不通过,则将所述标准筛选预测框矩阵确定为所述候选预测框矩阵;

若所述比值小于或等于比值阈值,则所述目标时刻的置信状态为通过,则将所述初始筛选预测框矩阵确定为所述候选预测框矩阵。

在一种可行的实施方式中,所述第二损失函数生成单元具体用于:

基于所述候选预测框矩阵,将所述初始局部自由度矩阵转换为初始全局自由度矩阵;

根据所述初始全局自由度矩阵和所述标准全局自由度矩阵生成姿态损失函数。

在一种可行的实施方式中,所述模型生成单元具体用于:

根据所述类别损失函数,标准框损失函数和姿态损失函数调整所述初始人脸姿态模型的参数;

当所述初始人脸姿态模型的参数满足收敛条件时,将所述调整参数后的初始人脸姿态模型确定为人脸姿态模型。

本申请实施例一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码执行上述的方法步骤。

本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法步骤。

在本申请实施例中,通过获取标准图片和初始人脸姿态模型,所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵,进一步通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵,进一步的,根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数,最后基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型。采用上述方法,可以避免在单阶人脸检测方法的训练过程中,由于初始预测框是随机初始化的,导致在训练过程中训练不收敛的问题,提高了单阶人脸检测方法在训练过程中的训练速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理的网络架构图;

图2是本申请实施例提供的一种数据处理方法的流程示意图;

图3是本申请实施例提供的一种数据处理方法的流程示意图;

图4是本申请实施例提供的一种数据处理方法的举例示意图;

图5是本申请实施例提供的一种数据处理装置的结构示意图;

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参见图1,图1是本申请实施例提供的数据处理的网络架构图。该网络架构图可以包括业务服务器100以及用户终端集群,该用户终端集群可以包括用户终端10a、用户终端10b、…、用户终端10c,其中,用户终端集群之间可以存在通信连接,例如用户终端10a与用户终端10b之间存在通信连接,用户终端10b与用户终端10c之间存在通信连接,且用户终端集群中的任一用户终端可以与业务服务器100存在通信连接,例如用户终端10a与业务服务器100之间存在通信连接,用户终端10b与业务服务器100之间存在通信连接。

其中,上述用户终端集群(也包括上述的用户终端10a、用户终端10b以及用户终端10c)均可以集成安装有目标应用。可选的,该目标应用可以包括具有展示文字、图像以及视频等数据信息功能的应用。数据库10d中存储了初始人脸姿态模型以及训练模型的训练数的。在一种可行的实施方式中,业务服务器100获取标准图片和初始人脸姿态模型,所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵,进一步通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵,业务服务器100根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵,进一步的,业务服务器100根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数,最后业务服务器100基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型。可选的,上述用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端10b。

可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器,本申请实施例中的业务服务器100可以为计算机设备,用户终端集群中的用户终端也可以为计算机设备,此处不限定。上述业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带图像识别功能的智能终端,但并不局限于此。其中,用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

进一步地,为便于理解,请参见图2,图2是本申请实施例提供的数据处理方法的流程示意图。该方法可以由用户终端(例如,上述图1所示的用户终端)执行,也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器100)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明。其中,该数据处理方法至少可以包括以下步骤S101-步骤S106:

S101,获取标准图片和初始人脸姿态模型;

具体的,用户终端可以获取标准图片和初始人脸姿态模型,可以理解的是,所述初始人脸姿态模型是未训练之前的人脸姿态模型,人脸姿态模型可以预测图片中人脸的姿态信息,标准图片用于训练初始人脸姿态模型,标准图片中携带有训练标签,训练标签包括标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵,逻辑值矩阵是一个二维向量,用于标识是否包含人脸,预测框矩阵是一个四维向量,用于标识人脸检测过程中的检测框的位置信息,全局自由度矩阵是人脸的自由度信息或者姿态信息,用于标识人脸的方向和角度信息。

S102,通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵;

具体的,用户终端通过所述初始人脸姿态模型中的特征提取模块,对所述标准图片进行特征提取,生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始自由度矩阵,特征提取模块是初始人脸姿态模型中的重要组成部分,例如,特征提取模块可以是特征金字塔网络(Feature Pyramid Network,FPN),进一步的,通过所述初始人脸姿态模型中的标签选择模块,对所述初始自由度矩阵进行筛选处理,生成初始局部自由度矩阵。通过筛选处理可以获取更具有代表性的矩阵。例如,通过特征提取获取200*200个初始自由度矩阵,通过标签选择模块筛选后生成38个初始局部自由度矩阵。

S103,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数;

具体的,用户终端根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数,可以理解的是,类别损失函数是根据标准逻辑值矩阵和初始逻辑值矩阵之间的差值确定,标准框损失函数是根据标准预测框矩阵和初始预测框矩阵之间的差值确定。

S104,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵;

具体的,用户终端通过所述初始人脸姿态模型中的标签选择模块,将所述初始预测框矩阵进行筛选处理生成初始筛选预测框矩阵,将所述标准预测框矩阵进行筛选处理生成标准筛选预测框矩阵,进一步的,基于所述标准筛选预测框矩阵和初始筛选预测框矩阵,获取在第一时刻的第一预测框损失值,获取在目标时刻的第二预测框损失值,所述预测框损失值是标准筛选预测框矩阵和初始筛选预测框矩阵之间的差值,所述目标时刻是所述初始人脸姿态模型的当前训练时刻,所述第一时刻是所述当前训练时刻的前一轮训练的训练时刻。

进一步的,根据所述第一预测框损失值、第二预测框损失值确定所述目标时刻的置信状态,根据所述置信状态确定候选预测框矩阵。确定候选预测框矩阵的具体过程如下:获取所述第二预测框损失值和第一预测框损失值之间的比值,若所述比值大于比值阈值,则所述目标时刻的置信状态为不通过,则将所述标准筛选预测框矩阵确定为所述候选预测框矩阵,若所述比值小于或等于比值阈值,则所述目标时刻的置信状态为通过,则将所述初始筛选预测框矩阵确定为所述候选预测框矩阵。

S105,根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数;

具体的,用户终端基于所述候选预测框矩阵,将所述初始局部自由度矩阵转换为初始全局自由度矩阵,所述全局自由度矩阵相对于局部自由度矩阵具有统一的尺度。进一步的,根据所述初始全局自由度矩阵和所述标准全局自由度矩阵生成姿态损失函数,即根据初始全局自由度矩阵和所述标准全局自由度矩阵之间的差值确定姿态损失函数。

S106,基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型;所述人脸姿态模型用于预测图片中人脸的姿态信息。

具体的,若所述类别损失函数,标准框损失函数和姿态损失函数不小于函数阈值,则用户终端调整所述初始人脸姿态模型的参数,进一步根据调整参数后的模型生成类别损失函数,标准框损失函数和姿态损失函数,若所述类别损失函数,标准框损失函数和姿态损失函数小于函数阈值,即当所述初始人脸姿态模型的参数满足收敛条件时,将所述调整参数后的初始人脸姿态模型确定为人脸姿态模型。

在本申请实施例中,通过获取标准图片和初始人脸姿态模型,所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵,进一步通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵,进一步的,根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数,最后基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型。采用上述方法,可以避免在单阶人脸检测方法的训练过程中,由于初始预测框是随机初始化的,导致在训练过程中训练不收敛的问题,提高了单阶人脸检测方法在训练过程中的训练速度。

请参见图3,图3是本申请实施例提供的数据处理方法的流程示意图。该方法可以由用户终端(例如,上述图1所示的用户终端)执行,也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器100)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明。其中,该数据处理方法至少可以包括以下步骤S201-步骤S207:

S201,对所述标准图片中的人脸进行标记生成标准图片的标准逻辑值矩阵,标准预测框矩阵和标准自由度矩阵。

具体的,用户终端对所述标准图片中的人脸进行标记生成标准图片的标准逻辑值矩阵,标准预测框矩阵和标准自由度矩阵,可以理解的是,用户可以采用人工标记的方法或者是标准的模型对标准图片进行标记,获取标准图片的标准逻辑值矩阵,标准预测框矩阵和标准自由度矩阵。

S202,获取标准图片和初始人脸姿态模型;所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵;

S203,通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵;

S204,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数;

S205,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵;

S206,根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数;

S207,基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型;所述人脸姿态模型用于预测图片中人脸的姿态信息。

其中,本发明实施例的步骤S202-S207参见图2所示实施例的步骤S101-S106的具体描述,在此不进行赘述。

请参见图4,图4是本申请实施例提供的数据处理方法的流程示意图。如图4所示,标准图片为长宽均为800的RGB三个通道的图片[800,800,3],经过特征提取模块(backbone)提取特征,得到表征预测类别的初始逻辑值矩阵pred_class_logits,形如[200,200,2],例如,第5行第10列对应的预测向量可能的值为[0.1,0.9],这表明800x 800的图像中第20行第40列所对应的像素点的类别标签为较大的逻辑值0.9所对应的下标1,令下标1表示有人,则说明该对应像素点有0.9的概率有人;特征提取后还得到表征预测框的初始预测框矩阵Proposals,形如[200,200,4],例如,第5行第10列对应的预测向量可能的值为[0.1,0.2,0.1,0.2],分别对应于[left,top,right,bottom],表示一个矩阵框的左上角和右下角两个点的坐标,对应于800x800的图像中第20行第40列所对应的像素点所在的人脸区域的预测框为[800*0.1,800*0.2,800*0.1,800*0.2]=[80,160,80,160],即预测框的左上角点的坐标值为[x,y]=[80,160],右下角点的坐标值[x,y]=[80,160];特征提取后还得到表征姿态的初始自由度矩阵pred_local_poses_feature,形如[200,200,6],例如,第5行第10列对应的预测响亮可能的值为[pitch,roll,yaw,x,y,z]=[0,0,0,0.1,0.2,0,3],表示原图中第20行第40列所在的人头像所对应的姿态角的信息。

进一步的,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数;

由于上述初始预测框矩阵时随机产生的,直接采用初始预测框矩阵生成姿态损失函数,容易导致训练结果不收敛。

因此,具体做法是,在训练之处的t=0的第一时刻,记录预测得到的第一预测框损失值box_loss@t=0,a表示比值阈值,通常要求a小到可以接受的范围(具体根据任务本身而定,这里可以取0.01)。

情况一:如果t=t0目标时刻,预测得到的第二预测框损失值box_loss@t=t0<=a*box_loss@t=0,则说明预测得到的初始预测框已经脱离了最初的随机状态,并且比较接近标签标准预测框,即t=t0目标时刻,网络已经能够预测出一系列粗粒度的预测框,那么通过标签选择模块得到的跟实际目标相对应的初始筛选预测框矩阵也具有一定程度的可信度,此时令初始筛选预测框矩阵为所述候选预测框矩阵,即用实际预测框作为姿态损失模块的输入。

情况二,如果t=t0目标时刻,预测得到的第二预测框损失值box_loss@t=t0>a*box_loss@t=0,则说明预测出来的初始预测框可信度较高,未脱离最初的随机初始化的状态,此时如果用实际的预测框作为姿态损失模块的输入,容易造成训练不收敛,此时令标准筛选预测框矩阵为所述候选预测框矩阵,即用标签框作为姿态损失模块的输入。

最后,基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型。

在本申请实施例中,通过获取标准图片和初始人脸姿态模型,所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵,进一步通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵,进一步的,根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数,最后基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型。采用上述方法,可以避免在单阶人脸检测方法的训练过程中,由于初始预测框是随机初始化的,导致在训练过程中训练不收敛的问题,提高了单阶人脸检测方法在训练过程中的训练速度。

请参见图5,图5是本申请实施例提供的一种数据处理装置的结构示意图。所述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图5所示,本申请实施例的所述数据处理装置1可以包括:数据获取单元11、初始矩阵生成单元12、第一损失函数生成单元13、候选框生成单元14、第二损失函数生成单元15、模型生成单元16。

数据获取单元11,用于获取标准图片和初始人脸姿态模型;所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵;

初始矩阵生成单元12,用于通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵;

第一损失函数生成单元13,用于根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数;

候选框生成单元14,用于基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵;

第二损失函数生成单元15,用于根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数;

模型生成单元16,用于基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型;所述人脸姿态模型用于预测图片中人脸的姿态信息。

请参见图5,本申请实施例的所述数据处理装置1可以还包括:标准矩阵生成单元17。

标准矩阵生成单元17,用于对所述标准图片中的人脸进行标记生成标准图片的标准逻辑值矩阵,标准预测框矩阵和标准自由度矩阵。

在一种可行的实施方式中,所述初始矩阵生成单元12具体用于:

通过所述初始人脸姿态模型中的特征提取模块,对所述标准图片进行特征提取,生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始自由度矩阵;

通过所述初始人脸姿态模型中的标签选择模块,对所述初始自由度矩阵进行筛选处理,生成初始局部自由度矩阵。

请参见图5,本申请实施例的所述候选框生成单元14可以还包括:置信状态确定子单元141、候选框生成子单元142。

置信状态确定子单元141,用于通过所述初始人脸姿态模型中的标签选择模块,将所述初始预测框矩阵进行筛选处理生成初始筛选预测框矩阵,将所述标准预测框矩阵进行筛选处理生成标准筛选预测框矩阵;

基于所述标准筛选预测框矩阵和初始筛选预测框矩阵,获取在第一时刻的第一预测框损失值,获取在目标时刻的第二预测框损失值;所述目标时刻是所述初始人脸姿态模型的当前训练时刻,所述第一时刻是所述当前训练时刻的前一轮训练的训练时刻;

候选框生成子单元142,用于根据所述第一预测框损失值、第二预测框损失值确定所述目标时刻的置信状态,根据所述置信状态确定候选预测框矩阵。

在一种可行的实施方式中,所述候选框生成子单元142具体用于:

获取所述第二预测框损失值和第一预测框损失值之间的比值;

若所述比值大于比值阈值,则所述目标时刻的置信状态为不通过,则将所述标准筛选预测框矩阵确定为所述候选预测框矩阵;

若所述比值小于或等于比值阈值,则所述目标时刻的置信状态为通过,则将所述初始筛选预测框矩阵确定为所述候选预测框矩阵。

在一种可行的实施方式中,所述第二损失函数生成单元15具体用于:

基于所述候选预测框矩阵,将所述初始局部自由度矩阵转换为初始全局自由度矩阵;

根据所述初始全局自由度矩阵和所述标准全局自由度矩阵生成姿态损失函数。

在一种可行的实施方式中,所述模型生成单元16具体用于:

根据所述类别损失函数,标准框损失函数和姿态损失函数调整所述初始人脸姿态模型的参数;

当所述初始人脸姿态模型的参数满足收敛条件时,将所述调整参数后的初始人脸姿态模型确定为人脸姿态模型。

在本申请实施例中,通过获取标准图片和初始人脸姿态模型,所述标准图片携带有标准逻辑值矩阵,标准预测框矩阵和标准全局自由度矩阵,进一步通过所述标准图片和初始人脸姿态模型生成所述标准图片初始逻辑值矩阵,初始预测框矩阵和初始局部自由度矩阵,根据标准逻辑值矩阵和初始逻辑值矩阵生成类别损失函数,根据标准预测框矩阵和初始预测框矩阵生成标准框损失函数,基于标准预测框矩阵和初始预测框矩阵生成候选预测框矩阵,进一步的,根据标准全局自由度矩阵、候选预测框矩阵和初始局部自由度矩阵生成姿态损失函数,最后基于所述类别损失函数,标准框损失函数和姿态损失函数生成人脸姿态模型。采用上述方法,可以避免在单阶人脸检测方法的训练过程中,由于初始预测框是随机初始化的,导致在训练过程中训练不收敛的问题,提高了单阶人脸检测方法在训练过程中的训练速度。

请参见图6,图6是本申请实施例提供的一种计算机设备的结构示意图。如图6所示,所述计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是随机存取存储器(Random Access Memory,RAM),也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图6所示的计算机设备1000中,网络接口1004可提供网络通讯功能,用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序,以实现上述图2-图4任一个所对应实施例中对所述数据处理方法的描述,在此不再赘述。

应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2-图4任一个所对应实施例中对所述数据处理方法的描述,也可执行前文图5所对应实施例中对所述数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2-图4任一个所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述计算机可读存储介质可以是前述任一实施例提供的一种数据处理装置或者上述设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(securedigital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其它程序和数量。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

技术分类

06120115627635