掌桥专利:专业的专利平台
掌桥专利
首页

深度图人脸检测模型训练方法、系统、设备及存储介质

文献发布时间:2023-06-19 11:39:06


深度图人脸检测模型训练方法、系统、设备及存储介质

技术领域

本发明涉及深度图人脸检测,具体地,涉及一种深度图人脸检测模型训练方法、系统、设备及存储介质。

背景技术

人脸检测方法大致可以分为两类:基于2D人脸图像的人脸检测和基于3D人脸图像的人脸检测。其中2D人脸检测是通过2D摄像头平面成像,无法接收物理世界中的第三位信息(尺寸和距离等几何数据),即使算法及软件再先进,在有限的信息接收状态下,安全级别终究不够高,通过照片、视频、化妆、人皮面具等方式可以很容易进行破解,无法满足智能手机安全级别的需求。

3D人脸检测则是通过3D摄像头立体成像,能够检测视野内空间每个点位的三维坐标信息,从而使得计算机得到空间的3D数据并能够复原完整的三维世界,并实现各种智能的三维定位。简单的说就是机器获取的信息多了,分析判断的准确性有了极大的提升,人脸检测功能可以分辨出平面图像/视频/化妆/皮面具/双胞胎等状态,适合金融领域和智能手机等安全级别要求高的应用场景。

传统的3D人脸检测设备一般都是通过同时装备RGB摄像头和深度摄像头,通过RGB摄像头拍摄的RGB图像进行人脸检测,然后再将RGB图像上检测到的人脸对应到深度图上,该方法硬件成本高,需要配两个摄像头,同时需要在RGB摄像头和深度摄像头之间进行切换,因此运算速度较慢。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种深度图人脸检测模型训练方法、系统、设备及存储介质。

根据本发明提供的深度图人脸检测模型训练方法,包括如下步骤:

步骤S1:获取多张人脸深度图,根据所述人脸深度图生成多个训练图像集,每一所述训练图像集均包括负样本图像集和具有人脸标注框的正样本图像集;

步骤S2:将一所述训练图像集输入第一级神经网络模型进行训练;

步骤S3:将一所述训练图像集输入训练后的第一级神经网络模型进行检测,当所述第一级神经网络模型对一所述训练图像集中的一人脸深度图输出的检测人脸框的置信度大于预设值的置信度阈值且与标注人脸框的交并比小于预设值的第一阈值时,根据所述检测人脸框截取所述人脸深度图生成第一截取图像;

步骤S4:获取所述第一截取图像,并将所述第一截取图像并入另一所述训练图像集的负样本图像集,进而根据另一所述训练图像集进行第二级神经网络模型的训练。

优选地,还包括如下步骤:

步骤S5:将另一所述训练图像集输入训练后的第二级神经网络模型进行检测,当所述第二级神经网络模型对另一所述训练图像集中的一人脸深度图输出的检测人脸框的置信度大于预设置的置信度阈值且与标注人脸框的交并比小于预设值的所述第二阈值时,则将根据所述检测人脸框截取所述人脸深度图生成第二截取图像;

步骤S6:获取所述第二截取图像,并将所述第二截取图像并入再一所述训练图像集的负样本图像集,进而根据再一所述训练图像集进行第三级神经网络模型的训练。

优选地,所述步骤S1包括如下步骤:

步骤S101:通过在标注人脸框的周边对人脸深度图进行随机裁剪生成第一裁剪图像,且当所述第一裁剪图像中与任一标注人脸框的交并比大于第三阈值时,将所述第一裁剪图像加入正样本图像集;

步骤S102:通过对所述深度图进行随机裁剪生成第二裁剪图像,且当将所述第二裁剪图像与该深度图中的标注人脸框的交并比小于所述第四阈值时,将该第二裁剪图像加入负样本图像集;

步骤S103:重复执行步骤S101和步骤S102生成正样本图像集和负样本图像集,获取所述多张正样本图像集和负样本图像集以生成多个所述训练图像集。

优选地,所述第一级神经网络模型、所述第二级神经网络模型输出为所述检测人脸框与标注人脸框的相对偏移值;

所述检测人脸框的位置根据所述相对偏移值确定。

优选地,所述第一级神经网络模型包括顺次设置的第一数据层和第一数据合并层,与所述第一数据合并层的一输出端顺次连接的第一卷积层、第一批量归一化层、第一非线性激活层、第一池化层,与所述第一数据合并层的另一输出端顺次连接的第二卷积层、第二批量归一化层、第二非线性激活层,与所述第一池化层、所述第二非线性激活层顺次连接的第一拼接层、第三卷积层、第三批量归一化层、第三非线性激活层、第四卷积层、第四批量归一化层、第四非线性激活层以及与所述第四非线性激活层的输出端连接的第五卷积层和第六卷积层。

优选地,所述第二级神经网络模型包括顺次设置的第二数据层和第二数据合并层,与所述第二数据合并层的一输出端顺次连接的第七卷积层、第五批量归一化层、第五非线性激活层、第二池化层,与所述第一数据合并层的另一输出端顺次连接的第八卷积层、第六批量归一化层、第六非线性激活层,与所述第二池化层、所述第六非线性激活层顺次连接的第二拼接层,与所述第二拼接层连接输出端的第九卷积层、第七批量归一化层、第七非线性激活层、第三池化层,与所述第二拼接层输出端连接的第十卷积层、第八批量归一化层、第八非线性激活层,与所述第三池化层、所述第八非线性激活层连接的所述第三拼接层,与第三拼接层连接的第十一卷积层、第九批量归一化层、第九非线性激活层、第一全连接层、第十非线性激活层以及与所述第十非线性激活层的输出端连接的第二全连接层和第三全连接层。

优选地,所述第三级神经网络模型包括顺次设置的第三数据层、第三数据合并层、第十二卷积层、第十批量归一化层、第十一非线性激活层、第四池化层、第十三卷积层、第十一批量归一化层、第十二非线性激活层、第十四卷积层、第十三非线性激活层、第五池化层、第十五卷积层、第十二批量归一化层、第十四非线性激活层、第十七卷积层、第十三批量归一化层、第十五非线性激活层、第六池化层、第十八卷积层、第十四批量归一化层、第十六非线性激活层、第十九卷积层、第十五批量归一化层、第十七非线性激活层、第四全连接层、第十八非线性激活层以及与所述第十八非线性激活层的输出端连接的第五全连接层和第六全连接层。

本发明提供的深度图人脸检测模型训练系统,包括如下模块:

训练图像集生成模块,用于获取多张人脸深度图,根据所述人脸深度图生成多个训练图像集,每一所述训练图像集均包括负样本图像集和具有人脸标注框的正样本图像集;

第一模型训练模块,用于将一所述训练图像集输入第一级神经网络模型进行训练;

图像检测截取模块,用于将一所述训练图像集输入训练后的第一级神经网络模型进行检测,当所述第一级神经网络模型对一所述训练图像集中的一人脸深度图输出的检测人脸框的置信度大于预设值的置信度阈值且与标注人脸框的交并比小于预设值的第一阈值时,根据所述检测人脸框截取所述人脸深度图生成第一截取图像;

第二模型训练模块,用于获取所述第一截取图像,并将所述第一截取图像并入另一所述训练图像集的负样本图像集,进而根据另一所述训练图像集进行第二级神经网络模型的训练。

本发明提供的深度图人脸检测模型训练设备,包括:

处理器;

存储器,其中存储有所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执所述深度图人脸检测模型训练方法的步骤。

本发明提供的计算机可读存储介质,用于存储程序,所述程序被执行时实现所述深度图人脸检测模型训练方法的步骤

与现有技术相比,本发明具有如下的有益效果:

在本发明中通过采集的人脸深度图生成多个训练图像集,根据多个训练图像集分别训练包括多个神经网络模型级联的深度图人脸检测模型,从而实现对深度图的人脸准确检测,以准确得到深度图中的人脸位置;

在本发明中对第一级神经网络模型对所述训练图像集中输出的检测人脸框与标注人脸框的交并比小于预设值的第一阈值的人脸深度图,根据所述检测人脸框进行截取,并将截取生产的第一截取图像作为第二级神经网络模型的负样本,进而第二级神经网络模型的训练,提高了神经网络模型检测的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明实施例中深度图人脸检测模型训练方法的步骤流程图;

图2为本发明变形例中深度图人脸检测模型训练方法的步骤流程图;

图3为本发明实施例中生成训练图像集的步骤流程图;

图4为本发明实施例中输出检测人脸框的人脸深度图的示例图;

图5为本发明实施例中边框回归方法进行检测人脸框输出的示意图;

图6为本发明实施例中第一级神经网络模型的结构示意图;

图7(a)为本发明实施例中第一级神经网络模型中迭代次数与训练误差的曲线图;

图7(b)为本发明实施例中第一级神经网络模型中迭代次数与验证误差的曲线图;

图8为本发明实施例中第二级神经网络模型的结构示意图;

图9(a)为本发明实施例中第二级神经网络模型中迭代次数与训练误差的曲线图;

图9(b)为本发明实施例中第二级神经网络模型中迭代次数与验证误差的曲线图;

图10为本发明实施例中第三级神经网络模型的结构示意图;

图11(a)为本发明实施例中第二级神经网络模型中迭代次数与训练误差的曲线图;

图11(b)为本发明实施例中第二级神经网络模型中迭代次数与验证误差的曲线图;

图12为本发明实施例中深度图人脸检测模型使用的步骤流程图;

图13为本发明实施例中深度图人脸检测模型训练系统的模块示意图;

图14为本发明实施例中深度图人脸检测模型训练设备的结构示意图;以及

图15为本发明实施例中计算机可读存储介质的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供的深度图人脸检测模型训练方法,旨在解决现有技术中存在的问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。

图1为本发明实施例中深度图人脸检测模型训练方法的步骤流程图,如图1所示,本发明提供的深度图人脸检测模型训练方法,包括如下步骤:

步骤S1:采集多张人脸深度图,根据所述人脸深度图生成多个训练图像集,每一所述训练图像集均包括负样本图像集和具有人脸标注框的正样本图像集;

图3为本发明实施例中生成训练图像集的步骤流程图,如图3所示,所述步骤S1包括如下步骤:

步骤S101:通过在标注人脸框的周边对人脸深度图进行随机裁剪生成第一裁剪图像,且当所述第一裁剪图像中与任一标注人脸框的交并比(IOU,Intersection OverUnion)大于第三阈值时,将所述第一裁剪图像加入正样本图像集;

步骤S102:通过对所述深度图进行随机裁剪生成第二裁剪图像,且当将所述第二裁剪图像与该深度图中的标注人脸框的交并比小于所述第四阈值时,将该第二裁剪图像加入负样本图像集;

步骤S103:重复执行步骤S101和步骤S102生成正样本图像集和负样本图像集,获取所述多张正样本图像集和负样本图像集以生成多个所述训练图像集。

在本发明实施例中,所述第三阈值为0.5至0.9之间的任意数值,在本发明实施例中,所述第三阈值优选为0.65;所述第四阈值为0.5至0.9之间的任意数值,在本发明实施例中,所述第四阈值优选为0.65。由于当第一裁剪图像中与标注人脸框的交并比较大时,第一裁剪图像中与标注人脸框的重合区域更多,因此便于作为正样本进行使用。由于当第一裁剪图像中与标注人脸框的交并比较小时,第一裁剪图像中与标注人脸框的重合区域较少,因此便于作为正样本进行使用

步骤S2:将一所述训练图像集输入第一级神经网络模型进行训练;

步骤S3:将一所述训练图像集输入训练后的第一级神经网络模型进行检测,当所述第一级神经网络模型对一所述训练图像集中的一人脸深度图输出的检测人脸框的置信度大于预设值的置信度阈值且与标注人脸框的交并比小于预设值的第一阈值时,根据所述检测人脸框截取所述人脸深度图生成第一截取图像;

步骤S4:获取所述第一截取图像,并将所述第一截取图像并入另一所述训练图像集的负样本图像集,进而根据另一所述训练图像集进行第二级神经网络模型的训练。

在本发明实施例中,所述第一阈值为0.2至0.4之间的任意数值,在本发明实施例中,所述第一阈值优选为0.3;本发明中将第一级神经网络模型检测比较困难的图像,即检测人脸框与标注人脸框的交并比小于0.3的训练图像筛选出进行下一级神经网络模型的负样本,进行下一级神经网络模型的训练,从而能够提高下一级神经网络模型的对深度图中人脸的检测准确图。

在本发明实施例中,所述置信度阈值为0.6至0.8之间的任意数值,在本发明实施例中,所述置信度阈值优选为6.5。

图2为本发明变形例中深度图人脸检测模型训练方法的步骤流程图,如图2所示,本发明提供的深度图人脸检测模型训练方法,还包括如下步骤:

步骤S5:将另一所述训练图像集输入训练后的第二级神经网络模型进行检测,当所述第二级神经网络模型对另一所述训练图像集中的一人脸深度图输出的检测人脸框的置信度大于预设置的置信度阈值且与标注人脸框的交并比小于预设值的所述第二阈值时,则将根据所述检测人脸框截取所述人脸深度图生成第二截取图像;

步骤S6:获取所述第二截取图像,并将所述第二截取图像并入再一所述训练图像集的负样本图像集,进而根据再一所述训练图像集进行第三级神经网络模型的训练。

在该变形例中,在本发明实施例中,所述第二阈值为0.2至0.4之间的任意数值,在本发明实施例中,所述第二阈值优选为0.3。在本发明变形例中,可以增加下一级神经网络模型的数量,实现更多的神经网络模型的级联,使得本发明变形例中深度图人脸检测模型能够更准确的输出检测结果。

图4为本发明实施例中输出检测人脸框的人脸深度图的示例图,如图4所示,当所述第一级神经网络模型、所述第二级神经网络模型、所述第三级神经网络模型训练完成后,当将人脸深度图顺次通过所述第一级神经网络模型、所述第二级神经网络模型、所述第三级神经网络模型进行检测,能将人脸区域在所述人脸深度图准确框出。

在本发明实施例中,图5为本发明实施例中边框回归方法进行检测人脸框输出的示意图,如图5所示,即所述第一级神经网络模型、所述第二级神经网络模型输出为所述检测人脸框与标注人脸框的相对偏移值;通过使用边框回归方法,能够降低神经网络对于人脸框检测的学习难度,从而加快神经网络模型训练的收敛速度。

所述检测人脸框的位置根据所述相对偏移值确定。

图6为本发明实施例中第一级神经网络模型的结构示意图,如图6所示,所述第一级神经网络模型包括顺次设置的第一数据层和第一数据合并层,与所述第一数据合并层的一输出端顺次连接的第一卷积层、第一批量归一化层、第一非线性激活层、第一池化层,与所述第一数据合并层的另一输出端顺次连接的第二卷积层、第二批量归一化层、第二非线性激活层,与所述第一池化层、所述第二非线性激活层顺次连接的第一拼接层、第三卷积层、第三批量归一化层、第三非线性激活层、第四卷积层、第四批量归一化层、第四非线性激活层以及与所述第四非线性激活层的输出端连接的第五卷积层和第六卷积层。

在本发明一实施例中,所述第一级神经网络模型采用全卷积神经网络(FCN:FullyConvolutional Network)训练生成。第一级神经网络模型对于输入的深度图的尺寸没有要求,即可以输入任意尺寸的深度图,输出包括第五卷积层和第六卷积层,第五卷积层和第六卷积层的输出都是热图(Heat map)。第五卷积层输出为每个检测人脸框的概率,第六卷积层输出的每一个位置包含四个值,为每个检测人脸框相对于标注人脸框的位置偏移值,包括四个值(△x1,△y1,△x2,△y2),(△x1,△y1)为检测人脸框的左上角相对于标注人脸框左上角的位置偏移量,(△x2,△y2)为检测人脸框的右下角相对于标注人脸框右下角的位置偏移量。

图7(a)为本发明实施例中第一级神经网络模型中迭代次数与训练误差的曲线图,在图7(a)中,横坐标为迭代次数,实线表示训练误差的变化,虚线表示测试误差的变化。

图7(b)为本发明实施例中第一级神经网络模型中迭代次数与验证误差的曲线图,在图7(b)中,横坐标为迭代次数,表示随着迭代次数的增加,测试精度的变化情况。

图8为本发明实施例中第二级神经网络模型的结构示意图,如图8所示,在本发明一实施例中,所述第二级神经网络模型包括顺次设置的第二数据层和第二数据合并层,与所述第二数据合并层的一输出端顺次连接的第七卷积层、第五批量归一化层、第五非线性激活层、第二池化层,与所述第一数据合并层的另一输出端顺次连接的第八卷积层、第六批量归一化层、第六非线性激活层,与所述第二池化层、所述第六非线性激活层顺次连接的第二拼接层,与所述第二拼接层连接输出端的第九卷积层、第七批量归一化层、第七非线性激活层、第三池化层,与所述第二拼接层输出端连接的第十卷积层、第八批量归一化层、第八非线性激活层,与所述第三池化层、所述第八非线性激活层连接的所述第三拼接层,与第三拼接层连接的第十一卷积层、第九批量归一化层、第九非线性激活层、第一全连接层、第十非线性激活层以及与所述第十非线性激活层的输出端连接的第二全连接层和第三全连接层。

在本发明一实施例中,所述第二级神经网络模型为一个带有全连接层FC(FullyConnected layer)的卷积神经网络,所述第二级神经网络模型的输入设定为24x24的深度,输出由第二全连接层和第三全连接层进行特征融合并进行输出,所述第二全连接层的输出值需要经过层softmax层得到输入深度图每个检测人脸框的概率,第三全连接层输出为检测人脸框相对于标注人脸框的位置偏移值,包括四个值(△x1,△y1,△x2,△y2)。所述第二级神经网络模型,负样本图像集需要加入从第一级神经网络模型中筛选出来的困难负样本。

图9(a)为本发明实施例中第一级神经网络模型中迭代次数与训练误差的曲线图,在图9(a)中,横坐标为迭代次数,实线表示训练误差的变化,虚线表示测试误差的变化。

图9(b)为本发明实施例中第一级神经网络模型中迭代次数与验证误差的曲线图,在图9(b)中,横坐标为迭代次数,表示随着迭代次数的增加,测试精度的变化情况。

图10为本发明实施例中第三级神经网络模型的结构示意图,如图10所示,所述第三级神经网络模型包括顺次设置的第三数据层、第三数据合并层、第十二卷积层、第十批量归一化层、第十一非线性激活层、第四池化层、第十三卷积层、第十一批量归一化层、第十二非线性激活层、第十四卷积层、第十三非线性激活层、第五池化层、第十五卷积层、第十二批量归一化层、第十四非线性激活层、第十七卷积层、第十三批量归一化层、第十五非线性激活层、第六池化层、第十八卷积层、第十四批量归一化层、第十六非线性激活层、第十九卷积层、第十五批量归一化层、第十七非线性激活层、第四全连接层、第十八非线性激活层以及与所述第十八非线性激活层的输出端连接的第五全连接层和第六全连接层。

在本发明一实施例中,所述第三级神经网络模型为一个带有全连接层FC(FullyConnected layer)的卷积神经网络,所述第三级神经网络模型的输入设定为48x48的深度图,输出由第五全连接层和第六全连接层进行特征融合并进行输出,第五全连接层的输出值需要经过层softmax层得到输入深度图每个检测人脸框的概率,第六全连接层输出为检测人脸框相对于标注人脸框的位置偏移值,包括四个值(△x1,△y1,△x2,△y2),所述第三级神经网络模型的训练过程中,训练的负样本图像集需要加入从第二级神经网络模型中筛选出来的困难负样本。

图11(a)为本发明实施例中第一级神经网络模型中迭代次数与训练误差的曲线图,在图9(a)中,横坐标为迭代次数,实线表示训练误差的变化,虚线表示测试误差的变化。

图11(b)为本发明实施例中第一级神经网络模型中迭代次数与验证误差的曲线图,在图9(b)中,横坐标为迭代次数,表示随着迭代次数的增加,测试精度的变化情况。

图12为本发明实施例中深度图人脸检测模型使用的步骤流程图,如图12所示,当使用本发明训练后的深度图人脸检测模型时,首先将所述人脸深度图输入预设置的第一级神经网络模型进行检测,生成多个第一检测人脸框和对应的第一检测置信度;当一第一检测人脸框对应的第一检测置信度大于预设值的第一概率阈值时,则根据所述第一检测人脸框对所述人脸深度图进行截取生成多个第一检测图像;将多个所述第一检测图像输入预设置的第二级神经网络模型进行检测生第二检测人脸框和对应的第二检测置信度;当一第一检测图像的第二检测置信度大于预设的第二概率函数且对应的所述第一检测人脸框和所述第二检测人脸框之间的交并比大于预设值的第一阈值时,则将该第一检测图像上面积较小的检测人脸框删除后输出第二检测图像。将多个所述第二检测图像输入预设置的第三级神经网络模型进行检测生第三检测人脸框和对应的第三检测置信度;当一第二检测图像的第二检测置信度大于预设的第三概率函数且对应的所述第一检测人脸框和所述第二检测人脸框之间的交并比大于预设值的第一阈值时,则将该第二检测图像上面积较小的检测人脸框删除后输出第三检测图像。其中,所述第一概率阈值可以设置为0.5至0.9之间的任意值,在本发明实施例中,所述第一概率阈值优选为0.6。

在本发明一实施例中,对于第一级神经网络模型、第二级神经网络模型以及第一级神经网络模型、第二级神经网络模型产生的两个检测人脸框进行选择时采用非最小边框压缩进行最优检测人脸框的推断,具体为:

当检测人脸框W1和检测人脸框W2的交并比大于0.7且检测人脸框W2的面积大于等于检测人脸框W1的面积,则删除检测人脸框W1,仅保留检测人脸框W2。

为了增强神经网络模型对于人脸的检测效果,采用图像金字塔方法,对于任意一张输入的深度图,通过图像金字塔方法将深度图伸缩至不同的尺寸,每一个尺寸的深度图对应都有一个伸缩因子(scale),然后将这些不同尺寸的深度图分别输入到神经网络模型中进行推断,将每个尺寸的深度图推断得到的人脸预测框结合尺寸对应的伸缩因子进行拉伸,便能够得到该检测人脸框在原深度图中的位置。在进行最优检测人脸框的推断时,每一级神经网络模型的输出都会经过非最小边框压缩对输出的最优检测人脸框进行合并,以能够加快神经网络模型在推断时的运行速度。

图13为本发明实施例中深度图人脸检测模型训练系统的模块示意图,如图13所示,本发明提供的深度图人脸检测模型训练系统,包括如下模块:

训练图像集生成模块,用于获取多张人脸深度图,根据所述人脸深度图生成多个训练图像集,每一所述训练图像集均包括负样本图像集和具有人脸标注框的正样本图像集;

第一模型训练模块,用于将一所述训练图像集输入第一级神经网络模型进行训练;

图像检测截取模块,用于将一所述训练图像集输入训练后的第一级神经网络模型进行检测,当所述第一级神经网络模型对一所述训练图像集中的一人脸深度图输出的检测人脸框的置信度大于预设值的置信度阈值且与标注人脸框的交并比小于预设值的第一阈值时,根据所述检测人脸框截取所述人脸深度图生成第一截取图像;

第二模型训练模块,用于获取所述第一截取图像,并将所述第一截取图像并入另一所述训练图像集的负样本图像集,进而根据另一所述训练图像集进行第二级神经网络模型的训练。

本发明实施例中还提供一种基于深度学习的驾驶员状态检测设备,包括处理器。存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行的基于深度学习的驾驶员状态检测方法的步骤。

如上,该实施例能够通过采集的人脸深度图生成多个训练图像集,根据多个训练图像集分别训练包括多个神经网络模型级联的深度图人脸检测模型,从而实现对深度图的人脸准确检测,以准确得到深度图中的人脸位置。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。

图14是本发明实施例中的基于深度学习的驾驶员状态检测设备的结构示意图。下面参照图14来描述根据本发明的这种实施方式的电子设备600。图14显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如14所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述基于深度学习的驾驶员状态检测方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管14中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例中还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的基于深度学习的驾驶员状态检测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述基于深度学习的驾驶员状态检测方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示,该实施例的计算机可读存储介质的程序在执行时,本发明通过采集的人脸深度图生成多个训练图像集,根据多个训练图像集分别训练包括多个神经网络模型级联的深度图人脸检测模型,从而实现对深度图的人脸准确检测,以准确得到深度图中的人脸位置。

图15是本发明实施例中的计算机可读存储介质的结构示意图。参考图15所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本发明实施例中,在本发明中通过采集的人脸深度图生成多个训练图像集,根据多个训练图像集分别训练包括多个神经网络模型级联的深度图人脸检测模型,从而实现对深度图的人脸准确检测,以准确得到深度图中的人脸位置;

在本发明中对第一级神经网络模型对所述训练图像集中输出的检测人脸框与标注人脸框的交并比小于预设值的第一阈值的人脸深度图,根据所述检测人脸框进行截取,并将截取生产的第一截取图像作为第二级神经网络模型的负样本,进而第二级神经网络模型的训练,提高了神经网络模型检测的精度。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

相关技术
  • 深度图人脸检测模型训练方法、系统、设备及存储介质
  • 人脸检测模型的训练方法、装置、电子设备及存储介质
技术分类

06120113007495