导航：首页> 医学或兽医学；卫生学>一种基于深度级联神经网络的高速人脸跟踪方法及系统

一种基于深度级联神经网络的高速人脸跟踪方法及系统

文献发布时间：2023-06-19 12:18:04

技术领域

本发明涉及图像增强与计算机视觉领域，具体涉及一种基于深度级联神经网络的高速人脸跟踪方法及系统。

背景技术

在人脸跟踪的使用场景中，人脸跟踪的推断速度直接反映为处理后输出的视频流的帧数，从而直接影响到用户体验。传统的人脸跟踪算法通过传统的机器学习算法进行手工特征表征的匹配以确定图像区域与待检人脸图像的对应关系，但这种方法不能充分利用人脸图像的深层信息，因而跟踪效果较差；而且，深度跟踪算法则受困于计算复杂度，在算力较为有限的生产环境下无法达到高速实时的跟踪效果。

发明内容

为了解决上述技术问题，本发明提供一种基于深度级联神经网络的高速人脸跟踪方法及系统。

本发明技术解决方案为：一种基于深度级联神经网络的高速人脸跟踪方法，包括：

步骤S1：建立包括多层级联神经网络的人脸跟踪模型；

步骤S2：对所述人脸跟踪模型进行训练，得到训练好的人脸跟踪模型；

步骤S3：输入人脸视频帧到所述训练好的人脸跟踪模型，如果所述人脸视频帧为第一帧或校准帧，则通过完整的所述多层级联神经网络进行检测，得到人脸框位置；如果所述人脸视频帧是后续帧，则将该帧的上一帧的输出的人脸候选框作为输入，输入所述多层级联神经网络的最后一层进行检测，得到人脸框位置。本发明与现有技术相比，具有以下优点：

本发明提出的供一种基于深度级联神经网络的高速人脸跟踪方法，充分利用人脸跟踪任务中帧与帧之间在图像特征与语义上有较大关联，因此利用上一帧中高层高分辨率级联神经网络输出的高精度人脸框作为先验信息，作为对下一帧的跟踪流程的基础，进而大大加速人脸跟踪过程。本发明提供的方法，能够达到视觉实时(每秒钟24帧以上)的跟踪速度，因此可以实现在算力较为有限的移动端平台上进行人脸跟踪任务。

附图说明

图1为本发明实施例中一种基于深度级联神经网络的高速人脸跟踪方法的流程图；

图2为本发明实施例中一种基于深度级联神经网络的高速人脸跟踪方法中的步骤S3：输入人脸视频帧到训练好的人脸跟踪模型，如果人脸视频帧为第一帧或校准帧，则通过完整的所述多层级联神经网络进行检测，得到人脸框位置；如果人脸视频帧是后续帧，则将该帧的上一帧的输出的人脸候选框作为输入，输入多层级联神经网络的最后一层进行检测，得到人脸框位置的流程图；

图3本发明实施例中一种基于深度级联神经网络的高速人脸跟踪系统的结构框图。

实施方式

本发明提供了一种基于深度级联神经网络的高速人脸跟踪方法以及系统，利用帧与帧之间在图像特征与语义上有较大关联，用上一帧中高层高分辨率级联神经网络输出的高精度人脸框作为先验信息，在此基础上进行跟踪，从而大大提高了人脸跟踪速度。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于深度级联神经网络的高速人脸跟踪方法，包括下述步骤：

步骤S1：建立包括多层级联神经网络的人脸跟踪模型；

步骤S2：对人脸跟踪模型进行训练，得到训练好的人脸跟踪模型；

步骤S3：输入人脸视频帧到训练好的人脸跟踪模型，如果人脸视频帧为第一帧或校准帧，则通过完整的多层级联神经网络进行检测，得到人脸框位置；如果人脸视频帧是后续帧，则将该帧的上一帧的输出的人脸候选框作为输入，输入多层级联神经网络的最后一层进行检测，得到人脸框位置。

在一个实施例中，上述步骤S1：建立包括多层级联神经网络的人脸跟踪模型，具体包括：

建立多层级联神经网络，其中，多层级联神经网络的不同层级分别接收对应的不同分辨率尺度的图像，并输出逐渐精确的所述人脸候选框位置；每层神经网络将上一层神经网络输出的人脸候选框，调整其分辨率后，作为该层的输入。

本发明所构建的人脸跟踪模型，包括多层独立网络的级联神经网络。这些彼此间相互独立网络，由低层到高层网络距离输入图像越来越远、距离输出结果越来越近；其中低层网络接受低分辨率输入图像并输出精度较低的跟踪结果，高层网络接受高分辨率输入网络并输出高精度跟踪结果。

在一个实施例中，上述步骤S2：对人脸跟踪模型进行训练，得到训练好的人脸跟踪模型，具体包括：

使用训练数据进行端对端训练，其中，训练数据在每次迭代过程结束后根据所述人脸候选框的得分值进行筛选，同时，调整正负样本的比例。

本发明采用人脸检测网络的训练方式对上述人脸跟踪模型进行训练。通过使用线下生成的大量训练数据进行端对端训练。训练数据在每次迭代过程结束后，会根据人脸候选框的得分值进行筛选，同时，还会根据实际情况，适当调整正负样本比例，尤其是增加困难样本比例，即得分较低的正样本与得分较高的负样本进行训练。

如图2所示，在一个实施例中，上述步骤S3：输入人脸视频帧到训练好的人脸跟踪模型，如果人脸视频帧为第一帧或校准帧，则通过完整的所述多层级联神经网络进行检测，得到人脸框位置；如果人脸视频帧是后续帧，则将该帧的上一帧的输出的人脸候选框作为输入，输入多层级联神经网络的最后一层进行检测，得到人脸框位置，具体包括下述步骤：

步骤S31：判断输入的人脸视频帧，如果该帧为第一帧或校准帧，则跳至步骤S32；如果否，则跳至步骤S34；

在实际进行人脸跟踪时，输入人脸视频帧到训练好的人脸跟踪模型。首先，判断输入的人脸视频帧，如果该帧为第一帧或校准帧，则跳至步骤S32；如果不是，则跳至步骤S34。

步骤S32：该帧通过多层级联神经网络的第一层进行检测，并根据非极大值抑制算法进行筛选，得到人脸候选框；

当输入帧为第一帧或校准帧，则该帧通过完整的所述多层级联神经网络进行检测。即，先通过多层级联神经网络的第一层进行检测，并根据非极大值抑制算法进行筛选，筛选掉重合较多、得分较低的人脸框，即选择重合比例低于阈值的剩余人脸框作为输出结果，得到人脸候选框，并根据该结果，裁剪相应分辨率尺度的人脸图像作为后续高分辨率级联神经网络的输入；如果该帧不是第一帧或校准帧，则直接跳至步骤S34。

步骤S33：将人脸候选框输入下一层级联神经网络，并根据非极大值抑制算法进行筛选，得到人脸候选框；

将步骤S32中，经过筛选的人脸候选框，输入下一层级联神经网络进行人脸判断，并根据非极大值抑制算法进行进一步地筛选，得到人脸候选框，并根据该结果，裁剪相应分辨率尺度的人脸图像作为后续高分辨率级联神经网络的输入。

步骤S34：重复步骤S33，直至级联神经网络的最后一层，输出人脸框位置；

重复步骤S33，直到到达级联神经网络的最后一层，同样地，根据非极大值抑制算法进行筛选，最后选择重合比例低于阈值的人脸候选框作为结果，输出人脸框位置。

步骤S35：将后续帧的上一帧在级联神经网络的最后一层得到的输出，输入级联神经网络的最后一层，得到人脸候选框，并根据所述非极大值抑制算法进行筛选，输出人脸框位置。

对于不是第一帧或校准帧的后续帧，则将其上一帧在级联神经网络的最后一层得到的输出作为输入，输入级联神经网络的最后一层，得到人脸候选框，并根据所述非极大值抑制算法进行筛选，输出人脸框位置。

实施例二

如图3所示，本发明实施例提供了一种基于深度级联神经网络的高速人脸跟踪系统，包括下述模块：

模型构建模块，用于建立包括多层级联神经网络的人脸跟踪模型；

模型训练模块，用于对人脸跟踪模型进行训练，得到训练好的人脸跟踪模型；

人脸跟踪模块，用于输入人脸视频帧到训练好的人脸跟踪模型，如果人脸视频帧为第一帧或校准帧，则通过完整的多层级联神经网络进行检测，得到人脸框位置；如果人脸视频帧是后续帧，则将该帧的上一帧的输出的人脸候选框作为输入，输入多层级联神经网络的最后一层进行检测，得到人脸框位置。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：不公告发明人;
专利申请人：阳光暖果(北京)科技发展有限公司;

上一篇：一种基于RFID标签矩阵的人体睡眠信息获取方法及装置
下一篇：基于多阶段多通道注意力网络的人脸性别与年龄识别方法