一种智能泛人脸区域的编码方法和设备

文献发布时间：2023-06-19 09:26:02

技术领域

本发明涉及视频处理领域，尤其涉及一种智能泛人脸区域的编码方法和设备。

背景技术

智慧屏是区别于传统电视，能够突破大屏品类限制、重新定义行业边界的显示屏。目前，传统智能电视均将智慧屏视为新的产品形态，通过在传统智能电视的基础上融入AI摄像头，实现智慧屏与移动终端互联的需要。智慧屏在实际应用过程中承担着家庭中的诸多角色，不仅是家庭的影音娱乐中心，更是信息共享中心、控制管理中心和多设备交互中心。

在视频通话或视频会议中，用户往往希望能够只呈现视频编码参与者的视频图像，但是传统摄像头和视频会议系统没有办法做到这一点。传统视频会议设备(专有视讯设备)或视频通话(手机等)由于种种原因，迟迟未推出该功能。智慧屏的AI摄像头包含多摄像头、辅助传感器、麦克风阵列(用于AI语音)和NPU处理器(用于AI视觉运算)等器件。由于智慧屏具有AI能力的摄像头，因而随着智慧屏为代表的产品的推出，让只呈现视频参与者的图像成为可能，然而现有技术还未公开如何实现的解决方案。

例如申请号为“CN201811525466.8”、名称为“一种基于人脸图像ROI选取的人脸识别方法及装置”的专利申请，其公开了一种基于人脸图像ROI选取的人脸识别方法及装置，预先对由某预设摄像头拍摄的图片进行评分，得到该预设摄像头对应的人脸质量像素分布图。对由该预设摄像头拍摄得到的目标图片，根据人脸质量像素分布图确定目标图片中各目标人脸框中的每一像素点的像素值，进而得到各目标人脸框对应的人脸图像的ROI得分值。由于人脸质量像素分布图是根据预设摄像头拍摄的历史图片生成的，故其中的各像素点的像素值是综合了预设摄像头所处环境的各因素和算法本身对图片质量影响所得的结果。因此，由人脸质量像素分布图筛选的图像区域是该预设摄像头拍照质量较好的区域，对该区域进行人脸识别不仅能够实现准确识别，也能提高识别效率。

再比如专利申请号为”CN201910240106.1”、名称为“基于深度学习的感兴趣区域图像编码、解码系统及方法”的专利申请，其公开了一种基于深度学习的感兴趣区域图像编码系统及方法，包括感兴趣区域编码网络模块、码率分配模块和熵编码模块。图像输入系统后，感兴趣区域编码网络模块同时对输入图像进行正向多尺度分解变换以及感兴趣区域分割预测，得到图像的多尺度特征和感兴趣区域掩模，再经过码率分配模块为感兴趣区域分配更多的特征，分配后的特征经过量化和熵编码得到二进制码流；同时提供了一种感兴趣区域图像解码系统及方法，用于解码上述编码系统及方法形成的编码。本发明使用深度学习技术构建感兴趣区域编解码网络和熵编解码器，利用大量数据训练得到最优模型参数，在实际应用中可达到显著优于现有感兴趣编码系统的主观和客观的编码性能。

上述两种方法尽管都能对视频图像中的个别人脸区域进行识别，但是当视频图像上的人脸区域较多时，如果筛选出最佳的人脸融合区域，并以最佳的人脸融合区域作为视频通话的重要组成部分，并未提出一种很好的解决方案。

发明内容

为此，需要提供一种智能泛人脸区域的编码的技术方案，用以解决现有的视频人脸识别算法无法实现只呈现视频的主要参与者，无法满足不同的应用场景需求的问题。

为实现上述目的，本申请的第一方面提供了一种智能泛人脸区域的编码方法，所述方法包括以下步骤：

S1：接收视频图像；

S2：识别所述视频图像上的人脸区域，计算人脸区域信息以及各人脸区域对应的权重信息；所述人脸区域信息包括人脸区域大小和/或人脸中心距离；所述人脸中心距离是指人脸区域的中心点与所述视频图像的中心点之间的距离；

S3：根据所述人脸区域信息和各人脸区域对应的权重信息，计算最佳泛人脸区域；所述最佳泛人脸区域为包含有各人脸区域的最小预设图形。

进一步地，步骤S1之后还包括：

对接收的视频图像进行缩放，得到缩放视频图像；

步骤S2包括：

计算所述缩放视频图像上的脸区域信息以及各人脸区域对应的权重信息；

步骤S3之后还包括：

将缩放视频图像按照缩放比例还原为原有接收的视频图像，并在还原后的视频图像上裁剪出最佳泛人脸区域。

进一步地，“计算最佳泛人脸区域”包括：

从所述人脸区域中筛选出多个最优人脸区域，将多个最优人脸区域进行融合，计算得到所述最佳泛人脸区域。

进一步地，“从所述人脸区域中筛选出多个最优人脸区域”包括：将人脸中心距离最短的若干人脸区域确定为最优人脸区域；

或“从所述人脸区域中筛选出多个最优人脸区域”包括：将所述权重信息最大的N个人脸区域确定为最优人脸区域；所述N为大于1的正整数。

或“从所述人脸区域中筛选出多个最优人脸区域”包括：将所述人脸区域大小最大的N个人脸区域确定为最优人脸区域；所述N为大于1的正整数；

或“从所述人脸区域中筛选出多个最优人脸区域”包括：根据人脸区域对应的中心距离、权重信息、区域大小中的多项指标进行综合计算，将计算结果最优的人脸区域确定为最优人脸区域。

进一步地，所述N的大小为2或3。

进一步地，“所述人脸区域中筛选出多个最优人脸区域”包括：

根据所述权重信息对各人脸区域进行排序，将权重信息最大的人脸区域确定为主人脸区域；

计算所述主人脸区域的中心点与其他各人脸区域中心点的距离，剔除两者距离大于预设距离的其他人脸区域。

进一步地，所述预设距离为最大距离的一半，所述最大距离是指视频图像最远人脸区域与主人脸区域的中心点之间的距离；所述最远人脸区域是指视频图像上人脸区域的中心点与所述主人脸区域的中心点距离最大的人脸区域。

进一步地，所述方法还包括：

将人脸特征信息作为视频流的附属信息，打包在视频流的SEI信息中，并采用人脸区域码流增强算法对所述进行压缩编码，以使得所述主人脸区域分配到的码率更高。

进一步地，所述方法还包括：对最佳泛人脸区域进行平滑处理；

所述平滑处理具体包括以下步骤：

S21：获取初始区域和目标区域；所述初始区域为初始最佳泛人脸区域，所述目标区域为当前视频图像对应的最佳泛人脸区域；

S22：选定插值函数和插值步长，根据所述插值步长采用所述插值函数对所述初始区域和目标区域进行插值计算，得到瞬时矩形区域，并根据所述瞬时矩形区域从当前视频图像中截取出插值图像；

重复步骤S21至S22，直至插值距离小于最小插值阈值；所述插值距离为插值步长和插值时间之间的比值。

本申请的第二方面还提供了一种智能泛人脸区域的编码设备，所述编码设备包含有计算机存储介质，所述计算机存储介质存储有可读计算机程序，所述可读计算机程序被处理器执行时实现如本申请第一方面所述的方法步骤。

区别于现有技术，上述技术方案所述的智能泛人脸区域的编码方法和设备，所述方法包括以下步骤：S1：接收视频图像；S2：识别所述视频图像上的人脸区域，计算人脸区域信息以及各人脸区域对应的权重信息；所述人脸区域信息包括人脸区域大小和/或人脸中心距离；所述人脸中心距离是指人脸区域的中心点与所述视频图像的中心点之间的距离；S3：根据所述人脸区域信息和各人脸区域对应的权重信息，计算最佳泛人脸区域；所述最佳泛人脸区域为包含有各人脸区域的最小预设图形。通过上述方案，能够从视频图像中计算出最佳泛人脸区域，最佳泛人脸区域在不同的视频应用场景中可能包含一个人脸也可能包含多个人脸，而后可以对这部分人脸区域进行突出显示，满足用户在视频会议或通话时想重点突出主要人脸部分的需求，提升了用户体验。

附图说明

图1为本申请一实施例涉及的智能泛人脸区域的编码方法的流程图；

图2为本申请另一实施例涉及的智能泛人脸区域的编码方法的流程图；

图3为本申请一实施例涉及的智能泛人脸区域的编码框架的示意图；

图4为本申请另一实施例涉及的智能泛人脸区域的编码方法的流程图；

图5为本申请一实施例涉及的最优人脸区域选择的示意图；

图6为本申请另一实施例涉及的最优人脸区域选择的示意图；

图7为本申请另一实施例涉及的智能泛人脸区域的编码方法的流程图；

图8为本申请一实施例涉及的智能泛人脸区域的编码设备的示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

如图1所示，为本申请一实施例涉及的智能泛人脸区域的编码方法的流程图。所述编码方法包括以下步骤：

首先进入步骤S1：接收视频图像。所述视频图像是指视频流数据中的帧图像，通常视频流由一帧帧图像组成，在视频通话或会议时，通过传递帧图像实现通讯双方的交互。在本申请实施例中，所述视频图像包含人脸区域。

而后进入步骤S2识别所述视频图像上的人脸区域，计算人脸区域信息以及各人脸区域对应的权重信息。所述人脸区域信息包括人脸区域大小和/或人脸中心距离；所述人脸中心距离是指人脸区域的中心点与所述视频图像的中心点之间的距离。

所述权重信息是表征图像上某块区域是否为人脸区域的可能性，若可能性越高，则该区域对应的权重信息也就越大。优选的，对于图像上人脸区域的识别可以通过NPU单元来完成，所述权重信息是NPU单元的深度学习模型输出的参数，权重信息的取值范围为0-1.0。

步骤S2识别得到的人脸区域可能只包含着部分人脸，也可能人脸区域很小，即视频图像中可能存在许多非主要人脸，为了提升视频通话或会议时的用户体验，需要对这部分非主要人脸予以剔除，因而步骤S2后进入步骤S3：根据所述人脸区域信息和各人脸区域对应的权重信息，计算最佳泛人脸区域；所述最佳泛人脸区域为包含有各人脸区域的最小预设图形。在本实施方式中，所述预设图形为矩形，在另一些实施例中，预设图形可能还为其他形状，如圆形、椭圆形或其他规则形状等。

例如某一视频图像内有5张人脸，人脸的权重(表征该区域包含人脸的可信度)可能都很高。但是最佳泛人脸区域只选择处于视频图像中心、面积较大的3张人脸，对于视频图像上的剩下的2张面积较小、距离视频图像中心较远的人脸需要予以剔除。

通过上述方案，能够从视频图像中计算出最佳泛人脸区域，最佳泛人脸区域在不同的视频应用场景中可能包含一个人脸也可能包含多个人脸，而后可以对这部分人脸区域进行突出显示，满足用户在视频会议或通话时想重点突出主要人脸部分的需求，提升了用户体验。

在某些实施例中，步骤S1之后还包括：对接收的视频图像进行缩放，得到缩放视频图像；步骤S2包括：计算所述缩放视频图像上的脸区域信息以及各人脸区域对应的权重信息；步骤S3之后还包括：将缩放视频图像按照缩放比例还原为原有接收的视频图像，并在还原后的视频图像上裁剪出最佳泛人脸区域。

如图3和图4所示，接收的视频图像1的分辨率为1280x720，视频图像1经过软件或硬件的2D图像缩放算法进行缩放，得到目标分辨率640x480的缩放视频图像2，而后对缩放视频图像2进行人脸区域识别，并确定缩放视频图像2上的最佳泛人脸区域，再根据视频图像1和视频图像2之间的坐标换算关系，将最佳泛人脸区域映射至视频图像1中，而后再进行视频图像的编码、压缩和传输。NPU单元(即嵌入式神经网络处理器)一般支持一定的分辨率图像的处理，通过对视频图像先压缩再还原，满足了NPU的深度学习模型的要求，有利于对于视频图像上的人脸区域的快速识别。

在某些实施例中，“计算最佳泛人脸区域”包括：从所述人脸区域中筛选出多个最优人脸区域，将多个最优人脸区域进行融合，计算得到所述最佳泛人脸区域。

在本实施方式中，“从所述人脸区域中筛选出多个最优人脸区域”包括：将人脸中心距离最短的若干人脸区域确定为最优人脸区域。

在另一些实施例中，“从所述人脸区域中筛选出多个最优人脸区域”包括：将所述权重信息最大的N个人脸区域确定为最优人脸区域。所述N为大于1的正整数，优选的，所述N的大小为2或3。

在另一些实施例中，“从所述人脸区域中筛选出多个最优人脸区域”包括：将所述人脸区域大小最大的N个人脸区域确定为最优人脸区域；所述N为大于1的正整数，优选的，所述N的大小为2或3。

在另一些实施例中，“从所述人脸区域中筛选出多个最优人脸区域”包括：根据人脸区域对应的中心距离、权重信息、区域大小中的多项指标进行综合计算，将计算结果最优的人脸区域确定为最优人脸区域。人脸区域对应的中心距离是指当前人脸区域中心到视频图像中心的距离，距离越小，分数越高，越容易被确定为最优人脸区域。

简言之，最优人脸区域既可以是考量人脸区域对应的中心距离、权重信息、人脸区域大小中的单项指标确定，也可以是考量人脸区域对应的中心距离、权重信息、人脸区域大小中的多项指标确定。以多项指标为例，对于每一项指标可以配置相应的百分占比，将某一人脸区域的各项指标(如人脸区域对应的中心距离、权重信息、区域大小)乘以相应的百分占比后，可以得到该人脸区域的分数，将分数最高的N个人脸区域确定为最优人脸区域。其中，人脸区域对应的中心距离越小，权重信息越大，区域大小越大，则对应的人脸区域分数越高。

如图5和图6所示，确定出的最优人脸区域可能为一个，也可能为多个。当确定的最优人脸区域为多个时，将多个最优人脸区域进行融合，计算得到所述最佳泛人脸区域。

优选的，对于多个最优人脸区域的筛选融合方式如下：首先根据所述权重信息对各人脸区域进行排序，将权重信息最大的人脸区域确定为主人脸区域；而后计算所述主人脸区域的中心点与其他各人脸区域中心点的距离，剔除两者距离大于预设距离的其他人脸区域。而后将主人脸区域和其他剔除后剩余的人脸区域进行融合，得到最佳泛人脸区域。优选的，所述预设距离为最大距离的一半，所述最大距离是指视频图像最远人脸区域与主人脸区域的中心点之间的距离；所述最远人脸区域是指视频图像上人脸区域的中心点与所述主人脸区域的中心点距离最大的人脸区域。

例如某一视频图像中有5张人脸，人脸A处于图像边缘，距离主角(即主人脸区域)较近，但人脸矩形较大。人脸B处于图像中心范围，但是人脸矩形较小。人脸C、人脸D、人脸E处于视频图像中心附近，人脸矩形大小相近。根据本申请的泛人脸融合算法，人脸A和人脸B需要剔除。人脸C、人脸D、人脸E为优选的人脸，包含有人脸C、人脸D、人脸E的最小矩形框为最佳泛人脸区域，在对视频图像上的人脸区域进行剪裁时可以根据最佳泛人脸区域进行裁剪。

在某些实施例中，所述方法还包括：将人脸特征信息作为视频流的附属信息，打包在视频流的SEI信息中，并采用人脸区域码流增强算法对所述进行压缩编码，以使得所述主人脸区域分配到的码率更高。所示人脸特征信息包括人脸关键点、姿态关键点、手臂信息、手势信息等信息。这样，在视频通话或会议过程中，可以使得泛人脸区域上的人脸信息更加突出，便于用户之间的交流，提升用户体验。

如图7所示，智能泛人脸区域的编码方法还包括：先获取人脸信息(优选为人脸关键点和人脸区域等)；而后将人脸信息按照H264/H265的附属信息格式打包；附属信息和视频图像主信息(这里的主信息是指视频图像信息)打包到视频帧；而后采用人脸区域码流增强算法对人脸区域进行增强处理；而后压缩视频进行传输(优选可以采用USB或无线网络等方式进行传输)。优选的，在实际应用过程中，采用智能编码的方式将泛人脸区域的主参与者的图像视频压缩编码，主参与者的码率分配更高，使主参与者区域图像更清晰。并利用码流的附属信息传递AI信息，使得Host端接收数据之后，能够做更多AI后处理效果。

基于感兴趣区域的视频编码是利用人眼主观存在感兴趣区域和非感兴趣区域的特点。对感兴趣区域的视频编码能够提升局部视频图像的质量。在本申请的编码设备中，利用NPU单元识别人脸区域，并通过泛人脸融合算法计算出泛人脸融合区域，然后将该泛人脸融合区域进行感兴趣区域的视频编码，提高该区域的局部视频码率(对主观感兴趣区域和非感兴趣区域的码率分配做一定的修正，将更多的码率分配到主观感兴趣区域)，有效提升用户体验。

基于感兴趣区域的视频编码即ROI编码。ROI编码包括中心区域ROI、人脸ROI、字幕ROI等。中心区域ROI适用于需要将最重要的内容放在画面最中间的编码场景。人脸ROI适用于人物是内容的主角的编码场景。字幕ROI适用于使用字幕重要性权重比较高的编码场景。

在进行视频通话或视频会议时，人脸在摄像头区域中往往是移动的，良好的人脸智能编码一般要求泛人脸区域总是处理编码图像的中心，智能泛人脸移动平滑算法就定位于该功能。因而在某些实施例中，所述方法还包括：对最佳泛人脸区域进行平滑处理；

如图2所示，所述平滑处理具体包括以下步骤：

首先进入步骤S21：获取初始区域和目标区域；所述初始区域为初始最佳泛人脸区域，所述目标区域为当前视频图像对应的最佳泛人脸区域；

而后进入步骤S22：选定插值函数和插值步长，根据所述插值步长采用所述插值函数对所述初始区域和目标区域进行插值计算，得到瞬时矩形区域，并根据所述瞬时矩形区域从当前视频图像中截取出插值图像；插值函数可选择带偏移的高斯函数、类梯形函数、带偏移的幂律分布等，这里优选具有阻尼效果(先快后慢)的带偏移的幂律分布。

而后进入步骤S23重复步骤S21至S22，直至插值距离小于最小插值阈值；所述插值距离为插值步长和插值时间之间的比值。以矩形人脸区域为例，两个人脸区域之间的插值距离就是两个矩形人脸区域中心点之间的距离。

本申请的第二方面还提供了一种智能泛人脸区域的编码设备30，所述编码设备30包含有计算机存储介质200，所述计算机存储介质200存储有可读计算机程序，所述可读计算机程序被处理器执行时实现如本申请第一方面所述的方法步骤。优选的，在另一些实施例中，所述编码设备30还包括处理器300，所述处理器300用于执行可读计算机程序以实现如本申请第一方面所述的方法步骤。

所述存储介质为存储器，所述存储器可以为非易失性存储介质，示例性地可以包括但不限于只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存(Flash Memory)，例如可以是以下任一种：嵌入式多媒体卡(Embedded Multi Media Card，EMMC)、NorFlash、Nand Flash等。

示例性地，存储器还可以包括缓存装置，用于缓存数据，例如信号队列。缓存装置可以为易失性存储介质，示例性地可以包括但不限于随机存取存储器(RandomAccessMemory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、DDR2、DDR3、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRAM)等。

示例性地，处理器可以是中央处理单元(CPU)、图像处理单元(GPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable GateArray，FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制系统中的其它组件以执行期望的功能。例如，处理器可以包括一个或多个嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件有限状态机(Finite StateMachine，FSM)、数字信号处理器(Digital Signal Processing，DSP)或它们的组合。

本发明提供了一种智能泛人脸区域的编码方法和设备，所述方法包括以下步骤：S1：接收视频图像；S2：识别所述视频图像上的人脸区域，计算人脸区域信息以及各人脸区域对应的权重信息；所述人脸区域信息包括人脸区域大小和/或人脸中心距离；所述人脸中心距离是指人脸区域的中心点与所述视频图像的中心点之间的距离；S3：根据所述人脸区域信息和各人脸区域对应的权重信息，计算最佳泛人脸区域；所述最佳泛人脸区域为包含有各人脸区域的最小预设图形。通过上述方案，能够从视频图像中计算出最佳泛人脸区域，而后可以对这部分人脸区域进行突出显示，满足用户在视频会议或通话时想重点突出主要人脸部分的需求，提升了用户体验。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明专利的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：林其浩;
专利申请人：瑞芯微电子股份有限公司;

上一篇：多参考节点UWB高效测距方法、装置及系统
下一篇：瓦斯监测布置系统、瓦斯浓度分布特征获取方法及装置