视频人像分割方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 11:21:00

技术领域

本申请实施例涉及计算视觉技术领域，特别涉及一种视频人像分割方法、装置、电子设备及存储介质。

背景技术

图像分割技术是计算视觉领域一个基础的课题，而视频人像分割技术是图像分割的重要应用。在手机等终端的相册中，都需要用到视频人像分割技术；例如，在视频人像虚化或者视频背景替换等方面，都需要通过视频人像分割技术，完成视频人像分割，然后进行人像虚化或者视频背景替换。

发明内容

本申请实施例提供了一种视频人像分割方法、装置、电子设备及存储介质，可以提高人像分割的效果。所述技术方案如下：

一方面，提供了一种视频人像分割方法，所述方法包括：

将待处理的视频文件输入人像分割模型中；

对于所述视频文件中的第一视频帧，通过所述人像分割模型确定所述第一视频帧的第一特征图，所述第一视频帧为待处理的视频文件中除前两帧以外的视频帧；

确定多个参考帧的第二特征图以及每个第二特征图的权重，所述多个参考帧为所述视频文件中位于所述第一视频帧之前的视频帧；

基于所述多个参考帧的第二特征图、所述每个第二特征图的权重以及所述第一特征图，对所述第一视频帧进行人像分割。

另一方面，提供了一种视频人像分割装置，所述装置包括：

输入模块，用于将待处理的视频文件输入人像分割模型中；

第一确定模块，用于对于所述视频文件中的第一视频帧，通过所述人像分割模型确定所述第一视频帧的第一特征图，所述第一视频帧为待处理的视频文件中除前两帧以外的视频帧；

第二确定模块，用于确定多个参考帧的第二特征图以及每个第二特征图的权重，所述多个参考帧为所述视频文件中位于所述第一视频帧之前的视频帧；

人像分割模块，用于基于所述多个参考帧的第二特征图、所述每个第二特征图的权重以及所述第一特征图，对所述第一视频帧进行人像分割。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的视频人像分割方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如上述方面所述的视频人像分割方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述任一可能实现方式中所述的视频人像分割方法。

在本申请实施例中，获取第一视频帧之前的多个参考帧的特征图和权重，而任一参考帧的权重用于表示该参考帧对第一视频帧的影响程度，从而对于影响程度不同的参考帧赋予不同的权重，从而结合多个参考帧的特征图和权重，对第一视频帧的人像分割，能够提升视频人像分割效果。

附图说明

图1示出了本申请一个示例性实施例所提供的实施环境的示意图；

图2示出了本申请一个示例性实施例所提供的电子设备的结构示意图；

图3示出了本申请一个示例性实施例所提供的整体框架的示意图；

图4示出了本申请一个示例性实施例示出的视频人像分割方法的流程图；

图5示出了本申请一个示例性实施例示出的人像分割模型的示意图；

图6示出了本申请一个示例性实施例示出的通道分组注意力模块的示意图；

图7示出了本申请一个示例性实施例示出的空间先验注意力模块的示意图；

图8示出了本申请一个示例性实施例示出的密集空洞特征金字塔模块的示意图；

图9示出了本申请一个示例性实施例示出的视频人像分割方法的流程图；

图10示出了本申请一个实施例提供的视频人像分割装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的视频人像分割方法，应用于电子设备100。在一种可能的实现方式中，电子设备100为终端。在另一种可能的实现方式中，电子设备100为服务器。在另一种可能的实现方式中，电子设备100包括终端和服务器。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端和服务器。终端和服务器之间通过无线或者有线网络连接。终端上安装有服务器提供服务的目标应用，终端能够通过该目标应用实现例如数据传输、消息交互等功能。目标应用为具有视频人像分割功能的应用；例如，目标应用为相册应用、图像处理应用、普通相机应用、美颜相机应用等。

在一种可能的实现方式中，终端向服务器发送待处理的视频文件，由服务器通过人像分割模型，对该视频文件进行视频人像分割，将分割得到的结果返回给终端，由终端进行展示。

在一种可能的实现方式中，服务器训练人像分割模型，将人像分割模型洗下发到终端中，由终端通过人像分割模型对待处理的视频文件进行视频人像分割，展示分割得到的结果。

本申请实施例提供的视频人像分割方法，能够应用于一下场景中：

例如，应用于背景替换场景中。

在对待处理的视频文件更换背景时，采用本申请实施例提供的视频人像分割方法，确定视频文件的人像掩模，然后将该人像掩模和目标背景合成为新的视频文件。

再如，应用于视频录制的场景中。

在用户录制视频时，终端采用本申请实施例提供的视频人像分割方法，确定每帧视频的人像掩模，然后对该人像掩模进行美颜处理，从而得到具有美颜效果的视频文件。

再如，应用于对视频文件进行美颜处理的场景中。

在用户对视频文件进行美颜时，终端采用本申请实施例提供的视频人像分割方法，确定视频文件的人像掩模，然后对该人像掩模进行美颜处理，从而得到具有美颜效果的视频文件。

需要说明的是，本申请实施例仅是以以上三个场景为例，对视频人像分割场景进行示例性说明，并不对视频人像分割场景造成限制，本申请实施例提供的视频人像分割方法还能够应用于其他任一视频人像分割场景中。

请参考图2，其示出了本申请一个示例性实施例提供的电子设备100的结构方框图。电子设备100可以是智能手机、平板电脑等具有图像处理功能的终端。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、显示屏130。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏130所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据、电话本)等。

显示屏130是用于显示用户界面的显示组件。可选的，该显示屏130为具有触控功能的显示屏，通过触控功能，用户可以使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。

显示屏130通常设置在电子设备100的前面板。显示屏130可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏130还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合等，本实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备100的结构并不构成对电子设备100的限定，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)模块、电源、蓝牙模块等部件，在此不再赘述。

请参考图3，其示出了本申请一个示例性实施例示出的视频人像分割的框架图。首先获取待处理的视频文件，然后对视频文件进行预处理，将预处理后的视频文件输入人像分割模型中，通过人像分割模型分割出每帧视频的人像掩模，然后汇总每帧视频的人像掩模，从而完成视频人像分割。

需要说明的一点是，若本申请应用在实时拍摄的场景中，则获取待处理的视频文件，然后对视频文件进行预处理的步骤可以替换为：获取实时拍摄的视频帧，对视频帧进行预处理。

其中，在通过人像分割模型进行视频人像分割之前，需要训练人像分割模型。训练人像分割模型的过程为：获取样本数据集，对样本数据集进行预处理，基于预处理后的样本数据集进行模型训练。

请参考图4，其示出了本申请一个示例性实施例示出的视频人像分割方法的流程图。本申请实施例中的执行主体可以为电子设备，也可以为电子设备中的处理器或电子设备中的操作系统，本实施例以执行主体为电子设备为例进行说明。在本申请实施例中，以通过人像分割模型，对待处理的视频文件进行处理为例进行说明，该方法包括：

步骤401：电子设备确定待处理的视频文件输入人像分割模型中。

在一种可能的实现方式中，电子设备可以直接将视频文件输入人像分割模型中。在另一种可能的实现方式中，电子设备先对视频文件进行预处理，然后才将视频文件输入人像分割模型中。其中，预处理包括图像归一化处理、图像增强处理和亮度调整中的至少一项。图像增强处理包括随机旋转、随机只有翻转、参数变换等中的至少一项处理。

在已经录制得到视频文件，对视频文件进行人像分割的情况下，将待处理的视频文件的每个视频帧依次输入人像分割模型中。在录制视频过程中，对视频进行人像分割的情况下，电子设备实时获取视频帧，将获取的视频帧输入人像分割模型中。

步骤402：对于该视频文件中的第一视频帧，电子设备通过人像分割模型确定第一视频帧的第一特征图。

其中，第一视频帧为待处理的视频文件中除前两帧以外的视频帧。在录制视频过程中，对视频进行人像分割的情况下，第一视频帧为视频文件中的当前视频帧。

请参考图5，人像分割模型中包括查询编码器，查询编码器用于提取视频帧的特征图。则在本步骤中，电子设备将第一视频帧输入查询编码器中，输出第一视频帧的帧标识和第一特征图。另外，电子设备将第一视频帧的帧标识和第一特征图以Key-Value的形式进行存储，也即将第一视频帧的帧标识作为Key，将第一特征图作为Value，存储第一视频帧的帧标识和第一特征图之间的对应关系。其中，帧标识可以为帧序号等唯一标注帧的标识，在本申请实施例中，以帧标识为帧序号为例进行说明。

需要说明的一点是，查询编码器由基础网络ResNeSt101模块和KV生成模块组成，其相对于常见的ResNet101有更强的特征提取能力，从而能够提高视频人像分割的效果。其中，基础网络ResNeSt101模块用于确定视频帧的特征图，KV生成模块用于生成视频帧的帧标识和特征图之间的对应关系，且KV生成模块包括两个卷积层，通过该两个卷积层能够基于第一特征图，生成以Key-Value形式的第一视频帧的帧标识和第一特征图。

步骤403：电子设备确定多个参考帧的第二特征图。

其中，多个参考帧为视频文件中位于第一视频帧之前的视频帧。多个参考帧可以为第一视频帧之前的任一视频帧，并且多个参考帧中相邻两个参考帧之间的间隔相等或者不相等；在本申请实施例中，以相邻两个参考帧之间的间隔相等为例进行说明。相应的，电子设备确定多个参考帧的第二特征图的步骤可以通过以下步骤(1)至(2)实现，包括：

(1)电子设备基于第一视频帧的帧标识以及采样间隔，确定多个参考帧的帧标识。

其中，相邻两个参考帧的帧标识之间的间隔不大于该采样间隔。电子设备从第0帧开始，按照[n,2n,3n,……kn]的顺序，取出倒数的第一预设数量的视频帧作为参考帧。其中，第一视频帧的帧序号大于kn，且小于k(n+1)；n为采样间隔。

需要说明的一点是，电子设备中可以存储第一视频帧之前的所有视频帧的特征图，也可以仅存储第一视频帧之前的第一预设数量个视频帧，若超过第一预设数量个视频帧，删除最旧的视频帧的特征图，从而节省电子设备的内存。

(2)电子设备基于多个参考帧的帧标识，从已存储的特征图中查询该多个参考帧的特征图。

电子设备将视频帧的帧标识和特征图以Key-Value的形式进行存储；在本步骤中，对于每个参考帧，电子设备将该参考帧的帧标识作为Key，从Key-Value中获取该Key对应的Value，将该Value确定为该参考帧的特征图。

例如，继续参见图5，人像分割模型中包括记忆编码器，记忆编码器用于存储第一视频帧之前的视频帧的特征图。在本步骤中，电子设备从记忆编码器中查询多个参考帧的特征图。

需要说明的一点是，记忆编码器也是由基础网络ResNeSt101模块和KV生成模块组成，其相对于常见的ResNet101有更强的特征提取能力，从而能够提高视频人像分割的效果。

步骤404：电子设备确定每个参考帧的第二特征图的权重。

人像分割模型中包括通道分组注意力模块，该通道分组注意力模块用于对参考帧的特征图进行注意力引导，对较为重要的参考帧的第二特征图赋予较大权重，将较为不重要的参考帧的第二特征图赋予较小的权重。相应的，在本步骤中，电子设备将每个参考帧的第二特征图输入通道分组注意力模块中，输出每个参考帧的第二特征图的权重。

需要说明的一点是，电子设备可以直接将多个第二参考帧的第二特征图依次输入通道分组注意力模块中，还可以先将多个第二参考帧的第二特征图进行拼接，将拼接后的第二特征图输入通道分组注意力模块中，例如，继续参见图5。

例如，参见图6，通道分组注意力模块包括依次连接的分组卷积层、全局池化层、第一全连接层、修正层、第二全连接层和归一化层。分组卷积层用于分别对每个第二参考帧的第二特征图进行卷积处理。全局池化层用于分别对分组卷积层处理后的第二特征图进行降维，以减少计算量。第一全连接层用于对降维后的第二特征图进行分类；修正层用于对分类结果进行修正；第二全连接层用于基于修正后的分类结果确定每个第二特征图的权重；归一化层，用于对每个第二特征图的权重进行归一化处理。

继续参见图6，多个参考帧的第二特征图分别为第二特征图1、第二特征图2和第二特征图3，将第二特征图1、第二特征图2和第二特征图3经过分组卷积层、全局池化层、第一全连接层、修正层、第二全连接层和归一化层处理后，得到第二特征图1、第二特征图2和第二特征图3的权重分别为权重1、权重2和权重3。

步骤405：电子设备对于每个参考帧的第二特征图，基于第二特征图的权重，对第二特征图进行加权，得到第三特征图。

其中，电子设备将该第二特征图乘以第二特征图的权重，得到第三特征图。例如，继续参见图6，电子设备将第二特征图1、第二特征图2和第二特征图3，分别与权重1、权重2和权重3进行相乘，得到第三特征图1、第三特征图2和第三特征图3。

步骤406：电子设备将第一特征图和每个参考帧的第三特征图进行拼接，得到第四特征图。

例如，继续参见图5，人像分割模型包括时空记忆读取模块，电子设备将第一特征图和每个参考帧的第三特征图分别输入时空记忆读取模块，输出新的特征图(第四特征图)。其中，时空记忆读取模块采用STM中的时空记忆读取模块。

步骤407：电子设备对第四特征图进行解码，得到第一视频帧的第一人像掩模。

人像分割模型包括解码器，电子设备将第四特征图输入解码器，由解码器对第四特征图进行编码，得到第一人像掩模。其中，解码器采用STM模型中解码器，从而提高精度。解码器还可以采用DeeplabV3+模型的解码器，以提高使用效率。

在一种可能的实现方式中，电子设备还可以结合前两帧的人像掩模，来预测第一视频帧的人像掩模；相应的，本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)电子设备获取第二视频帧的第二人像掩模和第三视频帧的第三人像掩模。

第二视频帧和第三视频帧分别为视频文件中第一视频帧的前两帧。电子设备是按照视频帧的顺序对视频文件中的视频帧进行人像掩模的预测；因此，电子设备已经预测并存储了第一视频帧之前的视频帧的人像掩模；在本步骤中，直接获取已存储的第二视频帧的第二人像掩模和第三视频帧的第三人像掩模。

(2)电子设备基于第二人像掩模和第三人像掩模，对第四特征图进行加权。

人像分割模型中包括空间注意力先验模块，空间注意力先验模块用于利用较为相关的前两帧的人像掩模(第二人像掩模和第三人像掩模)为当前帧(第一视频帧)的预测提供一个空间注意力先验信息，也即对第四特征图进行加权。相在本步骤中，电子设备将第四特征图和第二人像掩模和第三人像掩模输入空间注意力先验模块中，通过空间注意力先验模块，对第四特征图进行加权。

(3)电子设备对加权后的第四特征图进行解码，得到第一人像掩模。

例如，参见图7，电子设备将第二人像掩模和第三人像掩模进行拼接，得到第四人像掩模，然后将第四特征图和第四人像掩模进行拼接，然后基于拼接得到的特征图，确定权重，基于该权重对第四特征图进行加权，对加权后的第四特征图进行解码，得到第一人像掩模。

其中，空间先验注意力模块包括一个卷积层和一个归一化层。其中，卷积层用于确定第四特征图，归一化层用于确定权重。该归一化层为一个Sigmoid激活函数。

在本申请实施例中，利用较为相关的前两帧的人像掩模为第一视频帧的人像掩模的预测提供一个空间注意力先验信息，从而充分利用了前两帧的人像掩模，对第一视频帧赋予先验知识，提高人像分割准确度。

在另一种可能的实现方式中，电子设备还支持在查询编码器和解码器之间，新增跳跃连接。相应的，本步骤可以通过以下步骤(A)至(C)实现，包括：

(A)电子设备获取第一视频帧的浅层特征图。

(B)电子设备将第四特征图和该浅层特征图进行拼接，得到第五特征图。

(C)电子设备对第五特征图进行解码，得到第一人像掩模。

在本申请实施例中，在查询编码器和解码器之间，新增了跳跃链接获取浅层特征图以提高细节分割效果。

在另一种可能的实现方式中，电子设备还可以聚合多尺度的特征图；相应的，本步骤包括：电子设备基于多个空洞率，分别对第四特征图进行特征提取，得到多个不同尺度的特征图，将多个不同尺度的特征图进行拼接，得到第六特征图，对第六特征图进行解码，得到第一人像掩模。

其中，人像分割模型中包括密集空洞特征金字塔模块，电子设备通过密集空洞特征金字塔模块对第四特征图进行特征提取，得到多个不同尺度的特征图，将多个不同尺度的特征图进行拼接，得到第六特征图，然后由解码器对第六特征图进行解码，得到第一人像掩模。该密集空洞特征金字塔模块主要由不同扩展率的空洞卷积组成。

例如，参见图8，原始的第四特征图为第四特征图1，多个空洞率分别为3、6、12、18和24，密集空洞特征金字塔模块分别以空洞率为3、6、12、18和24，对第四特征图1进行特征提取，得到多个不同尺度的特征图(第四特征图2、第四特征图3、第四特征图4、第四特征图5和第四特征图6)，将多个不同尺度的特征图进行拼接(第四特征图1至第四特征图6)，得到第六特征图。

在本申请实施例中，在解码器之前，加入了开源的密集空洞特征金字塔模块，利用不同空洞率的空洞卷积以对多尺度的特征图进行融合和提取，可以改善特征提取效果，提高人像分割准确度。

需要说明的一点是，电子设备可以结合以上多种实现方式中的至少一种实现方式，对第四特征图进行解码，得到第一人像掩模。若同时结合以上多种实现方式，对第四特征图进行解码，得到第一人像掩模，则继续参见图5，人像分割模型包括通道分组注意力模块、时空记忆读取模块、密集空洞特征金字塔模块和空间注意力先验模块，且通道分组注意力模块、时空记忆读取模块、密集空洞特征金字塔模块和空间注意力先验模块依次连接。

需要说明的另一点是，对于视频文件中除前两帧之后的每个视频帧，均可以按照本申请实施例提供的方法确定出每帧视频的人像掩模；对于前两帧的视频帧，可以直接确定该前两帧的视频帧的特征图，对该前两帧的视频帧的特征图进行解码，得到前两帧的视频帧的人像掩模。若对视频文件中的每帧视频进行人像分割得到人像掩模之后，对每帧视频的人像掩模进行拼接，以完成视频人像分割。

请参考图9，其示出了本申请的一个实施例提供的视频人像分割方法的流程图。本申请实施例中的执行主体可以为电子设备，也可以为电子设备中的处理器或电子设备中的操作系统，本实施例以执行主体为电子设备为例进行说明。在本申请实施例中，以训练人像分割模型为例进行说明，该方法包括：

步骤901：电子设备获取样本视频，样本视频标注了每个视频帧的人像掩模。

样本视频的数量可以为多个；在本步骤中，可以将样本视频按照预设比例分为测试集和训练集。测试集和训练集中分别包括至少一个样本视频。预设比例可以根据需要进行设置并更改；并且，预设比例需要满足训练集包括的样本视频的数量要多于测试集包括的样本视频的数量。例如，预设比例可以为2:8，则若样本视频的数量为10个，则将2个样本视频组成测试集，将8个样本视频组成训练集。

需要说明的一点是，电子设备获取到样本视频之后，可以直接执行步骤902，也可以先对样本视频进行预处理，然后基于预处理后的样本视频执行步骤902。

步骤902：电子设备从该样本视频中选择目标样本帧，目标样本帧为样本视频中除前两帧以外的视频帧。

电子设备从样本视频中除前两帧以外的视频帧中随机选择一帧视频作为目标样本帧。

需要说明的一点是，在一个训练周期中，遍历训练集中的每个样本视频，对每个样本视频进行第二预设数量次的迭代，也即对于每个样本视频，第一次从该样本视频中选择目标样本帧，然后执行步骤903-905，然后再执行步骤902，从该样本视频中选择目标样本帧，然后再次执行步骤903-905，直到进行第二预设数量次的迭代为止。

步骤903：电子设备确定目标样本帧的第七特征图。

初始的人脸分割模型包括查询编码器，电子设备将目标样本帧输入查询编码器中，得到目标样本帧的第七特征图。

步骤904：电子设备确定多个样本参考帧的第八特征图以及每个第八特征图的权重，多个样本参考帧帧为所述样本视频中位于所述目标样本帧之前的视频帧。

初始的人脸分割模型包括记忆编码器，电子设备从记忆编码器中查询多个样本参考帧的第八特征图，以及初始的人脸分割模型中包括通道分组注意力模块，电子设备通过通道分组注意力模块确定每个第八特征图的权重。需要说明的一点是，初始的人脸分割模型为基于时空卷积神经网络的模型。

步骤905：电子设备基于多个样本参考帧的第八特征图、每个第八特征图的权重、第七特征图以及目标样本帧的人像掩模，进行模型训练，得到人像分割模型。

对于每个样本参考帧的第八特征图，电子设备基于第八特征图的权重，对第八特征图进行加权，得到第九特征图；将第七特征图和每个样本参考帧的第八特征图进行拼接，得到第九特征图；对第九特征图进行解码，得到预测的目标样本帧的人像掩模，基于目标样本帧标注的人像掩模和预测的人像掩模，对初始的人像分割模型的模型参数进行更新，得到最终的人像分割模型。

在一种可能的实现方式中，电子设备对第九特征图进行解码，得到预测的目标样本帧的人像掩模的步骤包括：电子设备获取第四视频帧标注的人像掩模和第五视频帧标注的人像掩模，第四视频帧和第五视频帧分别为该样本视频中目标样本帧的前两帧；基于第四视频帧标注的人像掩模和第五视频帧标注的人像掩模，对第九特征图进行加权，对加权后的第九特征图进行解码，得到预测的目标样本帧的人像掩模。

在另一种可能的实现方式中，电子设备对第九特征图进行解码，得到预测的目标样本帧的人像掩模的步骤包括：电子设备获取目标样本帧的浅层特征图；将第九特征图和该浅层特征图进行拼接，得到第十特征图；对第十特征图进行解码，得到预测的目标样本帧的人像掩模。

在另一种可能的实现方式中，电子设备对第九特征图进行解码，得到预测的目标样本帧的人像掩模的步骤包括：电子设备基于多个空洞率，分别对第九特征图进行特征提取，得到多个不同尺度的特征图；将多个不同尺度的特征图进行拼接，得到第十一特征图；对第十一特征图进行解码，得到预测的目标样本帧的人像掩模。

需要说明的一点是，以上的实现过程与在通过人像分割模型对第一视频帧进行人像分割的过程相似，在此不再赘述。

其中，电子设备基于目标样本帧标注的人像掩模和预测的人像掩模，对初始的人像分割模型的模型参数进行更新，得到最终的人像分割模型的步骤包括：

电子设备计算目标样本帧标注的人像掩模和预测的人像掩模之间的交叉熵损失值，基于交叉熵损失值对初始的人像分割模型执行反向传播算法，以更新初始的人像分割模型的模型参数，直到损失函数完全收敛，得到最终的人像分割模型。

其中，电子设备可以通过以下公式一，计算目标样本帧标注的人像掩模和预测的人像掩模之间的交叉熵损失值：

公式一：

其中，

需要说明的一点是，若包括多个样本视频，则对所有样本视频的对数损失表示对每个样本视频的对数损失的平均值。理想情况下，对数损失应该为0。

需要说明的另一点是，本申请还可以对样本视频进行评价，该过程为：

电子设备通过以下公式二，确定该样本视频的评价值；

公式二：

其中，IoU表示该评价值，x表示样本视频预测的人像掩模，Y表示样本视频标注的人像掩模。

需要说明的一点是，电子设备在训练得到人像分割模型之后，还可以基于测试集对人像分割模型进行微调。

需要说明的一点是，该人像分割模型不依赖于特定设备，可以部署到各种终端或者服务器上。

请参考图10，其示出了本申请一个实施例提供的视频人像分割装置的结构框图。该视频人像分割装置可以通过软件、硬件或者两者的结合实现成为处理器110的全部或一部分。该装置包括：

输入模块1001，用于将待处理的视频文件输入人像分割模型中；

第一确定模块1002，用于对于视频文件中的第一视频帧，通过人像分割模型确定第一视频帧的第一特征图，第一视频帧为待处理的视频文件中除前两帧以外的视频帧；

第二确定模块1003，用于确定多个参考帧的第二特征图以及每个第二特征图的权重，多个参考帧为视频文件中位于第一视频帧之前的视频帧；

人像分割模块1004，用于基于多个参考帧的第二特征图、每个第二特征图的权重以及第一特征图，对第一视频帧进行人像分割。

在一种可能的实现方式中，人像分割模块1004，包括：

加权单元，用于对于每个参考帧的第二特征图，基于第二特征图的权重，对第二特征图进行加权，得到第三特征图；

拼接单元，用于将第一特征图和每个参考帧的第三特征图进行拼接，得到第四特征图；

解码单元，用于对第四特征图进行解码，得到第一视频帧的第一人像掩模。

在另一种可能的实现方式中，解码单元，用于获取第二视频帧的第二人像掩模和第三视频帧的第三人像掩模，第二视频帧和第三视频帧分别为视频文件中第一视频帧的前两帧；基于第二人像掩模和第三人像掩模，对第四特征图进行加权；对加权后的第四特征图进行解码，得到第一人像掩模。

在另一种可能的实现方式中，解码单元，用于获取第一视频帧的浅层特征图；将第四特征图和浅层特征图进行拼接，得到第五特征图；对第五特征图进行解码，得到第一人像掩模。

在另一种可能的实现方式中，解码单元，用于基于多个空洞率，分别对第四特征图进行特征提取，得到多个不同尺度的特征图；将多个不同尺度的特征图进行拼接，得到第六特征图；对第六特征图进行解码，得到第一人像掩模。

在另一种可能的实现方式中，第二确定模块1003，用于基于第一视频帧的帧标识以及采样间隔，确定多个参考帧的帧标识，相邻两个参考帧的帧标识之间的间隔不大于采样间隔；基于多个参考帧的帧标识，从已存储的特征图中查询多个参考帧的特征图。

在另一种可能的实现方式中，装置还包括：

获取模块，用于获取样本视频，样本视频中标注了每帧视频的人像掩模；

选择模块，用于从样本视频中选择目标样本帧，目标样本帧为样本视频中除前两帧以外的视频帧；

第三确定模块，用于确定目标样本帧的第七特征图。

第四确定模块，用于确定多个样本参考帧的第八特征图以及每个第八特征图的权重，多个样本参考帧帧为样本视频中位于目标样本帧之前的视频帧；

模型训练模块，用于基于多个样本参考帧的第八特征图、每个第八特征图的权重、第七特征图以及目标样本帧的人像掩模，进行模型训练，得到人像分割模型。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的视频人像分割方法。

本申请实施例还提供了一种计算机程序产品，当所述计算机程序产品中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述任一可能实现方式中的视频人像分割方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个程序代码或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘钰安;杨统;郭彦东;
专利申请人：OPPO广东移动通信有限公司;

上一篇：一种精准高效的施药方法及应用
下一篇：一种造口用内袋、柱筒、装置及使用方法